贝叶斯分类器得分代表什么？

我正在使用ruby分类器gem，其分类方法返回针对训练模型分类的给定字符串的分数。得分是百分比吗？如果是这样，最大差异是100分吗？

已邀请:

2 个回复

这是概率的对数。使用大量训练集，实际概率是非常小的数字，因此对数更容易比较。从理论上讲，分数范围从无穷小接近零到负无穷大。 10**score * 100.0会给出实际概率，实际上最大差异为100。

实际上，为了计算典型的朴素贝叶斯分类器的概率，其中b是基础，它是b ^得分/（1 + b ^得分）。这是反向logit（http://en.wikipedia.org/wiki/Logit）但是，考虑到NBC的独立性假设，这些得分往往过高或过低，以这种方式计算的概率将在边界累积。最好计算一组数据中的得分，并对得分的准确（1或0）进行逻辑回归，以更好地了解得分和概率之间的关系。来自Jason Rennie的论文： 2.7朴素贝叶斯输出通常是过度的文本数据库经常有 10,000到100,000个不同的词汇单词;文件通常包含100或更多条款。因此，重复的机会很大。为了了解有多少重复，我们训练了一个MAP Naive Bayes 模型包含20个新闻组文档中的80％。我们制作了p（cjd; D）（后验）其余20％数据的值，并显示maxc p（cjd; D）中的统计数据表2.3。价值观高度过分。分配了60％的测试文档四舍五入为9位小数后的后验为1。与逻辑回归不同，朴素贝叶斯未经优化以产生合理的概率值。逻辑回归执行线性系数的联合优化，收敛到适当的具有足够训练数据的概率值。朴素贝叶斯优化了系数一个接一个。只有在独立性假设时才能产生真实的输出是的。当功能包括重要的重复信息时（通常是这样）案例与文本），朴素贝叶斯提供的后台是高度过分的。

要回复问题请先登录或注册

贝叶斯分类器得分代表什么？

2 个回复

发起人

bayesian

bayesian_networks

问题状态

贝叶斯分类器得分代表什么？

与内容相关的链接

2 个回复

发起人

bayesian

bayesian_networks

问题状态