将文档中的文本频率与语料库中的频率进行比较

我想分析文档中的字母,双字母,单词等项目,并比较它们在我的文档中的频率,以及它们在大量文档中的频率。 这个想法是诸如“if”,“and”,“the”之类的单词在所有文档中都很常见,但是在本文档中,某些单词比在语料库中更常见。 这必须非常标准。这叫什么?以明显的方式做到这一点我总是在我的文档中出现小说的问题而不是在语料库评级中无限重要。这是如何处理的?     
已邀请:
你很可能已经检查了tf-idf 或来自okapi_bm25系列的其他一些指标。 您还可以查看自然语言处理工具包nltk以获得一些现成的解决方案 更新: 至于新词,应该应用平滑:Good-Turing,Laplace等。     
它属于线性分类器的标题,朴素贝叶斯分类器是最着名的形式(由于其在攻击现实分类问题时非常简单和稳健)。     

要回复问题请先登录注册