将文档中的文本频率与语料库中的频率进行比较

我想分析文档中的字母，双字母，单词等项目，并比较它们在我的文档中的频率，以及它们在大量文档中的频率。这个想法是诸如“if”，“and”，“the”之类的单词在所有文档中都很常见，但是在本文档中，某些单词比在语料库中更常见。这必须非常标准。这叫什么？以明显的方式做到这一点我总是在我的文档中出现小说的问题而不是在语料库评级中无限重要。这是如何处理的？