TF-IDF语料库是否可以使用分散

我正在开发一些软件,旨在通过执行TF-IDF(与一般英语语料库比较以删除常用词语)来唯一地识别网页。找到一个好的免费语料库需要一段时间(http://www.wordfrequency.info/top5000.asp),但是,这个语料库只提供频率和分散。它没有说语料库中包含了多少文档,所以我无法计算出IDF表。它确实包括一个色散值,范围从0到1,其中1表示每个文档中都出现一个单词。 有没有人知道(或可以弄清楚)使用这些数据实现类似IDF表的方法? 此外,如果有人知道一个包含我需要的信息的免费语料库,那么就会受到赞赏。 谢谢     
已邀请:
IDF = log (Total Documents in Corpus/Total Documents containing the term)
如果分散是包含术语的文档的一部分,那么:
log (1/dispersion)
将是IDF     

要回复问题请先登录注册