TF-IDF语料库是否可以使用分散
我正在开发一些软件,旨在通过执行TF-IDF(与一般英语语料库比较以删除常用词语)来唯一地识别网页。找到一个好的免费语料库需要一段时间(http://www.wordfrequency.info/top5000.asp),但是,这个语料库只提供频率和分散。它没有说语料库中包含了多少文档,所以我无法计算出IDF表。它确实包括一个色散值,范围从0到1,其中1表示每个文档中都出现一个单词。
有没有人知道(或可以弄清楚)使用这些数据实现类似IDF表的方法?
此外,如果有人知道一个包含我需要的信息的免费语料库,那么就会受到赞赏。
谢谢
没有找到相关结果
已邀请:
1 个回复
蓟类
如果分散是包含术语的文档的一部分,那么:
将是IDF