如何从文本语料库中提取语义相关性
|
目的是评估大型文本语料库中各个词之间的语义相关性。 \'police \'和\'crime \'应该比\'police \'和\'mountain \'具有更强的语义相关性,因为它们倾向于同时出现在同一上下文中。
我读过的最简单的方法包括从语料库中提取IF-IDF信息。
许多人使用潜在语义分析来查找语义相关性。
我遇到过Lucene搜索引擎:http://lucene.apache.org/
您认为提取IF-IDF是否合适?
在技术和软件工具(偏爱Java)方面,您会建议做什么?
提前致谢!
慕罗尼
没有找到相关结果
已邀请:
2 个回复
社攻取墟槽
钨蜡唤喉晤
转换为