使用NLTK命名实体识别。提取的关键字的相关性
|
我正在检查NLTK的命名实体识别功能。是否可以找出哪个提取的关键字与原始文本最相关?另外,是否可能知道提取的关键字的类型(人/组织)?
没有找到相关结果
已邀请:
1 个回复
稀瓣囊
然后,ne分类器将像这样被调用
它返回一个树。分类的单词将在主结构内显示为“树”节点。 结果将包括是PERSON,ORGANIZATION还是GPE。 为了找出最相关的术语,您必须定义“相关性”的度量。通常使用tf / idf,但如果仅考虑一个文档,则频率可能就足够了。 使用NLTK可以轻松计算文档中每个单词的频率。首先,您必须加载语料库,一旦加载它并拥有一个Text对象,只需调用:
最后,您可以过滤出related_terms_sorted_by_freq中不属于NE单词列表的所有单词。 NLTK提供了完整书籍的在线版本,我觉得很有趣