使用NLTK命名实体识别。提取的关键字的相关性

| 我正在检查NLTK的命名实体识别功能。是否可以找出哪个提取的关键字与原始文本最相关?另外,是否可能知道提取的关键字的类型(人/组织)?     
已邀请:
如果您拥有训练有素的标记器,则可以首先标记文本,然后使用NLTK随附的NE分类器。 带标签的文本应显示为列表
sentence = \'The U.N.\'
tagged_sentence = [(\'The\',\'DT\'), (\'U.N.\', \'NNP\')]
然后,ne分类器将像这样被调用
nltk.ne_chunk(tagged_sentence)
它返回一个树。分类的单词将在主结构内显示为“树”节点。 结果将包括是PERSON,ORGANIZATION还是GPE。 为了找出最相关的术语,您必须定义“相关性”的度量。通常使用tf / idf,但如果仅考虑一个文档,则频率可能就足够了。 使用NLTK可以轻松计算文档中每个单词的频率。首先,您必须加载语料库,一旦加载它并拥有一个Text对象,只需调用:
relevant_terms_sorted_by_freq = nltk.probability.FreqDist(corpus).keys()
最后,您可以过滤出related_terms_sorted_by_freq中不属于NE单词列表的所有单词。 NLTK提供了完整书籍的在线版本,我觉得很有趣     

要回复问题请先登录注册