你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

使用NLTK命名实体识别。提取的关键字的相关性

| 我正在检查NLTK的命名实体识别功能。是否可以找出哪个提取的关键字与原始文本最相关？另外，是否可能知道提取的关键字的类型（人/组织）？

已邀请:

1 个回复

如果您拥有训练有素的标记器，则可以首先标记文本，然后使用NLTK随附的NE分类器。带标签的文本应显示为列表

sentence = \'The U.N.\'
tagged_sentence = [(\'The\',\'DT\'), (\'U.N.\', \'NNP\')]

然后，ne分类器将像这样被调用

nltk.ne_chunk(tagged_sentence)

它返回一个树。分类的单词将在主结构内显示为“树”节点。结果将包括是PERSON，ORGANIZATION还是GPE。为了找出最相关的术语，您必须定义“相关性”的度量。通常使用tf / idf，但如果仅考虑一个文档，则频率可能就足够了。使用NLTK可以轻松计算文档中每个单词的频率。首先，您必须加载语料库，一旦加载它并拥有一个Text对象，只需调用：

relevant_terms_sorted_by_freq = nltk.probability.FreqDist(corpus).keys()

最后，您可以过滤出related_terms_sorted_by_freq中不属于NE单词列表的所有单词。 NLTK提供了完整书籍的在线版本，我觉得很有趣

要回复问题请先登录或注册

使用NLTK命名实体识别。提取的关键字的相关性

1 个回复

发起人

nltk

relevance

named_entity_recognition

问题状态

使用NLTK命名实体识别。提取的关键字的相关性

与内容相关的链接

1 个回复

发起人

nltk

relevance

named_entity_recognition

问题状态