使用Python从个人Gazetter命名实体识别

我尝试使用NLTK在python中进行命名实体识别。 我想提取个人技能清单。 我有技能清单,并希望在申请中搜索并标记技能。 我注意到NLTK的预定标签有人物,位置等的NER标签。 我可以使用Python中的外部gazetter标记器吗? 任何想法如何做到比搜索术语更复杂(有时多词术语)? 谢谢, 阿萨夫     
已邀请:
我最近没有使用过NLTK,但是如果你知道的是技能,你就不需要做NER-只需要进行文本搜索。 也许使用Lucene或其他一些搜索库来查找文本,然后对其进行注释?这是很多工作,但如果你正在使用可能没问题的大量数据。或者,您可以将正则表达式搜索混合在一起,这种搜索速度较慢,但​​对于较少量的数据可能正常工作,并且更容易实现。     
看看RegexpTagger和RegexpParser,我认为这正是你要找的。 您可以创建自己的POS标签,即。将技能映射到标签,然后轻松定义语法。 标记器的一些示例代码在此pdf中。     

要回复问题请先登录注册