基于转换的词性标注(Brill标记)

Brill Tagger的弱点和优势是什么?你能为tagger建议一些可能的改进吗?     
已邀请:
Brill标记器的最大弱点是训练阶段所需的时间(在这里查看ACOPOST的时间戳或尝试用NLTK实现一个以获得一个想法)。请记住,您应该始终将Brill标记符视为标记系统序列中使用的最后一个标记符(对于简单标记,我通常在HMM标记符的输出上使用和训练Brill标记符)。除了使训练阶段更长时间之外,使用Brill标记器本身通常导致非常大的,通常重叠且有时“不正确”的规则集(即,在“真实”标记上下文中制动许多正确标记的规则)。 Brill标记器的最大优点是它的模型很有意义,特别是当您以通常的方式将规则存储为人类可读的格式时。手动检查统计标记器的模型是繁琐的,容易出错并且不是很有用,而一组转换规则不仅可以手动理解和调整,而且即使没有NLP经验的人也可以做到这一点(事实上,几年前,当一些语言课程的本科生评估了巴西葡萄牙语语料库中产生的规则时,我做了多年。实际上,您甚至可以完全自己编写规则集。 简而言之,虽然Brill标记器可用作强大的级联标记系统的最后一步,但通常它不是单独使用的最佳替代方法(如果您想使用单个标记器,我建议使用一个HMM一个)。我的建议是在另一个标记器的标记输出上训练和使用Brill标记器,最好是组合系统,例如投票一个(即,当您设置三个或四个不同的标记器时,使用投票系统为每个标记选择最佳标记然后才将这些结果提供给Brill标记器,这有助于纠正以前系统中最常见的错误。     
关于改进布里尔标记器的一些建议在“独立与承诺:快速训练和执行基于规则的POS标记器的假设”和“快速通道中基于转换的学习”的论文中提出。此外,基于规则的POS和形态标记工具包RDRPOSTagger还为Brill的标记器提供了改进,其中基于转换的规则以二元决策树的形式存储。因此,RDRPOSTagger获得了非常快速的训练和标记性能,并且具有比Brill更高的准确性。在此处查看结果。     

要回复问题请先登录注册