词形还原与词干之间的真正区别是什么?

我什么时候使用? 另外...... NLTK的词形还原取决于词性? 如果它是不是更准确?     
已邀请:
简短而密集:http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html   词干和词形还化的目标是将一个词的屈折形式和有时衍生相关的形式减少到一个共同的基础形式。      然而,这两个词的味道不同。词干通常是指粗略的启发式过程,它会切断单词的末尾,以期在大多数时间内正确地实现这一目标,并且通常包括删除派生词缀。词形还原通常指的是通过使用词汇和词语的形态分析来正确地做事,通常旨在仅去除屈折结尾并返回单词的基础或词典形式,这被称为引理。 来自NLTK文档:   词形还原和词干化是标准化的特例。他们为一组相关的单词形式确定了规范代表。     
  Lemmatisation与词干密切相关。区别在于a   词干分子在没有上下文知识的情况下操作一个单词,   因此不能区分具有不同的词   含义取决于词性。但是,通常使用词干分析器   更容易实现和运行更快,精度降低可能不会   某些应用程序的问题。      例如:         “更好”这个词有“好”作为它的引理。这个链接错过了   词干,因为它需要字典查找。   单词“walk”是单词“walking”的基本形式,因此也是如此   在词干和lemmatisation中都是匹配的。   “会议”一词可以是名词的基本形式,也可以是形式   一个动词(“见面”)取决于上下文,例如“在我们的最后一个   会议“或”我们明天再见面“。与词干不同,   lemmatisation原则上可以选择适当的引理   取决于具体情况。    资料来源:https://en.wikipedia.org/wiki/Lemmatisation     
正如MYYN指出的那样,词干是将屈折的,有时是衍生词缀去除到所有原始词可能与之相关的基本形式的过程。词形还原涉及获得允许您将一堆变形形式组合在一起的单个词。这比阻止更难,因为它需要考虑上下文(因此这个词的含义),而词干忽略了上下文。 至于何时使用其中一个,这取决于你的应用程序取决于在正确的上下文中获取单词的含义。如果您正在进行机器翻译,您可能希望使用词形还原来避免错误翻译单词。如果您正在对超过十亿个文档进行信息检索,其中99%的查询范围为1-3个单词,那么您可以满足于词干。 对于NLTK,WordNetLemmatizer确实使用了词性,但你必须提供它(否则它默认为名词)。通过它“鸽子”和“v”产生“潜水”,而“鸽子”和“n”产生“鸽子”。     
词干化和词形还化的目的是减少形态变化。这与更一般的“术语混淆”程序形成对比,后者也可以解决词汇语义,句法或正字形变化。 词干和词形还原之间的真正区别有三个: 词干化将词形简化为(伪)词干,而词形词化将词形式减少为语言有效的词汇。这种差异在形态更复杂的语言中很明显,但对于许多IR应用可能无关紧要; 词形还原只涉及屈折方差,而词干化也可以处理派生方差; 在实现方面,词形还原通常更复杂(特别是对于形态复杂的语言)并且通常需要某种词汇。另一方面,满意的词干可以通过相当简单的基于规则的方法来实现。 词形还原化也可以由词性标注器支持,以消除同音异义词的歧义。     
有两个方面可以显示它们之间的差异: 一个词干将返回一个单词的词干,它不必与单词的形态词根相同。通常,相关的单词映射到同一个词干就足够了,即使词干本身不是有效词根,而在词汇化中,它将返回词的词典形式,这必须是有效词。 在lemmatisation中,首先应确定单词的词性,并且不同词性的归一化规则将不同,而词干分析器在不知道上下文的情况下对单个单词进行操作,因此不能区分具有不同词的单词。含义取决于词性。 参考http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization     
关于词形还原与词干之间差异的示例驱动解释: 词形还原处理“汽车”与“汽车”的匹配 将“汽车”与“汽车”相匹配。 词根处理匹配“汽车”到“汽车”。   词形简化意味着更广泛的模糊词匹配   仍然由相同的子系统处理。它意味着某些技术   用于发动机内的低水平处理,也可能反映出   工程对术语的偏好。      [...]以FAST为例,   他们的词形还原引擎不仅可以处理基本的单词变体   单数与复数,但同义词运营商喜欢“热”   匹配“温暖”。      当然,这并不是说其他​​引擎不处理同义词   他们这样做,但低级别的实施可能会有所不同   子系统比那些处理基础干扰的子系统。 http://www.ideaeng.com/stemming-lemmatization-0601     
ianacl 但我认为Stemming是一个粗暴的黑客,人们用它来将同一个词的所有不同形式归结为一个基本形式,它本身不一定是一个合法的词 像Porter Stemmer这样的东西可以使用简单的正则表达式来消除常见的单词后缀 词形简化将一个词降低到它的实际基本形式,在不规则动词的情况下,它可能看起来不像输入词 像Morpha这样的东西使用FST将名词和动词带到它们的基本形式     

要回复问题请先登录注册