检测的书面文本＃39;的语言_算法_编程通用

{A}
{S0}简介
一段时间前，我发表了一篇关于如何检测一个给定的文本的编码的。在这篇文章中，我描述的文本分类的很长的路要走下一步:语言检测。
给出的解决方案是基于N - gram和词的出现比较。
这是适用于任何语言，使用的话（这其实不是所有语言的真实）。
根据模型和输入文本的长度，精度是70％之间（只是短期挪威，Swedisch和Danisch分类的quot; allquot模型）和99.8％，使用quot; defaultquot模型。背景
书面文字的语言检测可能是在自然语言处理（NLP）的最基本的任务之一。对于任何取决于一个未知的文字处理语言，首先要知道是哪种语言文字是书面英寸幸运的是，它是NLP的提供更容易挑战之一。我选择来实现的方法是众所周知的，非常简单。这个想法是，任何语言都有一套独特的性格（合作）发生。
第一步是收集这些统计数据应当可以探测所有语言。这是不容易，因为它可能听起来摆在首位。问题是，收集了大量的测试数据集（纯文本），只包含一种语言，不是特定的域。（只有报纸上的文章可能缺乏使用这个词:"我？？和直接引语。莎士比亚戏剧不会是最好的方法检测到当代的案文。医疗用品往往包含太多的域名甚至没有特定语言的具体条款（主要，次要，动脉等???.)而如果这不会是努力不够，不应该有版权的文本（我不知道如果这是一个真正的要求是受版权保护的文本的统计分析结果也？受版权保护的），我选择使用维基百科作为我的主要来源，我不得不做一些过滤，以quot; cleanquot;？？从几乎任何物品，在发生过目前的英语短语来源没有什么语言都写在（其实我用巴贝尔本身检测的英语短语）。清理在没有办法的完美。维基百科包含了很多正确的名称（即，乐队的名字），往往含有"？？或"？？这是为什么这些话在许多语言中发生的，即使它们没有语言的一部分，这必须不一定是个劣势，因为Anglicism广泛应用在许多语言传播我为每种语言创建三个统计。字符集
有些语言有一个非常特定的字符集（例如，中国，日本和俄罗斯）;他人，一些字符提供一个很好的提示，什么语言问题（如德国元音）。N - 克
标记，成字的文字后（如适用），每1出现，2和3克计算。有些N -克是非常特定于语言（例如，quot; THquot中英文）。单词列表
消歧的最后来源是实际使用的词。一些语言（如葡萄牙和西班牙的）中使用的字符和具体的N -克的出现几乎相同。尽管如此，不同的词是用来在不同的频率。
一组统计模型。我已经创建了一些子集的quot; allquot模式，以满足我的需求是最好的（见下表）。 "; commonquot;模型包含10种语言在世界。 "小吗？？和"默认？？根据我的使用场景。如果你是从另一个世界的一部分，您的偏好可能会有所不同。所以，请概不负责，在我的选择，在该模型中包含什么语言罪。
的所有统计数据是有序的，按它们的出现排名。在演示应用程序，所有的模型可以详细研究。一个未知的文本分类很简单。文本标记化和三个表的统计产生。比较结果表模型中的所有表，并计算距离。从模型未知文本的最小距离比较表是最有可能的语言文字。
样本模型