N-gram文本分类类别大小差异补偿
|
最近,我一直在基于Cavnar和Trenkle的文章“基于N-Gram的文本分类”以及其他相关资源来进行文本分类和语言分类。
对于进行语言分类,我发现此方法非常可靠且有用。只要它们“足够长”,用于生成N元语法频率分布的文档的大小就不重要了,因为我只是使用文档中最常见的n元语法。
另一方面,功能良好的文本分类让我望而却步。我已经尝试过自己的各种算法变体的实现,无论是否进行了IDF加权和其他人的实现等各种调整。只要我可以为类别参考文档生成大小相似的频率配置文件,它就可以很好地工作,但是当它们开始出现差异时,整个事情就会分崩离析,并且配置文件最短的类别最终会变得不成比例分配给它的文档数。
现在,我的问题是。补偿这种影响的首选方法是什么?这显然是在发生,因为该算法假定任何给定的N-gram的最大距离等于类别频率曲线的长度,但是由于某种原因,我无法解决这个问题。我对此修复程序感兴趣的原因之一是,因为我试图根据已知类别的文档(长度可能不同,即使它们的长度相同)自动基于类别已知的文档自动生成类别配置文件长度不同)。是否有“最佳实践”解决方案?
没有找到相关结果
已邀请:
2 个回复
辟官陡板休
莽缓逢