类似Simhash的算法来比较两个文本文档

| 问题是: 我有一组文本文档,我想选择与输入文档最相似的一个。 输入的文本文档可以完全匹配或部分修改。 该算法必须非常快。 目前,我发现simhash从收集文档中获取指纹。还有其他算法可以做同样的事情吗?     
已邀请:
        您是否尝试过LSH(位置敏感哈希)技术     
        LSH(位置敏感哈希)技术是常规的索引方法。他们在寻找近似最近的邻居方面非常有效。 SimHash是LSH的一种哈希算法。它对实际值数据使用余弦相似度。 MinHash是LSH的另一种哈希算法。它计算二进制矢量上的相似度相似度。 Anand Rajaraman和Jeff Ullman撰写的第3章,海量数据集的挖掘。很好地介绍了问题空间,尤其是MinHash。     

要回复问题请先登录注册