php proximity脚本 - 如何计算2个给定术语/单词之间的单词/字符数?
基本上 - 我想计算各种术语的“接近度”。
“接近”我的意思是具体地说是它们之间的空格/字符/单词的数量。
例:
术语= Word1 / Word2
Chunk =“blah Word1 blah blah blah blah blah blah Word2 blah”
Proximity = Word1-Word2:5
脚本会看到2个术语,找到它们,然后根据它们之间的单词查看距离。
更高级的版本是检查语义结构 - 并确定术语是出现在同一语义元素,兄弟或父母等中。
因此,术语的邻近发现可以在同一段落内,或在连续的段落中,或在相同的“父”(标题)下,但在其他方面是分开的等。
此外 - 稍后介绍诸如词干/关系/探测之类的事情也可能是有用的。
。
我环顾网络(Google,这里,php论坛,php脚本网站)。
没有看到类似的东西。
我可以在一些类似(有限)的网站上看到工具 - 通常是基于SEO的工具。
我希望能够将其应用于“文本”...因为我可以将其应用于上传的word / txt文件等。
我没有看到任何真实的例子 - 所以我只能假设它是mroe而不是一点点来编码它。
问题是 - 我该怎么做?
我如何处理单词的变体顺序(Word1 + Word2 / Word2 + Word1)?
我如何处理相同元素/结构内/外的识别接近度?
希望有人可以提出一些建议。
没有找到相关结果
已邀请:
1 个回复
苏髓骗撩