如何查找网络上的文档在语义上是否与其他文档相关?

| 我的问题是,给定“ 0”,我如何分辨d1和d2在语义上相关。是否有一些API可以执行一定数量的自然语言处理,可能会提示我d1可能与d2有关。 我迫切需要它。请帮助!!     
已邀请:
您可以使用特殊的微格式。参见http://microformats.org/ 简单的例子:
<a href=\"http://creativecommons.org/licenses/by/2.0/\" rel=\"license\">cc by 2.0</a>
Rel-License是几种微格式之一。通过将rel = \“ license \”添加到超链接,页面指示该超链接的目的地是当前页面的许可证。     
对于语义相关的文档,您可以使用特殊词汇(例如SKOS)并将它们关联到本体中。或者,您可以直接在文档中使用微格式(如silex所述)。 对于自然语言处理,存在可以提取信息的不同工具,例如GATE。但这不是一项琐碎的任务。 也许您可以完善您想做的事情?您想定义哪些文档相关?还是您想要一个软件找出可能相关的文档?     
您需要研究“命名实体提取”,即自然语言处理,以提取两个文档共有的可能实体。这些通常是人,地点,事件,时间,组织。 看看OpenCalais http://www.opencalais.com/,了解这种技术的一些实际应用。     

要回复问题请先登录注册