搜索引擎如何找到相关内容?
Google在解析网络时如何找到相关内容?
比如说,谷歌使用PHP原生DOM库来解析内容。他们有什么方法可以在网页上找到最相关的内容?
我的想法是它将搜索所有段落,按每个段落的长度排序,然后从可能的搜索字符串和查询参数中找出每个段落的相关百分比。
假设我们有这个网址:
http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html
现在从该URL我会发现HTML文件名具有高度相关性,所以我会看到该字符串与页面中所有段落的比较接近!
当您共享页面时,一个非常好的例子就是Facebook共享。 Facebook快速创建链接并带回图像,内容等。
我认为某种计算方法最好,根据周围元素和元数据计算出相关性的百分比。
是否有关于内容解析的最佳实践的书籍/信息,包括如何从网站获取最佳内容,任何可能被讨论的算法或任何深入的回复?
我想到的一些想法是:
按纯文本长度查找所有段落和顺序
以某种方式找到div
容器的宽度和高度,并按(W + H) - @Benoit排序
检查元关键字,标题,描述并检查段落中的相关性
查找所有图像标签,并按主要段落的最大节点和节点长度排序
检查对象数据,例如视频,并从最大段落/内容div中计算节点
找出解析过的前几页的相似之处
我之所以需要这些信息:
我正在建立一个网站,网站管理员向我们发送链接,然后我们列出他们的网页,但我希望网站管理员提交一个链接,然后我去抓取该网页查找以下信息。
图像(如果适用)
A<最佳切片文本中的255段
将用于我们的搜索引擎的关键字,(Stack Overflow风格)
元数据关键字,描述,所有图像,更改日志(用于审核和管理目的)
希望你们能够理解这不适用于搜索引擎,但搜索引擎处理内容发现的方式与我需要的内容相同。
我不是要求商业机密,我问你的个人方法是什么。
没有找到相关结果
已邀请:
12 个回复
苛肠倒俱
珊畴炮贩号
嘘伪
茶鬼失形
醒荒捆府绣
很缴
癸痊醒
琳娘
钨蜡唤喉晤
澜悍景哭苟
裸雷胜檀哭
蕾跨立锌煤
还有这个
并且您有查询,或者您想要查找其他相关文档的内容
无论如何,你如何计算这两个文件中最“相关”的?这是如何做: 标记每个文档(分成单词,删除所有非字母) 小写一切 删除停用词(以及等) 考虑词干(删除后缀,请参阅Porter或Snowball词干算法) 考虑使用n-gram 您可以计算单词频率,以获取“关键字”。 然后,为每个单词创建一列,并计算单词对文档的重要性,以及它在所有文档中的重要性。这称为TF-IDF指标。 现在你有了这个:
然后,使用余弦相似度量度计算文档之间的相似度。与DOCUMENT C具有最高相似性的文档是最相关的。 现在,您似乎想要查找最相似的段落,因此只需将每个段落称为文档,或者考虑在文档上使用滑动窗口。 你可以在这里看到我的视频。它使用图形Java工具,但解释了这些概念: http://vancouverdata.blogspot.com/2010/11/text-analytics-with-rapidminer-part-4.html 这是一本体面的IR书: http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf