我想刮擦很多站点并在所有站点上进行搜索，我应该使用什么系统？

| 我需要抓取约5000个网站，其中包含与某物相关的信息。因此，数据将以某种方式构造，例如“ 0”。在页面上找到的其他信息仍然应该可以搜索。我的想法是，我不需要关系数据库，不需要进行逻辑查询，只需要使用给定的关键字搜索数据。因此，只要输入\"green yellow\"，它就会搜索所有包含两个单词的项目。考虑到这些项目可以达到数百万个，我想知道哪种技术最适合与此搭配使用，希望可以进行扩展，或者云上有解决方案？对于抓取，我一直在考虑Node.js，因为我可以将其与可完美提供DOM和HTML结构的jQuery绑定。对于存储，我仍然有些失落，但是我对Lucene有一些经验，因此我可以将抓取的数据直接存储在Lucene中。你怎么看？人们所做的任何这样的建议都将是很棒的！谢谢。

已邀请:

3 个回复

淘圃跺枯替

对于基于节点的网络爬虫，请检查以下链接： http://www.coderholic.com/scraping-the-web-with-node-io/ https://github.com/mikeal/spider https://github.com/creationix/scraperdemo

鲁釜头

Nutch实际上是完美的。它包含Lucene / Solr作为其搜索引擎组件。还可以查看Lucidworks的企业Solr，它具有内置的Web搜寻器以及相当整齐的GUI。 http://www.lucidimagination.com/products/lucidworks-search-platform/enterprise

需复

Solr绝对适合此任务

要回复问题请先登录或注册

我想刮擦很多站点并在所有站点上进行搜索，我应该使用什么系统？

3 个回复

发起人

search_engine

web_crawler

search

full_text_search

screen_scraping

问题状态

我想刮擦很多站点并在所有站点上进行搜索，我应该使用什么系统？

与内容相关的链接

3 个回复

发起人

search_engine

web_crawler

search

full_text_search

screen_scraping

问题状态