我想刮擦很多站点并在所有站点上进行搜索,我应该使用什么系统?

| 我需要抓取约5000个网站,其中包含与某物相关的信息。因此,数据将以某种方式构造,例如“ 0”。 在页面上找到的其他信息仍然应该可以搜索。 我的想法是,我不需要关系数据库,不需要进行逻辑查询,只需要使用给定的关键字搜索数据。因此,只要输入
\"green yellow\"
,它就会搜索所有包含两个单词的项目。考虑到这些项目可以达到数百万个,我想知道哪种技术最适合与此搭配使用,希望可以进行扩展,或者云上有解决方案? 对于抓取,我一直在考虑Node.js,因为我可以将其与可完美提供DOM和HTML结构的jQuery绑定。对于存储,我仍然有些失落,但是我对Lucene有一些经验,因此我可以将抓取的数据直接存储在Lucene中。 你怎么看?人们所做的任何这样的建议都将是很棒的!谢谢。     
已邀请:
        对于基于节点的网络爬虫,请检查以下链接: http://www.coderholic.com/scraping-the-web-with-node-io/ https://github.com/mikeal/spider https://github.com/creationix/scraperdemo     
        Nutch实际上是完美的。它包含Lucene / Solr作为其搜索引擎组件。 还可以查看Lucidworks的企业Solr,它具有内置的Web搜寻器以及相当整齐的GUI。 http://www.lucidimagination.com/products/lucidworks-search-platform/enterprise     
        Solr绝对适合此任务     

要回复问题请先登录注册