我想刮擦很多站点并在所有站点上进行搜索,我应该使用什么系统?
|
我需要抓取约5000个网站,其中包含与某物相关的信息。因此,数据将以某种方式构造,例如“ 0”。
在页面上找到的其他信息仍然应该可以搜索。
我的想法是,我不需要关系数据库,不需要进行逻辑查询,只需要使用给定的关键字搜索数据。因此,只要输入
\"green yellow\"
,它就会搜索所有包含两个单词的项目。考虑到这些项目可以达到数百万个,我想知道哪种技术最适合与此搭配使用,希望可以进行扩展,或者云上有解决方案?
对于抓取,我一直在考虑Node.js,因为我可以将其与可完美提供DOM和HTML结构的jQuery绑定。对于存储,我仍然有些失落,但是我对Lucene有一些经验,因此我可以将抓取的数据直接存储在Lucene中。
你怎么看?人们所做的任何这样的建议都将是很棒的!谢谢。
没有找到相关结果
已邀请:
3 个回复
淘圃跺枯替
鲁釜头
需复