分类网站 - 开源LSI?

我想分类很多网站(数百万)。我可以使用Nutch来抓取它们并获取网站的内容,但我正在寻找最好的(也是最便宜或免费的)工具来对它们进行分类。 一种选择是创建寻找特定关键字并对网站进行分类的正则表达式,但也有一些高端LSI类型工具,如Autonomy。是否有任何开源或更便宜的工具可以从网页/网站上获取文本并为我分类?我需要对所用类别的类型进行一些自定义。作为分类的一部分,我希望能够识别真正只是停放页面的“虚假”网站,或者在网页上放置广告的域名广告以及仅仅是普通的旧类别,例如此新闻,体育,科学,健康,食品,娱乐等......     
已邀请:

要回复问题请先登录注册