免费的大数据集来试验Hadoop

你知道任何大型数据集来试验免费/低成本的Hadoop吗? 任何相关的指针/链接都表示赞赏。 Prefernce: 至少一GB的数据。 Web服务器的生产日志数据。 到目前为止我发现的很少: 维基百科转储 http://wiki.freebase.com/wiki/Data_dumps http://aws.amazon.com/publicdatasets/ 我们也可以运行自己的抓取工具从网站收集数据,例如维基百科?关于如何做到这一点的任何指针也受到赞赏。     
已邀请:
关于抓取和维基百科的问题很少。 您已链接到维基百科数据转储,您可以使用UMD的Cloud9项目在Hadoop中处理此数据。 他们有一个页面:使用维基百科 要添加到列表中的另一个数据源是: ClueWeb09 - 在09年1月至2月期间收集的10亿个网页.5TB压缩。 使用爬虫来生成数据应该在一个单独的问题中发布到一个关于Hadoop / MapReduce的问题。     
一个明显的来源:Stack Overflow三部曲数据转储。这些可以在知识共享许可下免费获得。     
这是用于机器学习的189个数据集的集合(这是hadoop g最好的应用之一): http://archive.ics.uci.edu/ml/datasets.html     
它不是日志文件,但也许您可以使用OpenStreetMap中的行星文件:http://wiki.openstreetmap.org/wiki/Planet.osm CC许可证,大约160 GB(未打包) 每个大陆也有较小的文件:http://wiki.openstreetmap.org/wiki/World     

要回复问题请先登录注册