你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

免费的大数据集来试验Hadoop

你知道任何大型数据集来试验免费/低成本的Hadoop吗？任何相关的指针/链接都表示赞赏。 Prefernce：至少一GB的数据。 Web服务器的生产日志数据。到目前为止我发现的很少：维基百科转储 http://wiki.freebase.com/wiki/Data_dumps http://aws.amazon.com/publicdatasets/ 我们也可以运行自己的抓取工具从网站收集数据，例如维基百科？关于如何做到这一点的任何指针也受到赞赏。

已邀请:

4 个回复

敦肌

关于抓取和维基百科的问题很少。您已链接到维基百科数据转储，您可以使用UMD的Cloud9项目在Hadoop中处理此数据。他们有一个页面：使用维基百科要添加到列表中的另一个数据源是： ClueWeb09 - 在09年1月至2月期间收集的10亿个网页.5TB压缩。使用爬虫来生成数据应该在一个单独的问题中发布到一个关于Hadoop / MapReduce的问题。

破弯

一个明显的来源：Stack Overflow三部曲数据转储。这些可以在知识共享许可下免费获得。

澜悍景哭苟

这是用于机器学习的189个数据集的集合（这是hadoop g最好的应用之一）： http://archive.ics.uci.edu/ml/datasets.html

揽芳僵迷仇

它不是日志文件，但也许您可以使用OpenStreetMap中的行星文件：http：//wiki.openstreetmap.org/wiki/Planet.osm CC许可证，大约160 GB（未打包）每个大陆也有较小的文件：http：//wiki.openstreetmap.org/wiki/World

要回复问题请先登录或注册

免费的大数据集来试验Hadoop

4 个回复

发起人

opendata

问题状态

免费的大数据集来试验Hadoop

与内容相关的链接

4 个回复

发起人

opendata

问题状态