你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

hadoop中的XML处理

| 我在hdfs中有近200多个xml文件。我使用（mahout的）XmlInputFormat来流式传输元素。映射器能够获取xml内容并进行处理。但是问题是只有第一个xml文件正在处理中。但是，当我们处理大量小文本文件时，在处理完第一个文件后，下一个文件将由Hadoop传递给映射器。让我知道这是否不是xml文件的默认行为，以及如何遍历整个xml文件集。谢谢。

已邀请:

1 个回复

杭难插

使用普通的XmlStreamRecordReader类，然后在标准输入（使用Python，Hadoop Streaming API）上循环时，我很幸运。文件有多大，您是在单系统还是多节点群集上运行它？ HDFS块大小设置为什么？

要回复问题请先登录或注册

hadoop中的XML处理

1 个回复

发起人

xml

hadoop

mahout

问题状态

hadoop中的XML处理

与内容相关的链接

1 个回复

发起人

xml

hadoop

mahout

问题状态