hadoop中的XML处理

| 我在hdfs中有近200多个xml文件。我使用(mahout的)XmlInputFormat来流式传输元素。映射器能够获取xml内容并进行处理。但是问题是只有第一个xml文件正在处理中。但是,当我们处理大量小文本文件时,在处理完第一个文件后,下一个文件将由Hadoop传递给映射器。让我知道这是否不是xml文件的默认行为,以及如何遍历整个xml文件集。谢谢。     
已邀请:
使用普通的XmlStreamRecordReader类,然后在标准输入(使用Python,Hadoop Streaming API)上循环时,我很幸运。 文件有多大,您是在单系统还是多节点群集上运行它? HDFS块大小设置为什么?     

要回复问题请先登录注册