hadoop中的XML处理
|
我在hdfs中有近200多个xml文件。我使用(mahout的)XmlInputFormat来流式传输元素。映射器能够获取xml内容并进行处理。但是问题是只有第一个xml文件正在处理中。但是,当我们处理大量小文本文件时,在处理完第一个文件后,下一个文件将由Hadoop传递给映射器。让我知道这是否不是xml文件的默认行为,以及如何遍历整个xml文件集。谢谢。
没有找到相关结果
已邀请:
1 个回复
杭难插