使用Apache Hive作为MapReduce输入格式和/或抓取Hive元数据

| 我们的环境非常忙于将数据存储在配置单元中。我发现自己目前正在从事超出范围的工作。我写了一个mapreduce,但是它需要大量直接的用户输入才能轻松从Hive中获取信息。就是说,当我在配置单元中查询扩展表数据时,所有扩展信息都被丢弃在1或2列中,成为几乎是JSON的巨大斑点。是否有一种方便的方法来解析此信息,或者更好的是直接在更直接的庄园中获取它? 另外,如果我能指出使用CombinedHiveInputFormat进行手动操作的文档,那将大大简化我的代码。但是似乎InputFormat仅使用它的自定义结构在Hive内部使用。 最终,我要了解的是表名,列(不包括分区)以及映射器正在处理的拆分的分区位置。如果还有另一种方法可以做到这一点,我很想知道。 谢谢! 约翰     
已邀请:

要回复问题请先登录注册