你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

Hadoop基础：如何处理输出？

| （我确定存在类似的问题，但尚未找到我正在寻找的答案。）我正在使用Hadoop和Hive（适用于熟悉SQL的开发人员）每晚对多个TB的数据进行批处理。从数百个大型CSV文件的输入中，我将输出四个或五个相当大的CSV文件。显然，Hive将这些存储在HDFS中。这些输入文件最初是从大型SQL数据仓库中提取的。 Hadoop对于它的工作非常有价值。但是处理输出的行业标准是什么？现在，我正在使用Shell脚本将其复制回本地文件夹，然后将其上传到另一个数据仓库。这个问题：（ Hadoop和MySQL集成）要求重新导入Hadoop导出的做法是非标准的。如何使用BI工具浏览数据，或将结果集成到ASP.NET应用程序中？节约？原虫？ Hive ODBC API驱动程序？肯定有更好的办法..... 开导我。

已邀请:

1 个回复

痴浪墨

在foursquare上，我使用Hive的Thrift驱动程序根据需要将数据放入数据库/电子表格中。我维护一个作业服务器，该服务器通过Hive驱动程序执行作业，然后将输出移动到需要的地方。直接使用节俭很容易，并且可以使用任何编程语言。如果您正在直接处理hadoop（并且不能使用它），则应查看Cloudera构建的Sqoop Sqoop是专为批量移动数据而设计的（而Flume是专为实时移动数据而设计的，与将数据放入hdfs似乎比将其取出要更加一致）。希望能有所帮助。

要回复问题请先登录或注册

Hadoop基础：如何处理输出？

1 个回复

发起人

hadoop

protocol_buffers

thrift

hive

hadoop_plugins

问题状态

Hadoop基础：如何处理输出？

与内容相关的链接

1 个回复

发起人

hadoop

protocol_buffers

thrift

hive

hadoop_plugins

问题状态