Hadoop基础:如何处理输出?
|
(我确定存在类似的问题,但尚未找到我正在寻找的答案。)
我正在使用Hadoop和Hive(适用于熟悉SQL的开发人员)每晚对多个TB的数据进行批处理。从数百个大型CSV文件的输入中,我将输出四个或五个相当大的CSV文件。显然,Hive将这些存储在HDFS中。这些输入文件最初是从大型SQL数据仓库中提取的。
Hadoop对于它的工作非常有价值。但是处理输出的行业标准是什么?现在,我正在使用Shell脚本将其复制回本地文件夹,然后将其上传到另一个数据仓库。
这个问题:( Hadoop和MySQL集成)要求重新导入Hadoop导出的做法是非标准的。如何使用BI工具浏览数据,或将结果集成到ASP.NET应用程序中?节约?原虫? Hive ODBC API驱动程序?肯定有更好的办法.....
开导我。
没有找到相关结果
已邀请:
1 个回复
痴浪墨