Hadoop基础:如何处理输出?

| (我确定存在类似的问题,但尚未找到我正在寻找的答案。) 我正在使用Hadoop和Hive(适用于熟悉SQL的开发人员)每晚对多个TB的数据进行批处理。从数百个大型CSV文件的输入中,我将输出四个或五个相当大的CSV文件。显然,Hive将这些存储在HDFS中。这些输入文件最初是从大型SQL数据仓库中提取的。 Hadoop对于它的工作非常有价值。但是处理输出的行业标准是什么?现在,我正在使用Shell脚本将其复制回本地文件夹,然后将其上传到另一个数据仓库。 这个问题:( Hadoop和MySQL集成)要求重新导入Hadoop导出的做法是非标准的。如何使用BI工具浏览数据,或将结果集成到ASP.NET应用程序中?节约?原虫? Hive ODBC API驱动程序?肯定有更好的办法..... 开导我。     
已邀请:
在foursquare上,我使用Hive的Thrift驱动程序根据需要将数据放入数据库/电子表格中。 我维护一个作业服务器,该服务器通过Hive驱动程序执行作业,然后将输出移动到需要的地方。直接使用节俭很容易,并且可以使用任何编程语言。 如果您正在直接处理hadoop(并且不能使用它),则应查看Cloudera构建的Sqoop Sqoop是专为批量移动数据而设计的(而Flume是专为实时移动数据而设计的,与将数据放入hdfs似乎比将其取出要更加一致)。 希望能有所帮助。     

要回复问题请先登录注册