评估和比较Hadoop的商业智能设计考虑因素

|| 我正在考虑用于数据仓库和商业智能的各种技术,并且遇到了这个称为Hadoop的激进工具。 Hadoop似乎并不是为BI目的而专门构建的,但是有一些参考资料表明Hadoop在该领域具有潜力。 (http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488)。 不管我从互联网上获得的信息很少,我的直觉告诉我,Hadoop在传统的BI解决方案领域可以成为一种破坏性技术。关于此主题的信息确实很少,因此,我想在此收集所有Guru关于Hadoop作为BI工具与传统的后端BI基础架构(如Oracle Exadata,vertica等)相比的潜力的想法。对于初学者,我想问以下问题- 设计注意事项-使用Hadoop设计BI解决方案与传统工具有何不同?我知道应该有所不同,因为我读到不能在Hadoop中创建架构。我还读到,一个主要优势将是完全消除Hadoop的ETL工具(这是真的吗?)我们是否需要Hadoop + Pig + mahout才能获得BI解决方案? 感谢和问候! 编辑-分解为多个问题。从我认为最重要的一个开始。     
已邀请:
        Hadoop是成为BI解决方案一部分的绝佳工具。它本身不是BI解决方案。 Hadoop所做的是接收Data_A并输出Data_B。 Bi所需要的但不是有用形式的任何东西都可以使用MapReduce处理,并输出有用形式的数据。可以是CSV,HIVE,HBase,MSSQL或用于查看数据的任何其他内容。 我相信Hadoop应该是ETL工具。这就是我们使用它的目的。我们每小时处理大量的日志文件,并将其存储在Hive中,并进行每日聚合,这些聚合将加载到MSSQL服务器中并通过可视化层进行查看。 我遇到的主要设计注意事项是:  -数据灵活性:您是希望用户查看预先汇总的数据,还是可以灵活地调整查询并查看他们所需的数据  -速度:您希望用户等待数据多长时间?蜂巢(例如)很慢。即使在相当小的数据集上,生成结果也要花费几分钟。遍历的数据越大,生成结果所花费的时间就越长。  -可视化:您要使用哪种类型的可视化?您要定制大量零件还是可以使用现成的零件?您的可视化需要哪些约束和灵活性?可视化需要多么灵活和多变? 高度 更新:作为对@Bhat \的评论的回应,询问缺少可视化... 缺少可以使我们有效利用HBase中存储的数据的可视化工具,这是重新评估我们的解决方案的主要因素。我们将原始数据存储在Hive中,并对数据进行预聚合并将其存储在HBase中。为了利用这一点,我们将必须编写一个自定义连接器(此部分已完成)和可视化层。我们研究了我们将能够生产的产品以及可商购的产品,并选择了商业路线。 我们仍然使用Hadoop作为处理Weblog的ETL工具,这很了不起。我们只是将ETL的原始数据发送到商业大数据数据库,该数据库将在我们的设计中取代Hive和HBase。 Hadoop与MSSQL或其他数据仓库存储并没有真正的比较。 Hadoop不进行任何存储(忽略HDFS),而是进行数据处理。运行MapReduces(Hive这样做)会比MSSQL(或类似情况)慢。     
        Hadoop非常适合存储可以表示事实表的庞大文件。通过将代表该表的各个文件放在单独的目录中,可以对这些表进行分区。 Hive了解这种文件结构,并允许像分区表一样查询它们。您可以通过Hive以SQL查询的形式向Hadoop数据表达BI问题,但仍然需要编写和运行偶尔的MapReduce作业。     
        从业务角度来看,如果您拥有大量低价值数据,则应考虑使用Hadoop。在许多情况下,RDBMS / MPP解决方案并不划算。 如果您的数据不是结构化的(例如HTML),则还应将Hadoop视为一个不错的选择。     
我们正在为大数据/ Hadoop的BI工具创建比较矩阵 http://hadoopilluminated.com/hadoop_book/BI_Tools_For_Hadoop.html 它正在进行中,希望您能提供任何投入。 (免责声明:我是此在线书的作者)     

要回复问题请先登录注册