评估和比较Hadoop的商业智能设计考虑因素

|| 我正在考虑用于数据仓库和商业智能的各种技术，并且遇到了这个称为Hadoop的激进工具。 Hadoop似乎并不是为BI目的而专门构建的，但是有一些参考资料表明Hadoop在该领域具有潜力。（http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488）。不管我从互联网上获得的信息很少，我的直觉告诉我，Hadoop在传统的BI解决方案领域可以成为一种破坏性技术。关于此主题的信息确实很少，因此，我想在此收集所有Guru关于Hadoop作为BI工具与传统的后端BI基础架构（如Oracle Exadata，vertica等）相比的潜力的想法。对于初学者，我想问以下问题- 设计注意事项-使用Hadoop设计BI解决方案与传统工具有何不同？我知道应该有所不同，因为我读到不能在Hadoop中创建架构。我还读到，一个主要优势将是完全消除Hadoop的ETL工具（这是真的吗？）我们是否需要Hadoop + Pig + mahout才能获得BI解决方案？感谢和问候！编辑-分解为多个问题。从我认为最重要的一个开始。

已邀请:

4 个回复

肉脓措伪

Hadoop是成为BI解决方案一部分的绝佳工具。它本身不是BI解决方案。 Hadoop所做的是接收Data_A并输出Data_B。 Bi所需要的但不是有用形式的任何东西都可以使用MapReduce处理，并输出有用形式的数据。可以是CSV，HIVE，HBase，MSSQL或用于查看数据的任何其他内容。我相信Hadoop应该是ETL工具。这就是我们使用它的目的。我们每小时处理大量的日志文件，并将其存储在Hive中，并进行每日聚合，这些聚合将加载到MSSQL服务器中并通过可视化层进行查看。我遇到的主要设计注意事项是： -数据灵活性：您是希望用户查看预先汇总的数据，还是可以灵活地调整查询并查看他们所需的数据 -速度：您希望用户等待数据多长时间？蜂巢（例如）很慢。即使在相当小的数据集上，生成结果也要花费几分钟。遍历的数据越大，生成结果所花费的时间就越长。 -可视化：您要使用哪种类型的可视化？您要定制大量零件还是可以使用现成的零件？您的可视化需要哪些约束和灵活性？可视化需要多么灵活和多变？高度更新：作为对@Bhat \的评论的回应，询问缺少可视化... 缺少可以使我们有效利用HBase中存储的数据的可视化工具，这是重新评估我们的解决方案的主要因素。我们将原始数据存储在Hive中，并对数据进行预聚合并将其存储在HBase中。为了利用这一点，我们将必须编写一个自定义连接器（此部分已完成）和可视化层。我们研究了我们将能够生产的产品以及可商购的产品，并选择了商业路线。我们仍然使用Hadoop作为处理Weblog的ETL工具，这很了不起。我们只是将ETL的原始数据发送到商业大数据数据库，该数据库将在我们的设计中取代Hive和HBase。 Hadoop与MSSQL或其他数据仓库存储并没有真正的比较。 Hadoop不进行任何存储（忽略HDFS），而是进行数据处理。运行MapReduces（Hive这样做）会比MSSQL（或类似情况）慢。