首先,我现在可能对大数据能力有误解。所以,如果我过于乐观,请不要犹豫纠正我。
我通常使用常规 KPI,例如向我展示:在特定月份为每位经理提供满足某些复杂条件(加入少数事实表)的新客户数量。
这些请求是非常动态的,因此无法预测预先计算的数据。我们使用 OLAP 和 MDX 进行动态报告。动态计算的代价是性能。用户通常等待结果超过一分钟。
在这里,我得到了 BigData。我读过一些文章、论坛、文档,导致我得出模棱两可的结论。BigData 提供了在几秒钟内处理数据的工具,但它并不适合 BI 任务,例如连接、预聚合。hadoop 概念上没有经典的 DWH 等等。
尽管如此,这是一个理论。我找到了 Kylin,这让我实际尝试了一下。我挖掘的越多,出现的问题就越多。他们中有一些:
- 我需要任何编程知识(Java、Scala、Python)吗?
- 我需要图形工具,ssh 访问就足够了吗?
- 哪些硬件要求可以满足我对 100-200 GB 数据库(也是硬件数量)的需求?
- 什么是最好的文件系统(ext4),我应该关心吗?
- 如何从 RDBMS 迁移数据,是否有任何智能 ETL?
- 我应该首先学习和使用哪些技术(pig、spark 等)?
实际上我可能会提出错误的问题并且完全误解了这个概念,但希望有一些好的线索。随意提供您认为对 BI 和大数据整合有用的任何建议。
我知道http://kylin.apache.org/docs15/index.html 但如果没有后端背景,我会感到不舒服。