2

首先,我现在可能对大数据能力有误解。所以,如果我过于乐观,请不要犹豫纠正我。

我通常使用常规 KPI,例如向我展示:在特定月份为每位经理提供满足某些复杂条件(加入少数事实表)的新客户数量。

这些请求是非常动态的,因此无法预测预先计算的数据。我们使用 OLAP 和 MDX 进行动态报告。动态计算的代价是性能。用户通常等待结果超过一分钟。

在这里,我得到了 BigData。我读过一些文章、论坛、文档,导致我得出模棱两可的结论。BigData 提供了在几秒钟内处理数据的工具,但它并不适合 BI 任务,例如连接、预聚合。hadoop 概念上没有经典的 DWH 等等。

尽管如此,这是一个理论。我找到了 Kylin,这让我实际尝试了一下。我挖掘的越多,出现的问题就越多。他们中有一些:

  1. 我需要任何编程知识(Java、Scala、Python)吗?
  2. 我需要图形工具,ssh 访问就足够了吗?
  3. 哪些硬件要求可以满足我对 100-200 GB 数据库(也是硬件数量)的需求?
  4. 什么是最好的文件系统(ext4),我应该关心吗?
  5. 如何从 RDBMS 迁移数据,是否有任何智能 ETL?
  6. 我应该首先学习和使用哪些技术(pig、spark 等)?

实际上我可能会提出错误的问题并且完全误解了这个概念,但希望有一些好的线索。随意提供您认为对 BI 和大数据整合有用的任何建议。

我知道http://kylin.apache.org/docs15/index.html 但如果没有后端背景,我会感到不舒服。

4

3 回答 3

2

如果您熟悉Apache Spark,那也是一个好的开始。在 ActiveViam,我们使用 Spark 进行大数据处理,我们还需要对相同的数据进行交互式 OLAP 查询。因此,我们制作了一个名为Sparkube的扩展,它将Spark 数据集公开为多维立方体。

一旦您的数据集以这种方式公开,您就可以直接在 Spark 上访问所有 OLAP MDX 函数,无需移动数据,无需部署软件,无需配置,直接从 Excel 或 Tableau。

例如,您如何将 CSV 文件的内容挂载到内存中并将其公开为多维立方体:

// Load a file into a Spark dataset.
// Here we load a CSV file, get the column names from
// the CSV headers, and use Spark automatic type inference.
var ds = spark.read
  .format("csv")
  .option("header","true")
  .option("inferSchema","true")
  .load("path/to/file.csv")

// Import the sparkube library (the sparkube jar must be in the classpath)
import com.activeviam.sparkube._

// Expose the dataset as a multidimensional cube.
// You can start visualizing the cube right away at http://localhost:9090/ui
// or connect from Excel with the XMLA protocol at http://localhost:9090/xmla
new Sparkube().fromDataset(ds)
  .withName("My first cube")
  .expose()
于 2018-04-30T12:22:47.227 回答
1

大数据意味着大量数据。您可以借助大数据hadoop处理任何类型的数据。但是OLAP通常用于较小的数据。利用 Hive 和 HBase 对 Hadoop 数据集进行 OLAP 访问。

于 2018-02-01T12:15:03.637 回答
1

Apache Kylin 是您正在寻找多维分析的正确工具。它提供连接和聚合的预计算,因此 SQL/MDX 查询可以在几秒钟内返回。

要使用 Apache Kylin,您需要扮演两个角色:管理员和分析师。作为管理员,您需要准备一个 Hadoop 集群并在其上部署 Kylin。这需要有关 Hadoop 和 Linux shell 的知识。集群的大小和硬件取决于您的数据量。

安装后,您作为分析师可以在 Kylin 中构建模型、多维数据集并运行 SQL。这需要有关关系模型、OLAP 和 SQL 的知识。无需编程。Kylin 支持 ODBC/JDBC 接口,您可以连接熟悉的 BI 工具在 Kylin 中可视化数据。

通常,第一次使用的用户会在 Hadoop 沙箱中尝试 Apache Kylin。这屏蔽了许多 Hadoop 复杂性并节省了时间。

于 2016-09-25T00:45:59.770 回答