apache-atlas - 将元数据从 RDBMS 导入 Apache Atlas

Question

我正在学习 Atlas 并试图找到一种从 RDBMS 中导入元数据的方法，例如（Sql Server 或 Postgre Sql）。

有人可以提供参考或步骤吗？

我在 docker 中使用 Atlas，并在 HBase 和 Solr 中构建。目的是从 AWS RDS 导入元数据。

更新 1 重新表述我的问题。我们可以直接从 RDS Sql Server 或 PostgreSql 导入元数据，而无需在 hive (hadoop) 中导入实际数据吗？

任何评论或答案表示赞赏。谢谢！

score 0 · Accepted Answer

AFAIK，Atlas 在 hive 元存储上工作。

下面是关于如何在 AWS Emr 中创建自己的集群的 AWS 文档。... 使用 Amazon EMR 上的 Apache Atlas 进行元数据分类、沿袭和发现

这是从 sqoop 的角度来看的 Cloudera 源代码。

来自 Cloudera 来源：在 Cloudera的 Apache Atlas 问题中从 RDBMS 填充元数据存储库。

1）您在 Atlas 中创建新类型。例如，在 Oracle 的情况下，以及 Oracle 表类型、列类型等
2) 创建从源元数据存储中提取元数据的脚本或进程。
3) 一旦您拥有要存储在 Atlas 中的元数据，您的流程将直接通过 REST API 使用 Java API 或 JSON 表示，基于新类型创建关联的 Atlas 实体。如果您愿意，您可以在存储新实体时为其添加血统。

以下文档详细介绍了如何使用 sqoop 从任何 RDBMS 移动到 hive。

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_data-access/content/using_sqoop_to_move_ ...

您也可以参考：http ://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_literal_sqoop_import_all_tables_literal

要将所有这些 sqoop 导入数据的元数据获取到 Atlas，请确保正确设置以下配置。

http://atlas.incubator.apache.org/Bridge-Sqoop.html

请注意，如果您的集群配置由 Ambari 管理，则不需要上述配置步骤。