我正在学习 Atlas 并试图找到一种从 RDBMS 中导入元数据的方法,例如(Sql Server 或 Postgre Sql)。
有人可以提供参考或步骤吗?
我在 docker 中使用 Atlas,并在 HBase 和 Solr 中构建。目的是从 AWS RDS 导入元数据。
更新 1 重新表述我的问题。我们可以直接从 RDS Sql Server 或 PostgreSql 导入元数据,而无需在 hive (hadoop) 中导入实际数据吗?
任何评论或答案表示赞赏。谢谢!
我正在学习 Atlas 并试图找到一种从 RDBMS 中导入元数据的方法,例如(Sql Server 或 Postgre Sql)。
有人可以提供参考或步骤吗?
我在 docker 中使用 Atlas,并在 HBase 和 Solr 中构建。目的是从 AWS RDS 导入元数据。
更新 1 重新表述我的问题。我们可以直接从 RDS Sql Server 或 PostgreSql 导入元数据,而无需在 hive (hadoop) 中导入实际数据吗?
任何评论或答案表示赞赏。谢谢!
AFAIK,Atlas 在 hive 元存储上工作。
下面是关于如何在 AWS Emr 中创建自己的集群的 AWS 文档。... 使用 Amazon EMR 上的 Apache Atlas 进行元数据分类、沿袭和发现
这是从 sqoop 的角度来看的 Cloudera 源代码。
来自 Cloudera 来源:在 Cloudera的 Apache Atlas 问题中从 RDBMS 填充元数据存储库。
1)您在 Atlas 中创建新类型。例如,在 Oracle 的情况下,以及 Oracle 表类型、列类型等
2) 创建从源元数据存储中提取元数据的脚本或进程。
3) 一旦您拥有要存储在 Atlas 中的元数据,您的流程将直接通过 REST API 使用 Java API 或 JSON 表示,基于新类型创建关联的 Atlas 实体。如果您愿意,您可以在存储新实体时为其添加血统。
以下文档详细介绍了如何使用 sqoop 从任何 RDBMS 移动到 hive。
https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_data-access/content/using_sqoop_to_move_ ...
您也可以参考:http ://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_literal_sqoop_import_all_tables_literal
要将所有这些 sqoop 导入数据的元数据获取到 Atlas,请确保正确设置以下配置。
http://atlas.incubator.apache.org/Bridge-Sqoop.html
请注意,如果您的集群配置由 Ambari 管理,则不需要上述配置步骤。
使用 Rest API 是一种将 MySQL 元数据显示到图集目录的好方法,另一种方法是使用 sparkhive_support() spark -> read MySQL using JDBC -> write into hive
或使用sqoop
为了帮助创建与 RDBMS 相关的实例、数据库、表、列,我创建了一个 GitHub 存储库,其中包含一个模板,可以帮助您了解如何将 RDBMS 或 MySQL 实体添加到图集