问题标签 [data-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
214 浏览

hadoop - 如何通过 Hadoop 在两个不同订阅上连接两个 Data Lake Store?

就问题而言..是否可以通过 Hadoop 在本地安装/连接两个不同订阅上的两个 Azure Data Lake Store?我的目标是能够以编程方式将文件和文件夹从一个 DLS 复制到另一个 DLS。

我按照本指南展示了它如何仅与一个 ADL 一起工作,并且我设法实现了这一点。通过谷歌搜索,我没有找到任何东西,所以我尝试修改core-site.xml以使其能够从两个 DLS 中读取,如下所示:

但通过这种方式,我仍然只能访问一个 DLS ......一个想法?

0 投票
0 回答
50 浏览

python - 可以从 ADLS 流式传输文件并即时解压缩

此代码将以块大小从 ADLS 流式传输文件。是否可以使用 bz2 文件执行此操作,解压缩并逐行读取相同的块大小?

0 投票
1 回答
82 浏览

azure-data-lake - 处理 azure 数据湖中的多个读取器/写入器

我是天蓝色数据湖的新手,目前正在使用数据工厂 v2 将数据从我的事务数据库移动到天蓝色数据湖存储。

考虑一个场景

公司拥有多个数据源

  • A 组负责源 A
  • B组负责Source B
  • C 组负责源 C

多个作家

每个团队负责将数据移动到数据湖中。

  • A 组将数据移至
    • /TeamA/entity01.csv
    • /TeamA/entity02.csv
    • ..
  • B 组将数据移至
    • /TeamB/entity03.csv
    • ..

多个阅读器

  • Team Analytics 可以在数据块环境中读取数据并执行计算
  • Team Power BI 可以获取数据并对其进行转换并将其复制到单个租户文件夹中
    • 租户 1/entity01.csv
    • 租户 2/entity02.csv

问题

  • 读者如何阅读而不与作者发生冲突。这样当阅读器读取数据时,Team X 更新数据工厂活动不会写入文件?

我在想什么/我尝试了什么:

我正在考虑拥有一个共享的元数据源(可能是所有读者都可以访问的表存储)。

  • 作者将负责维护一组版本以避免删除/覆盖数据。
  • 读者将增加在这里执行查找然后读取数据的责任。
0 投票
3 回答
330 浏览

amazon-web-services - AWS S3 数据湖跨账户使用

我们有以下场景:AWS 账户 A(应用程序)将数据从应用程序写入账户 B(数据湖)拥有的 S3 存储桶。账户 C(报告)中的分析师想要处理数据并在其上构建报告和仪表板。

账户 A 可以将数据写入数据湖--acl bucket-owner-full-control以允许账户 B 访问。但是账户 C 仍然无法查看和处理数据。

一种(在我们看来很糟糕)的解决方案是将数据复制到与帐户 B 相同的位置(覆盖),从而有效地获得过程中数据的所有权并消除问题。我们不想要它,因为......丑陋

我们尝试在不同的帐户中担任角色,但它不适用于我们所有的基础架构。例如,通过 CLI 或控制台访问 S3 是可以的,但在账户 C 中从 EMR 使用它却不行。此外,我们有本地基础设施(本地任务运行程序),这种机制不是一种选择。

维护所有账户和用户的 IAM 角色需要付出太多努力。我们的目标是提供一种自动解决方案,而不是每次添加新用户或帐户时我们都必须采取行动。

你有什么建议吗?

0 投票
0 回答
319 浏览

stream - 将 SCADA 系统中的数据捕获到 HDFS(Hadoop DataLake)中进行分析

我正在寻找一种可以实时从 SCADA 应用程序捕获 PLC 数据并将其存储在 hdfs(数据湖的)中以进行分析的方法。

如果可以做到,有哪些可能的方法?

任何帮助或指导都会非常有帮助。

0 投票
1 回答
1433 浏览

azure - 数据湖存储备份

我正在为 Data Lake Store (DLS) 制定备份策略。我的计划是创建两个 DLS 帐户并在它们之间复制数据。我已经评估了几种方法来实现这一点,但它们都不能满足保留 POSIX ACL(DLS 用语中的权限)的要求。PowerShell cmdlet 要求将数据从主 DLS 下载到 VM 并重新上传到辅助 DLS。AdlCopy 工具仅适用于 Windows 10,不保留权限,也不支持跨区域复制数据(不是硬性要求)。数据工厂似乎是最明智的方法,直到我意识到它也不保留权限。这使我想到了我的最后一个选择——Distcp。根据 Distcp 指南(https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html),该工具支持保留权限。但是,使用 Distcp 的缺点是该工具必须从 HDInsight 运行。尽管它支持集群内和集群间复制,但我宁愿没有一个运行中的 HDInsight 集群仅用于备份操作。我错过了什么吗?有没有人有更好的建议?

0 投票
2 回答
1058 浏览

apache-spark - 将数据湖与已删除的记录同步

我正在构建数据湖以集成多个数据源以进行高级分析。

一开始,我选择 HDFS 作为数据湖存储。但是我需要更新和删除数据源,我必须与数据湖同步。

为了理解 Data Lake 的不可变特性,我将考虑来自 Data source 的 LastModifiedDate 以检测此记录是否已更新,并将此记录与当前日期一起插入 Data Lake。这个想法是选择带有 max(date) 的记录。

但是,我无法理解如何

  1. 我将从源中检测已删除的记录,我将如何处理 Data Lake?
  2. 我应该使用 Cassandra 等其他数据存储并执行删除命令吗?恐怕它会失去不可变的属性。

你能建议我在这种情况下的好做法吗?

0 投票
0 回答
106 浏览

azure - Eventhub Capture 将文件放在错误的位置

我有一个启用了捕获到数据湖的 eventthub。文件模式是:

它将数据放到:

它应该创建 *.avro 文件。为什么会这样?这是什么.avro.temp

0 投票
2 回答
1399 浏览

amazon-s3 - AWS Glue 数据目录作为 Databricks 等外部服务的元存储

假设数据湖在 AWS 上。使用 S3 作为存储,使用 Glue 作为数据目录。因此,我们可以轻松地使用 athena、redshift 或 EMR 在 S3 上使用 Glue 作为元存储来查询数据。

我的问题是,是否可以将 Glue 数据目录公开为外部服务(如 AWS 上托管的 Databricks)的元存储?

0 投票
1 回答
61 浏览

sql - 由于 SqlFilterTransformer,U-SQL 作业运行缓慢

我有一个 U-SQL 作业,它从 2 个 .tsv 和 2 个 .csv 文件中提取数据,选择一些特征并执行一些简单的转换,然后再输出到 ADL 中的 csv/tsv 文件。

但是,当我尝试在 SELECT 语句中添加进一步的转换时,由于特别是一个 SELECT 语句,这项工作似乎需要更长的时间来运行(10+ 分钟对 1 分钟)。

我相信这是由于“年月”列的计算,我基本上使用串联将日期列转换为我需要的格式。

下面是快速运行的作业:

而需要更长的时间的工作:

Vertex视图的区别:

简单/快速的工作

通过额外的改造

谁能帮我澄清一下?当然,一个转换不应该导致作业运行时间的增加吗?

被查询的数据文件由 1066 个 csv 文件组成,总共约 2.5GB。