问题标签 [data-lake]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 如何通过 Hadoop 在两个不同订阅上连接两个 Data Lake Store?
就问题而言..是否可以通过 Hadoop 在本地安装/连接两个不同订阅上的两个 Azure Data Lake Store?我的目标是能够以编程方式将文件和文件夹从一个 DLS 复制到另一个 DLS。
我按照本指南展示了它如何仅与一个 ADL 一起工作,并且我设法实现了这一点。通过谷歌搜索,我没有找到任何东西,所以我尝试修改core-site.xml以使其能够从两个 DLS 中读取,如下所示:
但通过这种方式,我仍然只能访问一个 DLS ......一个想法?
python - 可以从 ADLS 流式传输文件并即时解压缩
此代码将以块大小从 ADLS 流式传输文件。是否可以使用 bz2 文件执行此操作,解压缩并逐行读取相同的块大小?
azure-data-lake - 处理 azure 数据湖中的多个读取器/写入器
我是天蓝色数据湖的新手,目前正在使用数据工厂 v2 将数据从我的事务数据库移动到天蓝色数据湖存储。
考虑一个场景
公司拥有多个数据源
- A 组负责源 A
- B组负责Source B
- C 组负责源 C
多个作家
每个团队负责将数据移动到数据湖中。
- A 组将数据移至
- /TeamA/entity01.csv
- /TeamA/entity02.csv
- ..
- B 组将数据移至
- /TeamB/entity03.csv
- ..
多个阅读器
- Team Analytics 可以在数据块环境中读取数据并执行计算
- Team Power BI 可以获取数据并对其进行转换并将其复制到单个租户文件夹中
- 租户 1/entity01.csv
- 租户 2/entity02.csv
问题
- 读者如何阅读而不与作者发生冲突。这样当阅读器读取数据时,Team X 更新数据工厂活动不会写入文件?
我在想什么/我尝试了什么:
我正在考虑拥有一个共享的元数据源(可能是所有读者都可以访问的表存储)。
- 作者将负责维护一组版本以避免删除/覆盖数据。
- 读者将增加在这里执行查找然后读取数据的责任。
amazon-web-services - AWS S3 数据湖跨账户使用
我们有以下场景:AWS 账户 A(应用程序)将数据从应用程序写入账户 B(数据湖)拥有的 S3 存储桶。账户 C(报告)中的分析师想要处理数据并在其上构建报告和仪表板。
账户 A 可以将数据写入数据湖--acl bucket-owner-full-control
以允许账户 B 访问。但是账户 C 仍然无法查看和处理数据。
一种(在我们看来很糟糕)的解决方案是将数据复制到与帐户 B 相同的位置(覆盖),从而有效地获得过程中数据的所有权并消除问题。我们不想要它,因为......丑陋
我们尝试在不同的帐户中担任角色,但它不适用于我们所有的基础架构。例如,通过 CLI 或控制台访问 S3 是可以的,但在账户 C 中从 EMR 使用它却不行。此外,我们有本地基础设施(本地任务运行程序),这种机制不是一种选择。
维护所有账户和用户的 IAM 角色需要付出太多努力。我们的目标是提供一种自动解决方案,而不是每次添加新用户或帐户时我们都必须采取行动。
你有什么建议吗?
stream - 将 SCADA 系统中的数据捕获到 HDFS(Hadoop DataLake)中进行分析
我正在寻找一种可以实时从 SCADA 应用程序捕获 PLC 数据并将其存储在 hdfs(数据湖的)中以进行分析的方法。
如果可以做到,有哪些可能的方法?
任何帮助或指导都会非常有帮助。
azure - 数据湖存储备份
我正在为 Data Lake Store (DLS) 制定备份策略。我的计划是创建两个 DLS 帐户并在它们之间复制数据。我已经评估了几种方法来实现这一点,但它们都不能满足保留 POSIX ACL(DLS 用语中的权限)的要求。PowerShell cmdlet 要求将数据从主 DLS 下载到 VM 并重新上传到辅助 DLS。AdlCopy 工具仅适用于 Windows 10,不保留权限,也不支持跨区域复制数据(不是硬性要求)。数据工厂似乎是最明智的方法,直到我意识到它也不保留权限。这使我想到了我的最后一个选择——Distcp。根据 Distcp 指南(https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html),该工具支持保留权限。但是,使用 Distcp 的缺点是该工具必须从 HDInsight 运行。尽管它支持集群内和集群间复制,但我宁愿没有一个运行中的 HDInsight 集群仅用于备份操作。我错过了什么吗?有没有人有更好的建议?
apache-spark - 将数据湖与已删除的记录同步
我正在构建数据湖以集成多个数据源以进行高级分析。
一开始,我选择 HDFS 作为数据湖存储。但是我需要更新和删除数据源,我必须与数据湖同步。
为了理解 Data Lake 的不可变特性,我将考虑来自 Data source 的 LastModifiedDate 以检测此记录是否已更新,并将此记录与当前日期一起插入 Data Lake。这个想法是选择带有 max(date) 的记录。
但是,我无法理解如何
- 我将从源中检测已删除的记录,我将如何处理 Data Lake?
- 我应该使用 Cassandra 等其他数据存储并执行删除命令吗?恐怕它会失去不可变的属性。
你能建议我在这种情况下的好做法吗?
azure - Eventhub Capture 将文件放在错误的位置
我有一个启用了捕获到数据湖的 eventthub。文件模式是:
它将数据放到:
它应该创建 *.avro 文件。为什么会这样?这是什么.avro.temp
?
amazon-s3 - AWS Glue 数据目录作为 Databricks 等外部服务的元存储
假设数据湖在 AWS 上。使用 S3 作为存储,使用 Glue 作为数据目录。因此,我们可以轻松地使用 athena、redshift 或 EMR 在 S3 上使用 Glue 作为元存储来查询数据。
我的问题是,是否可以将 Glue 数据目录公开为外部服务(如 AWS 上托管的 Databricks)的元存储?
sql - 由于 SqlFilterTransformer,U-SQL 作业运行缓慢
我有一个 U-SQL 作业,它从 2 个 .tsv 和 2 个 .csv 文件中提取数据,选择一些特征并执行一些简单的转换,然后再输出到 ADL 中的 csv/tsv 文件。
但是,当我尝试在 SELECT 语句中添加进一步的转换时,由于特别是一个 SELECT 语句,这项工作似乎需要更长的时间来运行(10+ 分钟对 1 分钟)。
我相信这是由于“年月”列的计算,我基本上使用串联将日期列转换为我需要的格式。
下面是快速运行的作业:
而需要更长的时间的工作:
Vertex视图的区别:
谁能帮我澄清一下?当然,一个转换不应该导致作业运行时间的增加吗?
被查询的数据文件由 1066 个 csv 文件组成,总共约 2.5GB。