0 投票

0 回答

214 浏览

hadoop - 如何通过 Hadoop 在两个不同订阅上连接两个 Data Lake Store？

就问题而言..是否可以通过 Hadoop 在本地安装/连接两个不同订阅上的两个 Azure Data Lake Store？我的目标是能够以编程方式将文件和文件夹从一个 DLS 复制到另一个 DLS。

我按照本指南展示了它如何仅与一个 ADL 一起工作，并且我设法实现了这一点。通过谷歌搜索，我没有找到任何东西，所以我尝试修改core-site.xml以使其能够从两个 DLS 中读取，如下所示：

但通过这种方式，我仍然只能访问一个 DLS ......一个想法？

2018-02-20T14:39:35.710

0 投票

0 回答

50 浏览

python - 可以从 ADLS 流式传输文件并即时解压缩

此代码将以块大小从 ADLS 流式传输文件。是否可以使用 bz2 文件执行此操作，解压缩并逐行读取相同的块大小？

python azure data-lake

2018-02-22T21:15:13.960

0 投票

1 回答

82 浏览

azure-data-lake - 处理 azure 数据湖中的多个读取器/写入器

我是天蓝色数据湖的新手，目前正在使用数据工厂 v2 将数据从我的事务数据库移动到天蓝色数据湖存储。

考虑一个场景

公司拥有多个数据源

A 组负责源 A
B组负责Source B
C 组负责源 C

多个作家

每个团队负责将数据移动到数据湖中。

A 组将数据移至
- /TeamA/entity01.csv
- /TeamA/entity02.csv
- ..
B 组将数据移至
- /TeamB/entity03.csv
- ..

多个阅读器

Team Analytics 可以在数据块环境中读取数据并执行计算
Team Power BI 可以获取数据并对其进行转换并将其复制到单个租户文件夹中
- 租户 1/entity01.csv
- 租户 2/entity02.csv

问题

读者如何阅读而不与作者发生冲突。这样当阅读器读取数据时，Team X 更新数据工厂活动不会写入文件？

我在想什么/我尝试了什么：

我正在考虑拥有一个共享的元数据源（可能是所有读者都可以访问的表存储）。

作者将负责维护一组版本以避免删除/覆盖数据。
读者将增加在这里执行查找然后读取数据的责任。

azure-data-lake data-lake

2018-03-05T20:31:21.873

0 投票

3 回答

330 浏览

amazon-web-services - AWS S3 数据湖跨账户使用

我们有以下场景：AWS 账户 A（应用程序）将数据从应用程序写入账户 B（数据湖）拥有的 S3 存储桶。账户 C（报告）中的分析师想要处理数据并在其上构建报告和仪表板。

账户 A 可以将数据写入数据湖--acl bucket-owner-full-control以允许账户 B 访问。但是账户 C 仍然无法查看和处理数据。

一种（在我们看来很糟糕）的解决方案是将数据复制到与帐户 B 相同的位置（覆盖），从而有效地获得过程中数据的所有权并消除问题。我们不想要它，因为......丑陋

我们尝试在不同的帐户中担任角色，但它不适用于我们所有的基础架构。例如，通过 CLI 或控制台访问 S3 是可以的，但在账户 C 中从 EMR 使用它却不行。此外，我们有本地基础设施（本地任务运行程序），这种机制不是一种选择。

维护所有账户和用户的 IAM 角色需要付出太多努力。我们的目标是提供一种自动解决方案，而不是每次添加新用户或帐户时我们都必须采取行动。

你有什么建议吗？

amazon-web-services amazon-s3 data-lake

2018-03-12T11:40:18.613

0 投票

0 回答

319 浏览

stream - 将 SCADA 系统中的数据捕获到 HDFS（Hadoop DataLake）中进行分析

我正在寻找一种可以实时从 SCADA 应用程序捕获 PLC 数据并将其存储在 hdfs（数据湖的）中以进行分析的方法。

如果可以做到，有哪些可能的方法？

任何帮助或指导都会非常有帮助。

stream spark-streaming scada data-lake

2018-03-30T07:40:04.443

0 投票

1 回答

1433 浏览

azure - 数据湖存储备份

我正在为 Data Lake Store (DLS) 制定备份策略。我的计划是创建两个 DLS 帐户并在它们之间复制数据。我已经评估了几种方法来实现这一点，但它们都不能满足保留 POSIX ACL（DLS 用语中的权限）的要求。PowerShell cmdlet 要求将数据从主 DLS 下载到 VM 并重新上传到辅助 DLS。AdlCopy 工具仅适用于 Windows 10，不保留权限，也不支持跨区域复制数据（不是硬性要求）。数据工厂似乎是最明智的方法，直到我意识到它也不保留权限。这使我想到了我的最后一个选择——Distcp。根据 Distcp 指南（https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html)，该工具支持保留权限。但是，使用 Distcp 的缺点是该工具必须从 HDInsight 运行。尽管它支持集群内和集群间复制，但我宁愿没有一个运行中的 HDInsight 集群仅用于备份操作。我错过了什么吗？有没有人有更好的建议？

azure hadoop azure-hdinsight azure-data-lake data-lake

2018-04-03T10:55:35.613

0 投票

2 回答

1058 浏览

apache-spark - 将数据湖与已删除的记录同步

我正在构建数据湖以集成多个数据源以进行高级分析。

一开始，我选择 HDFS 作为数据湖存储。但是我需要更新和删除数据源，我必须与数据湖同步。

为了理解 Data Lake 的不可变特性，我将考虑来自 Data source 的 LastModifiedDate 以检测此记录是否已更新，并将此记录与当前日期一起插入 Data Lake。这个想法是选择带有 max(date) 的记录。

但是，我无法理解如何

我将从源中检测已删除的记录，我将如何处理 Data Lake？
我应该使用 Cassandra 等其他数据存储并执行删除命令吗？恐怕它会失去不可变的属性。

你能建议我在这种情况下的好做法吗？

apache-spark hadoop cassandra hdfs data-lake

2018-04-06T14:17:50.103

0 投票

0 回答

106 浏览

azure - Eventhub Capture 将文件放在错误的位置

我有一个启用了捕获到数据湖的 eventthub。文件模式是：

它将数据放到：

它应该创建 *.avro 文件。为什么会这样？这是什么.avro.temp？

azure azure-data-lake azure-eventhub data-lake azure-eventhub-capture

2018-04-12T12:05:55.157

0 投票

2 回答

1399 浏览

amazon-s3 - AWS Glue 数据目录作为 Databricks 等外部服务的元存储

假设数据湖在 AWS 上。使用 S3 作为存储，使用 Glue 作为数据目录。因此，我们可以轻松地使用 athena、redshift 或 EMR 在 S3 上使用 Glue 作为元存储来查询数据。

我的问题是，是否可以将 Glue 数据目录公开为外部服务（如 AWS 上托管的 Databricks）的元存储？

amazon-s3 databricks aws-glue data-lake hive-metastore

2018-04-16T02:36:55.117

0 投票

1 回答

61 浏览

sql - 由于 SqlFilterTransformer，U-SQL 作业运行缓慢

我有一个 U-SQL 作业，它从 2 个 .tsv 和 2 个 .csv 文件中提取数据，选择一些特征并执行一些简单的转换，然后再输出到 ADL 中的 csv/tsv 文件。

但是，当我尝试在 SELECT 语句中添加进一步的转换时，由于特别是一个 SELECT 语句，这项工作似乎需要更长的时间来运行（10+ 分钟对 1 分钟）。

我相信这是由于“年月”列的计算，我基本上使用串联将日期列转换为我需要的格式。

下面是快速运行的作业：

而需要更长的时间的工作：

Vertex视图的区别：

简单/快速的工作

通过额外的改造

谁能帮我澄清一下？当然，一个转换不应该导致作业运行时间的增加吗？

被查询的数据文件由 1066 个 csv 文件组成，总共约 2.5GB。

sql visual-studio u-sql data-lake

2018-04-17T09:45:16.207

问题标签 [data-lake]

考虑一个场景

公司拥有多个数据源

多个作家

多个阅读器

问题

我在想什么/我尝试了什么：

Reference