“data-lake”的相关标签问题

0 投票

1 回答

323 浏览

azure - U-SQL 在标量表达式中比较行集数据

我浏览了一些无法进行转换的文章，但是我遇到了一个问题，即在行集中获取值并且需要在标量表达式中使用。

ColumnA 是一个字符串值，ColumnB 是一个 Int..

这在 ADLA 中失败，出现问题行集变量 @RequiredData 不是标量变量。

2018-04-20T11:29:54.250

0 投票

1 回答

42 浏览

amazon-web-services - AWS Data Lake 解决方案 Cloud Formation 模板中的访问 IP 参数是什么？

我是 AWS 的新手，我正在尝试按照以下步骤在 AWS 上部署模型数据湖解决方案：https ://docs.aws.amazon.com/solutions/latest/data-lake-solution/deployment.html

要部署云形成模板，它需要一个访问 IP 地址。这里需要的 IP 地址是什么？是我用来连接 AWS 的机器的 IP 地址吗？我正在通过 DHCP 网络连接，因此下次连接到网络时 IP 地址会发生变化。

感谢有人可以澄清这一点。

amazon-web-services amazon-cloudformation data-lake

2018-05-01T07:48:09.450

0 投票

1 回答

442 浏览

c# - Azure 数据湖：如何获取已处理的文件

我刚刚开始使用 Data Lake，目前正在尝试找出真正的工作流程步骤以及如何使整个过程自动化。假设我有一些文件作为输入，我想处理它们并下载输出文件，以便推送到我的数据仓库或/和 SSAS。

我找到了非常可爱的API，一切都很好，但我找不到一种方法来获取目录中的所有文件名以进一步下载它们。

请纠正我对工作流程的想法。有没有另一种更优雅的方式来自动将所有处理过的数据（输出）放入存储（如传统的 SQL Server、SSAS、数据仓库等）？

如果您有基于 Data Lake 的有效解决方案，请用几句话描述工作流程（从“原始”文件到最终用户的报告）。

这是我的 NET Core 应用程序示例

c#azure azure-data-lake data-lake

2018-05-02T04:41:44.813

0 投票

1 回答

51 浏览

azure-data-lake - 在 Azure Data Lake Store 上获取一些没有任何扩展名的额外文件

我正在使用 Azure 数据湖存储进行文件存储。我正在使用类似的操作

创建主文件
创建零件文件
将这些部分文件附加到主文件（用于并发附加）

例子：

有主日志文件（最终将包含所有程序的日志）
每个程序单独创建部分日志文件，然后附加到主日志文件

工作流运行真正的文件，但我注意到一些未知文件被上传到商店目录。这些文件名是一个没有扩展名的 GUID，而且这些未知文件是空的。

有谁知道这些额外文件可能是什么原因。

azure-data-lake data-lake

2018-06-07T05:59:56.813

0 投票

1 回答

612 浏览

json - 如何在 Azure Data Lake Analytics 上下文中分别使用 JSON 文件格式 usql

我有一个看起来像的 JSON 输入

如何在 Azure Datalake Analytics usql 脚本中sessionId提取deviceId和的值？MessageId

json azure azure-data-lake u-sql data-lake

2018-06-26T07:16:23.487

0 投票

1 回答

64 浏览

c# - 如何使用 .NET SDK 背后的代码执行 U-SQL 作业

我有一个 U-SQL 作业，它在后面的代码中使用自定义提取器。我需要从 C# 代码按需运行它。

我找到了一种通过像字符串一样传递脚本来提交作业的方法。我可以使用自定义提取器以某种方式执行脚本吗？

c#.net azure-data-lake u-sql data-lake

2018-09-05T07:13:19.587

0 投票

1 回答

3654 浏览

sql - 数据湖如何存储数据以及采用什么格式？

我听说 Data Lakes 可以存储任何类型的数据：关系、NoSql、图片/图像、Adobe Pdf、Excel。数据是如何存储的，以 No-SQL 格式还是二叉树？或者它只是像普通硬盘一样保存它？如果是这样，他们为什么不把它叫做存储而不是数据湖呢？我正在尝试找到“数据湖”的确切存储机制

sql image nosql azure-data-lake data-lake

user10241913

2018-09-09T04:59:37.450

0 投票

4 回答

4172 浏览

bigdata - 数据湖和大数据是一样的吗？

如果您检查概念，我试图了解数据湖和大数据之间是否存在真正的差异还是数据湖？

提前致谢

bigdata data-lake

2018-09-18T15:30:48.433

0 投票

1 回答

171 浏览

hive - 多个 Tableau 用户连接到 Hive LLAP

我希望允许许多 Tableau 用户通过 Hive LLAP 访问数据进行交互式查询。到目前为止结果令人失望......我应该期望这个设置对我有用还是应该使用不同的后端？

hive tableau-api business-intelligence amazon-emr data-lake

2018-09-22T17:33:50.803

0 投票

1 回答

521 浏览

amazon-web-services - 将数据从 Aurora 流式传输到用于 Data Lake 的 S3

我正在尝试使用 S3 创建一个数据湖，其中数据来自 Aurora，最终来自其他来源；但是，我在创建具有成本效益的解决方案时遇到了麻烦。
我一直在研究使用数据迁移服务 (DMS) 将数据从 Aurora流式传输到 S3。因为数据以csv格式
到达 S3 ：（1）初始加载：（column1，column2，column3，...）（2）数据变化：（D/U/I，column1，column2，column3， ...) [D: delete, U: update: I: insert] 我一直在尝试转换数据，以使 S3 存储桶仅包含没有前缀 D/U/I 的数据。

为了执行这种转换，我想到了使用以下模型：

Aurora -> Dirty S3 Bucket -> Curated S3 Bucket -> Athena 从Curated S3 Bucket查询

Dirty S3 Bucket 包含(column1, column2, column3, ...)和(D/U/I, column1, column2, column3, ...)格式的数据。当新数据到达此存储桶时，会发送一条 SNS 消息，并且 lambda 函数应读取新到达的文件，转换数据，并将其放入Curated S3 Bucket中，其中Curated S3 Bucket仅包含格式为(第 1 列，第 2 列，第 3 列，...）。

假设来自 Aurora 的所有数据都有created_at和updated_at列，我想到了：

根据 /year/month/day/hour 对 S3 中的数据进行分区（使用created_at）：
- 但是，如果数据是根据/年/月/日/小时划分的，那么我认为成本会太高。
  - 这是基于以下假设：
    - 每天 40000 个请求（插入/更新/删除）
    - 0.05 GB 平均文件大小
    - 每 GB 0.01 USD（针对 S3 返回的数据）
    - 每 1,000 个请求（PUT、COPY 或 POST 请求）0.01 USD
    - 每 1000 个请求 0.001 USD（GET、SELECT 和所有其他请求）
  - 每天检索数据的成本 = 40000 rpd * 0.05 GB * 每 GB 0.01 USD = 20
  - 每天请求数据的成本 = 0.001 USD * (40000 rpd/1000) = .04
  - 总成本 = 每天 20.04

需要注意的是，这个计算只针对一个表；将有 5 个以上的表具有相似的费率。
因此，每月的费用将大于3,000 美元。

是否有一种更具成本效益的方式将数据从 aurora 流式传输到 s3？
还是我必须求助于获取 Aurora DB 的每日快照以降低成本？

amazon-web-services amazon-s3 streaming amazon-aurora data-lake

2018-10-01T17:09:08.217

问题标签 [data-lake]

Reference