问题标签 [data-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
323 浏览

azure - U-SQL 在标量表达式中比较行集数据

我浏览了一些无法进行转换的文章,但是我遇到了一个问题,即在行集中获取值并且需要在标量表达式中使用。

ColumnA 是一个字符串值,ColumnB 是一个 Int..

这在 ADLA 中失败,出现问题行集变量 @RequiredData 不是标量变量。

0 投票
1 回答
42 浏览

amazon-web-services - AWS Data Lake 解决方案 Cloud Formation 模板中的访问 IP 参数是什么?

我是 AWS 的新手,我正在尝试按照以下步骤在 AWS 上部署模型数据湖解决方案:https ://docs.aws.amazon.com/solutions/latest/data-lake-solution/deployment.html

要部署云形成模板,它需要一个访问 IP 地址。这里需要的 IP 地址是什么?是我用来连接 AWS 的机器的 IP 地址吗?我正在通过 DHCP 网络连接,因此下次连接到网络时 IP 地址会发生变化。

感谢有人可以澄清这一点。

0 投票
1 回答
442 浏览

c# - Azure 数据湖:如何获取已处理的文件

我刚刚开始使用 Data Lake,目前正在尝试找出真正的工作流程步骤以及如何使整个过程自动化。假设我有一些文件作为输入,我想处理它们并下载输出文件,以便推送到我的数据仓库或/和 SSAS。

我找到了非常可爱的API,一切都很好,但我找不到一种方法来获取目录中的所有文件名以进一步下载它们。

请纠正我对工作流程的想法。有没有另一种更优雅的方式来自动将所有处理过的数据(输出)放入存储(如传统的 SQL Server、SSAS、数据仓库等)?

如果您有基于 Data Lake 的有效解决方案,请用几句话描述工作流程(从“原始”文件到最终用户的报告)。

这是我的 NET Core 应用程序示例


0 投票
1 回答
51 浏览

azure-data-lake - 在 Azure Data Lake Store 上获取一些没有任何扩展名的额外文件

我正在使用 Azure 数据湖存储进行文件存储。我正在使用类似的操作

  • 创建主文件
  • 创建零件文件
  • 将这些部分文件附加到主文件(用于并发附加)

例子:

  • 有主日志文件(最终将包含所有程序的日志)
  • 每个程序单独创建部分日志文件,然后附加到主日志文件

工作流运行真正的文件,但我注意到一些未知文件被上传到商店目录。这些文件名是一个没有扩展名的 GUID,而且这些未知文件是空的。

有谁知道这些额外文件可能是什么原因。

0 投票
1 回答
612 浏览

json - 如何在 Azure Data Lake Analytics 上下文中分别使用 JSON 文件格式 usql

我有一个看起来像的 JSON 输入

如何在 Azure Datalake Analytics usql 脚本中sessionId提取deviceId和的值?MessageId

0 投票
1 回答
64 浏览

c# - 如何使用 .NET SDK 背后的代码执行 U-SQL 作业

我有一个 U-SQL 作业,它在后面的代码中使用自定义提取器。我需要从 C# 代码按需运行它。

我找到了一种通过像字符串一样传递脚本来提交作业的方法。我可以使用自定义提取器以某种方式执行脚本吗?

0 投票
1 回答
3654 浏览

sql - 数据湖如何存储数据以及采用什么格式?

我听说 Data Lakes 可以存储任何类型的数据:关系、NoSql、图片/图像、Adobe Pdf、Excel。数据是如何存储的,以 No-SQL 格式还是二叉树?或者它只是像普通硬盘一样保存它?如果是这样,他们为什么不把它叫做存储而不是数据湖呢?我正在尝试找到“数据湖”的确切存储机制

0 投票
4 回答
4172 浏览

bigdata - 数据湖和大数据是一样的吗?

如果您检查概念,我试图了解数据湖和大数据之间是否存在真正的差异还是数据湖?

提前致谢

0 投票
1 回答
171 浏览

hive - 多个 Tableau 用户连接到 Hive LLAP

我希望允许许多 Tableau 用户通过 Hive LLAP 访问数据进行交互式查询。到目前为止结果令人失望......我应该期望这个设置对我有用还是应该使用不同的后端?

0 投票
1 回答
521 浏览

amazon-web-services - 将数据从 Aurora 流式传输到用于 Data Lake 的 S3

我正在尝试使用 S3 创建一个数据湖,其中数据来自 Aurora,最终来自其他来源;但是,我在创建具有成本效益的解决方案时遇到了麻烦。
我一直在研究使用数据迁移服务 (DMS) 将数据从 Aurora流式传输到 S3。因为数据以csv格式
到达 S3 : (1)初始加载:(column1,column2,column3,...) (2)数据变化:(D/U/I,column1,column2,column3, ...) [D: delete, U: update: I: insert] 我一直在尝试转换数据,以使 S3 存储桶仅包含没有前缀 D/U/I 的数据。



为了执行这种转换,我想到了使用以下模型:

Aurora -> Dirty S3 Bucket -> Curated S3 Bucket -> Athena 从Curated S3 Bucket查询

Dirty S3 Bucket 包含(column1, column2, column3, ...)(D/U/I, column1, column2, column3, ...)格式的数据。当新数据到达此存储桶时,会发送一条 SNS 消息,并且 lambda 函数应读取新到达的文件,转换数据,并将其放入Curated S3 Bucket中,其中Curated S3 Bucket仅包含格式为(第 1 列,第 2 列,第 3 列,...)

假设来自 Aurora 的所有数据都有created_atupdated_at列,我想到了:

  • 根据 /year/month/day/hour 对 S3 中的数据进行分区(使用created_at):
    • 但是,如果数据是根据/年/月/日/小时划分的,那么我认为成本会太高。
      • 这是基于以下假设:
        • 每天 40000 个请求(插入/更新/删除)
        • 0.05 GB 平均文件大小
        • 每 GB 0.01 USD(针对 S3 返回的数据)
        • 每 1,000 个请求(PUT、COPY 或 POST 请求)0.01 USD
        • 每 1000 个请求 0.001 USD(GET、SELECT 和所有其他请求)
      • 每天检索数据的成本 = 40000 rpd * 0.05 GB * 每 GB 0.01 USD = 20
      • 每天请求数据的成本 = 0.001 USD * (40000 rpd/1000) = .04
      • 总成本 = 每天 20.04

需要注意的是,这个计算只针对一个表;将有 5 个以上的表具有相似的费率。
因此,每月的费用将大于3,000 美元

是否有一种更具成本效益的方式将数据从 aurora 流式传输到 s3?
还是我必须求助于获取 Aurora DB 的每日快照以降低成本?