1

我刚刚开始使用 Data Lake,目前正在尝试找出真正的工作流程步骤以及如何使整个过程自动化。假设我有一些文件作为输入,我想处理它们并下载输出文件,以便推送到我的数据仓库或/和 SSAS。

我找到了非常可爱的API,一切都很好,但我找不到一种方法来获取目录中的所有文件名以进一步下载它们。

请纠正我对工作流程的想法。有没有另一种更优雅的方式来自动将所有处理过的数据(输出)放入存储(如传统的 SQL Server、SSAS、数据仓库等)?

如果您有基于 Data Lake 的有效解决方案,请用几句话描述工作流程(从“原始”文件到最终用户的报告)。

这是我的 NET Core 应用程序示例

using Microsoft.Azure.DataLake.Store;
using Microsoft.IdentityModel.Clients.ActiveDirectory;
using Microsoft.Rest.Azure.Authentication;

            var creds = new ClientCredential(ApplicationId, Secret);
            var clientCreds = ApplicationTokenProvider.LoginSilentAsync(Tenant, creds).GetAwaiter().GetResult();
            var client = AdlsClient.CreateClient("myfirstdatalakeservice.azuredatalakestore.net", clientCreds);
            var result = client.GetDirectoryEntry("/mynewfolder", UserGroupRepresentation.ObjectID);
4

1 回答 1

1

假设我有一些文件作为输入,我想处理它们并下载输出文件,以便推送到我的数据仓库或/和 SSAS。

如果要将 azure datalake 中的文件夹中的文件下载到本地路径,可以使用以下代码来执行此操作。

client.BulkDownload("/mynewfolder", @"D:\Tom\xx"); //local path

但根据我的理解,您可以使用azure datafactory将数据从 datalake 存储推送到 azure 存储 blob 或 azure 文件存储。

于 2018-05-03T05:22:45.420 回答