我刚刚开始使用 Data Lake,目前正在尝试找出真正的工作流程步骤以及如何使整个过程自动化。假设我有一些文件作为输入,我想处理它们并下载输出文件,以便推送到我的数据仓库或/和 SSAS。
我找到了非常可爱的API,一切都很好,但我找不到一种方法来获取目录中的所有文件名以进一步下载它们。
请纠正我对工作流程的想法。有没有另一种更优雅的方式来自动将所有处理过的数据(输出)放入存储(如传统的 SQL Server、SSAS、数据仓库等)?
如果您有基于 Data Lake 的有效解决方案,请用几句话描述工作流程(从“原始”文件到最终用户的报告)。
这是我的 NET Core 应用程序示例
using Microsoft.Azure.DataLake.Store;
using Microsoft.IdentityModel.Clients.ActiveDirectory;
using Microsoft.Rest.Azure.Authentication;
var creds = new ClientCredential(ApplicationId, Secret);
var clientCreds = ApplicationTokenProvider.LoginSilentAsync(Tenant, creds).GetAwaiter().GetResult();
var client = AdlsClient.CreateClient("myfirstdatalakeservice.azuredatalakestore.net", clientCreds);
var result = client.GetDirectoryEntry("/mynewfolder", UserGroupRepresentation.ObjectID);