3

我真的很难理解应该如何使用 Dynamo / ElasticSearch 来支持 AWS 数据湖工作(元数据 / 目录)。似乎您会在 Dynamo 中为您的源记录 zip 存档的各个 S3 位置,以及您希望在 ES 中搜索的任何其他元数据/属性。如果这是正确的,您将如何将两者结合使用来支持它。我试图找到有关如何将两者正确配对的更多详细信息,但没有成功。其他人拥有的任何信息/文档都会很棒。很有可能我忽略了一些明显的示例/文档。

我想象的是这样的:

  • 用户可以在 ES 中搜索指向匹配的高级 S3 存储桶/分区的元数据/属性。
  • DynamoDB 中的搜索将针对 ES 结果中的密钥部分(分区/存储桶)
  • 搜索很可能会产生许多单独的对象/键,然后可以对其进行处理、提取等。
4

1 回答 1

2

我与我们的一位 AWS 代表交谈,他向我推荐了这篇文章。这是一个很好的起点。AWS 数据湖。这似乎回答了我以前不清楚的关于组件和方法的用户的一些问题。

强调:

  • 实施数据湖的蓝图。结合 S3 / DynamoDB / ES 很常见。
  • 实现有很多变化。将 RDS 替换为 ES / DynamoDB,仅使用 ES 等。
  • 我们很可能会从 RDS 开始测试该过程,然后转向 DyanmoDB / ES。
于 2017-10-31T15:17:16.140 回答