1

我想保持 Windows azure hdinsight 集群始终运行,以便我可以定期从我的主数据存储(即 mongodb)写入更新,并让它按需处理 map-reduce 作业。

如何通过 hdinsight 服务定期同步来自 mongodb 的数据?我试图不必在任何时候提交新查询时都上传所有数据,而是让它以某种方式预热

在 hdinsight 上可能吗?hadoop甚至可以吗?谢谢,

4

1 回答 1

1

当然可以将数据从 Mongo 推送到 Hadoop。

不幸的是,HDInsight 还不支持 HBase,否则您可以使用ZeroWing 之类的东西,它是 Stripe 的一个解决方案,它读取 Mongo 用于复制的 MongoDB Op 日志,然后将其写入 HBase。

另一种解决方案可能是将 Mongo 中的文档写入 Azure Blob 存储,这意味着您不必一直启动集群,但可以使用它对存储库。

最好的方法无疑是使用 Mongo Hadoop 连接器。这可以安装在 HDInsight 中,但是有点繁琐。我在这里写了一个方法。

于 2013-12-19T22:39:01.547 回答