我想保持 Windows azure hdinsight 集群始终运行,以便我可以定期从我的主数据存储(即 mongodb)写入更新,并让它按需处理 map-reduce 作业。
如何通过 hdinsight 服务定期同步来自 mongodb 的数据?我试图不必在任何时候提交新查询时都上传所有数据,而是让它以某种方式预热。
在 hdinsight 上可能吗?hadoop甚至可以吗?谢谢,
我想保持 Windows azure hdinsight 集群始终运行,以便我可以定期从我的主数据存储(即 mongodb)写入更新,并让它按需处理 map-reduce 作业。
如何通过 hdinsight 服务定期同步来自 mongodb 的数据?我试图不必在任何时候提交新查询时都上传所有数据,而是让它以某种方式预热。
在 hdinsight 上可能吗?hadoop甚至可以吗?谢谢,
当然可以将数据从 Mongo 推送到 Hadoop。
不幸的是,HDInsight 还不支持 HBase,否则您可以使用ZeroWing 之类的东西,它是 Stripe 的一个解决方案,它读取 Mongo 用于复制的 MongoDB Op 日志,然后将其写入 HBase。
另一种解决方案可能是将 Mongo 中的文档写入 Azure Blob 存储,这意味着您不必一直启动集群,但可以使用它对存储库。
最好的方法无疑是使用 Mongo Hadoop 连接器。这可以安装在 HDInsight 中,但是有点繁琐。我在这里写了一个方法。