python-2.7 - 如何使用 spark 在 AWS 集群上训练 doc2vec

Question

我正在使用 python Gensim 来训练 doc2vec。是否有可能允许此代码在 AWS (s3) 上分发。先感谢您

score 1 · Accepted Answer

Gensim 的 Doc2Vec 并非旨在将训练分布在多台机器上。调整其最初的批量培训来做到这一点将是一个重要而复杂的项目。

您确定您的数据集和目标需要这样的分布吗？您可以在具有多核和 128GB+ RAM 的单台机器上完成很多工作。

请注意，您还可以在较小的代表性数据集上训练 Doc2Vec 模型，然后.infer_vector()在冻结模型上使用其方法来计算任意数量的附加文本的 doc-vectors。那些冻结的模型可以在多台机器上旋转——允许任意分布的文档向量计算。（这比分发初始培训要容易得多。）

1 回答 1