问题标签 [doc2vec]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

521 问题

0 投票

4 回答

40018 浏览

python - 如何将 Gensim doc2vec 与预训练的词向量一起使用？

我最近遇到了对 Gensim 的 doc2vec 补充。如何在 doc2vec 中使用预训练的词向量（例如在 word2vec 原始网站中找到的）？

还是 doc2vec 从它用于段落向量训练的相同句子中获取词向量？

谢谢。

python nlp gensim word2vec doc2vec

2014-12-14T15:13:43.283

0 投票

1 回答

2548 浏览

python - 如何在 gensim 中加载预训练模型并用它训练 doc2vec？

我正在准备一个我已经训练过的 word2vec 模型。我已将其序列化为 CSV 文件：

我想知道的是如何加载该词向量模型gensim并使用它来训练段落或 doc2vec 模型。

这个Doc2Vec 教程说我可以以“”的形式加载模型，# C text format但我不知道这实际上意味着什么。首先是什么是“C 文本格式”，但更重要的是：

如何加载我的 word2vec 模型并将其用于 doc2vec 培训？

如何从我的 word2vec 模型构建词汇表？

python gensim word2vec doc2vec

2016-04-23T18:52:33.087

0 投票

1 回答

418 浏览

classification - 获取 doc2vec 中未见段落的段落表示

我想使用 genism doc2vec 模型进行分类任务。但是，似乎 doc2vec 的 gensim 实现需要在训练模型之前查看所有文档（训练和测试）以构建词汇表。否则，如果您想获取构建词汇表时不存在的文档的文档向量，则会出现 keyerror。我想知道我的理解是否正确！在实践中，人们在训练时无法访问测试数据。

有没有办法在测试时更新词汇表以便能够获得测试文档的文档表示？

classification gensim doc2vec

2016-04-30T18:05:48.730

0 投票

2 回答

7983 浏览

gensim - 如何从 gensim Doc2Vec 中获取词向量？

我训练了一个 gensim.models.doc2vec.Doc2Vec 模型
d2v_model = Doc2Vec(sentences, size=100, window=8, min_count=5, workers=4) 我可以通过 docvec = d2v_model.docvecs[0] 获取文档向量

如何从训练有素的模型中获取词向量？

gensim word2vec doc2vec

2016-05-19T23:49:10.050

0 投票

1 回答

471 浏览

python - numpy 数组在词向量上的分组和聚合问题

我的熊猫数据框看起来像这样：

我正在尝试运行 doc2vec 实现，我希望能够按电影 id 进行分组，并获取 wordEmbeddingVector 中向量的总和，并计算求和向量与我尝试做的输入向量之间的余弦相似度

但它似乎运行了很长时间，我认为我可能做错了什么。所以我试图删除相似度函数，只进行分组和求和。但这似乎也没有完成（现在1小时以上）我做错了什么还是真的那么慢？我的数据框中有 135392 行，所以它不是很大。

非常感激！

python pandas machine-learning word2vec doc2vec

2016-06-02T18:33:28.037

0 投票

1 回答

4673 浏览

python - 如何从 gensim 0.11.1 中的 Doc2Vec 获取文档向量？

有没有办法在 gensim 0.11.1 版本中从 Doc2Vec 获取未见和已见文档的文档向量？

例如，假设我在 1000,000 上训练模型 - 我可以获得这 1000 个文档的文档向量吗？
有没有办法获得由
相同词汇表组成的看不见文档的文档向量？

python gensim word2vec doc2vec

2016-06-11T12:45:03.697

0 投票

1 回答

631 浏览

gensim - gensim doc2vec中的size参数代表什么

在doc2vec函数中，有一个参数叫做size.

我知道，size是输出向量的维度，如果size=400它比 if 更好地捕获内容size=100。

但是，我不明白，size代表什么？这是否意味着 Doc2Vec 将从一个单词中查找多远，以预测下一个单词？或者是什么意思？

非常感谢，

gensim doc2vec

2016-06-16T14:18:52.840

0 投票

0 回答

268 浏览

python - 什么是文档向量，Doc2Vec 中的段落 id

我正在阅读一篇关于 doc2vec 的论文。但我真的不明白什么是段落 id 以及它是如何训练的......

我试图用 gensim 包实现情感分析任务并成功，但不知道它是如何工作的......

论文说 Document 向量的训练就像另一个词一样。但它是如何处理的？是和word2vec训练同时训练的吗？如果它被视为一个单词，它如何包含段落的信息？什么是句子标签，最让我困惑的是矩阵 D ...

有人可以向我解释这个过程吗？我完全搞砸了...请帮助我...谢谢

python gensim doc2vec

2016-06-21T04:47:58.103

0 投票

0 回答

497 浏览

python - 有什么方法可以验证 Doc2Vec/Word2Vec 深度学习模型的性能？

我正在使用 Doc2Vec 和 Word2Vec 深度学习算法（来自 Gensim 的 Doc2Vec API 描述）。更多描述在这里

目前我对使用model.n_similarity(wordSet1, wordSet2)基本上计算两组单词之间的余弦相似度的方法感兴趣。

我对验证模型性能的任何方式都感兴趣，不仅在n_similiarity()功能上，而且在总体上模型可以提供多么准确或真实的结果。由于它执行深度学习，我不知道是否有任何方法可以知道它的性能如何。

是否有任何我应该查找然后使用的技术，或者是否有一个有结果的数据集我应该比较？

任何建议都非常感谢。谢谢你。

python deep-learning gensim word2vec doc2vec

2016-06-27T20:05:11.993

0 投票

2 回答

1018 浏览

python - Gensim Doc2Vec - 将语料库句子传递给 Doc2Vec 函数

我使用MySentences该类从目录中的所有文件中提取句子，并使用这些句子来训练word2vec模型。我的数据集未标记。

现在我想用那个类来制作一个doc2vec模型。我阅读了 Doc2Vec参考页。Doc2Vec()函数获取句子作为参数，但它不接受上述句子变量并返回错误：

问题是什么？该参数的正确类型是什么？

更新：

我认为，未标记的数据是问题所在。似乎 doc2vec 需要标记数据。

python text-mining gensim word2vec doc2vec

2016-07-07T12:41:04.863

1 2 3 4 5 6 7 8 9 10