问题标签 [doc2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
40018 浏览

python - 如何将 Gensim doc2vec 与预训练的词向量一起使用?

我最近遇到了对 Gensim 的 doc2vec 补充。如何在 doc2vec 中使用预训练的词向量(例如在 word2vec 原始网站中找到的)?

还是 doc2vec 从它用于段落向量训练的相同句子中获取词向量?

谢谢。

0 投票
1 回答
2548 浏览

python - 如何在 gensim 中加载预训练模型并用它训练 doc2vec?

我正在准备一个我已经训练过的 word2vec 模型。我已将其序列化为 CSV 文件:

我想知道的是如何加载该词向量模型gensim并使用它来训练段落或 doc2vec 模型。

这个Doc2Vec 教程说我可以以“”的形式加载模型,# C text format但我不知道这实际上意味着什么。首先是什么是“C 文本格式”,但更重要的是:

  • 如何加载我的 word2vec 模型并将其用于 doc2vec 培训?

如何从我的 word2vec 模型构建词汇表?

0 投票
1 回答
418 浏览

classification - 获取 doc2vec 中未见段落的段落表示

我想使用 genism doc2vec 模型进行分类任务。但是,似乎 doc2vec 的 gensim 实现需要在训练模型之前查看所有文档(训练和测试)以构建词汇表。否则,如果您想获取构建词汇表时不存在的文档的文档向量,则会出现 keyerror。我想知道我的理解是否正确!在实践中,人们在训练时无法访问测试数据。

有没有办法在测试时更新词汇表以便能够获得测试文档的文档表示?

0 投票
2 回答
7983 浏览

gensim - 如何从 gensim Doc2Vec 中获取词向量?

我训练了一个 gensim.models.doc2vec.Doc2Vec 模型
d2v_model = Doc2Vec(sentences, size=100, window=8, min_count=5, workers=4) 我可以通过 docvec = d2v_model.docvecs[0] 获取文档向量

如何从训练有素的模型中获取词向量?

0 投票
1 回答
471 浏览

python - numpy 数组在词向量上的分组和聚合问题

我的熊猫数据框看起来像这样:

我正在尝试运行 doc2vec 实现,我希望能够按电影 id 进行分组,并获取 wordEmbeddingVector 中向量的总和,并计算求和向量与我尝试做的输入向量之间的余弦相似度

但它似乎运行了很长时间,我认为我可能做错了什么。所以我试图删除相似度函数,只进行分组和求和。但这似乎也没有完成(现在1小时以上)我做错了什么还是真的那么慢?我的数据框中有 135392 行,所以它不是很大。

非常感激!

0 投票
1 回答
4673 浏览

python - 如何从 gensim 0.11.1 中的 Doc2Vec 获取文档向量?

有没有办法在 gensim 0.11.1 版本中从 Doc2Vec 获取未见和已见文档的文档向量?

  • 例如,假设我在 1000,000 上训练模型 - 我可以获得这 1000 个文档的文档向量吗?

  • 有没有办法获得由
    相同词汇表组成的看不见文档的文档向量?

0 投票
1 回答
631 浏览

gensim - gensim doc2vec中的size参数代表什么

doc2vec函数中,有一个参数叫做size.

我知道,size是输出向量的维度,如果size=400它比 if 更好地捕获内容size=100

但是,我不明白,size代表什么?这是否意味着 Doc2Vec 将从一个单词中查找多远,以预测下一个单词?或者是什么意思?

非常感谢,

0 投票
0 回答
268 浏览

python - 什么是文档向量,Doc2Vec 中的段落 id

我正在阅读一篇关于 doc2vec 的论文。但我真的不明白什么是段落 id 以及它是如何训练的......

我试图用 gensim 包实现情感分析任务并成功,但不知道它是如何工作的......

论文说 Document 向量的训练就像另一个词一样。但它是如何处理的?是和word2vec训练同时训练的吗?如果它被视为一个单词,它如何包含段落的信息?什么是句子标签,最让我困惑的是矩阵 D ...

有人可以向我解释这个过程吗?我完全搞砸了...请帮助我...谢谢

0 投票
0 回答
497 浏览

python - 有什么方法可以验证 Doc2Vec/Word2Vec 深度学习模型的性能?

我正在使用 Doc2Vec 和 Word2Vec 深度学习算法(来自 Gensim 的 Doc2Vec API 描述)。更多描述在这里

目前我对使用model.n_similarity(wordSet1, wordSet2)基本上计算两组单词之间的余弦相似度的方法感兴趣。

我对验证模型性能的任何方式都感兴趣,不仅在n_similiarity()功能上,而且在总体上模型可以提供多么准确或真实的结果。由于它执行深度学习,我不知道是否有任何方法可以知道它的性能如何。

是否有任何我应该查找然后使用的技术,或者是否有一个有结果的数据集我应该比较?

任何建议都非常感谢。谢谢你。

0 投票
2 回答
1018 浏览

python - Gensim Doc2Vec - 将语料库句子传递给 Doc2Vec 函数

我使用MySentences该类从目录中的所有文件中提取句子,并使用这些句子来训练word2vec模型。我的数据集未标记。

现在我想用那个类来制作一个doc2vec模型。我阅读了 Doc2Vec参考页。Doc2Vec()函数获取句子作为参数,但它不接受上述句子变量并返回错误:

问题是什么?该参数的正确类型是什么?

更新 :

我认为,未标记的数据是问题所在。似乎 doc2vec 需要标记数据。