1

我正在尝试从 Konkani 语言的语料库中找出新概念。我已经在 1) 特定领域的语料库 2) 报纸语料库上训练了两个模型。

我已经使用 Gensim word2vec 来训练模型,但是我无法在向量空间中非常接近的情况下获得具有相似含义的术语。

结束词之间没有同义词的关系。它们的相似性就像一些随机单词一样好。

我究竟做错了什么?

4

1 回答 1

0

你的语料库有多大?

为了使您的训练向量有意义,您至少需要 1 亿个单词语料库(假设大约 1-2 百万个唯一单词)。

如果您使用负抽样而不是分层抽样,您可能会怀疑抽样方法,但我仍然认为小语料库是您的主要问题。

于 2017-03-21T04:33:50.957 回答