text - 查找相关文本（两个文本之间的相关性）

Question

我试图通过相关性在数据库中找到类似的文章。

所以我将文本拆分为单词数组，然后删除常用词（文章、代词等），然后将两个文本与皮尔逊系数函数进行比较。对于某些文本，它是有效的，但对于其他文本，它不是那么好（大文本的文本具有更高的系数）。

有人可以建议一个找到相关文本的好方法吗？

score 0 · Accepted Answer

0

您提到的一些问题归结为对文档长度和整体词频进行规范化。尝试tf-idf。

于 2011-04-30T14:45:54.473 回答

score 0 · Accepted Answer

首先，您需要指定相似性的确切含义以及两个文档（更多/更少）相似的时间。

如果您正在寻找的相似性是字面的，那么我将使用术语频率对文档进行矢量化，并使用余弦相似性将它们相互比较，因为文本本质上是定向数据。tf-idf和对数熵加权方案可能会根据您的用例进行测试。长文本的编辑距离效率低下。

如果你更关心语义，词嵌入是你的盟友。

2 回答 2