1

我试图通过相关性在数据库中找到类似的文章。

所以我将文本拆分为单词数组,然后删除常用词(文章、代词等),然后将两个文本与皮尔逊系数函数进行比较。对于某些文本,它是有效的,但对于其他文本,它不是那么好(大文本的文本具有更高的系数)。

有人可以建议一个找到相关文本的好方法吗?

4

2 回答 2

0

您提到的一些问题归结为对文档长度和整体词频进行规范化。尝试tf-idf

于 2011-04-30T14:45:54.473 回答
0

首先,您需要指定相似性的确切含义以及两个文档(更多/更少)相似的时间。

如果您正在寻找的相似性是字面的,那么我将使用术语频率对文档进行矢量化,并使用余弦相似性将它们相互比较,因为文本本质上是定向数据。tf-idf对数熵加权方案可能会根据您的用例进行测试。长文本的编辑距离效率低下。

如果你更关心语义,词嵌入是你的盟友。

于 2020-10-27T15:20:25.017 回答