search - tf-idf：使用它是否有助于权衡共享条款的文档高于不共享条款的文档？

Question

我正在为网站开发自定义搜索功能。我很好奇是否仅使用 tf-idf 对我的语料库中的文档进行排名也有助于权衡具有多个搜索词的文档高于仅具有一个搜索词的文档。

示例：Search = "poland spring water" 从理论上讲，如果文档包含 100 次“波兰”和 0 次“水”，则上述查询的权重（使用传统的 tf-idf）是否会更高。或者，如果文件包含 10 倍的“波兰”和 10 倍的“水”，它会更重吗？

我知道这完全取决于“波兰”和“水”的 tf-idf 值，但理论上是在一个公平的竞争环境中，如果在文件，或者它真的是独立的？

score 1 · Accepted Answer

它是独立于术语的。请记住，tf-idf 加权方案将查询视为一个词袋，每个文档都被视为一个向量。对于上面的例子，考虑波兰的 tf 是 100，而它的 idf 在 doc x 中是 1。另外，考虑波兰的 tf 是 10，水的 tf 是 2 是 doc y。水的 idf 为 1。

文档 x 得分 = 100 文档 y 得分 = 12

doc x 排名更高，即使只有一个任期。

score 0 · Accepted Answer

其任期独立。取决于有多少文件包含波兰和多少文件包含水的比例。它那个比例。如果它的一半，则第二个文件获胜。如果比率为 100:1，则第一个文档获胜，因为该比率更类似于单词的文档内分布。

2 回答 2