我正在为网站开发自定义搜索功能。我很好奇是否仅使用 tf-idf 对我的语料库中的文档进行排名也有助于权衡具有多个搜索词的文档高于仅具有一个搜索词的文档。
示例:Search = "poland spring water" 从理论上讲,如果文档包含 100 次“波兰”和 0 次“水”,则上述查询的权重(使用传统的 tf-idf)是否会更高。或者,如果文件包含 10 倍的“波兰”和 10 倍的“水”,它会更重吗?
我知道这完全取决于“波兰”和“水”的 tf-idf 值,但理论上是在一个公平的竞争环境中,如果在文件,或者它真的是独立的?