javascript - TF-IDF语料库是否可以使用分散

Question

我正在开发一些旨在通过执行 TF-IDF 来唯一识别网页的软件（与一般英语语料库比较以删除常用词）。花了一段时间才找到一个好的免费语料库（http://www.wordfrequency.info/top5000.asp），然而，这个语料库只提供频率和离散度。它没有说明语料库中包含多少文档，所以我无法计算出 IDF 表。它确实包含一个离散值，范围为 0-1，其中 1 表示每个文档中都出现了一个单词。有谁知道（或能想出）一种使用这些数据实现类似 IDF 表的方法？此外，如果有人知道包含我需要的信息的免费语料库，我们将不胜感激。谢谢

score 4 · Accepted Answer

IDF = log (Total Documents in Corpus/Total Documents containing the term)

如果分散度是包含术语的文档的一部分，则：log (1/dispersion)将是 IDF

javascript - TF-IDF语料库是否可以使用分散

1 回答 1

Related

Reference