我正在开发一些旨在通过执行 TF-IDF 来唯一识别网页的软件(与一般英语语料库比较以删除常用词)。花了一段时间才找到一个好的免费语料库(http://www.wordfrequency.info/top5000.asp),然而,这个语料库只提供频率和离散度。它没有说明语料库中包含多少文档,所以我无法计算出 IDF 表。它确实包含一个离散值,范围为 0-1,其中 1 表示每个文档中都出现了一个单词。有谁知道(或能想出)一种使用这些数据实现类似 IDF 表的方法?此外,如果有人知道包含我需要的信息的免费语料库,我们将不胜感激。谢谢