问题标签 [tf-idf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1263 问题

0 投票

1 回答

705 浏览

tf-idf - 余弦相似度问题

我已经计算了文档 1 和文档 2 的术语的 tf-idf 值..现在我不知道如何使用这些 tf-idf 值...基本上我想找到两个文档之间的相似性（在我的例子中是网页）。 . 任何人都可以告诉如何实现余弦相似度，jaccard 系数来找到相似度...c# 代码将不胜感激..请帮助...谢谢

tf-idf

2010-05-16T17:04:04.000

0 投票

1 回答

1371 浏览

similarity - 关于余弦相似度

我发现文档之间的余弦相似度..我是这样做的

D1=(8,0,0,1) 其中 8,0,0,1 是术语 t1, t2, t3 , t4 的 tf-idf 分数

D2=(7,0,0,1)

cos(theta) = (56 + 0 + 0 + 1) / sqrt(64 + 49) sqrt(1 +1)

结果是

余弦（θ）= 5

现在我从这个值评估什么...我不明白 cos(theta)=5 意味着它们之间的相似性...我做对了吗？

2010-05-18T18:33:36.777

0 投票

2 回答

1580 浏览

frequency - 词频计算

我需要计算文档中术语的术语频率……我所做的只是“计算该术语在该文档中出现的次数”……如果该术语出现了 138 次，我将 tf 值设为 138 ....mi 做对了..?? 当我在某处读到术语频率（tf）=术语计数/文档中的单词数...如果这是真的我如何计算文档中的单词数..是一些正则表达式吗？？？

请回复..谢谢你

frequency term tf-idf

2010-05-20T17:49:47.400

0 投票

3 回答

2765 浏览

java - 创建数据集：从文本文档中提取特征 (TF-IDF)

我必须从一些文本文件创建一个数据集，将它们写为特征向量。

像这样的东西：

向量的每个位置代表一个词，分数由 TF-IDF 之类的东西给出。

你知道一些图书馆/工具/什么吗？（java更好）

java information-retrieval feature-extraction tf-idf

2010-05-27T13:27:49.420

0 投票

1 回答

1914 浏览

machine-learning - Ngram IDF 平滑

我正在尝试使用 IDF 分数在我非常庞大的文档语料库中找到有趣的短语。
我基本上需要像亚马逊的统计上不可能的短语，即区分文档与所有其他文档的短语
我遇到的问题是我的数据中的一些 (3,4)-grams 具有超高 idf 实际上由组件组成idf 非常低的 unigrams 和 bigrams。
例如，“你从未尝试过”的 idf 非常高，而每个组件 unigrams 的 idf 都非常低。
我需要想出一个可以接受的函数记录一个 n-gram 及其所有组件 (nk)-grams 的频率，并返回一个更有意义的度量，即该短语将在多大程度上区分父文档与其他文档。
如果我正在处理概率，我会尝试插值或退避模型。我不确定这些模型利用哪些假设/直觉来表现良好，以及它们对 IDF 分数的效果如何。
有人有更好的想法吗？

machine-learning nlp information-retrieval tf-idf

2010-06-10T18:47:58.680

0 投票

3 回答

23314 浏览