问题标签 [tf-idf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 使用 HBase 作为数据源计算文档的 TF-IDF
我想计算存储在 HBase 中的文档的 TF(词频)和 IDF(逆文档频率)。
我还想将计算的 TF 保存在 HBase 表中,还将计算的 IDF 保存在另一个 HBase 表中。
你能指导我通过吗?
我已经看过了BayesTfIdfDriver
,Mahout 0.4
但我没有开始。
normalization - 标准化 TF-IDF 结果
我想规范化我从这个给定代码中得到的 tfidf 结果:
此代码的输出是:
任何帮助将非常感激。谢谢你
normalization - 如何用标准化的 TF-IDF 做 K-means
我想在这里得到一些指导。我一直在尝试为我的项目标准化 TF-IDF 结果。所以,我在想TF-IDF 之后的下一步是什么?我想对那些标准化的 TF-IDF 进行 k-means 聚类,但现在是时候了吗?在此之前,我使用 Lucene 创建了索引,如果可能的话,我不想使用 Mahout,因为我使用的是 Windows(也不想使用 cygwin)。
关于用这些 lucene-ed 和 tf-idf-ed 结果做什么(以及如何)做 k-means的任何建议?我在这里迷路了..
nlp - Smalltalk 和 tf-idf 算法
任何人都可以在 Smalltalk 中展示用于自然语言处理的 tf-idf 算法的简单实现或使用示例吗?我在一个名为NaturalSmalltalk的包中找到了一个实现,但它似乎对我的需要来说太复杂了。Python 中的一个简单实现就是这样。
我注意到Hapax中还有另一个 tf-idf ,但它似乎与软件系统词汇分析有关,我没有找到如何使用它的示例。
python - 用 nltk 实现 idf
给定句子:“the quick brown fox jumped over the lazy dog”,我想得到一个 nltk 语料库中每个单词的频率得分(哪个语料库是最通用/最全面的)
编辑:
这个问题与这个问题有关:python nltk keyword extract from sentence where @adi92 建议使用 idf 的技术来计算单词的“稀有度”。我想看看这在实践中会是什么样子。这里更广泛的问题是,你如何计算一个单词在英语中的稀有度。我很欣赏这是一个很难解决的问题,但是 nltk idf (使用诸如 brown 或 reuters 语料库之类的东西??)可能会让我们成为其中的一部分?
elasticsearch - 让 ElasticSearch 对结果中的总嵌套命中数(idf?)得分高于单次命中的 tf?
如果我正在修改术语,请原谅我,但我在让 ES 以对我的应用程序有意义的方式对结果进行评分时遇到问题。
我正在用几个简单的字段索引数千个用户,以及嵌套在每个用户的索引中的可能数百个子对象(即Book --> Pages数据模型)。发送到索引的 JSON 如下所示:
标签是类型“标签”,使用“关键字”分析器,并提升了 10。标题没有提升。
当我搜索“狗”时,第一个用户的分数高于第二个用户。我认为这与第一个用户的 tf-idf 更高有关。然而,在我的应用程序中,理想情况下,用户发布的帖子越多,该术语就会排在第一位。
我尝试按帖子数量排序,但如果用户有很多帖子,这会产生垃圾结果。基本上我想按唯一帖子点击的数量进行排序,这样拥有更多点击帖子的用户将上升到顶部。
我将如何去做这件事。有任何想法吗?
python - TF-IDF 简单使用 - NLTK/Scikit 学习
好的,所以我有点困惑。然而,这应该是一个简单直接的问题。
在针对整个语料库计算文档的 TF-IDF 矩阵后,我得到了与此非常相似的结果:
如何使用此结果来获取与搜索查询最相似的文档?基本上我正在尝试为维基百科重新创建一个搜索栏。基于搜索查询,我想从 Wikipedia 返回最相关的文章。在这种情况下,有 6 篇文章(行),搜索查询包含 3 个词(列)。
我是将列中的所有结果相加还是将所有行相加?较大的值是最相关的还是最低的值是最相关的?
python - 用于搜索查询的 TF*IDF
好的,所以我一直在关注 TF*IDF 上的这两个帖子,但有点困惑:http ://css.dzone.com/articles/machine-learning-text-feature
基本上,我想创建一个搜索查询,其中包含对多个文档的搜索。我想使用 scikit-learn 工具包以及 Python 的 NLTK 库
问题是我看不到这两个 TF*IDF 向量来自哪里。我需要一个搜索查询和多个文档来搜索。我想我会针对每个查询计算每个文档的 TF*IDF 分数,并找到它们之间的余弦相似度,然后通过按降序对分数进行排序来对它们进行排名。但是,代码似乎没有提出正确的向量。
每当我将查询减少到只有一次搜索时,它就会返回一个巨大的 0 列表,这真的很奇怪。
这是代码:
machine-learning - 计算文档分类的 IDF(逆文档频率)
我对在文档分类中计算 IDF(逆文档频率)有疑问。我有不止一个类别,其中包含多个用于培训的文档。我正在使用以下公式计算文档中每个术语的 IDF:
我的问题是:
- “语料库中的文档总数”是什么意思?文档是来自当前类别还是来自所有可用类别?
- “文档匹配项的数量”是什么意思?匹配文档的术语是来自当前类别还是来自所有可用类别?
python - Python:tf-idf-cosine:查找文档相似度
我正在关注第 1部分和第 2部分中提供的教程。不幸的是,作者没有时间在最后一节中使用余弦相似度来实际找到两个文档之间的距离。我在stackoverflow的以下链接的帮助下遵循了文章中的示例,包括上面链接中提到的代码(只是为了让生活更轻松)
由于上面的代码,我有以下矩阵
我不确定如何使用此输出来计算余弦相似度,我知道如何针对两个长度相似的向量实现余弦相似度,但在这里我不确定如何识别这两个向量。