问题标签 [pearson]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
8 回答
1587 浏览

python - Pearson Similarity Score,我该如何进一步优化?

我已经实现了 Pearson 的相似度分数,用于比较两个值的字典。这种方法花费的时间比其他任何地方都多(可能有数百万次调用),因此这显然是优化的关键方法。

即使是最轻微的优化也会对我的代码产生很大的影响,所以我热衷于探索即使是最小的改进。

这是我到目前为止所拥有的:

0 投票
2 回答
4646 浏览

algorithm - 确定 Pearson 哈希的完美哈希查找表

我正在开发一种编程语言,并且在我的编程语言中,我将对象存储为哈希表。我使用的散列函数是Pearson Hashing,它依赖于 256 位查找表。这是功能:

我的问题是,给定一个少于 256 个成员名称的固定组,如何确定一个lookup表以pearson()返回从'\0'. 换句话说,我需要一种算法来为完美的哈希创建查找表。这将允许我拥有不超过其成员数量的对象。这将在编译时完成,因此速度不是一个大问题,但更快会更好。蛮力这样做很容易,但我认为(希望)有更好的方法。

这是一个例子:给定一个类中的成员变量“foo”、“bar”和“baz”,我想确定一个lookup这样的:

请注意,顺序无关紧要,因此以下结果也是可以接受的:

在理想的世界中,所有不在表中的名称都会返回一个大于 2 的值,因为这可以让我避免检查,甚至可能避免存储成员名称,但我认为这是不可能的,所以我将不得不添加一个额外的检查以查看它是否在表中。鉴于此,不初始化查找表中未使用的值可能会节省时间(碰撞无关紧要,因为如果它发生碰撞并且检查失败,它根本不在对象中,所以碰撞不需要解决;只需要处理错误)。

0 投票
4 回答
678 浏览

python - “编程集体智能”中的这个 python 函数有什么问题?

这是有问题的功能。它计算 p1 和 p2 的 Pearson 相关系数,它应该是介于 -1 和 1 之间的数字。

当我将它与真实用户数据一起使用时,它有时会返回一个大于 1 的数字,如下例所示:

0 投票
4 回答
3112 浏览

python - 《编程集体智能》中的皮尔逊算法有什么问题?

0 投票
4 回答
3112 浏览

sparse-matrix - 协同过滤程序:当没有足够的数据时如何处理 Pearson 分数

我正在使用协同过滤构建推荐引擎。对于相似度得分,我使用 Pearson 相关性。大多数时候这很好,但有时我的用户只共享 1 或 2 个字段。例如:

由于这只有 2 个数据点,因此 Pearson 相关性始终为 1(直线或完美相关性)。这显然不是我想要的,那么我应该使用什么值呢?我可以像这样丢弃所有实例(给出 0 的相关性),但我的数据现在非常稀疏,我不想丢失任何东西。是否有任何相似性分数可以与我的其他相似性分数(所有 Pearson)相匹配?

0 投票
1 回答
256 浏览

java - 关于在java中计算皮尔逊相关性需要一些正确的方向

我正在尝试计算制表符分隔的文本文件中 13 个变量之间的 Pearsons 相关性,其中每一列都是一个变量。我正在使用 java,并希望有人能给我一些关于我应该使用哪些库或哪些函数的指导。我猜我首先需要读取文件的内容,但无法弄清楚如何从本质上使程序知道每一列都是一个像数组一样的数组,这将使我能够进行所需的计算。我原以为 java.io 包对我来说是最好的起点,但就是不知道我可以使用哪些类来解决我的问题。我还查看了http://commons.apache.org/math/它具有测量 pearsons 相关性的功能,但这太容易了,因为这是一个 Uni 作业,我必须从头开始实现它。通过查看 appache pearsons 相关性,他们似乎已经像矩阵一样处理问题,其中矩阵的每一列都是一个变量。

很抱歉对我的问题进行了冗长的描述。如果你们知道任何网站或任何好的关键字搜索或任何其他信息,我将不胜感激。谢谢,阿林德。

0 投票
2 回答
2777 浏览

matlab - 如何在 MATLAB 上用 Pearson 相关性替换缺失值

我在 MATLAB 中使用“corr”函数时遇到问题,

当我手动计算时,缺失值 (NaN) 是因为分母为零 (0)。虽然,我们可以看到第 3 列和第 4 列的相似度为 ONE(+1)。

有人知道如何增强或替换缺失值吗?

谢谢之前。

0 投票
2 回答
1733 浏览

text - 查找相关文本(两个文本之间的相关性)

我试图通过相关性在数据库中找到类似的文章。

所以我将文本拆分为单词数组,然后删除常用词(文章、代词等),然后将两个文本与皮尔逊系数函数进行比较。对于某些文本,它是有效的,但对于其他文本,它不是那么好(大文本的文本具有更高的系数)。

有人可以建议一个找到相关文本的好方法吗?

0 投票
2 回答
26705 浏览

matlab - Matlab中的皮尔逊系数和协方差计算

我想在 Matlab 中计算Pearson 的相关系数(不使用 Matlab 的corr函数)。

简单地说,我有两个向量 A 和 B(它们都是 1x100),我正在尝试计算皮尔逊系数,如下所示:

我正在使用 Matlab 的covstd函数。我没有得到的是, cov 函数返回给我一个像这样的方阵:

但我希望一个数字作为协方差,所以我可以得出一个 P(皮尔逊系数)数字。我错过了什么?

0 投票
1 回答
554 浏览

information-retrieval - 皮尔逊相关问题

我不确定在我试图解决涉及使用 Pearson 相关公式的问题中使用以下哪些数字。

“使用 Pearson 相关性和加权平均值来描述基于邻域的方法,以预测 Bob 是否会喜欢“F”。您的答案应该概述基于邻域的方法的主要步骤,并显示生成预测所需的步骤”

所以我想知道 Bob 是否会喜欢 F...(5=喜欢 1=不喜欢)我了解 Pearson 公式,但我不确定将 Bob 与哪个其他“用户”进行比较,或者我是否应该考虑所有用户的意见。

我也理解如何不鼓励回答类似家庭作业的问题,但我花了几个小时在网上搜索试图弄清楚这一点。

任何帮助将不胜感激,在此先感谢。