我有一个大数据框(形状 100 000*192)。我已经计算了每个属性的皮尔逊系数。现在我正在寻找一种方法来计算每组皮尔逊相关性。我的意思是,现在我有
if A then B
我想计算
if (A AND B) then C
if (A AND B AND C) then (D AND E)
例如
DataFrame 1
A B C
0|0 0 1
1|1 0 0
2|0 1 0
3|1 1 1
这里 A 列和 C 列似乎没有很强的相关性,A 和 B 或 B 和 C 也没有,但是当你取 A 和 B 时,你与 C 有相关性(如果 A = B 那么 C =1 否则 C = 0)。我希望它有助于理解。
是否有任何函数或库已经这样做了,或者我将不得不在我的数据帧上使用df.corr()
函数编写大量迭代代码pandas
?