问题标签 [pairwise]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
143 浏览

r - 根据条件创建二元对数据集

我有一个看起来像这样的单子数据集:

我想将此数据集转换为具有基于Number列的二元结构。换句话说,对于每一个不同的Number,我想为所有国家组合创建成对的观察结果。最终数据集的“头部”应如下所示:

并为组内的每个国家对继续这样。我想找到一种简洁明了的方法

非常感谢您的帮助

0 投票
2 回答
270 浏览

python - 类似于 rolling().corr() 的 Pandas 成对算术

我有一个数据框如下:

我可以简单地计算列成对相关性:

产生:

如何类似地计算数据帧的成对差异?我猜这相当于使用 1 的滚动窗口。

编辑:正如评论中所指出的,上面的例子实际上并不是我没有注意到的列相关性。

0 投票
1 回答
636 浏览

biopython - 如何从 FASTA 文件中进行多个成对对齐并打印相似度百分比?

我想对 FASTA 文件中包含的每个蛋白质序列进行多次成对比较,然后打印百分比序列相似性(平均值或单独)。我想我需要使用 itertools 来创建所有组合,对齐它们,然后可能将匹配的数量除以对齐的序列长度以获得 % 序列相似性,但我遇到了我需要执行此操作的特定脚本的问题,如果可能的话,最好在 biopython 中。任何帮助表示赞赏。

0 投票
0 回答
2098 浏览

r - 在 R 中使用 lm() 成对删除?

我有一个数据集,我正在使用缺失数据进行多元回归,类似于:

我想做成对删除,如果有NA一个自变量,函数仍然使用该观察来回归可用值。我尝试使用以下选项,na.action但得到完全相同的输出。有没有办法用成对而不是按列表删除来进行 OLS 回归(或另一种回归)?

在旁注中,我的理解是,对于列表删除,该函数仅使用完整的观察结果,而成对删除使用在同一观察中存在两个值的每种情况,以进行回归。如果我理解这个错误,请告诉我。从本质上讲,我的问题是我的许多变量都有适量的缺失数据,所以我的数据N从 450k 增加到 170k obs。我不愿意通过链式方程 (MICE) 使用多重插补,因为这是大量数据,它是多级数据,并且该mice程序包只有一个功能,可以一次使用一个变量进行 2 级 MICE。

0 投票
1 回答
78 浏览

python - 如何检查列表中的所有元素是否唯一

我如何编写一个程序来检查列表中的所有元素是否都是唯一的。我有一个用户输入的列表,我希望程序检查元素是否唯一,如果它们是唯一的,比如 list=[1,2,3,4,5],那么程序将继续。如果不是,说 list=[1,2,3,4,5,5,5],那么用户必须重新输入列表。谢谢

0 投票
0 回答
159 浏览

sorting - 使用成对比较对文档进行排序以进行排名的最佳算法是什么

我正在研究信息检索问题陈述。我已经使用成对方法训练了一个深度学习模型。与逐点方法相比,NDCG 和 MAP 非常好,但它带来了额外的计算。在推断时,我必须一次对 10k 个文档进行排名,在成对中,我必须创建所有可能的对,然后我将能够根据成对模型的结果进行排名,或者我可以应用到合并排序。使用这种方法,我们无法在生产中部署我们的模型,因为排序文档的时间太长。

所以我正在为成对排名模型寻找优化的排序算法。

提前致谢。

0 投票
2 回答
204 浏览

python - 使用 pandas Python 将成对比较列表转换为分层表示(列)

我有以下形式的数据集(大约 8000 行)

我想将其转换为一种形式,其中显示了最低层级的员工和“最高”层级的所有经理之间的整个“链接”,即:

pandas在 Python中计算这个最有效的方法是什么?

0 投票
1 回答
524 浏览

python-3.x - 尽可能高效地对一些 pandas 数据帧行进行成对比较

对于给定的 pandas 数据框df,我想将每个样本(行)相互比较。

对于更大的数据集,这将导致过多的比较 ( n**2)。因此,有必要只对较小的组(即所有共享相同的组id)和尽可能有效地执行这些比较。

我想构建一个数据框(df_pairs),它在每一行中都包含一对。此外,我想获取所有对索引(理想情况下作为 Python 集)。

首先,我构建了一个示例数据框:

在下文中,我将 4 个不同的选项与相应的性能指标进行比较:

选项1

选项 1 需要 34.2 秒 ± 1.28 秒。

选项 2

选项 2 需要 13 秒 ± 1.34 秒。

选项 3

选项 3 需要 12.1 秒 ± 347 毫秒。

选项 4

选项 4 的计算速度最快,为 1.41 s ± 239 ms。但是,在这种情况下,我没有配对索引。

comparisons我可以通过使用而不是productitertools来稍微提高性能。我还可以构建比较矩阵并仅使用上三角矩阵并从那里构建我的数据框。然而,这似乎并不比执行笛卡尔积和删除自引用以及反向比较更有效(a, b) = (b, a)

  • 你能告诉我一种更有效的方法来获取对进行比较(理想情况下作为一个能够使用集合操作的集合)吗?
  • 我可以使用merge或其他pandas函数来构建我想要的具有多索引的数据框吗?
0 投票
1 回答
62 浏览

r - 成对序列分析 - 寻找独特组合的索引

我有大量的 DNA 序列 {A,C,T,G}(总共 100,000 个列表,每个列表有 3000 个字符)。我需要成对分析这些列表,从第一个列表开始,然后将其与第二个、第三个、第四个、...、第 100,000 个进行比较。然后移动到第 2 个列表并将其与第 3 个、第 4 个、...、第 100,000 个等进行比较。

在每个成对比较中,我需要找到元素的唯一组合的索引。例如:

列表 1 =“A”、“C”、“A”、“G”、“T”、“A”、“C”、“T”、“C”。

列表 2 =“A”、“G”、“G”、“G”、“C”、“A”、“G”、“G”、“C”。

我想要的输出是:

AA = {1, 6}

CG = {2, 7}

AG = {3}

GG = {4}

TC = {5}

TG = {8}

抄送 = {9}

我曾尝试使用循环和语句对此进行编码Rcppforif/else结果非常慢。使用R诸如apply, unique, etc.似乎执行更慢的功能!我什至尝试使用整数对这些字符进行编码,但没有注意到改进。

只是想知道是否有人能想到一个更快的方法来做到这一点......

谢谢!

0 投票
2 回答
128 浏览

c# - [Test, Pairwise] 的 const 集合

使用 c#、nunit、selenium 进行自动化。我想为我的测试用例使用属性 [Test, Pairwise] 来验证可以使用任何有效值发布对象。我有包含所有有效值的字典,但是 [Values()] - 需要 const 作为参数,而 ReadOnlyCollection(正如这里建议的那样)不适用于它。 我遇到错误:属性 agument 必须是属性参数类型的常量表达式、typeof 表达式或数组表达式。