问题标签 [bed]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
54 浏览

linux - 如何根据片段长度对床文件进行子集化?

我正在处理床文件,我想对特定大小范围内的行进行子集化。我只对“chromEnd - chromStart”在 140-160 范围内的行感兴趣。

例如,对于以下床文件,我想对第二行和第五行(10229-10082 = 14765133-64976 = 157)进行子集化:

有没有办法对这些行进行子集化?

0 投票
1 回答
241 浏览

bioinformatics - 使用床文件提取fasta序列时如何获得链

我正在尝试使用床文件(自制)从基因组中提取 fasta 序列。床文件看起来像这样(标签分隔):

我正在运行带有选项强制搁浅(-s)的bedtools getfasta,但这不起作用。我得到的输出没有按应有的方式考虑股线。有什么建议么 ?

谢谢!

0 投票
1 回答
194 浏览

python - 如何与 python/pandas 交叉和合并文件以根据原始输入文件将重叠划分为子区域?

我有一些来自不同公司提供外显子组测序试剂盒的 .bed 文件。

我想要一个总结所有这些套件的所有目标区域的文件。.bed 文件具有由三列(chr#、Start、End)组成的基本结构。

我想得到一个输出表,显示哪些基因组区域仅被这些试剂盒之一覆盖,哪些区域被多个(以及哪些)覆盖。说明这一点的最好方法是通过一个例子:

床文件 1

字符# 开始 结尾
1 100 300

床文件 2

字符# 开始 结尾
1 150 350

床文件 3

字符# 开始 结尾
1 80 200

从这些文件中,我创建了一个包含所有目标区域的数据框,并按chr#Start坐标对其进行排序。这是生成的数据框的样子:

概述数据框

我想合并和交叉文件以获得输出,该输出根据输入文件之间的重叠将区域划分为子区域。它应该看起来像这样:

字符# 开始 结尾 套件 1 套件 2 套件 3
1 80 100 0 0 1
1 100 150 1 0 1
1 150 200 1 1 1
1 200 300 1 1 0
1 300 350 0 1 0

我知道 Bioconductor 的 Granges 上可能有这样的功能,但我不熟悉该库及其功能。

任何帮助,将不胜感激。

0 投票
1 回答
65 浏览

linux - 如何从bash中的不同输出保存在同一文件的两列中

我正在做一个项目,该项目需要我在输入中获取一些 .bed,从每个文件中提取一列,只获取某些参数并计算每个文件有多少个参数。我对 bash 非常缺乏经验,所以我不知道大多数命令。但是有了这行代码,它应该可以解决问题。

for FILE in *; do cat $FILE | awk '$9>1.3'| wc -l ; done>/home/parallels/Desktop/EP_Cell_Type.xls

我将这些值保存在 .xls 中,因为我需要用它们做一些图表。现在我想用 -ls 获取文件名并将它们保存在我的 .xls 的第一列中,而我的参数应该在我的 excel 文件的第二列中。我设法使用以下命令将所有内容保存在一列中:

ls>/home/parallels/Desktop/EP_Cell_Type.xls | for FILE in *; do cat $FILE | awk '$9>1.3'-x| wc -l ; done >>/home/parallels/Desktop/EP_Cell_Type.xls

我的示例文件是:A549.bed、GM12878.bed、H1.bed、HeLa-S3.bed、HepG2.bed、Ishikawa.bed、K562.bed、MCF-7.bed、SK-N-SH.bed 并且是包含在仅包含这些文件的文件夹中。

输出是所有文件名的列表和同一列上的值,如下所示:

第 1 列
A549.床
GM12878.床
H1.床
HeLa-S3.床
HepG2.床
石川床
K562.床
MCF-7.床
SK-N-SH.床
4536
8846
6754
14880
25440
14905
22721
8760
28286

但我需要的是这样的:

文件名 #BS
A549.床 4536
GM12878.床 8846
H1.床 6754
HeLa-S3.床 14880
HepG2.床 25440
石川床 14905
K562.床 22721
MCF-7.床 8760
SK-N-SH.床 28286
0 投票
0 回答
56 浏览

shell - 使用参考 GTF 文件的样本 PLINK tped 文件中的染色体位置到基因位置的转换

起初,这个线程可能看起来与遗传学有关,但问题实际上是基于 shell 脚本和编程的。我是编码新手,所以有人建议我在 SO 中寻求帮助。

我尝试将 NCBI GTF 文件与 PLINK tped 文件相交,目的是将染色体位置切换到 tped 文件中的基因位置(带有标识符、位置和核苷酸的文件)

所以,我做了以下步骤:

(由于文件大而复杂,查看文件结构的最佳方法是下载它)

最后我有不同列内容的文件:

然而,所需的结构应该是这样的:

是不是因为 NCBI GTF 文件不一致?它应该与我的示例文件成功相交,因此我可以将 NC 位置切换为基因名称和示例文件中的位置并保存 tped 文件结构。

谢谢!

0 投票
2 回答
114 浏览

r - 数据框到床文件的转换

我在 R 中有相当大的数据框,我需要将其转换为床文件。我使用下面的代码进行 df->bed 转换,但它非常慢。我想知道如何在 R 或 bash 中以更智能的方式更快地将 df 转换为 bed。

以下是示例数据框和床文件的前几行:

数据框:

床档:

代码:

谢谢!

0 投票
1 回答
102 浏览

pandas - 熊猫将数据框转换为床文件?

我使用 pandas.to_csv() 通过执行以下操作将 pandas 数据帧转换为 BED 文件:

pd.to_csv('xxx.bed', index=False, sep='\t', header=None)

我想知道这是否可以成功地将数据框转换为床文件,或者我只是将数据框导出为 csv 文件。

0 投票
0 回答
13 浏览

3d - Marlin:在运行时更改床尺寸

我的问题看起来很像Marlin 2.0 Change Bed Size at Runtime,但我需要一个不同的答案。

我已经建造了一台机器,它的工作方式与 3D 打印机一样,3D 打印机控制器可以为我工作。除了我的床尺寸约为 650x950 毫米。

我已经连接了我的 MKS robin Nano V1.2 并且它可以工作......直到我达到 210 毫米然后固件阻止了进一步的移动。只能访问我的新机器不到 10% 的工作区域,这并不有趣!

210x210 毫米的床尺寸似乎在我的控制器中,我想改变它。