问题标签 [bed]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - 如何根据片段长度对床文件进行子集化?
我正在处理床文件,我想对特定大小范围内的行进行子集化。我只对“chromEnd - chromStart”在 140-160 范围内的行感兴趣。
例如,对于以下床文件,我想对第二行和第五行(10229-10082 = 147
和65133-64976 = 157
)进行子集化:
有没有办法对这些行进行子集化?
bioinformatics - 使用床文件提取fasta序列时如何获得链
我正在尝试使用床文件(自制)从基因组中提取 fasta 序列。床文件看起来像这样(标签分隔):
我正在运行带有选项强制搁浅(-s)的bedtools getfasta,但这不起作用。我得到的输出没有按应有的方式考虑股线。有什么建议么 ?
谢谢!
python - 如何与 python/pandas 交叉和合并文件以根据原始输入文件将重叠划分为子区域?
我有一些来自不同公司提供外显子组测序试剂盒的 .bed 文件。
我想要一个总结所有这些套件的所有目标区域的文件。.bed 文件具有由三列(chr#、Start、End)组成的基本结构。
我想得到一个输出表,显示哪些基因组区域仅被这些试剂盒之一覆盖,哪些区域被多个(以及哪些)覆盖。说明这一点的最好方法是通过一个例子:
床文件 1
字符# | 开始 | 结尾 |
---|---|---|
1 | 100 | 300 |
床文件 2
字符# | 开始 | 结尾 |
---|---|---|
1 | 150 | 350 |
床文件 3
字符# | 开始 | 结尾 |
---|---|---|
1 | 80 | 200 |
从这些文件中,我创建了一个包含所有目标区域的数据框,并按chr#和Start坐标对其进行排序。这是生成的数据框的样子:
我想合并和交叉文件以获得输出,该输出根据输入文件之间的重叠将区域划分为子区域。它应该看起来像这样:
字符# | 开始 | 结尾 | 套件 1 | 套件 2 | 套件 3 |
---|---|---|---|---|---|
1 | 80 | 100 | 0 | 0 | 1 |
1 | 100 | 150 | 1 | 0 | 1 |
1 | 150 | 200 | 1 | 1 | 1 |
1 | 200 | 300 | 1 | 1 | 0 |
1 | 300 | 350 | 0 | 1 | 0 |
我知道 Bioconductor 的 Granges 上可能有这样的功能,但我不熟悉该库及其功能。
任何帮助,将不胜感激。
linux - 如何从bash中的不同输出保存在同一文件的两列中
我正在做一个项目,该项目需要我在输入中获取一些 .bed,从每个文件中提取一列,只获取某些参数并计算每个文件有多少个参数。我对 bash 非常缺乏经验,所以我不知道大多数命令。但是有了这行代码,它应该可以解决问题。
for FILE in *; do cat $FILE | awk '$9>1.3'| wc -l ; done>/home/parallels/Desktop/EP_Cell_Type.xls
我将这些值保存在 .xls 中,因为我需要用它们做一些图表。现在我想用 -ls 获取文件名并将它们保存在我的 .xls 的第一列中,而我的参数应该在我的 excel 文件的第二列中。我设法使用以下命令将所有内容保存在一列中:
ls>/home/parallels/Desktop/EP_Cell_Type.xls | for FILE in *; do cat $FILE | awk '$9>1.3'-x| wc -l ; done >>/home/parallels/Desktop/EP_Cell_Type.xls
我的示例文件是:A549.bed、GM12878.bed、H1.bed、HeLa-S3.bed、HepG2.bed、Ishikawa.bed、K562.bed、MCF-7.bed、SK-N-SH.bed 并且是包含在仅包含这些文件的文件夹中。
输出是所有文件名的列表和同一列上的值,如下所示:
第 1 列 |
---|
A549.床 |
GM12878.床 |
H1.床 |
HeLa-S3.床 |
HepG2.床 |
石川床 |
K562.床 |
MCF-7.床 |
SK-N-SH.床 |
4536 |
8846 |
6754 |
14880 |
25440 |
14905 |
22721 |
8760 |
28286 |
但我需要的是这样的:
文件名 | #BS |
---|---|
A549.床 | 4536 |
GM12878.床 | 8846 |
H1.床 | 6754 |
HeLa-S3.床 | 14880 |
HepG2.床 | 25440 |
石川床 | 14905 |
K562.床 | 22721 |
MCF-7.床 | 8760 |
SK-N-SH.床 | 28286 |
shell - 使用参考 GTF 文件的样本 PLINK tped 文件中的染色体位置到基因位置的转换
起初,这个线程可能看起来与遗传学有关,但问题实际上是基于 shell 脚本和编程的。我是编码新手,所以有人建议我在 SO 中寻求帮助。
我尝试将 NCBI GTF 文件与 PLINK tped 文件相交,目的是将染色体位置切换到 tped 文件中的基因位置(带有标识符、位置和核苷酸的文件)
所以,我做了以下步骤:
(由于文件大而复杂,查看文件结构的最佳方法是下载它)
最后我有不同列内容的文件:
然而,所需的结构应该是这样的:
是不是因为 NCBI GTF 文件不一致?它应该与我的示例文件成功相交,因此我可以将 NC 位置切换为基因名称和示例文件中的位置并保存 tped 文件结构。
谢谢!
r - 数据框到床文件的转换
我在 R 中有相当大的数据框,我需要将其转换为床文件。我使用下面的代码进行 df->bed 转换,但它非常慢。我想知道如何在 R 或 bash 中以更智能的方式更快地将 df 转换为 bed。
以下是示例数据框和床文件的前几行:
数据框:
床档:
代码:
谢谢!
pandas - 熊猫将数据框转换为床文件?
我使用 pandas.to_csv() 通过执行以下操作将 pandas 数据帧转换为 BED 文件:
pd.to_csv('xxx.bed', index=False, sep='\t', header=None)
我想知道这是否可以成功地将数据框转换为床文件,或者我只是将数据框导出为 csv 文件。
3d - Marlin:在运行时更改床尺寸
我的问题看起来很像Marlin 2.0 Change Bed Size at Runtime,但我需要一个不同的答案。
我已经建造了一台机器,它的工作方式与 3D 打印机一样,3D 打印机控制器可以为我工作。除了我的床尺寸约为 650x950 毫米。
我已经连接了我的 MKS robin Nano V1.2 并且它可以工作......直到我达到 210 毫米然后固件阻止了进一步的移动。只能访问我的新机器不到 10% 的工作区域,这并不有趣!
210x210 毫米的床尺寸似乎在我的控制器中,我想改变它。