我从一些文本中提取了有关对象中基因和染色体的信息,以对一些文本的数据库进行分类。
我的结果遗漏了一些信息;事实上,有些文本可能包含 justthe gene name and the location
而我想得到omim number, the gene symbol, the gene name, and the chromosome location
这是我结果的一部分(使用 Rcode)
OMIM GENES_SYMBOL GENES CHROMOSOME
1 (NA) (arlts1) (NA) (NA)
2 (NA) (mtr) (NA) (NA)
3 (NA) (hla.g) (NA) (NA)
4 (NA) (nat2, t341c) (NA) (NA)
5 (222300) (wfs1) (NA) (X4p16)
我想摆脱 NA:用等效的 nae 或代码替换每个;例如,获取arlts1
并找到指定的 omim 编号、基因名称和染色体位置的东西。
我搜索了很多,但找不到包含所有信息的详尽数据库
可能我可以这样做biomart
吗?我什至不知道有人可以帮助我解决我的问题吗?