0

我想从 Entrez Gene 页面中抓取 Interactions 表。

Interactions 表是从 Web 服务器填充的,当我尝试在 R 中使用 XML 包时,我可以获得 Entrez 基因页面,但 Interactions 表体是空的(它没有被 Web 服务器填充)。

在 R 中处理 web 服务器问题可能是可以解决的(我很想看看如何),但 Biopython 似乎是一条更简单的道路。

我将以下内容放在一起,这为我提供了我想要的示例基因:

# Pull the Entrez gene page for MAP1B using Biopython

from Bio import Entrez
Entrez.email = "jamayfie@vasci.umass.edu"
handle = Entrez.efetch(db="gene", id="4131", retmode="xml")
record = Entrez.read(handle)
handle.close()

PPI_Entrez = []
PPI_Sym = []

# Find the Dictionary that contains the Interaction table
    for x in range(1, len(record[0]["Entrezgene_comments"])):
   if ('Gene-commentary_heading', 'Interactions') in record[0]["Entrezgene_comments"][x].items():
       for y in range(0, len(record[0]["Entrezgene_comments"][x]['Gene-commentary_comment'])):
          EntrezID = record[0]["Entrezgene_comments"][x]['Gene-commentary_comment'][y]['Gene-commentary_comment'][1]['Gene-commentary_source'][0]['Other-source_src']['Dbtag']['Dbtag_tag']['Object-id']['Object-id_id']
          PPI_Entrez.append(EntrezID)
          Sym = record[0]["Entrezgene_comments"][x]['Gene-commentary_comment'][y]['Gene-commentary_comment'][1]['Gene-commentary_source'][0]['Other-source_anchor']
          PPI_Sym.append(Sym)

# Return the desired values: I want the Entrez ID and Gene symbol for each interacting protein
PPI_Entrez  # Returns the EntrezID
PPI_Sym  # Returns the gene symbol

这段代码有效,给了我想要的东西。但我认为它很难看,并且担心如果 Entrez 基因页面的格式稍有变化,它会破坏代码。特别是,必须有一种比指定完整路径更好的方法来提取所需信息,就像我所做的那样:

record[0]["Entrezgene_comments"][x]['Gene-commentary_comment'][y]['Gene-commentary_comment'][1]['Gene-commentary_source'][0]['Other-source_anchor']

但是我无法弄清楚如何在不指定要下降的每个级别的情况下搜索字典字典。当我尝试 find() 之类的函数时,它们会在下一层运行,但不会一直运行到底部。

是否有通配符、Python 等效的“//”,或者我可以用来在不命名完整路径的情况下访问 ['Object-id_id'] 的函数?其他关于更简洁代码的建议也值得赞赏。

4

1 回答 1

0

我不确定 Python 中的 xpath,但如果代码有效,那么我不会担心删除完整路径或者 Entrez Gene XML 是否会改变。由于您第一次尝试 R,您可以使用下面对 Entrez Direct 的系统调用或像rentrez 这样的包来获取 XML。

doc <- xmlParse( system("efetch -db=gene -id=4131 -format xml", intern=TRUE) )

接下来,在http://www.ncbi.nlm.nih.gov/gene/4131#interactions处获取与表中的行对应的节点

x <- getNodeSet(doc, "//Gene-commentary_heading[.='Interactions']/../Gene-commentary_comment/Gene-commentary" )

length(x)
[1] 64
x[1]
x[50]

先尝试简单的东西

xmlToDataFrame(x[1:4])

  Gene-commentary_type  Gene-commentary_text Gene-commentary_refs Gene-commentary_source                         Gene-commentary_comment
1                   18   Affinity Capture-MS             24457600   BioGRID110304BioGRID   255BioGRID110304255GeneID8726EEDBioGRID114265
2                   18 Reconstituted Complex             20195357   BioGRID110304BioGRID   255BioGRID110304255GeneID2353FOSBioGRID108636
3                   18 Reconstituted Complex             20195357   BioGRID110304BioGRID 255BioGRID110304255GeneID1936EEF1DBioGRID108256
4                   18   Affinity Capture-MS     2345592220562859   BioGRID110304BioGRID  255BioGRID110304255GeneID6789STK4BioGRID112665
  Gene-commentary_create-date Gene-commentary_update-date
1                  2014461120                201410513330
2                201312810490                201410513330
3                201312810490                201410513330
4                 20137710360                201410513330

一些标签,如 text、refs、source 和 dates 应该易于解析

sapply(x, function(x) paste( xpathSApply(x, ".//PubMedId", xmlValue), collapse=", "))

我不确定评论或表中列出的产品、交互物和其他基因如何存储在 XML 中,但我在这里得到每个节点的一到三个符号和三个 ID。

sapply(x, function(x) paste( xpathSApply(x, ".//Gene-commentary_comment//Other-source_anchor", xmlValue), collapse=" + "))
sapply(x, function(x) paste( xpathSApply(x, ".//Gene-commentary_comment//Object-id_id", xmlValue), collapse=" + "))

最后,由于我认为 Entrez Gene 只是复制 IntAct 和 BioGrid,您也可以尝试这些网站。Biogrid 有一个非常简单的 Rest 服务,但您必须注册一个密钥。

url <- "http://webservice.thebiogrid.org/interactions?geneList=MAP1B&taxId=9606&includeHeader=TRUE&accesskey=[ your ACCESSKEY ]"

biogrid <- read.delim(url)
 dim(biogrid)
[1] 58 24

head(biogrid[, c(8:9,12)])
  Official.Symbol.Interactor.A Official.Symbol.Interactor.B      Experimental.System
1                       ANP32A                        MAP1B               Two-hybrid
2                        MAP1B                       ANP32A               Two-hybrid
3                       RASSF1                        MAP1B Affinity Capture-Western
4                       RASSF1                        MAP1B               Two-hybrid
5                       ANP32A                        MAP1B Affinity Capture-Western
6                          GAN                        MAP1B Affinity Capture-Western
于 2014-12-05T21:38:06.050 回答