1

我正在分析大量 RNA seq 数据,并使用 Kallisto 将我的数据与转录组对齐。然后,我使用 tximport 将基因名称从 ensembl 分配给我的计数。我正在将我目前分析的结果与 4 年前运行的一些数据进行比较,我注意到在 4 年前的数据中,我最终得到了一个估计有约 50000 个基因的基因计数表,而现在我有大约一半。是否可以查看我使用的是哪个版本的基因注释?基因总量的差异是否可能是我正在使用的 Ensembl 数据集有更新?

我正在使用以下代码使用 Ensembl 数据集:

mart <- biomaRt::useMart("ensembl", hsapiens_gene_ensembl, host = "uswest.ensembl.org", ensemblRedirect = FALSE) 

我还注意到 4 年前的估计基因计数包含数千个类似于 AC253536.2 的基因名称(它们都以 AC 开头),但我现在使用的版本没有输出任何这样的基因名称。有谁知道为什么这些被删除?

谢谢

4

0 回答 0