我有这些来自对细菌群落进行测序的数据。我知道一些基本的 Python,并且正在完成 codecademy 教程。出于实用目的,请将 OTU 视为“物种”的另一个词
以下是原始数据的示例:
OTU ID OTU Sum Lineage
591820 1083 k__Bacteria; p__Fusobacteria; c__Fusobacteria; o__Fusobacteriales; f__Fusobacteriaceae; g__u114; s__
532752 517 k__Bacteria; p__Fusobacteria; c__Fusobacteria; o__Fusobacteriales; f__Fusobacteriaceae; g__u114; s__
218456 346 k__Bacteria; p__Proteobacteria; c__Betaproteobacteria; o__Burkholderiales; f__Alcaligenaceae; g__Bordetella; s__
590248 330 k__Bacteria; p__Proteobacteria; c__Betaproteobacteria; o__Burkholderiales; f__Alcaligenaceae; g__; s__
343284 321 k__Bacteria; p__Proteobacteria; c__Betaproteobacteria; o__Burkholderiales; f__Comamonadaceae; g__Limnohabitans; s__
数据包括三件事:物种的参考编号、该物种在样本中的次数以及所述物种的分类。
我正在尝试做的是将所有为分类家族找到序列的时间加起来(f_x
在数据中指定)。
这是所需输出的示例:
f__Fusobacteriaceae 1600
f__Alcaligenaceae 676
f__Comamonadaceae 321
这不是为了上课。几个月前我开始学习python,所以我至少能够查找任何建议。我知道它是如何通过缓慢的方式进行的(在 Excel 中复制和粘贴),所以这是供将来参考。