我想得到长 DNA 序列的子串
例如,给定:
1/ATXGAAATTXXGGAAGGGGTGG
2/AATXGAAGGAAGGAAGGGGATATTX
3/AAAAAATTXXGGAAGGGGXTTTA
4/AAAATTXXATAXXGGAAGGGGXTXG
5/ATTATTGTTXAXTATTT
输出是:
1/TXG - TTXX
2/TXG -
3/ - TTXX
4/TTXX - TXG
5/ -
我尝试了以下正则表达式模式:
(TXG|TTXX)
它有效,结果被放在一个列表中,但我不知道如何检索原始序列中出现的每个结果的顺序。即 和 是否TTXX
分别TXG
出现在序列4中的第一个和第二个,但第二个和第一个出现在序列1中;在第二个和第三个结果中,这更难,因为 match-xx 函数调用不提供从相关序列中获取的子字符串的索引。感谢您的见解。