Biopython 高级序列操作


在本章中,我们将讨论 Biopython 提供的一些高级序列功能。

补和反补


核苷酸序列可以反向互补得到新的序列。此外,补码后的序列可以反向补码得到原始序列。 Biopython 提供了两种方法来实现这个功能: 补充 and reverse_complement .代码如下:

>>> from Bio.Alphabet import IUPAC 
>>> nucleotide = Seq('TCGAAGTCAGTC', IUPAC.ambiguous_dna) 
>>> nucleotide.complement() 
Seq('AGCTTCAGTCAG', IUPACAmbiguousDNA()) 
>>>

在这里,complement() 方法允许对 DNA 或 RNA 序列进行补充。 reverse_complement() 方法从左到右对结果序列进行补充和反转。如下图所示:

>>> nucleotide.reverse_complement() 
Seq('GACTGACTTCGA', IUPACAmbiguousDNA())

Biopython 使用 Bio.Data.IUPACData 提供的 ambiguous_dna_complement 变量来做补码操作。

>>> from Bio.Data import IUPACData 
>>> import pprint 
>>> pprint.pprint(IUPACData.ambiguous_dna_complement) {
    'A': 'T',
    'B': 'V',
    'C': 'G',
    'D': 'H',
    'G': 'C',
    'H': 'D',
    'K': 'M',
    'M': 'K',
    'N': 'N',
    'R': 'Y',
    'S': 'S',
    'T': 'A',
    'V': 'B',
    'W': 'W',
    'X': 'X',
    'Y': 'R'}
>>>

GC含量


基因组 DNA 碱基组成(GC 含量)预计会显着影响基因组功能和物种生态学。 GC含量是GC核苷酸数除以总核苷酸。

要获取 GC 核苷酸含量,请导入以下模块并执行以下步骤:

>>> from Bio.SeqUtils import GC 
>>> nucleotide = Seq("GACTGACTTCGA",IUPAC.unambiguous_dna) 
>>> GC(nucleotide) 
50.0

转录


转录是将DNA序列转变为RNA序列的过程。实际的生物转录过程是执行反向补体 (TCAG → CUGA) 以获得将 DNA 视为模板链的 mRNA。然而,在生物信息学等 Biopython 中,我们通常直接使用编码链,我们可以通过将字母 T 更改为 U 来获得 mRNA 序列。

上面的简单例子如下:

>>> from Bio.Seq import Seq 
>>> from Bio.Seq import transcribe 
>>> from Bio.Alphabet import IUPAC 
>>> dna_seq = Seq("ATGCCGATCGTAT",IUPAC.unambiguous_dna) >>> transcribe(dna_seq) 
Seq('AUGCCGAUCGUAU', IUPACUnambiguousRNA()) 
>>>

逆转录,将T改为U,如下代码所示:

>>> rna_seq = transcribe(dna_seq) 
>>> rna_seq.back_transcribe() 
Seq('ATGCCGATCGTAT', IUPACUnambiguousDNA())

为了得到 DNA 模板链,反向补全反转录的 RNA,如下所示:

>>> rna_seq.back_transcribe().reverse_complement() 
Seq('ATACGATCGGCAT', IUPACUnambiguousDNA())

翻译


翻译是将RNA序列翻译成蛋白质序列的过程。考虑如下所示的RNA序列:

>>> rna_seq = Seq("AUGGCCAUUGUAAU",IUPAC.unambiguous_rna) 
>>> rna_seq 
Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG', IUPACUnambiguousRNA())

现在,将 translate() 函数应用到上面的代码中:

>>> rna_seq.translate() 
Seq('MAIV', IUPACProtein())

上述RNA序列很简单。考虑 RNA 序列,AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA 并应用 translate():

>>> rna = Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA', IUPAC.unambiguous_rna) 
>>> rna.translate() 
Seq('MAIVMGR*KGAR', HasStopCodon(IUPACProtein(), '*'))

在这里,终止密码子用星号“*”表示。

translate() 方法可以在第一个终止密码子处停止。为此,你可以在 translate() 中指定 to_stop=True,如下所示:

>>> rna.translate(to_stop = True) 
Seq('MAIVMGR', IUPACProtein())

这里,终止密码子不包含在结果序列中,因为它不包含一个。

翻译表

NCBI 的遗传密码页面提供了 Biopython 使用的翻译表的完整列表。让我们看一个标准表格的例子来可视化代码:

>>> from Bio.Data import CodonTable 
>>> table = CodonTable.unambiguous_dna_by_name["Standard"] 
>>> print(table) 
Table 1 Standard, SGC0
    | T       | C       | A       | G       |
 --+---------+---------+---------+---------+-- 
 T | TTT F   | TCT S   | TAT Y   | TGT C   | T
 T | TTC F   | TCC S   | TAC Y   | TGC C   | C
 T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
 T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G 
 --+---------+---------+---------+---------+--
 C | CTT L   | CCT P   | CAT H   | CGT R   | T
 C | CTC L   | CCC P   | CAC H   | CGC R   | C
 C | CTA L   | CCA P   | CAA Q   | CGA R   | A
 C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G 
 --+---------+---------+---------+---------+--
 A | ATT I   | ACT T   | AAT N   | AGT S   | T
 A | ATC I   | ACC T   | AAC N   | AGC S   | C
 A | ATA I   | ACA T   | AAA K   | AGA R   | A
 A | ATG M(s)| ACG T   | AAG K   | AGG R   | G 
 --+---------+---------+---------+---------+--
 G | GTT V   | GCT A   | GAT D   | GGT G   | T
 G | GTC V   | GCC A   | GAC D   | GGC G   | C
 G | GTA V   | GCA A   | GAA E   | GGA G   | A
 G | GTG V   | GCG A   | GAG E   | GGG G   | G 
 --+---------+---------+---------+---------+-- 
>>>

Biopython 使用此表将 DNA 翻译成蛋白质并找到终止密码子。