第四章序列分析

上傳人：1*** IP屬地：湖北上傳時(shí)間：2022-07-02 格式：PPT 頁(yè)數(shù)：131 大小：1.89MB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩126頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第四章第四章序列分析序列分析2022-7-21本章提要本章提要：本章主要介紹DNA和蛋白質(zhì)序列分析的基本內(nèi)容。包括核酸序列檢索、核酸序列的基本分析（堿基組份、限制性酶切分析、重復(fù)序列分析），基因結(jié)構(gòu)分析、表達(dá)標(biāo)簽序列分析的基本方法和軟件。蛋白質(zhì)序列基本分析、檢索、跨膜區(qū)分析、蛋白質(zhì)亞細(xì)胞定位、功能預(yù)測(cè)等內(nèi)容。2022-7-2 數(shù)理與生物工程學(xué)院24.1 核酸序列分析核酸序列分析4.1.1 為什么要分析為什么要分析DNA序列序列核酸序列分析是生物信息學(xué)應(yīng)用中的一個(gè)重要方面?；谝延兄R(shí)所形成的核酸序列數(shù)據(jù)庫(kù)以及在此基礎(chǔ)之上所形成的二級(jí)數(shù)據(jù)庫(kù)對(duì)未知核酸序列的分析及功能預(yù)測(cè)具有重要的參考價(jià)值。在

2、從事分子生物學(xué)研究的幾乎所有實(shí)驗(yàn)室中，對(duì)所獲得的核酸序列進(jìn)行生物信息學(xué)分析已經(jīng)成為進(jìn)行下一步實(shí)驗(yàn)之前的一個(gè)標(biāo)準(zhǔn)操作。2022-7-2 數(shù)理與生物工程學(xué)院3 在很多時(shí)候，往往通過一個(gè)簡(jiǎn)單序列相似性的比較就可以對(duì)未知序列進(jìn)行初步的功能預(yù)測(cè)，為后續(xù)實(shí)驗(yàn)確定初步的研究方向。本節(jié)將主要講述如何采用生物信息學(xué)技術(shù)對(duì)核酸序列進(jìn)行較為全面的分析。2022-7-2 數(shù)理與生物工程學(xué)院4 序列比較通常在蛋白質(zhì)水平上進(jìn)行，或者說在蛋白質(zhì)翻譯中檢測(cè)遠(yuǎn)緣序列更為容易一些，因?yàn)橛?4個(gè)密碼子(codon)所組成的遺傳密碼(genetic code)的冗余被縮減成了20個(gè)蛋白質(zhì)的功能單位氨基酸。2022-7-2 數(shù)理與生物

3、工程學(xué)院5 然而，這種簡(jiǎn)并性可能伴隨著有用信息的丟失，這是因?yàn)樵S多直接與進(jìn)化過程相關(guān)的信息在蛋白質(zhì)水平無法表現(xiàn)，通過核苷酸序列則可以反映出來。例如，沉默突變(silent mutation)就是在DNA水平的突變，但并不導(dǎo)致蛋白質(zhì)水平的氨基酸置換。2022-7-2 數(shù)理與生物工程學(xué)院6 隨著測(cè)序技術(shù)的迅速發(fā)展與普及，越來越多的DNA序列已被測(cè)定并存貯在各種分子數(shù)據(jù)庫(kù)中(如GenBank)。對(duì)這些序列進(jìn)行分析，可以獲得如下幾個(gè)方面的信息：2022-7-2 數(shù)理與生物工程學(xué)院7DNA堿基組成、密碼子的偏向、內(nèi)部重復(fù)序列等；序列及所代表的類群間的系統(tǒng)發(fā)育關(guān)系；特殊位點(diǎn)（限制性位點(diǎn)及轉(zhuǎn)錄、翻譯和表達(dá)

4、調(diào)控相關(guān)信號(hào)）；內(nèi)含子/外顯子(intron/exon)預(yù)測(cè)所確定的遺傳結(jié)構(gòu)；可讀框(open-reading frame，ORF)分析所推導(dǎo) 的蛋白質(zhì)編碼序列(coding sequence, CDS)等。2022-7-2 數(shù)理與生物工程學(xué)院84.1.2 核酸序列的基本分析核酸序列的基本分析核酸序列的檢索核酸序列的檢索已知核酸序列的檢索是核酸序列分析最為基本的一個(gè)方面。可通過多種方式實(shí)現(xiàn)該功能。例如，可通過NCBI使用Entrez(:80/entrez/query.fcgi?db=Nucleotide)系統(tǒng)進(jìn)行檢索，在輸

5、入框中輸入需要檢索的內(nèi)容，然后點(diǎn)擊按鈕“Go”即可開始（圖4-1 ) 。同樣，也可使用 E B I 的 S R S 服務(wù) 器(http:/srs.ebi.ac.uk/)進(jìn)行檢索，可參考第三章。2022-7-29圖4-1 NCBI核酸序列檢索的網(wǎng)絡(luò)界面2022-7-2 數(shù)理與生物工程學(xué)院10 在進(jìn)行序列檢索時(shí)，往往需要同時(shí)檢索多條序列。這一點(diǎn)可通過邏輯關(guān)系式按照GenBank接受號(hào)進(jìn)行批量檢索。例如，需要檢索序列接受號(hào)分別為AF113671、AF113672、AF113673、AF113674、AF113675、AF 113676的序列，可在序列輸入框中輸入“AF113671 a

6、c OR AF113672 ac OR AF113673 ac OR AF113674 ac OR AF113675 ac OR AF113676 ac”，即可同時(shí)檢索出這些序列。其中，“ac”是序列接受號(hào)的描述字段。GenBank數(shù)據(jù)庫(kù)中所采用的描述字段詳見網(wǎng)址/Entrez/entrezhelp.html#SearchFields。2022-7-2 數(shù)理與生物工程學(xué)院分子質(zhì)量、堿基組成、堿基分布分子質(zhì)量、堿基組成、堿基分布核酸序列的分子質(zhì)量、堿基組成、堿基分布等分析可通過一些常用軟件如BioEd

7、it(/BioEdit/bioedit.html)，DNAMAN(http:/ mRNA全序列，GenBank接受號(hào)AJ627251)基本性質(zhì)分析為例，可以看出，輸出結(jié)果中Composition(組成）和Percentage(百分比）一欄以及Molecular Weight(分子質(zhì)量）清楚地給出了關(guān)于該條序列的有關(guān)結(jié)果。圖4-2 核酸序列基本性質(zhì)分析示例2022-7-2 數(shù)理與生物工程學(xué)院序列變換序列變換進(jìn)行序列分析時(shí)，經(jīng)常需要對(duì)DNA序列進(jìn)行各種變換，例如反向序列、互補(bǔ)序列、互補(bǔ)反向序列、顯示DNA雙鏈、轉(zhuǎn)換為RNA序列等。

8、這些使用DNAMAN軟件可以很容易地實(shí)現(xiàn)，這些功能集中在SequenceDisplay，從中可選擇不同的序列變換方式對(duì)當(dāng)前通道的序列進(jìn)行轉(zhuǎn)換。2022-7-214例如，對(duì)一個(gè)短序列進(jìn)行變換后的結(jié)果如下：原始序列 5-ATGAGCGTCT TCCTGCGAAA GCAATGCCTC TGCCTAGGCT-3反向序列 3-TCGGATCCGT CTCCGTAACG AAAGCGTCCT TCTGCGAGTA- 5互補(bǔ)序列 3-TACTCGCAGA AGGACGCTTT CGTTACGGAG ACGGATCCGA-5反向互補(bǔ)序列 5-AGCCTAGGCA GAGGCATTGC TTTCGCAGGA

9、AGACGCTCAT-3 DNA雙鏈 5-ATGAGCGTCT TCCTGCGAAA GCAATGCCTC TGCCTAGGCT-3 3-TACTCGCAGA AGGACGCTTT CGTTACGGAG ACGGATCCGA-5 RNA序列 5-AUGAGCGUCU UCCUGCGAAA GCAAUGCCUC UGCCUAGGCU-32022-7-2 數(shù)理與生物工程學(xué)院限制性酶切分析限制性酶切分析限制性酶切分析是分子生物學(xué)實(shí)驗(yàn)中的日常工作之一。該方面最好的資源是限制酶數(shù)據(jù)庫(kù)(Restriction Enzyme Database，REBASE)。REBASE數(shù)據(jù)庫(kù)中含有限

10、制酶的所有信息，包括甲基化酶、相應(yīng)的微生物來源、識(shí)別序列位點(diǎn)、裂解位點(diǎn)、甲基化特異性、酶的商業(yè)來源以及公開發(fā) 表的和未發(fā) 表的參考文獻(xiàn)(http:/, http:/ /-tjyin/WebGene/RE.htmlhttp:/www.hyper- 數(shù)理與生物工程學(xué)院17 同時(shí)，很多軟件也能夠識(shí)別REBASE限制酶數(shù)據(jù)庫(kù)。此處以使用BioEdit軟件進(jìn)行核酸序列限制性酶切分析為例加以說明。將待分析序列輸入BioEdit軟件的序列顯示區(qū)后，按照?qǐng)D4-3的說明即可完成分析過程，其結(jié)果見圖4-4。圖4-3 使用BioEdit軟件進(jìn)行核酸序列限制性酶切分析

11、界面圖4-4 使用BioEdit軟件進(jìn)行核酸序列限制性酶切分析結(jié)果示例2022-7-2 數(shù)理與生物工程學(xué)院20 上述結(jié)果中給出了指定DNA序列的酶切位點(diǎn)信息，為克隆鑒定和亞克隆提供了重要信息。2022-7-2 數(shù)理與生物工程學(xué)院重復(fù)序列分析重復(fù)序列分析脊椎動(dòng)物基因組中各種重復(fù)序列占有很高的比例。目前已經(jīng)開發(fā)了一批重復(fù)序列數(shù)據(jù)庫(kù)，如RepBase（/server/RepBase/）。著名的RepeatMasker軟件就是基于該數(shù)據(jù)庫(kù)進(jìn)行工作（/cgi-bin/Repeat

12、Masker），使用該程序可以進(jìn)行重復(fù)序列片段分析。圖4-5 利用RepeatMasker軟件分析重復(fù)序列的網(wǎng)絡(luò)界面2022-7-2 數(shù)理與生物工程學(xué)院234.1.3 基因結(jié)構(gòu)與基因結(jié)構(gòu)與DNA序列分析序列分析真核基因結(jié)構(gòu)具有一些關(guān)鍵特征(圖4-6)，這是我們理解基因結(jié)構(gòu)對(duì)序列分析的影響所必須考慮的。這些特征包括內(nèi)含子、外顯子、編碼序列、非翻譯區(qū)(untranslated region, UTR)等。而原核基因通常缺少內(nèi)含子，結(jié)構(gòu)相對(duì)簡(jiǎn)單。圖4-6 真核基因結(jié)構(gòu)示意圖2022-7-2 數(shù)理與生物工程學(xué)院非翻譯區(qū)非翻譯區(qū) 非翻譯區(qū)（UTR）在DNA和RNA中均有，它們是位于

13、蛋白質(zhì)編碼序列(CDS)兩側(cè)的序列，未被翻譯成蛋白質(zhì)。尤其是3端，無論是對(duì)基因還是對(duì)物種都是高度特異的。2022-7-2 數(shù)理與生物工程學(xué)院2 概念性翻譯概念性翻譯如圖4-7給定一個(gè)DNA序列，可以利用遺傳密碼將其翻譯為蛋白質(zhì)序列，這種方式稱為概念性翻譯（conceptual translation）。與基于生化實(shí)驗(yàn)的蛋白質(zhì)翻譯不同的是，概念性翻譯僅通過理論推導(dǎo)或計(jì)算獲得。對(duì)任意一個(gè)DNA序列，可能并不知道哪一個(gè)堿基代表CDS的起始，也不知道其閱讀方向。這種情況下，不妨試用六框翻譯（six-frame translation）。2022-7-2 數(shù)理與生物工程學(xué)院27 六框翻

14、譯通過移動(dòng)閱讀框起始?jí)A基，獲得6個(gè)潛在的蛋白質(zhì)序列。其中，3個(gè)是正向翻譯，3個(gè)是反向翻譯，6種可能的蛋白質(zhì)中至多只有一種是正確的。查詢序列 1 ggccagatgg aacatattgc tttcgggagc acaaggatcg ggtctactac gtctcggagc 61 ggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgct121 tcggcaagtt ctccaagacc aacaaactga agttccatat cacggcgctc tactacttgg181 cgccctacgc ccagtacaag

15、 gtgtgggtga agcectcctt cgagcagcag tttctctacg六框翻譯氨基酸正向序列正向序列1 1GQMEHIAFGSTRIGSTISRSGF*S*ASASATSSWCAWAPASASSPRPTN*SSISRRSTTWRPTPSTRCG*SPPSSSSFST正向序列正向序列2 2ARWNILLSGAQGSGLLRLGADFEAERVLRLQAAGVRGHLLRQVLQDQQTEVPYHGALLLGALRPVQGVGEALLRAAVSLR正向序列正向序列3 3PDGTYCFREHKDRVYYVSERILKISECFGYKQLVCVGTCFGKFSKTNKLKFHTTAL

16、YYLAPYAQYKVWVKPSFEQQFLY反向序列反向序列1 1RRETAARRRASPTPCTGRRAPSSRAP*YGTSVCWSWRTCRSRCPRTPAACSRSTRSASKSAPRRSRPDPCAPESNMFHLA反向序列反向序列2 2VEKLLLEGGLHPHLVLGVGRQVVERRDMELQFVGLGELAEAGAHAHQLLVAEALAQLQNPLRDVVDPILVLPKAICSIW反向序列反向序列3 3PRNCCSKEGFTHTLYWAGAKSAVIWNFSLLVLENLPKQVPIHTSCLPKHSLSFKIRSETTRSLCSRKQYVPSG（*代表一個(gè)終止密碼子）

17、圖圖4-7 六框氨基酸翻譯六框氨基酸翻譯2022-7-2 數(shù)理與生物工程學(xué)院29 從圖4-7中可以看出，用不同的閱讀框翻譯CDS可能獲得不同的蛋白質(zhì)編碼序列。哪一種是“正確”的呢？通常認(rèn)為是可讀框(ORF )即沒有終止密碼子（TGA,TAA或TAG）打斷的閱讀框。2022-7-2 數(shù)理與生物工程學(xué)院30 mRNA需要翻譯為蛋白質(zhì)方能發(fā)揮其生物學(xué)作用，因此，核酸序列的可讀框架(Open reading frame, ORF)的分析便成為核酸分析的一個(gè)重要部分?；谶z傳密碼表，可通過計(jì)算機(jī)方便地分析核酸序列的讀碼框。對(duì)于真核生物而言，一條全長(zhǎng)cDNA序列將只含有單一的開放閱讀框架。2022-7-

18、2 數(shù)理與生物工程學(xué)院31 非全長(zhǎng)的cDNA序列如ESTs，常常來源于3末端測(cè)序的結(jié)果，從而含有3非編碼區(qū)。典型情況下，一般按照具有合適的起始密碼子和終止密碼子來查找最長(zhǎng)的ORF，或者在同一相位含有前置終止密碼子的起始密碼子，并具有poly(A)末尾的區(qū)域視為最可能的ORF。發(fā)現(xiàn)ORF的末端要比找到起始端更容易一些。2022-7-2 數(shù)理與生物工程學(xué)院32 一般來說，CDS中的起始密碼子(initial codon) ATG是編碼甲硫氨酸(Met)的，但在CDS內(nèi)也很常見，所以ATG的出現(xiàn)并不意味著一定就是ORF的起始，還需要應(yīng)用其他技術(shù)來檢測(cè)5UTR 。2022-7-2 數(shù)理與生物工程學(xué)院3

19、3 大量實(shí)驗(yàn)證明，在真核生物起始蛋白質(zhì)合成時(shí)，40S核糖體亞基及有關(guān)合成起始因子首先與mRNA模板靠近5末端處結(jié)合，然后向3末端方向滑行，發(fā)現(xiàn)AUG起始密碼子時(shí)，與60S大亞基結(jié)合形成80S起始復(fù)合物。這就是Kozak提出的真核生物蛋白質(zhì)合成起始的“掃描模式”。Kozak調(diào)查了200多種真核生物mRNA中5末端第一個(gè)AUG前后序列發(fā)現(xiàn)，除17個(gè)例外，其余都是A/GNNAUGG，說明這樣的序列對(duì)翻譯起始來說最為合適。2022-7-2 數(shù)理與生物工程學(xué)院34 具體而言，AUG很可能是真核生物惟一的翻譯起始位點(diǎn)，具有生物學(xué)功能的起始密碼AUG總是出現(xiàn)在一定的核苷酸序列框架之內(nèi)。首先，AUG上游（即5

20、方向）的第三個(gè)核苷酸，常常是嘌呤，且多數(shù)是A；其次，緊跟在AUG后面的核苷酸，常常也是嘌呤，但多數(shù)情況下是G。實(shí)驗(yàn)表明，AUG附近的核苷酸序列中ANNAUGN和GNNAUGPU的利用率最高，而沒有起始功能AUG附近的核苷酸序列則無此保守性。這就是所謂的“Kozak序列”，在分析讀碼框時(shí)需要重點(diǎn)參考。2022-7-2 數(shù)理與生物工程學(xué)院35 下列幾種特性可以用來檢測(cè)DNA序列中潛在的CDS:(1)、ORF長(zhǎng)度很難隨機(jī)地發(fā)現(xiàn)很長(zhǎng)的ORF，因而長(zhǎng)的ORF很可能意味著存在CDS。(2)、Kozak序列該序列是在起始密碼子之前與核糖體作用的位點(diǎn)。在高等原核生物中其一致序列為GCCACC（ATG），而

21、在酵母中為AAAAAA（ATG）。它們可以用來檢測(cè)CDS的起始。2022-7-2 數(shù)理與生物工程學(xué)院36(3)、密碼子用法(codon usage) 在編碼區(qū)和非編碼區(qū)中，密碼子用法是不同的。尤其是對(duì)特定氨基酸，密碼子的用法可能隨物種而變。因而，統(tǒng)計(jì)密碼子用法可以用來推斷5和3 UTR，并且有助于檢測(cè)錯(cuò)譯（見表4-2）。2022-7-237表4-2 部分模式生物中密碼子用法的百分比密碼子EcoliD.melanogasterH. sapiensZ.maysS. cerevisiaeATG311035AGC202334304TCG4179221TCA22546TCT34913452TCC3748

22、283733 此外，在許多生物中已經(jīng)發(fā)現(xiàn)在密碼子第三個(gè)堿基位置上偏好G/C而不是A/T，G/C的概率偏向也可以幫助我們檢測(cè)出CDS 2022-7-2 數(shù)理與生物工程學(xué)院3 編碼區(qū)內(nèi)含子結(jié)構(gòu)分析編碼區(qū)內(nèi)含子結(jié)構(gòu)分析（1） “斷裂”的真核基因大多數(shù)真核基因都是由蛋白質(zhì)編碼序列和非蛋白質(zhì)編碼序列兩部分組成的。編碼序列稱為外顯子(exon)，非編碼序列稱為內(nèi)含子(intron)。在一個(gè)結(jié)構(gòu)基因中，編碼某一蛋白質(zhì)序列不同區(qū)域的各個(gè)外顯子并不連續(xù)排列在一起，而常常被長(zhǎng)度不等的內(nèi)含子所隔離，形成鑲嵌排列的斷裂方式，所以，真核基因有時(shí)被稱為斷裂基因(interrupted gene)。202

23、2-7-2 數(shù)理與生物工程學(xué)院3 編碼區(qū)內(nèi)含子結(jié)構(gòu)分析編碼區(qū)內(nèi)含子結(jié)構(gòu)分析在基因轉(zhuǎn)錄、加工產(chǎn)生成熟mRNA分子時(shí)，內(nèi)含子通過剪接加工被去掉，保留在成熟mRNA分子中的外顯子被拼接在一起，最終被翻譯成蛋白質(zhì)。因此通過反轉(zhuǎn)錄酶的作用，由成熟mRNA產(chǎn)生的cDNA分子中，只含有外顯子，沒有內(nèi)含子。2022-7-2 數(shù)理與生物工程學(xué)院40 真核基因在結(jié)構(gòu)上的不連續(xù)性是近10年來生物學(xué)上的重大發(fā)現(xiàn)之一。當(dāng)基因轉(zhuǎn)錄成pre-mRNA后，除了在5端加帽及3端加多聚A(poly-A)之外，還要將隔開各個(gè)相鄰編碼區(qū)的內(nèi)含子剪去，使外顯子相連后成為成熟mRNA。研究發(fā)現(xiàn)，有許多基因不是將它們的內(nèi)

24、含子全部剪去，而是在不同的細(xì)胞或不同的發(fā)育階段有選擇地剪切其中部分內(nèi)含子，因此生成不同的mRNA及蛋白質(zhì)分子。由于RNA的選擇性剪接不牽涉到遺傳信息的永久性改變，所以是真核基因表達(dá)調(diào)控中一種比較靈活的方式。2022-7-2 數(shù)理與生物工程學(xué)院41（2）外顯子內(nèi)含子連接區(qū) 真核基因斷裂結(jié)構(gòu)的另一個(gè)重要特點(diǎn)是外顯子內(nèi)含子連接區(qū)（exon-intron junction)的高度保守性和特異性堿基序列。外顯子內(nèi)含子連接區(qū)就是指外顯子和內(nèi)含子的交界，又稱邊界序列。外顯子內(nèi)含子連接區(qū)有兩個(gè)重要特征：2022-7-2 數(shù)理與生物工程學(xué)院42p內(nèi)含子的兩端序列之間沒有廣泛的同源性，因此內(nèi)含子兩端序列不能互補(bǔ)。

25、這說明在剪接加工之前，內(nèi)含子上游序列和下游序列不可能通過堿基配對(duì)形成發(fā)卡式二級(jí)結(jié)構(gòu)2022-7-2 數(shù)理與生物工程學(xué)院43p外顯子內(nèi)含子連接區(qū)序列雖然很短，但卻是高度保守的。這一序列與剪接機(jī)制密切相關(guān)，它是RNA剪接的信號(hào)序列。序列分析表明，幾乎每個(gè)內(nèi)含子5端起始的兩個(gè)堿基都是GT，3端最后兩個(gè)堿基總是AG。由于這兩個(gè)堿基的高度保守性和存在的廣泛性，有人把它稱為GT/AG法則，即5-GT . AG-3。2022-7-2 數(shù)理與生物工程學(xué)院44 由于內(nèi)含子兩端的接頭序列不同，因此可定向表明內(nèi)含子的兩個(gè)末端，根據(jù)剪接加工過程沿內(nèi)含子自左向右進(jìn)行的原則，一般將內(nèi)含子5端接頭序列稱為左剪接位點(diǎn)，3端接

26、頭序列稱為右剪接位點(diǎn)，有時(shí)也將前者稱為供體位點(diǎn)(donor site)，將后者稱為受體位點(diǎn)(acceptor site)。外顯子內(nèi)含子在連接區(qū)的保守序列幾乎存在于所有高等真核生物基因中，表明在這些基因中，可能存在著一個(gè)共同的剪接加工機(jī)制。 2022-7-2 數(shù)理與生物工程學(xué)院4 克隆序列克隆序列 DNA序列分析的一個(gè)重要方面是確定克隆的核苷酸序列。在克隆已知序列基因的實(shí)驗(yàn)中，比較克隆序列與已發(fā)表序列的是否一致是十分重要的。如果兩者不一致，就可能要重新設(shè)計(jì)實(shí)驗(yàn)。例如，PCR過程中引物或酶選擇不當(dāng)，都有可能導(dǎo)致錯(cuò)誤。2022-7-2 數(shù)理與生物工程學(xué)院464.2 表達(dá)序列標(biāo)簽分析表

27、達(dá)序列標(biāo)簽分析4.2.1 cDNA文庫(kù)與表達(dá)序列標(biāo)簽文庫(kù)與表達(dá)序列標(biāo)簽 cDNA(complementary DNA，互補(bǔ)DNA)是指與RNA序列互補(bǔ)的DNA，由RNA啟動(dòng)的DNA多聚酶(RNA-dependent DNA polymerase)或反轉(zhuǎn)錄酶(reverse transcriptase)合成。這種酶的單鏈DNA產(chǎn)物(反轉(zhuǎn)錄物)，可用DNA啟動(dòng)的DNA多聚酶轉(zhuǎn)換成雙鏈形式，并插入合適的載體成為一個(gè)cDNA克隆。cDNA克隆是成熟mRNA分子的拷貝，不含任何內(nèi)含子序列，因而只要與克隆載體上合適的啟動(dòng)子序列相連接，就很容易在任何一種生物體內(nèi)表達(dá)。2022-7-2 數(shù)理與生物工程學(xué)院47

28、一個(gè)cDNA文庫(kù)(cDNA library)中包含多個(gè)cDNA克隆，可用于后續(xù)的序列分析。例如，可以從一個(gè)具有2000000個(gè)克隆的文庫(kù)中隨機(jī)選取10000個(gè)樣品并進(jìn)行測(cè)序，結(jié)果則貯存在計(jì)算機(jī)數(shù)據(jù)庫(kù)中供進(jìn)一步的序列分析。2022-7-2 數(shù)理與生物工程學(xué)院48 表達(dá)序列標(biāo)簽(expressed sequence tag，EST)是從cDNA文庫(kù)中生成的一些很短的序列(300500bp)，它們代表在特定組織或發(fā)育階段表達(dá)的基因，有時(shí)可代表特定的cDNA。EST可能是編碼的，也可能不是，而兩端有重疊序列的EST可以組裝成全長(zhǎng)的cDNA序列。因此，EST的研究與表達(dá)分析可以作為一種發(fā)現(xiàn)新基因的有效

29、方法。事實(shí)上，該方法已在人類基因組圖譜繪制、新基因克隆和基因組序列編碼區(qū)的確定等方面發(fā)揮了極為重要的作用。2022-7-2 數(shù)理與生物工程學(xué)院4 EST與與cDNA的關(guān)系的關(guān)系圖4-8示出了EST與cDNA以及CDS和UTR之間的關(guān)系。應(yīng)用自動(dòng)測(cè)序系統(tǒng)，對(duì)每個(gè)cDNA克隆的一種讀法可以產(chǎn)生一個(gè)EST。有的方法采用的引物可能使一個(gè)克隆產(chǎn)生兩種讀法，一個(gè)從5端起始，另一個(gè)從3端起始。圖4-8 EST與cDNA以及CDS和UTR之間的關(guān)系2022-7-2 數(shù)理與生物工程學(xué)院51 值得一提的是，雖然全長(zhǎng)cDNA序列分析十分重要，但我們并非總能獲得全長(zhǎng)序列的信息。事實(shí)上，現(xiàn)階段基因數(shù)據(jù)

30、庫(kù)中收錄的DNA序列數(shù)據(jù)絕大許多都不是全長(zhǎng)的，而是EST。2022-7-2 數(shù)理與生物工程學(xué)院5 EST要素要素在進(jìn)行EST分析時(shí)，需要注意以下幾點(diǎn)：(1) EST字母表 EST測(cè)序是高度自動(dòng)化的，盡管電泳分析軟件已經(jīng)十分完善，但還是不能確定序列中個(gè)別位點(diǎn)究竟是哪個(gè)堿基？最終序列中會(huì)出現(xiàn)一些其他字母。表4-3 IUB-IUPAC編碼符號(hào)符號(hào)代表的堿基代表的堿基符號(hào)符號(hào)代表的堿基代表的堿基AAYC或T或UCCKC或TT/UGVA或G或CMA或CHA或C或TRA或GDA或G或TWA或TBC或G或TSC或GX/NG或A或T或C2022-7-2 數(shù)理與生物工程學(xué)院54(2) INDE

31、L(插入/缺失)和移碼(frame shift) 盡管測(cè)序軟件有一定的容錯(cuò)能力，還是會(huì)出現(xiàn)一定的偏差，有些本來沒有的堿基被讀出，而應(yīng)該讀出的堿基卻不能讀出。結(jié)果表現(xiàn)為錯(cuò)誤的插入或缺失。用計(jì)算機(jī)軟件在蛋白質(zhì)水平的相似性查詢，也可能發(fā)生同樣的情況，導(dǎo)致虛假的中止信號(hào)，或者所有的六框翻譯都出錯(cuò)。判斷出錯(cuò)誤的INDEL和移碼是十分必要的，這也是翻譯工作的復(fù)雜性之所在。 2022-7-2 數(shù)理與生物工程學(xué)院55(3) 剪接變體不是所有的外顯子都能出現(xiàn)在轉(zhuǎn)錄mRNA過程中，因而真核基因產(chǎn)物可能有不同長(zhǎng)度，即最終產(chǎn)生的mRNA中可能只包含部分外顯子。即使長(zhǎng)度相同，也可能因?yàn)橥怙@子排列順序改變而得到不同蛋白

32、質(zhì)序列。從同一DNA，轉(zhuǎn)錄得到不同mRNA，并最終翻譯成不同的蛋白質(zhì)稱為剪接變體（splice variant）或可變剪接形式（alternatively spliced form）。2022-7-2 數(shù)理與生物工程學(xué)院56 單一基因的選擇剪接方式是全長(zhǎng)序列分析的重要內(nèi)容。如圖4-9所示，剪接變體的存在將影響EST的檢索與分析。測(cè)序的錯(cuò)誤也許會(huì)使EST變成無用的序列，因?yàn)槠渲胁粌H包含了模糊堿基，而且還可能丟失堿基。當(dāng)EST很短時(shí)，問題就更嚴(yán)重了，很可能全部落入一個(gè)特定的外顯子中。在這種情況下，如果數(shù)據(jù)庫(kù)中存在選擇剪接方式并且均含此外顯子，那就不可能知道這個(gè)EST所代表的是哪種形式了。圖4-9

33、剪接變體與EST圖示為一段mRNA，有3個(gè)外顯子邊界標(biāo)記，兩種匹配方式 (a) EST與外顯子1、 3、4有相似性，而缺失了2，表明可能是一個(gè)剪接變體；(b) EST完全落在外顯子3的區(qū)域里，所以不能確定它是不是代表了一個(gè) 剪接變體2022-7-2 數(shù)理與生物工程學(xué)院58(4) 非編碼區(qū)EST 許多mRNA（尤其是人類的）在CDS的5端和3端有長(zhǎng)的UTR。一個(gè)EST來源于這些非編碼區(qū)的可能性是相當(dāng)大的。如果幸運(yùn)的話，UTR（非編碼）序列已貯存在數(shù)據(jù)庫(kù)中。因其高度保守且對(duì)編碼基因而言是特異的，可以找到一個(gè)直接的匹配。如果不是那么幸運(yùn)的話，就不能找到匹配。這又存在兩種可能性：一是這個(gè)EST雖代

34、表了一個(gè)CDS，但數(shù)據(jù)庫(kù)中沒有相似序列；二是它代表了一個(gè)非編碼序列，也不存在數(shù)據(jù)庫(kù)記錄。EST分析中必須清楚這兩種情況的差別。2022-7-2 數(shù)理與生物工程學(xué)院594.2.2 EST數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù) 鑒于EST在基因研究和商業(yè)開發(fā)上的重要應(yīng)用價(jià)值，人們已經(jīng)建立了大量的EST數(shù)據(jù)庫(kù)。到目前為止，主要的通用公共數(shù)據(jù)庫(kù)包括EMBL數(shù)據(jù)庫(kù)中的ETS部分以及GenBank中的dbEST。通過下面3個(gè)例子，可以初步了解EST數(shù)據(jù)的不同來源。2022-7-2 數(shù)理與生物工程學(xué)院60(1) Merck /University of Washington 1994年，Merck公司資助美國(guó)華盛頓大學(xué)開展有關(guān)從多種

35、規(guī)范化cDNA文庫(kù)中測(cè)定EST序列的研究項(xiàng)目。截止1997年，該項(xiàng)目已提交dbEST 584000個(gè)EST。此外，Howard Hughes醫(yī)學(xué)中心資助華盛頓大學(xué)測(cè)定小鼠克隆序列，提交dbEST近400000個(gè)EST，大多數(shù)為5端。2022-7-2 數(shù)理與生物工程學(xué)院61(2) Incyte Incyte制藥公司建立了一個(gè)數(shù)據(jù)庫(kù)LifeSeq，重點(diǎn)是通過從標(biāo)準(zhǔn)cDNA文庫(kù)測(cè)序獲得定量數(shù)據(jù)。其目標(biāo)在于提供健康和疾病組織中轉(zhuǎn)錄基因相對(duì)拷貝數(shù)的信息，以期發(fā)現(xiàn)潛在的治療靶標(biāo)。到1998年4月，LifeSeq中已包含了2500000個(gè)EST，代表80000-120000個(gè)不同的基因。2022-7-2

36、數(shù)理與生物工程學(xué)院62(3) TIGR-HGI 美國(guó)基因組研究所（The Institute for Genomic Research，TIGR )是一個(gè)非盈利的研究機(jī)構(gòu)，成立于1992年。其人類基因索引（Human Gene Index，HGI)旨在綜合全球人類基因研究的成果（包括dbEST及GenBank）。它已經(jīng)從300個(gè)以上的cDNA文庫(kù)中測(cè)定了超過100000個(gè)的EST序列。有興趣的讀者可以訪問“TIGRGene Indices”網(wǎng)頁(yè)（/tdb/tgi.shtml）。2022-7-2 數(shù)理與生物工程學(xué)院634.2.3 EST分析分析盡管EST本

37、身是不完整的甚至可能是不精確的DNA序列，但EST分析（例如，檢測(cè)新的EST與分子數(shù)據(jù)庫(kù)中收錄的大量EST匹配與否）將為確定全長(zhǎng)CDS和尋找新基因提供有價(jià)值的線索。 EST分析工具很多，除商用的（如IncyteLifeTools）外，公用的工具通常分為3類：序列相似性查詢（sequence similarity search）；序列組裝（sequence assembly）；序列聚類（sequence cluster）。2022-7-2 數(shù)理與生物工程學(xué)院64(1) 相似性查詢工具序列相似性查詢工具已在上章中介紹。其中BLAST系列可用于EST查詢。tBLASTn可以翻譯DNA數(shù)據(jù)庫(kù)，

38、BLASTx翻譯輸入數(shù)據(jù)，tBLASTx則兩者均可。FASTA亦有類似的功能。2022-7-2 數(shù)理與生物工程學(xué)院65(2) 組裝工具用一個(gè)“探針”序列在數(shù)據(jù)庫(kù)中搜索可獲得與之相匹配的EST序列，通常需要對(duì)這些EST序列進(jìn)行對(duì)位排列（sequence alignment）以獲得一致性序列。下一輪搜索得到的EST同樣也應(yīng)參與對(duì)位排列。這種反復(fù)的對(duì)位排列工作稱為序列組裝。相關(guān)的軟件工具有Staden組裝器、TIGR組裝器和Phrap等。2022-7-2 數(shù)理與生物工程學(xué)院66(3) 聚類工具序列聚類工具是指將一個(gè)大的序列集合分解成亞集(subset)或簇（cluster)的計(jì)算機(jī)軟件，如果不同

39、序列之間有一段重疊序列，并且超過一定長(zhǎng)度，這兩段序列就應(yīng)該能拼接在一起，從而應(yīng)聚為一類。一個(gè)可靠而有效的EST聚類方法將減小數(shù)據(jù)集的冗余度，節(jié)省數(shù)據(jù)庫(kù)搜索時(shí)間。總之，如果我們已得到大量的EST序列，并且需要估計(jì)出它們所代表基因的數(shù)目時(shí)，聚類工具就顯得特別重要。2022-7-2 數(shù)理與生物工程學(xué)院67 圖4-10示出了EST序列聚類的一個(gè)例子。其中，一個(gè)EST文庫(kù)被分解成A、B、C、D 4個(gè)集合，箭頭方向表示EST間的重疊是正義（plus sense）的還是負(fù)義（minus sense）的。例如，A中兩個(gè)EST是正義重疊，一個(gè)是負(fù)義重疊；C中兩個(gè)正義，兩個(gè)負(fù)義，等等。實(shí)際上，這里的EST正負(fù)義僅

40、是象征性的，真實(shí)的正負(fù)義只能由數(shù)據(jù)庫(kù)比較確定。圖4-10 EST聚類2022-7-2 數(shù)理與生物工程學(xué)院69 EST聚類的一種策略是用已知的基因去引導(dǎo)EST的劃分。EST可以從各種各樣的DNA和蛋白質(zhì)序列數(shù)據(jù)庫(kù)中搜索出來并聚合成代表單一基因的集合。一般來說這種方法可能產(chǎn)生出與數(shù)據(jù)庫(kù)中任何一段序列不相匹配的EST簇。從一個(gè)給定的文庫(kù)中得到不相匹配的EST的比例約為40%。隨著基因組測(cè)序項(xiàng)目的增加，將有更多的信息被提供，這個(gè)比例值還會(huì)繼續(xù)降低。因而，需要更新的方法（如重疊鑒定）來聚合剩余的序列。2022-7-2 數(shù)理與生物工程學(xué)院70 另一種策略是先聚合所有的EST以產(chǎn)生一個(gè)代表每個(gè)集合的一致性序

41、列（consensus sequence），然后僅用這個(gè)一致性序列去進(jìn)行數(shù)據(jù)庫(kù)檢索。這是一個(gè)較為理想的方案，因?yàn)樗@著地減少了相似性檢索的數(shù)量。然而，這種策略的成功很大程度上依賴于EST聚類的可靠性，而EST聚類又與EST數(shù)據(jù)的質(zhì)量密切相關(guān)。2022-7-2 數(shù)理與生物工程學(xué)院71 估算EST文庫(kù)所代表基因的數(shù)目是一項(xiàng)較為復(fù)雜的工作，因?yàn)椴幌嗥ヅ涞腅ST也許并不代表不同的基因。以下兩種情況應(yīng)當(dāng)被考慮：首先，如圖4-11(a)所示，一個(gè)簇(圖中的C)可能與一個(gè)基因的非特征區(qū)相對(duì)應(yīng)，另一種可能是該基因的特征區(qū)對(duì)應(yīng)多個(gè)簇(圖中的A和B)。例如，3 UTR在數(shù)據(jù)庫(kù)記錄中通常是不完整的，或者一個(gè)基因只是

42、一條部分的序列記錄。在這種情況下，將一個(gè)不匹配的EST簇看做是一個(gè)單獨(dú)的基因?qū)?huì)高估基因的數(shù)目；2022-7-2 數(shù)理與生物工程學(xué)院72 其次，如圖4-11(b)所示，可能有兩個(gè)或更多的未匹配簇(圖中的D和E)對(duì)應(yīng)于同一個(gè)基因的不同區(qū)域。如果將所有不相匹配的EST簇都算做基因的話，所估計(jì)的基因總數(shù)將明顯偏高。圖4-11 EST簇與基因數(shù)目估計(jì)2022-7-2 數(shù)理與生物工程學(xué)院744.3 電子克隆電子克隆cDNA全長(zhǎng)序列全長(zhǎng)序列電子克隆，又稱虛擬克隆(virtual cloning)，其原理是根據(jù)大量EST具有相互重疊的性質(zhì)，通過計(jì)算機(jī)算法獲得cDNA全長(zhǎng)序列。換言之，電子克隆不采用傳統(tǒng)的分

43、子生物學(xué)實(shí)驗(yàn)方法，而是由一個(gè)查詢序列開始，依靠EST數(shù)據(jù)庫(kù)在計(jì)算機(jī)上對(duì)EST進(jìn)行兩端延伸，從而獲得全長(zhǎng)的cDNA序列。電子克隆需要綜合多種DNA序列分析技術(shù)。2022-7-2 數(shù)理與生物工程學(xué)院75 從部分序列得到全長(zhǎng)cDNA的分子生物學(xué)實(shí)驗(yàn)方法通常有雜交篩選文庫(kù)或5末端延伸法。電子克隆則以部分cDNA為起始，和Genbank的EST數(shù)據(jù)庫(kù)dbEST進(jìn)行BLAST檢索，得到與5端或3端有相似序列的EST，然后以該EST為模板，進(jìn)一步搜索EST數(shù)據(jù)庫(kù)，一直往前延伸，直到找到終止密碼子，得到全長(zhǎng)cDNA?？梢?，該方法依賴于足夠的末端重疊并且能夠往前延伸的EST序列。2022-7-2 數(shù)理與生物工程

44、學(xué)院76 序列拼接軟件通過計(jì)算序列中的每個(gè)位點(diǎn)上各種核苷酸可能出現(xiàn)的分值，找出調(diào)和序列?？梢栽O(shè)置一些參數(shù)來約束每個(gè)位點(diǎn)允許出現(xiàn)的錯(cuò)配堿基數(shù)。通常，為確定序列拼接質(zhì)量，需要對(duì)一個(gè)片段進(jìn)行多次測(cè)序。正鏈和負(fù)鏈上每個(gè)位置至少有兩次以上的測(cè)序結(jié)果一致，該位點(diǎn)的測(cè)序結(jié)果才比較可信；相反，序列中某一位點(diǎn)幾次測(cè)序結(jié)果不一致，這一位點(diǎn)的可信度則較低。AACCGTTACGAAACCAGGTGCAACCGTTACGAAACCAGGTGCGCGCCCGCGGGAATAACCGTTACGAACCCAGGTGCAACCGTTACGAAaCCAGGTGCGCGCCCGcGGGAATCCTAAAAA CGCGCCCGCGG

45、GAATCCTAAAAA TGCGCGCCCGAGGGAATCCTAAAAA圖4-12 序列拼接示例2022-7-2772022-7-2 數(shù)理與生物工程學(xué)院78 圖中用于拼接的序列包括3條正鏈和2條負(fù)鏈。5個(gè)測(cè)序結(jié)果中，有2個(gè)位點(diǎn)出現(xiàn)了錯(cuò)誤，這些錯(cuò)誤將導(dǎo)致這兩個(gè)位置堿基一致性程度降低，此時(shí)，需要用其他數(shù)據(jù)加以驗(yàn)證，或?qū)y(cè)序過程中所得圖譜進(jìn)行人工分析。一般來說，必須利用全長(zhǎng)正鏈和負(fù)鏈測(cè)序數(shù)據(jù)，才能保證拼接結(jié)果質(zhì)量。2022-7-2 數(shù)理與生物工程學(xué)院794-1例例一個(gè)電子克隆的練習(xí)。假定從已發(fā)表的釀酒酵母(S. cerevisiae)的基因組中尋找一個(gè)編碼未知蛋白的基因。僅有的信息是一個(gè)在酵母

46、基因組14號(hào)染色體上發(fā)現(xiàn)的編號(hào)YNR064c的可能的可讀框(ORF)。這項(xiàng)工作包含3個(gè)方面的內(nèi)容： (a)、從公共數(shù)據(jù)庫(kù)中分離一個(gè)基因(或ORF)； (b)、分析所恢復(fù)序列的限制性酶切位點(diǎn)； (c)、確定克隆策略。2022-7-2 數(shù)理與生物工程學(xué)院80(1) 從基因組數(shù)據(jù)庫(kù)中分離基因登錄到一個(gè)包含酵母基因組DNA數(shù)據(jù)庫(kù)的網(wǎng)站，如http/srs.ebi.ac.uk/以便利用EMBL數(shù)據(jù)庫(kù)SRS系統(tǒng)）；進(jìn)入數(shù)據(jù)庫(kù)的查詢界面；在查詢表中你可以發(fā)現(xiàn)不同類型的數(shù)據(jù)庫(kù)。選擇EMBL和EMBLNEW的數(shù)據(jù)庫(kù)；鍵入登錄號(hào)ynr064c，進(jìn)行“Quick Search”；點(diǎn)擊鏈接，獲得數(shù)據(jù)庫(kù)查詢的結(jié)果；獲

47、得的頁(yè)面包括GenBank中收錄的所有與064YNRc有關(guān)的數(shù)據(jù)，你將發(fā)現(xiàn)一條從5-3的含有目的基因的DNA鏈。圖4-13 WebCutter軟件網(wǎng)絡(luò)界面2022-7-2 數(shù)理與生物工程學(xué)院82(2) 在網(wǎng)絡(luò)上分析限制性位點(diǎn)打開一個(gè) 新窗口 ( W e b C u t t e r ) 連接 : http/bio.lundberg.gu. se/cutter2/.。這是一個(gè)進(jìn)行在線限制性酶切位點(diǎn)分析的網(wǎng)站。這個(gè)程序可以通過簡(jiǎn)單的“剪切粘貼”DNA序列來進(jìn)行限制性酶切位點(diǎn)分析；在原先的網(wǎng)頁(yè)瀏覽窗口(包含064YNRc數(shù)據(jù)的那一頁(yè))，選中整段DNA序列；在選中的區(qū)域點(diǎn)擊右鍵，選擇Cop

48、y；2022-7-2 數(shù)理與生物工程學(xué)院83返回有WebCutter的窗口。在方框里點(diǎn)擊鼠標(biāo)左鍵來把鼠標(biāo)的光標(biāo)置于DNA序列框中，按右鍵選擇Paste。將從數(shù)據(jù)庫(kù)中獲得的整個(gè)DNA序列放入WebCutter程序的DNA序列分析框中；保留所有限制性內(nèi)切酶分析的默認(rèn)設(shè)置。對(duì)YNR064c進(jìn)行限制性內(nèi)切酶分析。按下Analyze sequence。等待。分析通常需要10秒至幾分鐘，時(shí)間取決于分析時(shí)的網(wǎng)絡(luò)狀況；如果耗時(shí)太長(zhǎng)，按stop來放棄分析過程，按back再按Analyze sequence，繼續(xù)等待，并多嘗試幾次；2022-7-2 數(shù)理與生物工程學(xué)院84 (3) 確定克隆策略研究輸出文件，尋找起

49、始密碼子和終止密碼子的位置以及編碼序列(CDS)的方向；比較分析限制性酶切圖譜(WebCutter)，尋找能夠切除多余序列保留完整編碼序列的限制性內(nèi)切酶；除電子方法外，必須對(duì)YNR064c的編碼區(qū)進(jìn)行亞克隆，才能得到編碼該蛋白的基因全長(zhǎng)序列。所謂亞克隆就是對(duì)已經(jīng)獲得的目的DNA片段進(jìn)行重新克隆，其目的在于對(duì)目的DNA進(jìn)行進(jìn)一步分析，或者進(jìn)行重組改造等。2022-7-2 數(shù)理與生物工程學(xué)院85例例4-2 用電子克隆的方法獲得一種新的蛋白激酶A錨定蛋白(AKAP基因)的例子。結(jié)果得到2106bp的一段cDNA，和northern blotting雜交顯示的結(jié)果相接近，為全長(zhǎng)cDNA?？衫玫腅ST

50、序列有：H18281、H46461、AL120999、A1479138、R35395、A1677943和AL045281。各EST序列的位置和剪接圖如圖5-14所示。圖4-14 AKAP基因的電子克隆2022-7-2 數(shù)理與生物工程學(xué)院884.4 蛋白質(zhì)序列分析蛋白質(zhì)序列分析蛋白質(zhì)序列分析是從理論分析邁向?qū)嶒?yàn)研究的重要步驟。如果擬對(duì)感興趣的基因投入實(shí)驗(yàn)研究，基于生物信息學(xué)獲得盡可能多的關(guān)于該基因/蛋白質(zhì)的信息是十分必要的，尤其是用生物信息學(xué)分析得到蛋白質(zhì)的結(jié)構(gòu)功能域信息對(duì)研究思路的制定具有重要的指導(dǎo)意義。2022-7-2 數(shù)理與生物工程學(xué)院894.4.1 蛋白質(zhì)序列基本分析蛋白質(zhì)序列基本分析

51、蛋白質(zhì)序列的基本性質(zhì)分析是蛋白質(zhì)序列分析的基本方面，一般包括蛋白質(zhì)的氨基酸組成、分子質(zhì)量、等電點(diǎn)（pI）、親水性和疏水性、信號(hào)肽、跨膜區(qū)及結(jié)構(gòu)功能域的分析等。蛋白質(zhì)的很多功能特征可直接由分析其序列而獲得。例如，疏水性圖譜可用來預(yù)測(cè)跨膜螺旋。同時(shí)，也有很多短片段被細(xì)胞用來將目的蛋白質(zhì)向特定細(xì)胞器進(jìn)行轉(zhuǎn)移的靶標(biāo)（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白質(zhì)將被引向內(nèi)質(zhì)網(wǎng)）。Web中有很多此類資源用于幫助預(yù)測(cè)蛋白質(zhì)的功能。2022-7-2 數(shù)理與生物工程學(xué)院90 其中關(guān)于蛋白質(zhì)的氨基酸組成、分子質(zhì)量、等電點(diǎn)等方面的分析均可使用本地化的軟件（如MacVector, OMIGA, DNAM

52、AN, BioEdit等）進(jìn)行，所以此處不進(jìn)行詳述，而只是對(duì)蛋白質(zhì)序列的信號(hào)肽和跨膜區(qū)分析的網(wǎng)絡(luò)資源進(jìn)行描述。2022-7-2 數(shù)理與生物工程學(xué)院9 蛋白質(zhì)序列檢索蛋白質(zhì)序列檢索與核酸序列分析一樣，蛋白質(zhì)序列檢索往往是序列分析的第一步。由于數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)技術(shù)的發(fā)展，蛋白質(zhì)序列的檢索是十分方便的。你可以從NCBI網(wǎng)站/entrez/query.fcgi?CMD=search&DB=protein進(jìn)行檢索。在輸入框中輸入需要檢索的內(nèi)容，然后點(diǎn)擊Go即可開始。圖4-15 GenBank檢索蛋白質(zhì)序列頁(yè)面圖4-16 Acce

53、ssion Number為P02700的蛋白質(zhì)GenBank格式的信息 2022-7-2 數(shù)理與生物工程學(xué)院9 疏水性分析疏水性分析位于ExPASy的ProtScale程序(/cgi-bin/protscale.pl)可被用來計(jì)算蛋白質(zhì)的疏水性圖譜。該網(wǎng)站允許用戶計(jì)算蛋白質(zhì)的50余種不同屬性，并為每一種氨基酸輸出相應(yīng)的分值。輸入的數(shù)據(jù)可為蛋白質(zhì)序列或者SWISS-PROT數(shù)據(jù)庫(kù)的序列接受號(hào)。需要調(diào)整的只是計(jì)算窗口的大小(n)。該參數(shù)用于估計(jì)每種氨基酸殘基的平均顯示尺度。例如，如果參數(shù)n為9，則顯示從5(=n-4）到13(=n+4）位之

54、間其疏水性的平均值。該參數(shù)有助于對(duì)數(shù)據(jù)進(jìn)行平滑，也可使親水性和疏水性的區(qū)域更加突出。典型的默認(rèn)值為9。2022-7-2 數(shù)理與生物工程學(xué)院96 進(jìn)行蛋白質(zhì)的親疏水性分析時(shí)，也可使用一些Windows下的軟件資源，例如BioEdit, DNAMAN等。圖4-17中顯示使用BioEdit軟件采用Kyte和Doolittle算法對(duì)羊OPSD蛋白質(zhì)進(jìn)行親疏水性分析的結(jié)果，結(jié)果提示多個(gè)區(qū)域?yàn)槭杷詤^(qū)域。圖4-17 使用BioEdit軟件對(duì)OPSD_SHEET蛋白質(zhì)進(jìn)行親水/疏水分析結(jié)果示例2022-7-2 數(shù)理與生物工程學(xué)院9 跨膜區(qū)分析跨膜區(qū)分析有多種預(yù)測(cè)跨膜螺旋的方法，最簡(jiǎn)單的是直

55、接觀察以20個(gè)氨基酸為單位的疏水性氨基酸殘基的分布區(qū)域。但是同時(shí)還有多種更加復(fù)雜的、精確的算法能夠預(yù)測(cè)跨膜螺旋的具體位置和它們的膜向性。這些技術(shù)主要是基于對(duì)已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase數(shù)據(jù)庫(kù)，可通過匿名FTP獲得（http:/www.isrec.isb-sib.ch/ftp-server/tmbas），參見表4-4。表4-4蛋白質(zhì)跨膜區(qū)域分析的網(wǎng)絡(luò)資源資源資源名稱名稱網(wǎng)址網(wǎng)址說明說明TMPRED/software/TMPRED_form.html基于對(duì)Tmbase數(shù)據(jù)庫(kù)的統(tǒng)計(jì)學(xué)分析PHDhtm http:/www.em

56、bl-heidelberg.de/Services/sander/predictproteinMEMSATftp:/ftp.biochem.ucl.ac.uk微機(jī)版本2022-7-2 數(shù)理與生物工程學(xué)院100 蛋白質(zhì)的跨膜螺旋特征是可通過序列分析直接得到預(yù)測(cè)并獲得較好結(jié)果的一個(gè)性質(zhì)。蛋白質(zhì)序列含有跨膜區(qū)提示它可能作為膜受體起作用，也可能是定位于膜的錨定蛋白或離子通道蛋白等。因而，含有跨膜區(qū)的蛋白質(zhì)往往和細(xì)胞的功能狀態(tài)密切相關(guān)。圖4-18和圖4-19為兩個(gè) 蛋白質(zhì) 跨膜螺旋區(qū) 分析的常用軟件TMHMM和TMPRED的網(wǎng)絡(luò)界面。圖4-18 蛋白質(zhì)跨膜螺旋區(qū)分析的常用軟件T

57、MHMM網(wǎng)絡(luò)界面圖4-19 蛋白質(zhì)跨膜螺旋區(qū)分析的常用軟件TMPRED網(wǎng)絡(luò)界面2022-7-2 數(shù)理與生物工程學(xué)院10 前導(dǎo)肽和蛋白質(zhì)定位前導(dǎo)肽和蛋白質(zhì)定位在生物體內(nèi)，蛋白質(zhì)的合成場(chǎng)所與功能場(chǎng)所常常被一層或多層細(xì)胞膜所隔開，這樣就產(chǎn)生了蛋白質(zhì)轉(zhuǎn)運(yùn)的問題。核糖體是真核生物細(xì)胞內(nèi)合成蛋白質(zhì)的場(chǎng)所，幾乎在任何時(shí)候，都有數(shù)以百計(jì)或千計(jì)的蛋白質(zhì)離開核糖體并被輸送到細(xì)胞各個(gè)部分（如細(xì)胞質(zhì)、細(xì)胞核、線粒體、葉綠體等），以補(bǔ)充細(xì)胞的物質(zhì)成分和更新細(xì)胞功能。由于細(xì)胞各部分都有特定的蛋白質(zhì)組分，因此，合成的蛋白質(zhì)必須準(zhǔn)確無誤地定向運(yùn)送才能保證生命活動(dòng)的正常進(jìn)行。2022-7-2 數(shù)理與生物工程學(xué)

58、院104 對(duì)于亞細(xì)胞結(jié)構(gòu)和細(xì)胞器來說，合成的蛋白質(zhì)運(yùn)到有關(guān)部位后還需要跨膜運(yùn)送才能發(fā)揮正常功能。關(guān)于蛋白質(zhì)的轉(zhuǎn)運(yùn)問題也是生物信息學(xué)所關(guān)注的問題。一般說來，蛋白質(zhì)轉(zhuǎn)運(yùn)可分為兩大類：若細(xì)胞內(nèi)蛋白質(zhì)合成和轉(zhuǎn)運(yùn)時(shí)同時(shí)發(fā)生的，屬于翻譯轉(zhuǎn)運(yùn)同步機(jī)制；若蛋白質(zhì)從核糖體釋放后才發(fā)生轉(zhuǎn)運(yùn)，則屬于翻譯后轉(zhuǎn)運(yùn)機(jī)制。這兩種轉(zhuǎn)運(yùn)方式都涉及到蛋白質(zhì)分子內(nèi)特定區(qū)域與細(xì)胞膜結(jié)構(gòu)的相互關(guān)系。2022-7-2 數(shù)理與生物工程學(xué)院105 一般認(rèn)為，蛋白質(zhì)定位的信息存在于該蛋白質(zhì)自身結(jié)構(gòu)中，并且通過與膜上特殊受體的相互作用得以表達(dá)。這就是信號(hào)肽假說的基礎(chǔ)。這一假說認(rèn)為，穿膜蛋白質(zhì)是由mRNA編碼的。在起始密碼子后，有一段編碼疏水性氨

59、基酸序列的RNA片段，這個(gè)氨基酸序列就稱為信號(hào)序列(signal sequence)。此理論為采用生物信息學(xué)基于蛋白質(zhì)序列分析其信號(hào)肽提供了基礎(chǔ)。研究各種分泌蛋白的信號(hào)肽序列，發(fā)現(xiàn)它們?cè)谶M(jìn)化上似乎不具有保守性。但是，信號(hào)肽中的疏水片段比較重要，如果利用點(diǎn)突變將其中的疏水氨基酸換成親水氨基酸，信號(hào)肽的功能就會(huì)喪失。2022-7-2 數(shù)理與生物工程學(xué)院106 含有信號(hào)肽的蛋白質(zhì)一般能夠被分泌到細(xì)胞外，可能作為重要的細(xì)胞因子起作用，從而具有潛在的應(yīng) 用價(jià) 值。聯(lián) 網(wǎng) 到“http:/genome.cbs.dtu.dk/services/SignalP/”可進(jìn)行蛋白質(zhì)序列的信號(hào)肽分析

60、。2022-7-2 數(shù)理與生物工程學(xué)院107 蛋白質(zhì)序列中含有的信號(hào)肽序列將有助于它們向細(xì)胞內(nèi)特定區(qū)域的移動(dòng)，例如前導(dǎo)肽和面向特定細(xì)胞器的靶向肽。在線粒體蛋白質(zhì)的跨膜轉(zhuǎn)運(yùn)過程中，通過線粒體膜的蛋白質(zhì)在轉(zhuǎn)運(yùn)之前大多數(shù)以前體形式存在，它由成熟蛋白質(zhì)和N端延伸出的一段前導(dǎo)肽或稱引肽(leader peptide)共同組成。迄今已有40多種線粒體蛋白質(zhì)前導(dǎo)肽的一級(jí)結(jié)構(gòu)被闡明，它們約含2080個(gè)氨基酸殘基，當(dāng)前體蛋白跨膜時(shí)，前導(dǎo)肽被一種或兩種多肽酶所水解轉(zhuǎn)變成為成熟蛋白質(zhì)，同時(shí)失去繼續(xù)跨膜能力。前導(dǎo)肽一般具有如下性質(zhì)：2022-7-2 數(shù)理與生物工程學(xué)院108帶正電荷的堿性氨基酸（特別是精氨酸）含量較為豐富

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第四章序列分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第四章序列分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔