版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第五章序列同源比較與系統(tǒng)發(fā)育學(xué)分析
1主要內(nèi)容§5.1概述§5.2序列比對§5.3系統(tǒng)發(fā)育分析
2§5.1引言3一、序列比對的概念序列比對(align):是指通過將兩個或多個核酸序列或蛋白質(zhì)序列進(jìn)行比較,找出其中相似的結(jié)構(gòu)區(qū)域。兩個序列的比對是指這兩個序列中各個字符的一一對應(yīng)關(guān)系,或字符的對比排列。4二、序列比對的生物學(xué)意義1通過比較未知序列與已知序列之間的同源性,往往可以很容易地預(yù)測未知序列的功能。(功能預(yù)測)2通過分析多個基因或蛋白質(zhì)序列之間的同源性確定它們在進(jìn)化上的關(guān)系。(確定進(jìn)化關(guān)系)3通過多序列比對,幫助判斷殘基如何發(fā)揮作用以維持蛋白質(zhì)或DNA序列的功能。同時,通過多序列比對可以獲得重要?dú)埢車娜壗Y(jié)構(gòu)。(判斷殘基作用)4通過蛋白質(zhì)多序列比對,也有助于蛋白結(jié)構(gòu)的預(yù)測。
(蛋白質(zhì)結(jié)構(gòu)預(yù)測)5三、序列比對基本原理1記分矩陣(Scoringmatrix)DNA記分矩陣在進(jìn)行序列比對過程中,有兩方面的問題直接影響相似性分值:記分矩陣和空位罰分。6蛋白質(zhì)記分矩陣PAM矩陣7BLOSUM6282空位罰分(gappenalty)空位罰分是為了補(bǔ)償插入或缺失對序列相似性的影響。但由于沒有合適的理論模型能很好地描述空位問題,因此空位罰分缺乏理論依據(jù)而更多的帶有主觀特點(diǎn)。空位罰分處理方法:1)對第一個空位罰分,如10-152)對空位的延伸罰分,如1-29搜索比對結(jié)果不同的比對程序所采用的記分矩陣和罰分規(guī)則不同,因而對同一組數(shù)據(jù)比對的結(jié)果也會有很大差異。10§5.2序列同源比較11序列比對類型1)雙序列比對(pairsequencealignment)。2)序列對數(shù)據(jù)庫的比對3)多序列比對(Multiple
sequencealignment)12一、雙序列比對(pairsequencealignment)序列兩兩比對方面有兩個著名的算法:Needleman-Wunsch算法,從全局角度計(jì)算兩條序列之間的相似性,其中包括了所有短片段的比對序列——全局比對。Smith-Waterman算法,從局部出發(fā)獲得兩條比對序列的最大相似性的局部片段——局部比對。兩種算法均可用于核酸序列和蛋白質(zhì)序列。13常用比對軟件:名稱網(wǎng)址說明ALIGNhttp://genome.eerie.fr/fasta/align-query.html對用戶所提交的兩條序列進(jìn)行優(yōu)化比對,允許選擇不同的記分矩陣,但中允許空位罰分。Alignhttp://www.mips.biochem.mpg.de/只允許對數(shù)據(jù)庫中的已有記錄進(jìn)行兩兩比對,不接受用戶所提交的序列。Bl2Seq/gorf/bl2.html允許對任意兩條序列進(jìn)行兩兩比對,具有Blast軟件的所有功能。14NCBI的Bl2seq15比對參數(shù)16Blastn參數(shù)17Blastx
參數(shù)18二、序列對數(shù)據(jù)庫的比對序列對庫的比對就是數(shù)據(jù)庫的搜索,也就是兩兩序列比對重復(fù)成千上萬次。然而由于這種簡單的重復(fù)分析非常耗時,所以需要一些近似的算法以提高效率。目前在單條序列對庫搜索中使用最廣泛的程序是Blast和Fasta。19三、多重序列比對(multiplesequencealignment)從公共數(shù)據(jù)庫獲得與新序列相關(guān)的一組序列之后,我們可以從這些序列獲得哪些有用的信息呢?或者說如何開發(fā)這些相關(guān)序列?多序列比對找出相關(guān)位點(diǎn)發(fā)現(xiàn)保守區(qū)域,推測未知序列功能,根據(jù)同源性推斷它們之間的進(jìn)化關(guān)系。20蛋白質(zhì)序列多重比對21反轉(zhuǎn)錄轉(zhuǎn)座子的反轉(zhuǎn)錄酶序列片段黑色區(qū)域即表示保守區(qū)域22多序列比對主要軟件:ClustalW/X,使用最廣泛的多序列比對程序。BioEdit,是一個免費(fèi)的,序列比對、編輯與分析程序。它集成了Blast和ClustalW兩個程序。MultAlin,從兩兩比對開始的多序列比對程序。23ClustalW:是目前公認(rèn)的最好的進(jìn)行Multiplesequencealignment的程序之一Internet上的許多網(wǎng)站提供ClustalW分析軟件分析序列的輸入格式必須是FASTA(Pearson)格式>sequence1ATTGCAGTTCGCA……>sequence2ATAGCACATCGCA……目前EBI提供的版本是ClustalW224可進(jìn)一步對排列好的序列進(jìn)行修飾在EBI的ClustalW2分析網(wǎng)頁(http://www.ebi.ac.uk/Tools/clustalw2/index.html)輸入序列“ClustalWResults”網(wǎng)頁顯示多序列比對排列結(jié)果點(diǎn)擊“ShowColors”用不同顏色的字母顯示顏色修飾功能,突出相同或相似位點(diǎn)25添加序列多序列粘貼或文件上傳26ClustalW比對結(jié)果之一27ClustalW比對結(jié)果之二(得分表)28ClustalW比對結(jié)果之三(序列比對彩色顯示)29ClustalW比對結(jié)果之四(進(jìn)化樹-Guidetree)說明:雖然ClustalW/X自帶了一個NJ/UPGMA的建樹程序,但是該程序只有p-distance模型,而且構(gòu)建的樹不夠準(zhǔn)確,一般不用來構(gòu)建進(jìn)化樹。30本地運(yùn)行ClastalXClustalX是基于Windows的本地運(yùn)行的多序列比對程序,該程序很小。輸入序列可以是以下6種格式之一:NBRF/PIR,EMBL/SWISS-PROT,Pearson/Fasta,GDE,Clustal,GCG/MSF。也可以是TXT文件(保存有Fasta
格式的序列)程序下載網(wǎng)址:http://www.ebi.ac.uk/Tools/clustalw2/31Clustalx窗口32點(diǎn)擊File下拉菜單中Loadsequences選項(xiàng),打開序列文件17-RNASE1.fasta.txt(該文件一定要與ClustalX.exe在同一目錄下,格式可以是*.fasta
或*.txt)**路徑必須是英文路徑。33如果路徑中含有中文,則會顯示文件無法打開(Cann’topenfile)的信息.34序列文件打開后的界面35點(diǎn)擊進(jìn)行多序列比對保存比對結(jié)果,生成×.aln文件36比對結(jié)果‘*’‘:’和空格依次代表該點(diǎn)的序列一致性由高到低37§5.3
系統(tǒng)發(fā)育分析
38一、系統(tǒng)發(fā)育分析系統(tǒng)發(fā)育分析(Phylogeny):就是根據(jù)同源性狀的分歧來評估物種或分子之間的進(jìn)化關(guān)系。表示方法:常用分支圖(即系統(tǒng)樹或稱進(jìn)化樹)來描述。進(jìn)化論表明:任何物種之間都存在一定的親緣關(guān)系,親緣關(guān)系可以用進(jìn)化分支樹表示。在分支樹上距離越遠(yuǎn)的物種,它們在進(jìn)化中的親緣關(guān)系也就越遠(yuǎn)。39系統(tǒng)樹genealogicaltree,phylogenetictree,(也稱進(jìn)化樹,演化樹,譜系樹)認(rèn)為生物各種族的系統(tǒng)關(guān)系有如樹狀,可用圖來表示其狀態(tài),此稱為系統(tǒng)樹。由??藸枺‥.H.Haeckel)1872年提出。他制成了動物界和植物界全部的系統(tǒng)樹,給予生物學(xué)以很大的推動。也有學(xué)者認(rèn)為生物的系統(tǒng)關(guān)系不一定是樹狀的,把系統(tǒng)的圖解(diagram)稱作系統(tǒng)樹也是不恰當(dāng)?shù)?。但是,時至今日系統(tǒng)樹仍廣泛受到認(rèn)可。兩種觀點(diǎn):40(1)化石證據(jù)(最理想的方法:化石!——然而…零散、不完整)(Fossil)(2)比較形態(tài)學(xué)證據(jù)(Comparativemorphology)/比較生理學(xué)證據(jù)(Comparativephysiology)經(jīng)典的進(jìn)化研究方法系統(tǒng)學(xué)(Systematics)分類學(xué)(Taxonomy)三種研究方法41比較形態(tài)學(xué)和比較生理學(xué):確定大致的進(jìn)化框架?!欢?xì)節(jié)存在巨多的爭議42(3)第三種方案:分子進(jìn)化1964年,Linus
Pauling提出分子進(jìn)化理論;DNA&RNA:4種堿基;蛋白質(zhì)分子:20種氨基酸;發(fā)生在分子層面的進(jìn)化過程:DNA,RNA和蛋白質(zhì)分子;基本假設(shè):核苷酸和氨基酸序列中含有生物進(jìn)化歷史的全部信息;現(xiàn)代的進(jìn)化研究方法43相比那些基于傳統(tǒng)的解剖學(xué)或形態(tài)學(xué)字符的系統(tǒng)發(fā)育研究,分子系統(tǒng)發(fā)育所含的信息非常豐富。這是因?yàn)樗鼈兎秶鼜V(例如,可以用蛋白質(zhì)序列比較開花植物和哺乳動物,但不能用形態(tài)學(xué)字符來比較它們),可以選擇的序列種類也很多(即多種字符),數(shù)據(jù)處理是一致且客觀的。分子系統(tǒng)發(fā)育分析的優(yōu)點(diǎn)44比起許多其它學(xué)科而言,用計(jì)算的方法進(jìn)行系統(tǒng)發(fā)育分析很容易得到錯誤的結(jié)果,而且出錯的危險幾乎是不可避免的;其它學(xué)科一般都會有實(shí)驗(yàn)基礎(chǔ),而系統(tǒng)發(fā)育分析不太可能會擁有實(shí)驗(yàn)基礎(chǔ),至多也就是一些模擬實(shí)驗(yàn)或者病毒實(shí)驗(yàn)(Hillisetal.,1994);實(shí)際上,系統(tǒng)發(fā)育的發(fā)生過程都是已經(jīng)完成的歷史,只能去推斷或者評估,而無法再現(xiàn)。分子系統(tǒng)發(fā)育分析的缺點(diǎn)45怎樣的圖才是系統(tǒng)樹:1)系統(tǒng)樹由節(jié)點(diǎn)、樹葉和樹枝構(gòu)成。2)沒有回路。46系統(tǒng)樹分兩類:有根樹(rootedtree)無根樹(unrootedtree)47有根樹48無根樹49系統(tǒng)樹的構(gòu)成要素5051關(guān)于“有根樹與無根樹”:1由于生物都存在共同的祖先,所以進(jìn)化樹應(yīng)該有根的。但由序列數(shù)據(jù)產(chǎn)生的進(jìn)化樹既可以有根,也可以無根。2分析有根樹和樹枝的長度,可以了解不同的物種或基因是以什么方式和速率進(jìn)化的。52在于找出分類單元中哪一分類單元是其他序列的共同祖先,或哪一對分類單元最早從共同祖先中分離出來。系統(tǒng)樹分析的困難:系統(tǒng)樹分析的目標(biāo):對于給定的分類單元數(shù),有很多棵可能的系統(tǒng)樹,但是只有一個是正確的,系統(tǒng)樹分析的目標(biāo)就是要尋找這棵正確的樹。53二、系統(tǒng)發(fā)育分析基本步驟1分子序列或特征數(shù)據(jù)分析,產(chǎn)生距離或特征數(shù)據(jù),為構(gòu)建系統(tǒng)樹提供依據(jù)2系統(tǒng)樹的構(gòu)建3系統(tǒng)樹的評估54三、系統(tǒng)樹構(gòu)建方法1距離法(distancemethod)
是一種純數(shù)學(xué)算法,該法首先將數(shù)據(jù)轉(zhuǎn)變?yōu)榫嚯x數(shù)據(jù)。又包括平均距離法(UPGMA法)、NJ(Neighbor-Joining,鄰接法)、ME法(MinimumEvolution,最小進(jìn)化法)。
2最簡約法(Maximumparsimony,MP)
尋找具有最短樹長的樹,即進(jìn)化步數(shù)最少的樹,應(yīng)用最廣泛的系統(tǒng)樹構(gòu)建方法。(主要用于近緣序列)3最大似然法(maximumlikelihood,ML)
基于基因頻率的系統(tǒng)樹。(對于遠(yuǎn)緣序列,一般用NJ或ML
)55建樹方法選擇56哪一種方法構(gòu)建的系統(tǒng)樹更可靠?1)相同的序列采用不同的方法可能產(chǎn)生不同的系統(tǒng)樹,不同的方法具有不同的特點(diǎn)和適用度。對于一組序列最好采用不同的方法進(jìn)行分析,如果不同的方法獲得的結(jié)果相同或近似,則獲得的系統(tǒng)樹比較可靠;如果不同的方法獲得的結(jié)果差異較大,則要作更深入的分析,判斷哪一種結(jié)果更可靠。2)通常采用數(shù)值重復(fù)抽樣(bootstrap)對構(gòu)建的系統(tǒng)樹進(jìn)行驗(yàn)證。所謂重復(fù)抽樣就是通過隨機(jī)選擇垂直列,從而獲得不同的樣本,根據(jù)不同的取樣進(jìn)行系統(tǒng)發(fā)育分析,比較生成的系統(tǒng)樹結(jié)構(gòu)的相似度,確定最佳樹結(jié)構(gòu)。57獲得一組相關(guān)序列多序列比對結(jié)果最大簡約法距離法分析數(shù)據(jù)對預(yù)測的支持度最大似然法相似度是否高?是否有清晰可辨的相似性?是是否否系統(tǒng)發(fā)育分析方法的選擇58四、常用的系統(tǒng)樹構(gòu)建程序常用程序:59http://taxonomy.zoology.gla.ac.uk/rod/treeview.html進(jìn)化樹的顯示軟件:Treeview60MEGA4
(http:///)MEGA是Nei開發(fā)的方法并設(shè)計(jì)的圖形化的軟件,使用非常方便。該軟件是初學(xué)者的首選?;静襟E:1)多序列比對2)比對結(jié)果輸出為.MEG文件3)根據(jù).MEG文件數(shù)據(jù)繪制系統(tǒng)樹。61一個關(guān)于序列分析及比較統(tǒng)計(jì)的工具包包含距離建樹,MP等建
樹法自動或手動進(jìn)行序列比對;推斷進(jìn)化樹;估算分子進(jìn)化率,進(jìn)行進(jìn)化假設(shè)測驗(yàn);聯(lián)機(jī)進(jìn)行數(shù)據(jù)庫搜索;…62MEGA4可以識別fasta格式文件將17-RNASE1.fasta.txt重命名為17-RNASE1.fasta可利用Clustal
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《教學(xué)毒素識別儀》課件
- 疊瓦癬的臨床護(hù)理
- 教練式專業(yè)銷售實(shí)戰(zhàn)技巧培訓(xùn)課件
- 《信貸管理概論》課件
- 孕期巨細(xì)胞病毒感染的健康宣教
- 肛門濕疹的臨床護(hù)理
- 探究鐵及其化合物的氧化性和還原性課件好
- 課外活動組織方案計(jì)劃
- 可轉(zhuǎn)換債券協(xié)議三篇
- 地球大冒險運(yùn)輸協(xié)議三篇
- 皇帝的新裝英語話劇劇本
- is620p系列伺服用戶手冊-v0.2綜合版
- 差動保護(hù)培訓(xùn)技巧電氣稿課件
- T-CIATCM 007-2019 中醫(yī)藥綜合統(tǒng)計(jì)網(wǎng)絡(luò)直報信息系統(tǒng)基本功能規(guī)范
- 義務(wù)教育語文課程常用字表-(3500字)
- 曲馬多的臨床應(yīng)用課件
- 外科護(hù)理學(xué)門靜脈高壓
- 防止高空墜落傷害考試題及答案
- 河南科學(xué)技術(shù)出版社小學(xué)信息技術(shù)三年級上冊教案
- DB37T 5127-2018 裝配式建筑評價標(biāo)準(zhǔn)
- 帶教老師評價模板
評論
0/150
提交評論