第三章序列比對ppt課件_第1頁
第三章序列比對ppt課件_第2頁
第三章序列比對ppt課件_第3頁
第三章序列比對ppt課件_第4頁
第三章序列比對ppt課件_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第三章第三章 序列比對序列比對第一節(jié)第一節(jié) 引言引言 雙序列比對的目的:雙序列比對的目的:同源物鑒定,功能預(yù)測同源物鑒定,功能預(yù)測根本假設(shè):根本假設(shè):1一切的生物都來源于同一個祖先一切的生物都來源于同一個祖先 物種間序物種間序列存在同列存在同 源關(guān)系,同源序列功能往往是類源關(guān)系,同源序列功能往往是類似的似的2序列不是隨機產(chǎn)生,而是在進化上不斷發(fā)生著序列不是隨機產(chǎn)生,而是在進化上不斷發(fā)生著演化同源的序列存在高度類似性演化同源的序列存在高度類似性3序列的類似性可以判別序列的類似性可以判別 序列的同源性,進而序列的同源性,進而可以利用可以利用 同源物功能的類似性同源物功能的類似性 來進展推斷來進展推

2、斷序列比對的分類:雙序列比對,多序列比對序列比對的分類:雙序列比對,多序列比對多序列的目的:用于比較基因組研討1 用于描畫一組序列基因家族之間的 類似性關(guān)系, 以便了解一個基因家族的根本特征,尋覓motif,保守區(qū)域等。2 可構(gòu)建HMM模型,搜索更多的同源序列,Pfam,prints,prosite,interPro等3 分析構(gòu)造用于構(gòu)建進化樹 假設(shè)兩個序列有一個共同的進化祖先,那么它們假設(shè)兩個序列有一個共同的進化祖先,那么它們是同源的。這里不存在同源性的程度問題。這兩是同源的。這里不存在同源性的程度問題。這兩條序列之間要么是同源的,要么是不同源的條序列之間要么是同源的,要么是不同源的同源性同

3、源性homology第二節(jié)第二節(jié) 序列比對的根本概念序列比對的根本概念類似性類似性 similarity 類似性是指序列比對過程中用來描畫檢測序列和目的類似性是指序列比對過程中用來描畫檢測序列和目的序列之間一樣序列之間一樣DNA堿基或氨基酸殘基順序所占比例的堿基或氨基酸殘基順序所占比例的高低。高低。 當(dāng)類似程度高于當(dāng)類似程度高于50%時,比較容易推測檢測序列和目時,比較容易推測檢測序列和目的序列能夠是同源序列;而當(dāng)類似性程度低于的序列能夠是同源序列;而當(dāng)類似性程度低于20%時,時,就難以確定能否具有同源性。就難以確定能否具有同源性。直系同源和旁系同源直系同源和旁系同源 直系同源直系同源orth

4、ology是指不同物種內(nèi)的同源序列,是指不同物種內(nèi)的同源序列,它們來源于物種構(gòu)成時的共同祖先基因。它們來源于物種構(gòu)成時的共同祖先基因。 旁系同源旁系同源paralogy是指同一物種中,由于基因的是指同一物種中,由于基因的復(fù)制而產(chǎn)生的幾個同源基因。復(fù)制而產(chǎn)生的幾個同源基因。 直系同源和旁系同源的圖示:直系同源和旁系同源的圖示:1編輯間隔:兩條序列對應(yīng)位置上不同字符的個數(shù)編輯間隔:兩條序列對應(yīng)位置上不同字符的個數(shù)2類似性得分:兩條序列對應(yīng)位置上一樣字符的個數(shù)類似性得分:兩條序列對應(yīng)位置上一樣字符的個數(shù)類似分?jǐn)?shù)越高,序列越類似,編輯間隔越小,序列越類似類似分?jǐn)?shù)越高,序列越類似,編輯間隔越小,序列越類

5、似兩條序列長度不一致時:空格兩條序列長度不一致時:空格Gap 類似性分?jǐn)?shù)的計算類似性分?jǐn)?shù)的計算編輯間隔編輯間隔edit distance)類似性得分 打分規(guī)那么就是后面的打分矩陣打分規(guī)那么就是后面的打分矩陣第三節(jié)第三節(jié) 打分矩陣交換記分矩陣打分矩陣交換記分矩陣 插入和缺失突變:序列比對采用空格Gap來處置 交換突變:交換計分矩陣即打分矩陣 1核酸打分矩陣設(shè)DNA序列所用的字母表為 = A,C,G,T a. 等價矩陣 (unitary matrix) b. BLAST矩陣 c. 轉(zhuǎn)換-顛換矩陣transition-transversion matrix 嘌呤:腺嘌呤A,鳥嘌呤G;嘧啶:胞嘧啶C,

6、胸腺嘧啶T 表3.1 等價矩陣表表3.3 轉(zhuǎn)移矩陣表3.2 BLAST矩陣2蛋白質(zhì)打分矩陣 i等價矩陣 ii 遺傳密碼矩陣genetic code matrix,GCM ) iii疏水性矩陣 hydrophobic matrix) ivPAM矩陣point accepted matrix,PAM v BLOSUM矩陣 BLOck SUbstitution Matrix,BLOSUMjijiRij01其中Rij代表打分矩陣元素i、j分別代表字母表第i和第j個字符。 遺傳密碼矩陣遺傳密碼矩陣 遺傳密碼矩陣經(jīng)過計算一個氨基酸變成另遺傳密碼矩陣經(jīng)過計算一個氨基酸變成另一個氨基酸所需的密碼子變化的數(shù)目而

7、得一個氨基酸所需的密碼子變化的數(shù)目而得到。通常為到。通常為1 或或 2,只需,只需Met到到Tyr為為 3。 遺傳密碼矩陣遺傳密碼矩陣 GCM矩陣矩陣 疏水矩陣疏水矩陣R K D E B Z S N Q G X T H A C M P V L I Y F W R 1010998866655555433333210K 1010998866655555433333210D 9910108876665555544433321E 9910108876665555544433321B 8888101088887777666555443Z 8888101088887777666555443S 667788

8、101010109999887777664N 666688101010109999888777664Q 666688101010109999888777664G 556688101010109999888877665X 555577999910101010998888775T 555577999910101010998888775H 555577999910101010999888775A 555577999910101010999888775C 4455668888999910109999885M 334466888899991010101099887P 334466788888999101

9、01099987V 3344557778888891010101010987L 33335577778888999101010998I 33335577778888999101010998Y 2233446666777788999910108F 1122446666777788889910109W 001133444555556777888910PAM & BLOSOM 這類矩陣列出同源蛋白質(zhì)在進化過程中氨基酸變化的能夠性統(tǒng)計學(xué)inference是基于進化原理的根據(jù),更科學(xué)PAM矩陣矩陣 point accepted mutaion 基于氨基酸進化的點突變模型基于氨基酸進化的點突變模型

10、 假設(shè)兩種氨基酸交換頻繁,闡明自然界接受這假設(shè)兩種氨基酸交換頻繁,闡明自然界接受這種交換,那么這對氨基酸交換得分就高種交換,那么這對氨基酸交換得分就高PAM矩陣的制造步驟矩陣的制造步驟構(gòu)建序列類似大于構(gòu)建序列類似大于85的比對的比對計算氨基酸計算氨基酸 j 的相對突變率的相對突變率mjj被其他氨基酸被其他氨基酸交換的次數(shù)交換的次數(shù)針對每個氨基酸對針對每個氨基酸對 i 和和 j , 計算計算 j 被被 i 交換次數(shù)交換次數(shù)交換次數(shù)除以相對突變率交換次數(shù)除以相對突變率mj利用每個氨基酸出現(xiàn)的頻度對利用每個氨基酸出現(xiàn)的頻度對j 進展規(guī)范化進展規(guī)范化取常用對數(shù),得到取常用對數(shù),得到PAM-1(i, j

11、)將將PAM-1自乘自乘N次,可以得到次,可以得到PAM-nPAM矩陣與BLOSUM矩陣的選擇第四節(jié) 序列比對的算法雙序列比對的三種算法:雙序列比對的三種算法:點陣分析法點陣分析法動態(tài)規(guī)劃法動態(tài)規(guī)劃法:Needleman-Wunsch、Smith-Waterman詞或詞或K串法串法(BLAST or FASTA中運用,后面會提到中運用,后面會提到) 對序列從頭到尾進展比較,試圖使盡能對序列從頭到尾進展比較,試圖使盡能夠多的字符在同一列中匹配。夠多的字符在同一列中匹配。 適用于類似度較高且長度相近的序列適用于類似度較高且長度相近的序列 如:如:Needleman-Wunsch算法算法全局比對全局

12、比對部分比對部分比對 尋覓序列中類似度最高的區(qū)域,也就是尋覓序列中類似度最高的區(qū)域,也就是匹配密度最高的部分。匹配密度最高的部分。 適用于在某些部分類似度較高,而其他適用于在某些部分類似度較高,而其他部位差別較大的序列。部位差別較大的序列。 如:如:Smith-Waterman算法算法多序列比對的算法:多序列比對的算法:1動態(tài)規(guī)劃算法動態(tài)規(guī)劃算法2漸進多序列比對漸進多序列比對3迭代法迭代法多序列比對基于雙序列比對,存在兩種比對方式:多序列比對基于雙序列比對,存在兩種比對方式:1部分比對部分比對 local alignment2整體比對整體比對global alignment普通選擇部分比對和蛋

13、白質(zhì)序列比對普通選擇部分比對和蛋白質(zhì)序列比對1蛋白質(zhì)功能位點往往是由較短的序列片段組成的,雖蛋白質(zhì)功能位點往往是由較短的序列片段組成的,雖然在序列的其它部位能夠有插入、刪除等突變,但這些然在序列的其它部位能夠有插入、刪除等突變,但這些關(guān)鍵的功能部位的序列往往具有相當(dāng)大的保守性。而部關(guān)鍵的功能部位的序列往往具有相當(dāng)大的保守性。而部分比對往往比整體比對對這些功能區(qū)段具有更高的靈敏分比對往往比整體比對對這些功能區(qū)段具有更高的靈敏度,因此其結(jié)果更具生物學(xué)意義。度,因此其結(jié)果更具生物學(xué)意義。2蛋白質(zhì)比對通常比蛋白質(zhì)比對通常比DNA比對具有更豐富的信息比對具有更豐富的信息 i) DNA序列的許多改動特別是

14、密碼子的第三位不會序列的許多改動特別是密碼子的第三位不會改動對應(yīng)的氨基酸改動對應(yīng)的氨基酸 ii許多氨基酸具有類似的生物化學(xué)性質(zhì)親疏水,酸許多氨基酸具有類似的生物化學(xué)性質(zhì)親疏水,酸堿等,在打分系統(tǒng)中會以為是類似的堿等,在打分系統(tǒng)中會以為是類似的positive,而不是不同而不是不同第五節(jié) 雙序列比對的常用工具數(shù)據(jù)庫搜索:在分子生物學(xué)研討中,對于新測定的堿基序列或由此翻譯得到的氨基酸序列,往往需求經(jīng)過數(shù)據(jù)庫搜索,找出具有一定類似性的同源序列,以推測該未知序列能夠?qū)儆谀膫€基因家族,具有哪些生物學(xué)功能。數(shù)據(jù)庫搜索的根底是序列的類似性比對,即雙序列比對,因此,數(shù)據(jù)庫搜索是雙序列比對的特例BLAST, F

15、ASTA等常用的數(shù)據(jù)庫搜索程序均采用部分類似性比對的方法,具有較快的運轉(zhuǎn)速度BLAST: basic local alignment search toolBLAST子程序闡明gi|224983683|pdb|3GBN|B Chain B, Crystal Structure Of Fab Cr6261 In Complex With The 1918 H1n1 Influenza Virus HemagglutininGLFGAIAGFIEGGWTGMIDGWYGYHHQNEQGSGYAADQKSTQNAIDGITNKVNSVIEKMNTQFTAVGKEFNNLERRIENLNKKVDDGF

16、LDIWTYNAELLVLLENERTLDFHDSNVRNLYEKVKSQLKNNAKEIGNGCFEFYHKCDDACMESVRNGTYDYPKYSEESKLNREEIDGVSGR多構(gòu)造域蛋白 (H1N1) 的BLAST檢索BLAST結(jié)果綜述BLAST結(jié)果表述Bl2Seq雙序列比對舉例特殊特殊BLAST蛋白質(zhì)序列比對用蛋白質(zhì)序列比對用blastp,DNA序列比對用序列比對用blastn例:擬南芥和菠菜的抗壞血酸過氧化物酶基因的兩兩比對例:擬南芥和菠菜的抗壞血酸過氧化物酶基因的兩兩比對粘貼粘貼sequence1粘貼粘貼sequence2豎線:一致性豎線:一致性(identities)缺口缺口(gap):不同之處:不同之處Cluster家族ClusterW第六節(jié) 多序列比對的常用工具 將要比對的多個序列以將要比對的多個序列以Fasta格式保管格式保管以多個物種的抗壞血酸過氧化物酶的的蛋以多個物種的抗壞血酸過氧化物酶的的蛋白質(zhì)序列進展比對為例白質(zhì)序列進展比對為例載入多個序列后,選擇輸出選項,選擇輸出格式?;蜉d入多個序列后,選擇輸出選項,選擇輸出格式。或者在比對完成之后,在者在比對完成之后,在“文件中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論