




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、【生物信息學第2版】序列比對第二章 序列比對生物信息學第一節(jié) 引 言 Section 1 Introduction (一) 同源兩個序列享有一個共同的進化上的祖先,則這兩個序列是同源的。對于兩個序列,他們或者同源或者不同源,不能說他們70%或80%同源。、同源、相似與距離同源可分為垂直同源(ortholog)和水平同源(paralog)垂直同源與水平同源(二)相似性與距離相似性、距離:是兩個定量描述多個序列相似度的度量。相似性:被比對序列之間的相似程度。距離:被比對序列間的差異程度。相似性既可用于全局比對也可用于局部比對,而距離一般僅用于全局比對,因為它反映了把一個序列轉換成另一個序列所需字符
2、替換的耗費。二、相似與距離的定量描述相似性可定量地定義為兩個序列的函數,即它可有多個值,值的大小取決于兩個序列對應位置上相同字符的個數,值越大則表示兩個序列越相似。編輯距離(edit distance)也可定量地定義為兩個序列的函數,其值取決于兩個序列對應位置上差異字符的個數,值越小則表示兩個序列越相似。對于一個比對,不論使用什么計分函數進行計分,相似性被定義為總等值于最大的計分:對于k個序列,如果用一個函數cost講義對每一列的所有替換操作進行計分,則多個序列之間的距離等值于最小的計分:對相似性的計分編輯距離(edit distance):一般用海明距離表示。三、算法實現(xiàn)的比對用計算機科學的
3、術語來說,比對兩個序列就是找出兩個序列的最長公共子序列(longest common subsequence,LCS),它反映了兩個序列的最高相似度。動態(tài)規(guī)劃法示意(A)使用動態(tài)規(guī)劃法尋找兩個序列的最長公共部分;(B)動態(tài)規(guī)劃表的填寫。四、序列比對的作用獲得共性序列序列測序突變分析種系分析保守區(qū)段分析基因和蛋白質功能分析第二節(jié) 比對算法概要Section 2 Alignment Algorithms(一)通過點矩陣對序列比較進行計分A.兩條序列完全相同一、替換計分矩陣B.兩條序列有一個共同的子序列C.兩條序列反向匹配D.兩條序列存在不連續(xù)的兩條子序列(二)DNA序列比對的替換計分矩陣等價矩陣(
4、unitary matrix)轉換-顛換矩陣(transition-transversion matrix)BLAST矩陣核苷酸轉換矩陣(三)蛋白質序列比對的替換計分矩陣等價矩陣遺傳密碼矩陣(GCM)疏水性矩陣(hydrophobic matrix )PAM矩陣BLOSUM矩陣PAM矩陣是從蛋白質序列的全局比對結果推導出來的,而BLOSUM 矩陣則是從蛋白質序列塊(短序列)比對推導出來的。PAM/BLOSUM矩陣編號與序列親緣關系的比較二、雙序列全局比對動態(tài)規(guī)劃算法的思想 a, b是使用某一字符集的序列(DNA 或蛋白質序列); m = a的長度; n = b的長度; S(i,j) 是按照某替
5、換計分矩陣得到的前綴a1.i與b1.j最大相似性得分; w(c,d)是字符c和d按照替換計分矩陣計算的得分??砂凑找?guī)則建立得分矩陣:S(i,0) = 0, 0 i mS(0,j) = 0, 0 j n S(i-1,j-1)+ w(ai,bj) 匹配或錯配S(i,j)=max S(i-1,j)+ w(ai,-) 插入 S(i,j-1) 缺失不罰分例如,對于序列a=ACACACTA,序列b=AGCACACA,計分規(guī)則w(匹配)=+2;w(a,-)=w(-,b)=w(失配)=-1得分矩陣三、雙序列局部比對處理子序列與完整序列(或短序列與長序列)比對的一般過程是:設短序列a和長序列b,它們的長度分別為
6、La和Lb,比對是在b序列中尋找La長度的a序列的過程。四、多序列全局比對多序列比對主要涉及四個要素:選擇一組能進行比對的序列(要求是同源序列);選擇一個實現(xiàn)比對與計分的算法與軟件;確定軟件的參數;合理地解釋比對的結果;與雙序列比對一樣,多序列比對也有全局比對和局部比對。(一)動態(tài)規(guī)劃法進行多序列比對(A)計算三個序列間的一個比對單元(i,j,k)依賴于其7個前導項;(B)計算u=ATGTTAT,v=ATCGTAC,w=ATGC三序列比對的三維得分矩陣。計算三序列比對(二)漸進多序列比對三個序列的配對比對未必能組合成一個多序列比對對于接近或超過100個序列的多序列比對,漸進多序列比對具有較高效
7、率。最流行的漸進多序列比對軟件是Clustal家族。ClustalW有以下特點:首先,在比對中對每個序列賦予一個特殊的權值以降低高度近似序列的影響和提高相距遙遠的序列的影響(如下圖)。ClustalW中對序列賦權的方法其次,根據序列間進化距離的離異度(divergence)在比對的不同階段使用不同的氨基酸替換矩陣;第三,采用了與特定氨基酸相關的空缺(gap)罰分函數,對親水性氨基酸區(qū)域中的空缺予以較低的罰分;第四,對在早期配對比對中產生空缺的位置進行較少的罰分,對引入空缺和擴展空缺進行不同的罰分。迭代法基于一致性的方法遺傳算法其他多序列全局比對方法五、多序列局部比對全局比對,其共同特征是序列中
8、所有對應字符均假定可以匹配,所有字符具有同等的重要性,空格的插入是為了使整個序列得到比對,包括使兩端對齊。局部比對不假定整個序列可以匹配,重在考慮序列中能夠高度匹配的一個區(qū)段,可賦予該區(qū)段更大的計分權值,空格的插入是為了使高度匹配的區(qū)段得到更好的比對。對2個序列進行全局和局部比對可得到完全不同的結果 基于隱馬爾可夫模型的多序列比對方法隱馬爾可夫模型和3個蛋白質序列PHSFTYVMT、PGSFTYW、RFTGFW的最小公共超圖六、比對的統(tǒng)計顯著性確定比對得分score是否偶然:1.將球蛋白或肌球蛋白與大量非同源的蛋白質做比對,然后將score與這些比對的得分進行比較。2.把一個序列與一組隨機產生
9、的序列進行比對,然后同樣將score與這些比對的得分進行比較。3.隨機將兩個序列中的一個打亂重組,比如說重組100次,并與另一個序列比對,同樣得到一組比對的得分。第三節(jié) 數據庫搜索Section 3 Database Search一、經典BLAST基本的BLAST算法本身很簡單,它的要點是片段對(segment pair)的概念,它是指兩個給定序列中的一對子序列,它們的長度相等,且可以形成無空格的完全匹配。程序名查詢序列數據庫類型方法blastp蛋白質蛋白質用蛋白質查詢序列搜索蛋白質序列數據庫blastn核酸核酸用核酸查詢序列搜索核酸序列數據庫blastx核酸蛋白質將核酸序列按6條鏈翻譯成蛋白
10、質序列后搜索蛋白質序列數據庫tblastn蛋白質核酸用蛋白質查詢序列搜索核酸序列數據庫,核酸序列按6條鏈翻譯成蛋白質tblastx核酸核酸將核酸序列按6條鏈翻譯成蛋白質序列后搜索由核酸序列數據庫按6條鏈翻譯成的蛋白質序列的數據庫BLAST的查詢序列和數據庫的類型BLAST算法圖示二、衍生BLAST(一)PSI-BLAST主要用于搜索與感興趣的蛋白質關系較遠的蛋白質。(二)PHI-BLAST用來幫助判斷這個蛋白質屬于哪個家族。(三)BLASTZBLASTZ是在比對人和鼠的基因組中發(fā)展起來的,它適合于比對非常長的序列。三、BLATBLAT(The BLAST-Like Alignment Tool
11、)與BLAST搜索原理相似,但發(fā)展了一些專門針對全基因組分析的技術。BLAT的優(yōu)點在于速度快,其比對速度要比BLAST快幾百倍,其根本原因在于: BLAST是將查詢序列索引化,而BLAT則是將搜索數據庫索引化,BLAT 把相關的呈共線性的比對結果連接成為更大的比對結果。四、RNA序列搜索RNA序列比對/搜索算法可大致分成兩類: 查詢序列(query)的結構未知,要找到數據庫中和其結構相近的同源序列。 利用查詢序列的結構信息,在結構信息的使用上又可以細分為:通過構建一個描述RNA序列共性結構的概率模型進行數據庫檢索; 基于索引(index)或者模體(motif)描述的方法定義rna結構或共性結構
12、,并進行數據庫搜索。五、數據庫搜索的統(tǒng)計顯著性一個典型的BLAST搜索的輸出包括E值和得分,后者又分原始得分(raw scores)和比特得分(bit scores)。 P=1-e-EP值和E值是反映比對顯著性的兩種不同方式,大部分BLAST在線服務使用E值而非P值來定義搜索的統(tǒng)計學顯著性。第四節(jié) 比對軟件、參數與數據資源Section 4 Alignment Software, Parameter and Resource一、參數選擇的一般原則空格罰分涉及幾個問題:空格罰分是否大于失配罰分;不同大小空缺的罰分;空格的引入與延伸是否予以不同罰分。如果一次數據庫搜索產生了太多的返回結果,可采取如
13、下措施: 使用參考序列(帶“refseq”的)數據庫,這樣可減少許多冗余結果; 使查詢序列只包含一個結構域,減少多結構域帶來的多匹配; 根據查詢序列與數據庫序列的關系使用更合適的替換計分矩陣; 降低E值。如果一次數據庫搜索產生了太少的返回結果,可采取如下措施: 提高E值; 使用更大的PAM矩陣或更小的BLOSUM矩陣; 減小字長以及減小閾值。二、主要比對軟件三、EBI中的序列比對工具雙序列比對多序列比對特性工具工具Global alignmentNeedleClustal OmegaGlobal alignmentStretcherClustalW2Local alignmentWaterDb
14、ClustalLocal alignmentLalignKalignLocal alignmentMatcherMAFFTGenomic alignmentPromoterWiseMUSCLEGenomic alignmentGeneWiseMViewGenomic alignmentWise2DBAPRANK四、UCSC中的BLAT比對工具BLAT在線工具輸入界面BLAT在線工具輸出結果第五節(jié) 比對技術的發(fā)展Section 5 Advances of Alignment Techniques一、glocal 比對兩個序列的局部、全局和glocal比對所對應的路徑二、全基因組比對全基因組比對主要揭示多個序列中保守的和非保守的區(qū)段以及這些區(qū)段在基因組中的分布特征,這里主要介紹UCSC基因組瀏覽器(The UCSC Genome Browser)中的全基因組比對方法。UCSC基因組瀏覽器中所采用的多序列比對在多方面作了改進首先,它采用了參照序列(reference sequence),使用BLASTZ將每一個序列與參照序列進行局部配對比對,參照序列中的一個堿基比對另一個序列中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電梯贈予合同7篇
- 小產權轉讓合同6篇
- 國際貿易之間合作合同
- 公司技術合作合同協(xié)議書
- 2025年中山貨運資格證模擬考試題庫
- 2025年揚州貨運從業(yè)資格證模擬考試下載安裝
- 室內裝修合同二5篇
- 的擔保借款合同7篇
- 觀看湖北消防119宣傳月節(jié)目心得感悟集合4篇
- 在民主生活會上的點評講話模板
- 隨機微分方程
- 道路設施施工現(xiàn)場安全管理基本要求
- 公寓樓改造裝修施工方案
- 煙臺大學化學化工學院實驗室儀器設備搬遷項目
- 安全生產管理組織架構圖
- 2022版10kV架空配電線路無人機自主巡檢作業(yè)導則
- 近二十年俄羅斯修辭學研究述評
- 委托付款三方協(xié)議中英文版
- 約克中央空調冷水機組年度維保方案
- 高中英語-Unit 2 Reading and Thinking A day in the clouds教學課件設計
- 新聞采訪與寫作課件第十九章融合報道
評論
0/150
提交評論