




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
序列分析(一)
一一序列比對(duì)生物信息學(xué)研究的三個(gè)層面初級(jí)層面:
基于現(xiàn)有的生物信息數(shù)據(jù)庫(kù)和資源,利用成熟的生物信息學(xué)工具(專(zhuān)業(yè)網(wǎng)站、軟件)解決生物信息學(xué)問(wèn)題——生物信息數(shù)據(jù)庫(kù)(NCBI、EBI、DDBJ、UniProt等)——基因組序列分析、序列比對(duì)軟件(BLAST、CLUSTAL等)——系統(tǒng)發(fā)育樹(shù)構(gòu)建軟件的簡(jiǎn)單使用(PHYLIP、PALM等)——搜集、整理有特色的生物信息學(xué)數(shù)據(jù)庫(kù)中級(jí)層面:
利用數(shù)理統(tǒng)計(jì)方法和相關(guān)的工具,研究生物信息學(xué)問(wèn)題——概率、數(shù)理統(tǒng)計(jì)基礎(chǔ)——現(xiàn)有的數(shù)理統(tǒng)計(jì)和科學(xué)計(jì)算工具(EXCEL、SPSS等)高級(jí)層面:提出有重要意義的生物信息學(xué)問(wèn)題;自主創(chuàng)新,發(fā)展新方法,開(kāi)發(fā)新工具,引領(lǐng)生物信息學(xué)領(lǐng)域研究方向?!嫦蛏飳W(xué)領(lǐng)域,解決重要生物學(xué)問(wèn)題——利用數(shù)學(xué)、物理、化學(xué)、計(jì)算科學(xué)等思想和方法——建立模型,發(fā)展算法——自行編程,開(kāi)發(fā)軟件序列分析內(nèi)容與DNA和protein序列相關(guān)的研究都可稱為序列分析。主要包括:
1.序列比對(duì)2.基因組序列分析3.蛋白質(zhì)序列分析4.綜合序列分析為什么要進(jìn)行序列比對(duì)???序列拼接數(shù)據(jù)庫(kù)搜索方面進(jìn)化方面功能方面與進(jìn)化相關(guān)的幾個(gè)概念同源性與相似性:極易被混淆的兩個(gè)概念?。?!同源性(homology):是指序列們是由共同祖先進(jìn)化而來(lái),講兩條序列的同源關(guān)系,只有兩種情況:同源、不同源。相似性:指序列間的差別,是一個(gè)度量。同源與相似的關(guān)系:一般認(rèn)為序列相似性達(dá)到一定程度,即可認(rèn)為是同源,但不絕對(duì)。Ortholog(直系同源):
兩個(gè)基因通過(guò)物種形成
的事件而產(chǎn)生,或源于不同物種的具有共同祖先的兩個(gè)基因,或者兩個(gè)物種中的同一基因,一般具有相同的功能。Paralog(旁系同源):
指相同的基因組內(nèi)因基因復(fù)制
形成的多個(gè)具有不同功能的基因。Xenolog(異同源):
由某一個(gè)水平基因轉(zhuǎn)移
事件而得到的同源序列。Convergence(趨同):
序列的相似性是由隨機(jī)因素
產(chǎn)生。第一節(jié)、雙序列比對(duì)點(diǎn)陣分析動(dòng)態(tài)規(guī)劃1.點(diǎn)陣分析用途:1.尋找兩條序列間所有可能的比對(duì);2.尋找蛋白質(zhì)、DNA序列上正向或反向的重復(fù)序列;3.發(fā)現(xiàn)RNA上可能存在的互補(bǔ)區(qū)域。優(yōu)點(diǎn):1.可以找到兩個(gè)序列間所有可能的殘基匹配;2.簡(jiǎn)單、易懂3.直觀、整體性強(qiáng)工具:http://www.ebi.ac.uk/Tools/emboss/index.html例1:自身的比對(duì)AKGFKCADEA100000100K10010000G1000000F100000K10000C1000A100D10E1例2:重復(fù)序列AKGFDKGFEA100000000K10001000G1000100F100010D10000K11000G1100F110E1例3:反向重復(fù)/回文AUGCACGUCA100010000U10000010G1000100C101000A10000C11001G1100U110C1例4:RNAstem/loopAUGUAGCAUA100010010U10100001G1001000C000001U00001A0010C100A10U1例5:不同序列的比對(duì)PKDFCKALVP100000000K10001000F0100000T00000K11000A100I00V1PKDFCKALVPK-FTKAIV字符的關(guān)系:匹配刪除或插入替換點(diǎn)陣法的序列比對(duì)Sequence1#1nSequence2#1m“-”Insertion“-”Insertion尋找兩條序列的最佳比對(duì),實(shí)際上就是尋找在矩陣標(biāo)記圖中找非重疊平行斜線最長(zhǎng)的組合。→序列1→→序列2→實(shí)例對(duì)于較長(zhǎng)的序列,有很多匹配的字符,點(diǎn)陣圖變得非常復(fù)雜和模糊。點(diǎn)陣法的滑動(dòng)窗口技術(shù):
使用滑動(dòng)窗口代替一次一個(gè)位點(diǎn)的比較,是解決這個(gè)問(wèn)題的有效方法。
假設(shè)窗口大小為10,相似度閾值為8,則每次比較取10個(gè)連續(xù)的字符,如相同的字符超過(guò)8個(gè),則標(biāo)記,
基于滑動(dòng)窗口的點(diǎn)矩陣方法可以明顯地降低點(diǎn)陣圖的噪聲,并且明確無(wú)誤的指示出了兩條序列間具有顯著相似性的區(qū)域。
(a)對(duì)人類(lèi)(Homosapiens)與黑猩猩(Pongopygmaeus)的β球蛋白基因序列進(jìn)行比較的完整點(diǎn)陣圖。(b)利用滑動(dòng)窗口對(duì)以上的兩種球蛋白基因序列進(jìn)行比較的點(diǎn)陣圖,其中窗口大小為10個(gè)核苷酸,相似度閾值為8。(a)(b)滑動(dòng)窗口和閾值的選擇過(guò)于經(jīng)驗(yàn)化,信噪比較低,不適合進(jìn)行高通量的數(shù)據(jù)分析,對(duì)長(zhǎng)序列,計(jì)算時(shí)間長(zhǎng)。點(diǎn)陣序列比對(duì)的缺點(diǎn)作為雙序列比對(duì)的第一步,點(diǎn)陣圖提供了一個(gè)大尺度的輪廓信息http://www.ebi.ac.uk/Tools/emboss/align/序列相似性打分矩陣簡(jiǎn)單的得分函數(shù):p(a,a)=1p(a,b)=0p(a,-)=p(-,b)=-1例5:不同序列的比對(duì)PKDFCKALVP100000000K10001000F0100000T00000K11000A100I00V1PKDFCKALVPK-FTKAIV字符的關(guān)系:匹配刪除或插入替換PKDFCKALVPK–
FTKA
I
V對(duì)于例五中的情況:11-1101101Score=1+1+(-1)+1+0+1+1+0+1=5由于序列長(zhǎng)度不同,因此相對(duì)長(zhǎng)度的得分更有意義:
Sim(s,t)=2×Score/(m+n)=2×5/(9+8)=0.588注意:不同類(lèi)型的字符替換,其代價(jià)是不同的。ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45BLAST矩陣目前最流行的序列比較程序BLAST使用的矩陣核酸矩陣一ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51轉(zhuǎn)移矩陣基于顛換、轉(zhuǎn)換原理。核酸矩陣二遺傳密碼矩陣:通過(guò)計(jì)算一個(gè)氨基酸變化為另一個(gè)氨基酸,所需密碼子中堿基的變換數(shù)目而得到。例如:苯丙氨酸M=>色氨酸W(ATG)(TGG)替換值為:2蛋白質(zhì)矩陣二疏水矩陣:利用氨基酸的疏水性蛋白質(zhì)矩陣一PAM矩陣:通過(guò)統(tǒng)計(jì)氨基酸的相互替換率得到的矩陣,最早是由Dayhoff等研究了71個(gè)相關(guān)蛋白家族的1572個(gè)突變。BLOSUM矩陣:也是通過(guò)統(tǒng)計(jì)氨基酸的相互替換率。蛋白質(zhì)矩陣三二者區(qū)別:前者Dayhoff模型,假設(shè)蛋白質(zhì)序列各部位進(jìn)化的速率是均等的。但事實(shí)上并非如此,因?yàn)楸J貐^(qū)的進(jìn)化速率顯然低于非保守區(qū)。后者由Henikoff算法得到,對(duì)不同家族蛋白質(zhì)序列片段進(jìn)行比對(duì),不加入gaps,這些序列區(qū)間對(duì)應(yīng)于高度保守的區(qū)域。氨基酸匹配率可通過(guò)各區(qū)間可能的匹配率得到。再將這些匹配率計(jì)入匹配率表。PAM矩陣(PointAcceptedMutation)序列相似度=14%-27%40%50%
60%
|
|
|
|打分矩陣=PAM250PAM120PAM80PAM60BLOSUM:BLOSUM60:序列相似度為
60%左右的序列使用;BLOSUM80:序列相似度為
80%左右的序列使用。PAM1矩陣,除以10000ARA98672R19913ReplacementaminoacidOriginalaminoacid2.動(dòng)態(tài)規(guī)劃算法動(dòng)態(tài)規(guī)劃往往被用于一個(gè)復(fù)雜的空間中尋找一條最優(yōu)路徑。全局優(yōu)化比對(duì):Needleman-Wunsch局部?jī)?yōu)化比對(duì):Smith-Waterman為什么要設(shè)計(jì)動(dòng)態(tài)規(guī)劃算法?直接的序列比對(duì),要分別計(jì)算所有比對(duì)情況的分值,以求得最大分值(或最小分值)。但兩序列比對(duì)數(shù)是序列長(zhǎng)度的指數(shù)函數(shù),計(jì)算量很大,因此必須設(shè)計(jì)高效的算法。BLOSUM62替代矩陣以兩序列VDSCY和VESLCY為例空位罰分d=-11動(dòng)態(tài)規(guī)劃算法:全局比對(duì)(1)GapVDSCYGap01gap2gap…V1gapE2gapS…LCY本例:線性罰分全局比對(duì)(2)GapVDSCYGap0-11-22-33-44-55V-11SijE-22S-33L-44C-55Y-66要求解Sij的分?jǐn)?shù),我們必須先知道Si-1,j-1,Si-1,j,Si,j-1的分?jǐn)?shù),這種方法叫做遞歸算法;采用這種方法,可以把大的問(wèn)題分割成小的問(wèn)題逐一解決,即動(dòng)態(tài)規(guī)劃算法;需要存儲(chǔ)如何得到Sij分?jǐn)?shù)的過(guò)程。全局比對(duì)(3)ijGapVDSCYGap0-11-22-33-44-55V-11SijE-22S-33L-44C-55Y-66Needleman-Wunsch算法;
Si-1,j-1+σ(xi,yj)Sij=maxofSi-1,j+d(從上到下)
Si,j-1+d(從左到右)BLOSUM62替代矩陣全局比對(duì)(4)GapVDSCYGap0-11-22-33-44-55V-114E-22S-33L-44C-55Y-664-11-11Needleman-Wunsch算法;
Si-1,j-1+σ(xi,yj)Sij=maxofSi-1,j+d(從上到下)
Si,j-1+d(從左到右)BLOSUM62替代矩陣以兩序列VDSCY和VESLCY為例空位罰分d=-11全局比對(duì)(5)GapVDSCYGap0-11-22-33-44-55V-114-7E-22S-33L-44C-55Y-66-3-11-11VD:-3全局比對(duì)(6)GapVDSCYGap0-11-22-33-44-55V-114-7-18-29-40E-22-76-5-16-27S-33-18-510-1-12L-44-29-16-19-2C-55-40-27-1287Y-66-51-38-23-315424-1-297比對(duì)結(jié)果:VDS–CYVESLCYGapVDSCYGap0-11-22-33-44-55V-114-7-18-29-40E-22-76-5-16-27S-33-18-510-1-12L-44-29-16-19-3C-55-40-27-1287Y-66-51-38-23-315基于蛋白質(zhì)疏水矩陣的全局比對(duì)以兩序列VDSCY和VESLCY為例空位線性罰分d=-20課后作業(yè)結(jié)論:比對(duì)結(jié)果與構(gòu)建的打分矩陣和罰分函數(shù)有關(guān)構(gòu)建合理的矩陣和罰分函數(shù)才能進(jìn)行最佳比對(duì)目前較為公認(rèn)的是BLOSUM和PAM矩陣局部?jī)?yōu)化比對(duì)下例:局部?jī)?yōu)化打分兩條序列如下:LDSCHGESLCK目標(biāo):使用局部?jī)?yōu)化算法尋找最佳比對(duì)的結(jié)果對(duì)全局比對(duì)策略稍作修改可得到局部最優(yōu)比對(duì)算法。比對(duì)的路徑不需要到達(dá)搜索圖的盡頭,如果某種比對(duì)的分值不會(huì)因?yàn)樵黾颖葘?duì)的數(shù)量而增加時(shí),這種比對(duì)就是最佳的。依賴于記分系統(tǒng)的性質(zhì):因?yàn)槟撤N路徑的記分會(huì)在不匹配的序列段減少,當(dāng)分值降為零時(shí),路徑的延展將會(huì)終止,一個(gè)新的路徑就會(huì)產(chǎn)生。局部?jī)?yōu)化比對(duì)(1)GapLDSCHGap000000G0SijE0S0L0C0K0Smith-Waterman算法;
Si-1,j-1+σ(xi,yj)Sij
=maxof
Si-1,j+d(從上到下)
Si,j-1+d(從左到右)0gap:-11,線性罰分模型。BLOSUM62替代矩陣局部?jī)?yōu)化比對(duì)(2)GapLDSCHGap000000G00E0S0L0C0K0-11-11-3局部?jī)?yōu)化比對(duì)(3)GapLDSCHGap000000G000E0S0L0C0K0-11-11-4比對(duì)結(jié)果:GapLDSCHGap000000G000000E002210S002610L040052C001092K000008LDS–CHGESLCK序列比對(duì)的分值1.Smith-waterman算法打分:9分2.直接打分:2+4-11+9=4L
DS–C
HG
ESLC
K比對(duì)的統(tǒng)計(jì)檢驗(yàn)用來(lái)判斷兩條序列的比對(duì)分?jǐn)?shù)是否足夠高,是否有統(tǒng)計(jì)意義;沒(méi)有數(shù)學(xué)理論描述全序列比對(duì)的期望分布;通常做法:兩序列分別打亂進(jìn)行比對(duì),獲得正態(tài)分布進(jìn)行檢驗(yàn);Karlin-Altschul公式在眾多序列比對(duì)軟件中,均能計(jì)算顯著性。Karlin-Altschul公式在一定的序列長(zhǎng)度m和n限定下,高比值片段對(duì)的統(tǒng)計(jì)值可由2個(gè)參數(shù)(k和λ)確定。最簡(jiǎn)單的形式,即不小于比較值為S的高比值片段對(duì)個(gè)數(shù),可由下列公式算得其期望值:參數(shù)K和λ可分別被簡(jiǎn)單地視為搜索步長(zhǎng)和計(jì)分系統(tǒng)的特征數(shù)第二節(jié)、多序列比對(duì)1.不同物種中,許多基因的功能保守,序列相似性較高,通過(guò)多條序列的比較,發(fā)現(xiàn)保守與變異的部分;2.構(gòu)建進(jìn)化的樹(shù)的必須步驟;3.比較基因組學(xué)研究需要。動(dòng)態(tài)規(guī)劃算法:hyperlattice注意最優(yōu)的多序列比對(duì),其兩兩序列之間的比對(duì)不一定最優(yōu)。
最優(yōu)的多序列比對(duì)非最優(yōu)的雙序列比對(duì)多序列比對(duì)軟件的性能比較1.ProbCons:目前綜合性能最好;2.T-Coffee:序列相似性高時(shí)最準(zhǔn)確;3.DIALIGN:序列相似性低時(shí)最準(zhǔn)確;4.POA:性能接近T-Coffee和DIALIGN,速度最快;5.ClustalW/X:最經(jīng)典、最被廣泛接受的工具;6.MUSCLE:目前最流行的多序列比對(duì)工具。ClustalW/X發(fā)展歷史:1.Clustal:1988年開(kāi)發(fā);2.ClustalW:1994年,JulieD.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 挖掘機(jī)平整地面施工方案
- 錨固樁施工方案
- 惠州市潤(rùn)根電器有限公司 AC 電源線及插頭的生產(chǎn)建設(shè)項(xiàng)目環(huán)評(píng)報(bào)告表
- 初中半期考答案數(shù)學(xué)試卷
- 仿玉石樓梯扶手施工方案
- 小學(xué)校園內(nèi)管網(wǎng)施工方案
- 房建地下連續(xù)梁施工方案
- 別墅的專(zhuān)項(xiàng)施工方案
- 農(nóng)田排水降水施工方案
- 黃桃高產(chǎn)栽培技術(shù)的高效應(yīng)用及科學(xué)推廣措施分析
- 春季行車(chē)安全行駛安全知識(shí)培訓(xùn)
- 產(chǎn)品制造工藝總方案
- 2024年云南呈貢區(qū)城市投資集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- T-ZJASE 024-2023 呼吸閥定期校驗(yàn)規(guī)則
- 新生兒藥物過(guò)敏
- 工作場(chǎng)所有害因素職業(yè)接觸限值-第2部分-物理因素
- 2024年度醫(yī)院醫(yī)學(xué)檢驗(yàn)學(xué)專(zhuān)業(yè)進(jìn)修回顧課件
- 《手腕上的菩提子》課件
- 營(yíng)銷(xiāo)管理學(xué)菲利普科特勒
- 危重患者的病情觀察課件
- 智慧城市新篇章2024年智慧城市發(fā)展機(jī)遇展望
評(píng)論
0/150
提交評(píng)論