多重序列比對(duì)_第1頁(yè)
多重序列比對(duì)_第2頁(yè)
多重序列比對(duì)_第3頁(yè)
多重序列比對(duì)_第4頁(yè)
多重序列比對(duì)_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多重序列比對(duì)序列相似性比較: 就是將待研究序列與就是將待研究序列與DNA或蛋白質(zhì)序列庫(kù)進(jìn)行比較,用于確或蛋白質(zhì)序列庫(kù)進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有有BLAST、FASTA等等;序列同源性分析: 是將待研究序列加入到一組與之同源,但來(lái)自不同物種的是將待研究序列加入到一組與之同源,但來(lái)自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它

2、序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;等;r 用于描述一組序列之間的相似性關(guān)系,用于描述一組序列之間的相似性關(guān)系,以便了解一個(gè)基因家族的基本特征,尋以便了解一個(gè)基因家族的基本特征,尋找找motif,保守區(qū)域等。,保守區(qū)域等。r 用于描述一個(gè)同源基因之間的親緣關(guān)系用于描述一個(gè)同源基因之間的親緣關(guān)系的遠(yuǎn)近,應(yīng)用到分子進(jìn)化分析中。的遠(yuǎn)近,應(yīng)用到分子進(jìn)化分析中。r 基因和蛋白質(zhì)功能分析基因和蛋白質(zhì)功能分析r 其他應(yīng)用,如構(gòu)建其

3、他應(yīng)用,如構(gòu)建profile,打分矩陣等。,打分矩陣等。C-terminalN-terminalAMP-bindingr 1. 最優(yōu)的多序列比對(duì),其兩兩序列之間的比對(duì)最優(yōu)的多序列比對(duì),其兩兩序列之間的比對(duì)不一定最優(yōu)不一定最優(yōu)最優(yōu)的多序列比對(duì)非最優(yōu)的雙序列比對(duì)r 1. 漸進(jìn)方法:漸進(jìn)方法:progressive methods|ClustalW/X, T-Coffeer 2. 迭代算法:迭代算法:iterative methods|PRRP, DIALIGNr 3. 部分有向圖算法:部分有向圖算法:|Partial Order Algorithm (POA)r 4. 全局多序列比對(duì)的隱馬爾科夫模

4、型全局多序列比對(duì)的隱馬爾科夫模型|ProbCons r 5. 整合算法:整合算法:meta-methods|MUSCLEr (1) ClustalW/X|a. Clustal: 1988年開(kāi)發(fā)年開(kāi)發(fā)|b. ClustalW: 1994年,年,Julie D. Thompson等人改進(jìn)、開(kāi)發(fā)等人改進(jìn)、開(kāi)發(fā)|c. ClustalX: 1997年,圖形化軟件年,圖形化軟件r (2) T-Coffeer 1. 將所有序列兩兩比對(duì),計(jì)算距離矩陣;將所有序列兩兩比對(duì),計(jì)算距離矩陣;r 2. 構(gòu)建鄰接進(jìn)化樹(shù)構(gòu)建鄰接進(jìn)化樹(shù)(neighbor-joining tree)/指導(dǎo)樹(shù)指導(dǎo)樹(shù)(guide tree);r

5、 3. 將距離將距離最近最近的兩條序列用動(dòng)態(tài)規(guī)劃的算的兩條序列用動(dòng)態(tài)規(guī)劃的算法進(jìn)行比對(duì);法進(jìn)行比對(duì);r 4. “漸進(jìn)漸進(jìn)”的加上其他的序列的加上其他的序列兩兩比對(duì),構(gòu)建距離矩陣指導(dǎo)樹(shù)的構(gòu)建漸進(jìn)比對(duì)1.1.輸入輸出格式。輸入輸出格式。 輸入序列的格式比較靈活,可以是前面介紹過(guò)的輸入序列的格式比較靈活,可以是前面介紹過(guò)的FASTA格式,還可以是格式,還可以是PIRPIR、SWISS-PROTSWISS-PROT、GDEGDE、ClustalClustal、GCG/MSFGCG/MSF、RSFRSF等格式。等格式。 輸出格式也可以選擇,有輸出格式也可以選擇,有ALN、GCGGCG、PHYLIPPHY

6、LIP和和NEXUSNEXUS等,等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。用戶可以根據(jù)自己的需要選擇合適的輸出格式。2.2.兩種工作模式。兩種工作模式。 a.多序列比對(duì)模式。 b.剖面(profile)比對(duì)模式。輸入文件的格式輸入文件的格式(fasta)(fasta):KCC2_YEASTKCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN NYIFGRTLGAGSFGVVRQARKLSTNDMK_HUMANDMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK. DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMN

7、K.KPRO_MAIZEKPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLENDAF1_CAEELDAF1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALDQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD1CSN1CSN HYKVGRRIGEGSFGVIFEGTNLLNN HYKVGRRIGEGSFGVIFEGTNLLNNr 第一步:輸入序列文件。第一步:輸入序列文件。r 第二步:設(shè)定比對(duì)的一些參數(shù)。第二步:設(shè)定比對(duì)的一些參數(shù)。r 參數(shù)

8、設(shè)定窗口。參數(shù)設(shè)定窗口。r 部分參數(shù)定義r Gap opening penalty:增大數(shù)值使 gap 數(shù)目減少r Gap extension penalty:增大數(shù)值使 gap 長(zhǎng)度變短r Weight transition:AG 轉(zhuǎn)換或 CT 轉(zhuǎn)換(multiple DNA sequence alignment)r Hydrophilic gap:選擇“ on” 將增加形成 gap 的機(jī)會(huì)(multiple protein sequence alignment)r Residue-specific gap penalties:選擇“ on” 將增加在某些氨基酸殘基處形成 gap 的機(jī)會(huì),而

9、減少在另一些氨基酸殘基處形成 gap 的機(jī)會(huì)(multiple protein sequence alignment)r 第三步:開(kāi)始序列比對(duì)。第三步:開(kāi)始序列比對(duì)。r 第四步:比對(duì)完成,選擇保存結(jié)果文件的格式第四步:比對(duì)完成,選擇保存結(jié)果文件的格式r 產(chǎn)生輸出的ALN文件r 產(chǎn)生輸出的DND文件,它是系統(tǒng)的種系樹(shù)r 1. 距離最近的,有兩組序列距離最近的,有兩組序列AB和和CD,哪,哪組最先比對(duì)??jī)煞N方案:組最先比對(duì)??jī)煞N方案:|A. 分別、同時(shí)比對(duì)。但是,是以分別、同時(shí)比對(duì)。但是,是以AB為準(zhǔn),加為準(zhǔn),加入入CD,然后再加上其他序列,還是,然后再加上其他序列,還是CD為準(zhǔn)?為準(zhǔn)?結(jié)果可能出

10、入很大結(jié)果可能出入很大|B. 隨機(jī)挑選一組作為基準(zhǔn)隨機(jī)挑選一組作為基準(zhǔn)r 2. 當(dāng)序列差異較大時(shí),上述問(wèn)題更加明顯當(dāng)序列差異較大時(shí),上述問(wèn)題更加明顯r 1. 三條序列:三條序列:r 2.若若Seq1,2先比對(duì),先比對(duì),再加入再加入Seq3:r 3. Seq1,3先比對(duì),再先比對(duì),再加入加入Seq2:r 4. Seq2,3先比對(duì),再先比對(duì),再加入加入Seq1:Seq1: ARKCVSeq2: ARCVSeq3: AKCVARKCVAR-CVA-KCVAR C VA-RCVA-KCVARKCVAR-CVAK-CVr 算法分為三個(gè)部分,每個(gè)部分相對(duì)獨(dú)立;算法分為三個(gè)部分,每個(gè)部分相對(duì)獨(dú)立;r 1.

11、Draft progressive: |(1) 對(duì)兩條序列,計(jì)算距離采用對(duì)兩條序列,計(jì)算距離采用k-mer的思想;的思想;|(2) 用用UPGMA算法構(gòu)建引導(dǎo)樹(shù)算法構(gòu)建引導(dǎo)樹(shù)|(3) 使用漸進(jìn)算法進(jìn)行多序列比對(duì)使用漸進(jìn)算法進(jìn)行多序列比對(duì)r 優(yōu)點(diǎn):兩條序列之間的距離不采用動(dòng)態(tài)規(guī)優(yōu)點(diǎn):兩條序列之間的距離不采用動(dòng)態(tài)規(guī)劃算法進(jìn)行比對(duì),節(jié)省時(shí)間劃算法進(jìn)行比對(duì),節(jié)省時(shí)間r 2. Improved progressive: |(1)基于基于k-mer得到的樹(shù)可能會(huì)產(chǎn)生次優(yōu)結(jié)果,得到的樹(shù)可能會(huì)產(chǎn)生次優(yōu)結(jié)果,因此,采用因此,采用Kimura距離的方法對(duì)距離的方法對(duì)k-mer產(chǎn)生產(chǎn)生的樹(shù)重新計(jì)算距離矩陣的樹(shù)重新計(jì)

12、算距離矩陣|(2)重新用重新用UPGMA構(gòu)建進(jìn)化樹(shù)構(gòu)建進(jìn)化樹(shù)|(3)使用漸進(jìn)算法進(jìn)行多序列比對(duì)使用漸進(jìn)算法進(jìn)行多序列比對(duì)r 2. Refinement: |(1)隨機(jī)從進(jìn)化樹(shù)上挑出一條邊,刪除隨機(jī)從進(jìn)化樹(shù)上挑出一條邊,刪除|(2)得到兩組樹(shù),對(duì)每組樹(shù),計(jì)算得到兩組樹(shù),對(duì)每組樹(shù),計(jì)算profile|(3)將兩組將兩組profile進(jìn)行比對(duì)進(jìn)行比對(duì)|(4)如果最終得分提高,保留結(jié)果,否則丟棄如果最終得分提高,保留結(jié)果,否則丟棄 在許多情況下多序列比對(duì)需要揭示被多個(gè)非保守區(qū)間隔的多個(gè)保守區(qū),對(duì)此MAP2是個(gè)有效工具。下面的截圖介紹如何使用在線版的MAP2 。1.在線MAP2的網(wǎng)址以及兩種輸入數(shù)據(jù)提供方式。在本例中數(shù)據(jù)被貼入提供的窗口,數(shù)據(jù)與ClustalX2.0中相同,是23個(gè)動(dòng)物中的miR-19。2.主要的參數(shù)及其缺省值。DNA block penalty(Linux版本的參數(shù)major_diff)影響非保守區(qū)塊的大小,mismatch score、gap open penalty和gap extension penalty只影響保守區(qū)中的全局比對(duì)。3.MAP2以兩種方式返回三個(gè)結(jié)果 在線

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論