版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生 物 信 息 學(xué)序列比較3多序列比對(duì)(multiple alignment),對(duì)兩條以上的生物序列進(jìn)行全局比對(duì)。多序列比對(duì)介紹 多序列比對(duì)的主要用途:確認(rèn):一個(gè)未知的序列是否屬于某個(gè)家族建立:系統(tǒng)發(fā)生樹(shù)(分子樹(shù)),查看物種間或者序列間的關(guān)系模式識(shí)別:一些特別保守的序列片段往往對(duì)應(yīng)重要的功能區(qū)域,通過(guò)多序列比對(duì),可以找到這些保守片段及其序列模式(pattern)已知推未知:把已知有特殊功能的序列片段通過(guò)多序列比對(duì)做成模型,然后根據(jù)該模型推測(cè)未知的序列 片段是否也具有該功能。其他:預(yù)測(cè)蛋白質(zhì)/RNA二級(jí)結(jié)構(gòu)等等。 多序列比對(duì)的用途及算法 多序列比對(duì)的算法目前所有的多序列比對(duì)工具都不是完美的,它們
2、都使用一種近似的算法。PYMNVI0-1-2-3-4-5-6P-1765432Y-261413121110E-351312131211L-441215141414F-5311141313143條序列 = 3Dseq1seq2seq2seq1seq32條序列 = 2DN條序列 = nD 多序列比對(duì)的用途及算法 對(duì)要進(jìn)行多序列比對(duì)的序列的幾點(diǎn)要求:太多的序列受不了。不要超過(guò)50條。關(guān)系太遠(yuǎn)的序列受不了。兩兩之間序列相似度低于30%的一組序列,作多序列比對(duì)會(huì)有麻煩。關(guān)系太近的序列受不了。兩兩之間序列相似度大于90%的序列,有再多條都等于只有一條。短序列受不了。多序列比對(duì)支持一組差不多長(zhǎng)的序列,個(gè)別很
3、短的序列屬于搗亂分子。有重復(fù)域的序列受不了。如果序列里包含重復(fù)域, 大多數(shù)多序列比對(duì)的程序都會(huì)出錯(cuò),甚至崩潰。 多序列比對(duì)的注意事項(xiàng) 序列的名字有幾點(diǎn)建議:名字里不要有“空格”,用“_”代替“空格” 。不要用特殊字符,(比如中文, , #, &, 等) 。名字的長(zhǎng)度不要太長(zhǎng)。一組序列里,不要有重名的序列。如果不按上述幾點(diǎn)建議命名的話(huà),多序列比對(duì)的工具會(huì)在不告知你的情況下修改你的序列名稱(chēng)。 e.g. My Seq 1 My_Seq_1e.g. 我的序列壹 Seq1 e.g. This_is_my_favorite_sequence_about_mouse 多序列比對(duì)的注意事項(xiàng) 多序列比對(duì)的工具C
4、lustal 最常用的多序列比對(duì)工具 TCOFFEE 最新的多序列比對(duì)工具之一 MUSCLE 最快的多序列比對(duì)工具之一 網(wǎng)站名稱(chēng)服務(wù)器位置網(wǎng)址鏈接EBIClustal-Omegahttp:/www.ebi.ac.uk/Tools/msa/clustalo/ ExpasyClustal W/software/ClustalW.html Sfi-ClustalClustal O/W2/ (僅下載)EBITcoffeehttp:/www.ebi.ac.uk/Tools/msa/tcoffee/TCOFFEETcoffee/ EBIMusclehttp:/www.ebi.ac.uk/Tools/msa
5、/muscle/MUSCLEMuscle/muscle/(僅下載) 部分提供多序列比對(duì)在線(xiàn)使用的網(wǎng)站 在線(xiàn)多序列比對(duì)工具 http:/www.ebi.ac.uk/Tools/msa EMBL 多序列比對(duì)工具:Clustal Omega多序列比對(duì)中各個(gè)序列的排列順序:aligned-比對(duì)過(guò)程中自動(dòng)創(chuàng)建的順序input-輸入序列的原始順序比對(duì)輸出格式人Toll樣受體110胞內(nèi)域 保存比對(duì)結(jié)果Red: 疏水的 Blue: 酸性的 Magenta: 堿性的 Green:羥基+胺+堿性 Gray: 其他 *完全保守的一列,即,這一列的殘基完全相同。:這一列的殘基有大致相似的分子大小及相同親疏水性,即這一
6、列殘基或相同或相似。.在進(jìn)化過(guò)程中,殘基的分子大小及親疏水性被一定程度上保留了,但是有替換發(fā)生在不相似的殘基間。完全不保守的一列。序列兩兩之間的一致度列表一致度最高的一對(duì)序列這個(gè)樹(shù) 不是 真正的系統(tǒng)發(fā)生樹(shù)!Tcoffee :多序列比對(duì)工具,算法上與Clustal系列類(lèi)似,準(zhǔn)確度上比Clustal系列略高,但計(jì)算耗時(shí)也比Clustal系列略高。 http:/tcoffee.crg.cat T-Coffee 鏡像網(wǎng)站SIBhttp:/tcoffee.vital-it.ch EBIhttp:/www.ebi.ac.uk/Tools/msa/tcoffee CNRSrs-mrs.fr/Tcoffee/
7、tcoffee_cgi/ index.cgi Max-Planckhttp:/toolkit.tuebingen.mpg.de/t_coffee CBSU/t_coffee.aspx EMBnet/Services/MolBio/t-coffee TCOFFEE 多序列比對(duì)工具:Expressohttp:/tcoffee.crg.cat給序列加入結(jié)構(gòu)信息的多序列比對(duì)。把多個(gè)比對(duì)工具的結(jié)果整合成一個(gè)。專(zhuān)為穿膜蛋白打造的多序列比對(duì)。專(zhuān)為遠(yuǎn)源序列打造的多序列比對(duì)。http:/tcoffee.crg.cathttp:/tcoffee.crg.cathttp:/tcoffee.crg.cathttp:/
8、tcoffee.crg.cat如果要做比對(duì)的序列有結(jié)構(gòu)信息的話(huà)(包括未發(fā)表的非PDB里的結(jié)構(gòu)),可以把這些結(jié)構(gòu)的PDB文件上傳。用網(wǎng)頁(yè)提供的示例序列指定哪個(gè)序列對(duì)應(yīng)哪個(gè)PDB結(jié)構(gòu)。已上傳的結(jié)構(gòu)會(huì)根據(jù)序列信息自動(dòng)匹配是哪個(gè)序列,不需要列出。或者偷個(gè)懶,自動(dòng)給每條序列通過(guò)BLAST搜索從數(shù)據(jù)庫(kù)中找到序列水平上相似的結(jié)構(gòu)。要算很久,留個(gè)email很必要!Expresso做出的比對(duì)結(jié)果TCOFFEE做出的比對(duì)結(jié)果多序列比對(duì)的保存格式score_html file clustalw_aln file fasta_aln file phylip file 在選擇保存格式之前,需要問(wèn)自己幾個(gè)問(wèn)題: 大多數(shù)軟
9、件都支持我要選的這個(gè)格式嗎? 我的同事們能直接使用我選的這個(gè)格式嗎? 這個(gè)格式能保存我所需要的所有信息嗎? 這個(gè)格式適合我進(jìn)一步加工嗎?如果比對(duì)工具輸出的格式里沒(méi)有我想要的哪種,可以通過(guò)第三方軟件進(jìn)行格式轉(zhuǎn)換,比如: 到底保存哪個(gè)格式呢?多序列比對(duì)的保存格式為了能對(duì)多序列比對(duì)的結(jié)果進(jìn)行彩色顯示和手工編輯,人們開(kāi)發(fā)了多序列比對(duì)結(jié)果編輯器。Jalview是一個(gè)特別常用的編輯器。 多序列比對(duì)的編輯和發(fā)布:Jalview點(diǎn)擊這里下載在線(xiàn)運(yùn)行完整版Jalview軟件打開(kāi)后,會(huì)自動(dòng)展示許多示例。之前讓大家保存的Clustal Omega比對(duì)結(jié)果保守度比對(duì)質(zhì)量共有序列根據(jù)每一列的保守程度分配深淺不同的藍(lán)色設(shè)
10、定保守程度閾值,閾值以上的才給賦予不同的藍(lán)色,閾值以下白色常見(jiàn)的Clustal系列配色方案將后四條序列的第53列移至第54列:1.選中后四條序列:按住 Ctrl 鍵,選中后四條序列的名字。選中后,序列名字的底色由白變灰。2.移動(dòng)后四條序列:再次按住 Ctrl 鍵,把鼠標(biāo)放在第53列的字母上,向右拖動(dòng)到第54列。再用同樣的方法,把原來(lái)的第57列向左拖動(dòng)回原位。設(shè)置字體換行顯示打開(kāi)/關(guān)閉注釋行為任意一對(duì)序列做雙序列全局比對(duì)按照各種規(guī)則排序?yàn)檫x中的一組序列創(chuàng)建系統(tǒng)發(fā)生樹(shù)預(yù)測(cè)一條蛋白質(zhì)序列的二級(jí)結(jié)構(gòu)把序列比對(duì)保存成圖片可以發(fā)布漂亮的序列比對(duì)了!多序列比對(duì)美化工具名稱(chēng)網(wǎng)址特點(diǎn)JalView JAVA,可
11、嵌入網(wǎng)頁(yè) Boxshade/software/BOX_form.html 擅長(zhǎng)黑白作圖ESPripthttp:/espript.ibcp.fr/ESPript/ESPript功能強(qiáng)大,很牛MView 擅長(zhǎng)轉(zhuǎn)換成HTML源碼多序列比對(duì)的編輯和發(fā)布:Jalview你想要找到序列中重要的位置 !用一句話(huà)來(lái)描述你究竟想從多序列比對(duì)中獲得什么:尋找保守區(qū)域保守區(qū)域序列標(biāo)識(shí)圖(sequence logo)是以圖形的方式依次繪出序列比對(duì)中各個(gè)位置上出現(xiàn)的殘基。每個(gè)位置上殘基的累積可反應(yīng)出該位置上殘基的一致性。每個(gè)殘基對(duì)應(yīng)圖形字符的大小與殘基在該位置上出現(xiàn)的頻率成正比。 但圖形字符的大小并不等于頻率百分比,而
12、是經(jīng)過(guò)簡(jiǎn)單統(tǒng)計(jì)計(jì)算后轉(zhuǎn)化的結(jié)果。一款流行的創(chuàng)建序列標(biāo)識(shí)圖的軟件:WebLogo 3 /序列標(biāo)識(shí)圖:WebLogo對(duì)于某一列來(lái)說(shuō), 每個(gè)字母的高度 Height = fi * R ,其中 i=1,20 (f是出現(xiàn)頻率) R = log2(20) (entropy + en) entropy = -fi*log2(fi)en = (20 - 1) /(2 * ln 2 * n)entropy: 熵(熵越大越混亂)en: 小樣本檢驗(yàn)修正n:序列個(gè)數(shù)20:殘基種類(lèi),蛋白質(zhì)是20,核酸是4TRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIK TRVGNYEMGRTLGEGSFAKVKY
13、AKNTVTGDQAAIK TRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIK KQTISYMAERVVGTGSFGIVFQAKCLETGESVAIK KQTISYMAERVVGTGSFGIVFQAKCLETGESVAIK VVGGKFKLGRKLGSGSFGEIFLGVNVQTGEEVAVK VIGGKFKLGRKIGSGSFGELYLGINVQTGEEVAVK VSKKYVPPLRPIGRGASGIVCAAWNSETGEEVAIK MGADDFELLTMIGKGAFGEVRVVREINTGHVFAMK 序列標(biāo)識(shí)圖:WebLogo/ FASTA格式的多序列比對(duì)結(jié)果20-3
14、0這一段有明顯的序列特征,其他地方?jīng)]有。在真核生物和古細(xì)菌的轉(zhuǎn)錄啟動(dòng)子上,有一個(gè)特殊的DNA片段,叫做TATA box。這段序列通常是 5-TATAAT-3 或者略有變化。TATA box是RNA聚合酶的結(jié)合位點(diǎn)。利用WebLogo,可以快速、直觀(guān)地找到這一結(jié)合位點(diǎn)的位置。在核酸/蛋白質(zhì)序列中存在有特定模式(pattern)的序列片段,這些片段稱(chēng)為序列的基序(motif)。序列基序與生物功能密切相關(guān)。例如,N-糖基化位點(diǎn)基序(N-glycosylation site motif)總是符合以下特定模式:Asn開(kāi)始, 然后緊跟除了Pro之外的任何一個(gè)氨基酸,再緊跟Ser或者Thr,再緊跟除Pro外
15、的任何一個(gè)氨基酸。這個(gè)特定模式可通過(guò)正則表達(dá)式(Regular expression)來(lái)表述:NPSTP 其中 N=Asn, P=Pro, S=Ser, T=Thr; X代表除X外的任意氨基酸; XY代表X或者Y。MEME是一款可以自動(dòng)從一組相關(guān)的DNA或蛋白質(zhì)序列中發(fā)現(xiàn)序列基序的軟件。 / 序列基序:MEME按得分高低,給出排名前三的基序給入一組序列找到的基序在在每條序列中的位置排名前三的基序獲得基序的具體信息提交基序給其他軟件提交基序到其他數(shù)據(jù)庫(kù),針對(duì)該基序進(jìn)行序列相似性搜索。一個(gè)蛋白質(zhì)的指紋(Prints)就是一組保守的序列基序,用于刻畫(huà)蛋白質(zhì)家族的特征。這些基序由多序列比對(duì)結(jié)果獲得,且他們?cè)诎被嵝蛄猩鲜遣幌噜彽模窃谌S結(jié)構(gòu)中,他們可能緊密結(jié)合在一起。PRINTS是蛋白質(zhì)序列指紋圖譜數(shù)據(jù)庫(kù),存儲(chǔ)了目前已發(fā)現(xiàn)的絕大多數(shù)蛋白質(zhì)家族的指紋圖譜。對(duì)于一個(gè)陌生的蛋白質(zhì),只要看看它的序列是否符合某個(gè)家族的圖譜就可以對(duì)它進(jìn)行分類(lèi)并預(yù)測(cè)它的功能。PRINTS指紋圖譜數(shù)據(jù)庫(kù)http:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/ 通過(guò)關(guān)鍵詞搜索,直接瀏覽某一蛋白質(zhì)家族的指紋圖譜TRANSFERRIN
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年紙漿貨物水上運(yùn)輸合同
- 2025年度信用擔(dān)保業(yè)務(wù)合同范本及操作流程6篇
- 【KS5U原創(chuàng)】新課標(biāo)2021高二地理暑假作業(yè)十
- 鎮(zhèn)江2025年江蘇鎮(zhèn)江句容市人民醫(yī)院第一批校園招聘18人筆試歷年典型考點(diǎn)(頻考版試卷)附帶答案詳解版
- 青少年心理咨詢(xún)服務(wù)考核試卷
- 新北洋經(jīng)濟(jì)結(jié)構(gòu)與世界產(chǎn)業(yè)結(jié)構(gòu)-洞察分析
- 新型提取技術(shù)在中藥活性成分研究中的應(yīng)用-洞察分析
- 音響行業(yè)并購(gòu)趨勢(shì)與整合策略-洞察分析
- 頭孢美唑前藥設(shè)計(jì)與合成-洞察分析
- 施工機(jī)械安全保證措施
- Unit 4 Plants around us C (教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教PEP版(2024)英語(yǔ)三年級(jí)上冊(cè)
- 管徑的選擇和管道壓力降的計(jì)算
- 機(jī)動(dòng)車(chē)商業(yè)保險(xiǎn)條款(2020版)
- GB/T 44250.1-2024面向油氣長(zhǎng)輸管道的物聯(lián)網(wǎng)系統(tǒng)第1部分:總體要求
- 一年級(jí)數(shù)學(xué)上冊(cè)加減法口算題每日一練25套打印版
- DLT 572-2021 電力變壓器運(yùn)行規(guī)程
- 教育部校企合作辦法
- “技能興威”第一屆威海市職業(yè)技能大賽農(nóng)產(chǎn)品食品檢驗(yàn)員(海洋食品產(chǎn)業(yè)鏈)賽項(xiàng)規(guī)程
- 幼兒園故事繪本《賣(mài)火柴的小女孩兒》課件
- 中央2024年國(guó)家藥品監(jiān)督管理局中國(guó)食品藥品檢定研究院招聘筆試歷年典型考題及考點(diǎn)附答案解析
- 小學(xué)語(yǔ)文四年級(jí)上冊(cè)單元作業(yè)整體設(shè)計(jì)案例
評(píng)論
0/150
提交評(píng)論