生物信息學(xué)上機(jī)實驗更新_第1頁
生物信息學(xué)上機(jī)實驗更新_第2頁
生物信息學(xué)上機(jī)實驗更新_第3頁
生物信息學(xué)上機(jī)實驗更新_第4頁
生物信息學(xué)上機(jī)實驗更新_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

生物信息學(xué)上機(jī)實驗更新第1頁/共46頁1,序列的數(shù)據(jù)庫信息檢索示例:待查詢序列:CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC第2頁/共46頁問題1,這是什么基因?基因的標(biāo)識符是什么?在基因組上的定位是怎樣的?2,編碼的蛋白質(zhì)多少個氨基酸?序列標(biāo)識符為?序列是?3,該蛋白沒有保守的功能結(jié)構(gòu)域?4,該蛋白亞細(xì)胞定位是?它的功能是怎樣的?5,該蛋白在真核生物中是否保守?6,該蛋白有沒有三級結(jié)構(gòu)信息?第3頁/共46頁答案1.該基因為人的BIRC5基因;基因標(biāo)識符:NM_001168.2;染色體定位:17號染色體,76210277..76221716;2.人的BIRC5蛋白質(zhì)包含142個氨基酸,序列標(biāo)識符為:NP_001159.2;序列為:MGAPTLPPAWQPFLKDHRISTFKNWPFLEGCACP…3.BIRC5具有保守的功能結(jié)構(gòu)域BIR;4.BIRC5的細(xì)胞亞定位:胞質(zhì),核;其功能有:(1)在瘤形成過程中可能起一定作用;(2)阻礙G2/M期的細(xì)胞編程性凋亡;(3)Chromosomalpassengercomplex(CPC)的成員之一。等等。5.該基因在真核生物中最保守很可能是來自毛猩猩Pongoabelii的BIRC5蛋白:Q5RAH9;6.該蛋白的三級結(jié)構(gòu)已知,在PDB中的標(biāo)識符為1E31等。第4頁/共46頁2,多序列比對及進(jìn)化樹構(gòu)建構(gòu)建CytochromeC1家族進(jìn)化樹在Uniprot數(shù)據(jù)庫中搜索CytochromeC1在不同物種中的氨基酸序列,下載fasta文件使用MEGA軟件對結(jié)果進(jìn)行分析:1)多序列比對(MSAmultiplesequencealignment)2)構(gòu)建進(jìn)化樹第5頁/共46頁CytochromeC1家族序列獲取工具網(wǎng)站/advancedsearchcustomize第6頁/共46頁調(diào)整結(jié)果顯示格式

選擇想要顯示的內(nèi)容,例如顯示列為EntrynameOrganismSequenceProteinnames

save以蛋白名稱:CytochromeC1為關(guān)鍵詞搜索第7頁/共46頁搜索結(jié)果第8頁/共46頁編輯Fasta序列文件選擇搜索結(jié)果中Entryname以“CY1_”開頭的序列(選十幾個物種序列,每一個種屬只選一個序列,即entryname一樣的只選擇一個即可)點retrieve第9頁/共46頁編輯Fasta序列文件DownloadFASTA格式的文件直接下載下來的序列名稱會很累贅,可以將該文件以文本形式打開,對序列名稱進(jìn)行編輯,讓其看起來更加簡潔明了第10頁/共46頁Fasta文件格式以>為開頭,后接序列名稱,重啟一行,輸入序列>CY1_BOVINMAAAAATLRGAMVGPRG…>CY1_YEASTMFSNLSKRWAQRTLSKS…>CY1_HUMANMAAAAASLRGVVLGPRG…>…第11頁/共46頁Fasta文件要求序列名稱中不含有‘=’

字符氨基酸序列可以分成多行,但內(nèi)部不要有空格每個序列的title僅保留蛋白/基因名稱+種屬來源,如:CY1_YEAST第12頁/共46頁MEGA5軟件使用打開MEGA5,拉開Align菜單,選擇Edit/BuildAlignment

第13頁/共46頁MEGA5軟件使用CreatanewAlignment

選擇Protein第14頁/共46頁MEGA5軟件使用在新彈出的窗口中,選擇Data->Open->RetrieveSequencesfromFile,然后導(dǎo)入剛才保存的fasta文件第15頁/共46頁多序列比對Ctrl+A選擇全部序列,Aligment->AlignbyClustalW第16頁/共46頁多序列比對可以修改各補(bǔ)償值等參數(shù),點OK第17頁/共46頁多序列比對多序列比對完成Dateexportalignment,導(dǎo)出MEGEformat和Fastaformat兩份結(jié)果,得到一個*.meg文件和一個*.fas文件第18頁/共46頁進(jìn)化樹構(gòu)建關(guān)閉Alignment窗口,回到MEGA軟件主窗口,F(xiàn)ile->OpenAFile/Session,打開之前保存的*.meg文件第19頁/共46頁進(jìn)化樹構(gòu)建選擇Phylogeny->Construct/TestNeighbor-JoiningTree點yes第20頁/共46頁進(jìn)化樹構(gòu)建&bootstrap驗證點computeBootstrapmethod驗證進(jìn)化樹,點開選擇bootstrap第21頁/共46頁調(diào)整樹的形狀及樹枝長度第22頁/共46頁去掉不可信的分支第23頁/共46頁第24頁/共46頁從排列的多序列中隨機(jī)有放回的抽取某一列,構(gòu)成相同長度的新的排列序列;

重復(fù)上面的過程,得到多組新的序列;

對這些新的序列進(jìn)行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性。一般Bootstrap的值>70,則認(rèn)為構(gòu)建的進(jìn)化樹較為可靠。3,(選做)Phylip使用自展法-進(jìn)化樹的可靠性分析BootstrapMethod第25頁/共46頁隨機(jī)有放回的抽取原始數(shù)據(jù)的一列,直到列數(shù)和原始數(shù)據(jù)一樣有放回意味著有些列被采到多次,有的列沒有采到比較一致性,兩種做法Phylib采用第26頁/共46頁Phylip軟件包介紹由華盛頓大學(xué)遺傳學(xué)系開發(fā),免費的系統(tǒng)發(fā)育分析軟件包。幾乎最廣泛使用的系統(tǒng)發(fā)生分析程序,主要包括以下幾個程序組:分子序列組,距離矩陣組,基因頻率組,離散字符組,進(jìn)化樹繪制組。訪問及免費下載地址:/phylip.html第27頁/共46頁第28頁/共46頁Phylip軟件包介紹

Phylip包含了35個獨立的程序,這些獨立的程序都實現(xiàn)特定的功能,這些程序基本上包括了系統(tǒng)發(fā)生分析的所有方面。多種不同平臺的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。

Phylip軟件包的文檔是非常詳細(xì)的,對于每個獨立的程序,都有一個獨立的文檔,詳細(xì)的介紹了該程序的使用及其說明。第29頁/共46頁第30頁/共46頁第31頁/共46頁

outfile是一個記錄文件,記錄了分析的過程和結(jié)果,可以直接用文本編輯器(如寫字板)打開。

outtree是分析結(jié)果的樹文件,可以用phylip提供的繪樹程序打開查看,也可以用其他的程序來打開,如treeview等。Phylip軟件包的應(yīng)用由于默認(rèn)輸出的名字是一樣的,為了防止被覆蓋,要把默認(rèn)的輸出名字改一下第32頁/共46頁Windows版本的phylip軟件包第33頁/共46頁現(xiàn)有8段protein序列:>P1MPRFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLE>P2MPRFEANLSMMFTEVPFAERFADARKAGFDAVEFLFPYCYSDLQIQCQLE>P3WPRFEANLSMMFTEVPFAERFADARKIGFDAEEFLFPYCYSDLQIQCQLE>P4MPCFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLE>P5MPRFEANLSMEFTAVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLE>P6MPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE>P7MPRFEANLSMEFTEVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLE>P8WPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE示例:Phylip軟件包構(gòu)建進(jìn)化樹新建文本文件testSeq.fasta復(fù)制以下序列,注意最后是fasta格式第34頁/共46頁

第一步:使用CLUSTALX多序列比對,F(xiàn)ile/LoadSequenes讀入testSeq.fasta,輸出格式File/SaveSequenesas

為*.PHY這步的目的是完成格式轉(zhuǎn)換,準(zhǔn)備構(gòu)建進(jìn)化樹的序列第35頁/共46頁PHY的格式輸出的*.PHY文件:8和50分別表示8個序列和每個序列有50個氨基酸第36頁/共46頁

第二步:雙擊打開SEQBOOT,按路徑輸入剛才生成的*.PHY文件;設(shè)定適當(dāng)參數(shù);輸出outfile文件。注意輸入正確的文件地址,可以把文件拷到當(dāng)前目錄隨機(jī)數(shù)可以使用默認(rèn)值,輸入Y這步的目的是用Bootstrap的方法產(chǎn)生多個復(fù)本第37頁/共46頁重命名Outfile文本文件為Outfile1,打開如下:(包括了100個replicates)第38頁/共46頁第三步:打開PROTPARS(最大簡約法),輸入Outfile1文件后如下顯示:設(shè)定適當(dāng)參數(shù);運行輸出outfile和treefile文件。目的是構(gòu)建各個副本的進(jìn)化樹多組數(shù)據(jù)第39頁/共46頁重命名Outfile文本文件為Outfile2,重命名OutTree為OutTree2;打Outfile2開如右:(包括了100個replicates的結(jié)果)第40頁/共46頁第四步:打開CONSENSE程序,輸入outtree2,運行輸出outfile和treefile文件。分別重命名為outfile3和treefile3.tre該步驟目的是綜合100個復(fù)本,構(gòu)建一致的進(jìn)化樹第41頁/共46頁獲得的結(jié)果文件中,文本文件outfile3顯示如下:outfile第42頁/共46頁樹文件outtree3.tre用TREEVIEW軟件打開顯示:outtree第43頁/共46頁作業(yè):

自主選擇你所感興趣的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論