




已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大家好:我在此介紹幾個(gè)進(jìn)化樹分析及其相關(guān)軟件的使用和應(yīng)用范圍。這幾個(gè)軟件分別是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)。在介紹軟件之前,我先簡(jiǎn)要地?cái)⑹鲆幌掠嘘P(guān)進(jìn)化樹分析的一些方法學(xué)問題。進(jìn)化樹也稱種系樹,英文名叫“Phyligenetic tree”。對(duì)于一個(gè)完整的進(jìn)化樹分析需要以下幾個(gè)步驟: 要對(duì)所分析的多序列目標(biāo)進(jìn)行排列(To align sequences)。做ALIGNMENT的軟件很多,最經(jīng)常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。 要構(gòu)建一個(gè)進(jìn)化樹(To reconstrut phyligenetic tree)。構(gòu)建進(jìn)化樹的算法主要分為兩類:獨(dú)立元素法(discrete character methods)和距離依靠法(distance methods)。所謂獨(dú)立元素法是指進(jìn)化樹的拓?fù)湫螤钍怯尚蛄猩系拿總€(gè)堿基/氨基酸的狀態(tài)決定的(例如:一個(gè)序列上可能包含很多的酶切位點(diǎn),而每個(gè)酶切位點(diǎn)的存在與否是由幾個(gè)堿基的狀態(tài)決定的,也就是說一個(gè)序列堿基的狀態(tài)決定著它的酶切位點(diǎn)狀態(tài),當(dāng)多個(gè)序列進(jìn)行進(jìn)化樹分析時(shí),進(jìn)化樹的拓?fù)湫螤钜簿陀蛇@些堿基的狀態(tài)決定了)。而距離依靠法是指進(jìn)化樹的拓?fù)湫螤钣蓛蓛尚蛄械倪M(jìn)化距離決定的。進(jìn)化樹枝條的長(zhǎng)度代表著進(jìn)化距離。獨(dú)立元素法包括最大簡(jiǎn)約性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距離依靠法包括除權(quán)配對(duì)法(UPGMAM)和鄰位相連法(Neighbor-joining)。 對(duì)進(jìn)化樹進(jìn)行評(píng)估。主要采用Bootstraping法。進(jìn)化樹的構(gòu)建是一個(gè)統(tǒng)計(jì)學(xué)問題。我們所構(gòu)建出來的進(jìn)化樹只是對(duì)真實(shí)的進(jìn)化關(guān)系的評(píng)估或者模擬。如果我們采用了一個(gè)適當(dāng)?shù)姆椒ǎ敲此鶚?gòu)建的進(jìn)化樹就會(huì)接近真實(shí)的“進(jìn)化樹”。模擬的進(jìn)化樹需要一種數(shù)學(xué)方法來對(duì)其進(jìn)行評(píng)估。不同的算法有不同的適用目標(biāo)。一般來說,最大簡(jiǎn)約性法適用于符合以下條件的多序列:i 所要比較的序列的堿基差別小,ii 對(duì)于序列上的每一個(gè)堿基有近似相等的變異率,iii 沒有過多的顛換/轉(zhuǎn)換的傾向,iv 所檢驗(yàn)的序列的堿基數(shù)目較多(大于幾千個(gè)堿基);用最大可能性法分析序列則不需以上的諸多條件,但是此種方法計(jì)算極其耗時(shí)。如果分析的序列較多,有可能要花上幾天的時(shí)間才能計(jì)算完畢。UPGMAM(Unweighted pair group method with arithmetic mean)假設(shè)在進(jìn)化過程中所有核苷酸/氨基酸都有相同的變異率,也就是存在著一個(gè)分子鐘。這種算法得到的進(jìn)化樹相對(duì)來說不是很準(zhǔn)確,現(xiàn)在已經(jīng)很少使用。鄰位相連法是一個(gè)經(jīng)常被使用的算法,它構(gòu)建的進(jìn)化樹相對(duì)準(zhǔn)確,而且計(jì)算快捷。其缺點(diǎn)是序列上的所有位點(diǎn)都被同等對(duì)待,而且,所分析的序列的進(jìn)化距離不能太大。另外,需要特別指出的是對(duì)于一些特定多序列對(duì)象來說可能沒有任何一個(gè)現(xiàn)存算法非常適合它。最好是我們來發(fā)展一個(gè)更好的算法來解決它。但無疑這是非常難的。我想如果有人能建立這樣一個(gè)算法的話,那他(她)完全可以在Proc.Natl.Acad.Sci.USA.上發(fā)一篇高質(zhì)量的文章。 下面介紹幾個(gè)軟件的使用。首先是PHYLIP。其是多個(gè)軟件的壓縮包,下載后雙擊則自動(dòng)解壓。當(dāng)你解壓后就揮發(fā)現(xiàn)PHYLIP的功能極其強(qiáng)大,主要包括五個(gè)方面的功能軟件:i,DNA和蛋白質(zhì)序列數(shù)據(jù)的分析軟件。ii,序列數(shù)據(jù)轉(zhuǎn)變成距離數(shù)據(jù)后,對(duì)距離數(shù)據(jù)分析的軟件。 iii,對(duì)基因頻率和連續(xù)的元素分析的軟件。iv,把序列的每個(gè)堿基/氨基酸獨(dú)立看待(堿基/氨基酸只有0和1的狀態(tài))時(shí),對(duì)序列進(jìn)行分析的軟件。v,按照DOLLO簡(jiǎn)約性算法對(duì)序列進(jìn)行分析的軟件。vi,繪制和修改進(jìn)化樹的軟件。在此,我主要對(duì)前兩種功能軟件進(jìn)行說明。 我們現(xiàn)在有幾個(gè)序列如下:Mo3 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCATMo5 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo6 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo7 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCATMo8 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCATMo9 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATMo12 ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCATMo13 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT要對(duì)這8個(gè)序列進(jìn)行進(jìn)化樹分析,按照上面的步驟,首先用CLUSTALX排列序列,輸出格式為 *.PHY。用記事本打開如下圖:圖中的8和50分別表示8個(gè)序列和每個(gè)序列有50個(gè)堿基。然后,打開軟件SEQBOOT,如下圖:按路徑輸入剛才生成的 *.PHY文件,并在Random number seed (must be odd) ?的下面輸入一個(gè)4N+1的數(shù)字后,屏幕顯示如下:圖中的D、J、R、I、O、1、2代表可選擇的選項(xiàng),鍵入這些字母,程序的條件就會(huì)發(fā)生改變。D選項(xiàng)無須改變。J選項(xiàng)有三種條件可以選擇,分別是Bootstrap、Jackknife和Permute。文章上面提到用Bootstraping法對(duì)進(jìn)化樹進(jìn)行評(píng)估,所謂Bootstraping法就是從整個(gè)序列的堿基(氨基酸)中任意選取一半,剩下的一半序列隨機(jī)補(bǔ)齊組成一個(gè)新的序列。這樣,一個(gè)序列就可以變成了許多序列。一個(gè)多序列組也就可以變成許多個(gè)多序列組。根據(jù)某種算法(最大簡(jiǎn)約性法、最大可能性法、除權(quán)配對(duì)法或鄰位相連法)每個(gè)多序列組都可以生成一個(gè)進(jìn)化樹。將生成的許多進(jìn)化樹進(jìn)行比較,按照多數(shù)規(guī)則(majority-rule)我們就會(huì)得到一個(gè)最“逼真”的進(jìn)化樹。Jackknife則是另外一種隨機(jī)選取序列的方法。它與Bootstrap法的區(qū)別是不將剩下的一半序列補(bǔ)齊,只生成一個(gè)縮短了一半的新序列。Permute是另外一種取樣方法,其目的與Bootstrap和Jackknife法不同,這里不再介紹。R選項(xiàng)讓使用者輸入republicate的數(shù)目。所謂republicate就是用Bootstrap法生成的一個(gè)多序列組。根據(jù)多序列中所含的序列的數(shù)目的不同可以選取不同的republicate。當(dāng)我們?cè)O(shè)置好條件后,鍵入Y按回車。得到一個(gè)文件outfile Outfile用記事本打開如下:這個(gè)文件包括了100個(gè)republicate。打開DNAPARS(最大簡(jiǎn)約性法)或DNAML(最大可能性法)軟件。將剛才生成的outfile文件更名后輸入。如下圖:選項(xiàng)O是讓使用者設(shè)定一個(gè)序列作為outgroup。一般選擇一個(gè)親緣關(guān)系與所分析序列組很接近的序列作為outgroup(本例子不選outgroup),outgroup選擇的好壞將直接影響到最后的進(jìn)化樹的好壞。選項(xiàng)M是輸入剛才設(shè)置的republicate的數(shù)目。設(shè)置好條件后,鍵入Y按回車。生成兩個(gè)文件outfile和treefile。Outfile打開如下圖:該文件包括了227個(gè)進(jìn)化樹。Treefile可以用TREEVIEW軟件打開同樣包含了這227個(gè)進(jìn)化樹。打開CONSENSE軟件,將剛才生成的treefile文件更名后輸入。如下圖:鍵入Y按回車。生成兩個(gè)文件outfile和treefile。Treefile用TREEVIEW打開,如下圖:Outfile打開如下圖:我們看出兩個(gè)樹是同樣的。但在outfile的樹上的數(shù)字表示該枝條的Bootstrap支持率(除以100.6)。到現(xiàn)在,8個(gè)序列的進(jìn)化樹分析(最大簡(jiǎn)約法)已經(jīng)完成。 如果要用鄰位相連法對(duì)這8個(gè)序列進(jìn)行分析的話,也首先執(zhí)行SEQBOOT軟件將這8個(gè)序列變成100個(gè)republicate。然后,打開DNADIST軟件,把SEQBOOT生成的文件輸入,如下圖:選項(xiàng)D有四種距離模式可以選擇,分別是Kimura 2-parameter、Jin/Nei、Maximum-likelihood和Jukes-Cantor。選項(xiàng)T一般鍵入一個(gè)15-30之間的數(shù)字。選項(xiàng)M鍵入100。運(yùn)行后生成文件如下圖:這個(gè)文件包含了與輸入文件相同的100個(gè)republicate,只不過每個(gè)republicate是以兩兩序列的進(jìn)化距離來表示。文件中的每個(gè)republicate都省略了第一排的Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。以這個(gè)輸出文件為輸入文件,執(zhí)行NEIGHBOR軟件。如下圖:選項(xiàng)M鍵入100。生成兩個(gè)文件outfile和treefile用記事本和TREEVIEW打開后,發(fā)現(xiàn)這兩個(gè)文件都含有100個(gè)進(jìn)化樹。再將treefile文件更名后輸入CONSENSE軟件,又得到兩個(gè)文件outfile和treefile,這就是最后的結(jié)果。以上是對(duì)DNA序列的分析,如果要對(duì)蛋白質(zhì)序列進(jìn)行分析,PROTDIST、PROTPARS等軟件。其他軟件的用法可以參照PHYLIP的documents。下面介紹PUZZLE軟件。它是用最大可能性的方法來構(gòu)建進(jìn)化樹的一個(gè)軟件,并且對(duì)樹進(jìn)行bootstrap評(píng)估。該軟件搜尋進(jìn)化樹時(shí)用的算法是quartet puzzling,這個(gè)算法相對(duì)較快,但如要分析的序列較多時(shí),也相當(dāng)耗時(shí)。另有LINUX版,運(yùn)行起來相對(duì)較快。PUZZLE的輸入格式為PHYLIP INTERLEAVED
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司禮儀提升活動(dòng)方案
- 公司端午節(jié)文體活動(dòng)方案
- 公司文匯活動(dòng)方案
- 公司留深過年活動(dòng)方案
- 公司活動(dòng)設(shè)計(jì)策劃方案
- 公司組織公益活動(dòng)方案
- 公司組織建設(shè)活動(dòng)方案
- 公司百人活動(dòng)策劃方案
- 公司搞運(yùn)動(dòng)會(huì)活動(dòng)方案
- 公司福利娛樂活動(dòng)方案
- QC小組活動(dòng)成果-提高地下室綜合管線施工質(zhì)量工程技術(shù)
- 電機(jī)控制與調(diào)速技術(shù) 教案
- 【MOOC】生理學(xué)-中南大學(xué) 中國大學(xué)慕課MOOC答案
- 【湘藝版必修《音樂鑒賞》第四單元《中國民族民間音樂》單元教學(xué)設(shè)計(jì)】
- 【MOOC】鐵路行車組織-北京交通大學(xué) 中國大學(xué)慕課MOOC答案
- 服務(wù)質(zhì)量保障
- 通信施工安全生產(chǎn)培訓(xùn)
- 學(xué)習(xí)2024年《關(guān)于加強(qiáng)社會(huì)組織規(guī)范化建設(shè)推動(dòng)社會(huì)組織高質(zhì)量發(fā)展的意見》解讀課件
- 2024年秋季新人教PEP版三年級(jí)上冊(cè)英語全冊(cè)教案
- 解除勞動(dòng)合同登記表
- 2024年浙江省中考數(shù)學(xué)試題及答案
評(píng)論
0/150
提交評(píng)論