生物信息技術(shù)概述_第1頁(yè)
生物信息技術(shù)概述_第2頁(yè)
生物信息技術(shù)概述_第3頁(yè)
生物信息技術(shù)概述_第4頁(yè)
生物信息技術(shù)概述_第5頁(yè)
已閱讀5頁(yè),還剩125頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

金麗華生物信息技術(shù)

項(xiàng)目3進(jìn)化樹(shù)的構(gòu)建項(xiàng)目3課程導(dǎo)學(xué)生物是怎么進(jìn)行進(jìn)化的?從什么數(shù)據(jù)中我們可以看出生物分子的進(jìn)化過(guò)程呢?猴子和人類(lèi)有多大的相似性?在本項(xiàng)目中,我們利用系統(tǒng)進(jìn)化樹(shù)的方法來(lái)理解生物的進(jìn)化過(guò)程。項(xiàng)目任務(wù)1)學(xué)習(xí)并理解分子進(jìn)化。2)能理解分子鐘和中性理論3)能看懂進(jìn)化樹(shù)4)能利用MEGA5.1軟件畫(huà)出系統(tǒng)進(jìn)化樹(shù)。學(xué)習(xí)內(nèi)容1.分子進(jìn)化與系統(tǒng)發(fā)育2.分子進(jìn)化樹(shù)與系統(tǒng)進(jìn)化樹(shù)3.利用MEGA5.1構(gòu)建進(jìn)化樹(shù)(實(shí)操任務(wù))分子進(jìn)化與系統(tǒng)發(fā)育內(nèi)容提要分子進(jìn)化分析介紹系統(tǒng)發(fā)育樹(shù)重建方法Phylip軟件包在分子進(jìn)化分析中的應(yīng)用PAUP*在分子進(jìn)化分析中的應(yīng)用MEGA分子進(jìn)化樹(shù)分析軟件

從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。

蛋白和核酸序列

通過(guò)序列同源性的比較進(jìn)而了解基因的進(jìn)化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。分子進(jìn)化研究的目的系統(tǒng)發(fā)育樹(shù)是什么?

對(duì)一組實(shí)際對(duì)象的世系關(guān)系的描述(如基因,物種等)。祖先節(jié)點(diǎn)/樹(shù)根內(nèi)部節(jié)點(diǎn)/分歧點(diǎn),該分支可能的祖先結(jié)點(diǎn)分支/世系末端節(jié)點(diǎn)

ABCDE代表最終分類(lèi),可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等系統(tǒng)發(fā)育樹(shù):術(shù)語(yǔ)ABCDE?FG樹(shù)只代表分支的拓?fù)浣Y(jié)構(gòu)FGCDE?AB分子進(jìn)化研研究的基礎(chǔ)礎(chǔ)(假設(shè)))核苷酸和氨氨基酸序列列中含有生生物進(jìn)化歷歷史的全部部信息。在各種不同同的發(fā)育譜譜系及足夠夠大的進(jìn)化化時(shí)間尺度度中,許多多序列的進(jìn)進(jìn)化速率幾幾乎是恒定定不變的。。(分子鐘鐘理論,1965)分子進(jìn)化研研究的基礎(chǔ)礎(chǔ)(理論))雖然很多時(shí)時(shí)候仍然存存在爭(zhēng)議,,但是分子子進(jìn)化確實(shí)實(shí)能闡述一一些生物系系統(tǒng)發(fā)生的的內(nèi)在規(guī)律律。分子進(jìn)化研研究的基礎(chǔ)礎(chǔ)(實(shí)際))從一個(gè)分歧歧數(shù)據(jù)可以以推測(cè)其他他序列分分歧度度分歧時(shí)間xy分子鐘理論論速率恒定的的證據(jù):血血色素中性理論“在生物分分子層次次上的進(jìn)進(jìn)化改變變不是由由自然選選擇作用用于有利利突變引引起的,,而是在在連續(xù)的的突變壓壓之下由由選擇中中性或非非常接近近中性的的突變的的隨機(jī)固固定造成成的,中中性突變變是指對(duì)對(duì)當(dāng)前適適應(yīng)度無(wú)無(wú)影響的的突變。?!狈裾J(rèn)自然然選擇在在生物進(jìn)進(jìn)化中的的作用,,認(rèn)為生生物大分分子的進(jìn)進(jìn)化的主主要因素素是機(jī)會(huì)會(huì)和突變變壓力進(jìn)化及遺遺傳模型型1、序列有有指定的的來(lái)源并并且正確確無(wú)誤。。2、序列是是同源的的,而序序列不是是“paralog”的混合合物。3、序列比比對(duì)中,,不同序序列的同同一個(gè)位位點(diǎn)都是是同源的的4、在接受受分析的的一個(gè)序序列組中中,序列列之間的的系統(tǒng)發(fā)發(fā)育史是是相同的的。5、樣本足足以解決決感興趣趣的問(wèn)題題。進(jìn)化及遺遺傳模型型6、樣本序序列之間間的差異異代表了了感興趣趣的寬組組。7、樣本序序列之間間的差異異包含了了足以解解決感興興趣的問(wèn)問(wèn)題的系系統(tǒng)發(fā)育育信號(hào)。。8、樣本序序列是隨隨機(jī)進(jìn)化化的。9、序列中中的所有有位點(diǎn)的的進(jìn)化都都是隨機(jī)機(jī)的。10、序列中中的每一一個(gè)位點(diǎn)點(diǎn)的進(jìn)化化都是獨(dú)獨(dú)立的。。直系同源源(orthologs):同源的基基因通過(guò)過(guò)物種形成成的事件而而產(chǎn)生,,或源于于不同物物種的最最近的共共同祖先先的兩個(gè)個(gè)基因,,或者兩兩個(gè)物種種中的同同一基因因,一般般具有相相同的功功能。并系同源源(paralogs):同源基因因在同一一物種中中,通過(guò)過(guò)至少一一次基因復(fù)制制的事件而而產(chǎn)生。。直系同源源與旁系系同源paralogsorthologsparalogsorthologsErikL.L.SonnhammerOrthology,paralogyandproposedclassificationforparalogsubtypesTRENDSinGeneticsVol.18No.12December20020168-9525/02/$––seefrontmatter?2002ElsevierScienceLtd.Allrightsreserved.以上兩個(gè)個(gè)概念代代表了兩兩個(gè)不同同的進(jìn)化化事件用于分子子進(jìn)化分分析中的的序列必須是直直系同源源的,才能能真實(shí)反反映進(jìn)化化過(guò)程。。趨同進(jìn)化化的基因因(Convergentevolution)通過(guò)不同同的進(jìn)化化途徑獲獲得相似似的功能能,或者者功能替替代物(geneshaveconvergedfunctionbyseparateevolutionarypaths)異源基因因或水平平轉(zhuǎn)移基基因(xenologousorhorizontallytransferredgenes)由某一個(gè)個(gè)水平基因因轉(zhuǎn)移事件而得得到的同同源序列列Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Phylogramsshowbranchorderandbranchlengths進(jìn)化樹(shù),,有分支支和支長(zhǎng)長(zhǎng)信息2.進(jìn)化分支支圖,進(jìn)進(jìn)化樹(shù)Cladogramsshowbranchingorder-branchlengthsaremeaningless進(jìn)化分支支圖,只只用分支支信息,,無(wú)支長(zhǎng)長(zhǎng)信息。。archaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryote通過(guò)外圍支支來(lái)確定定樹(shù)根archaeabacteriaoutgroup根eukaryoteeukaryoteeukaryoteeukaryote無(wú)根樹(shù)archaeaarchaeaarchaea有根樹(shù)外圍支無(wú)根樹(shù),有根根樹(shù),外圍支支無(wú)根樹(shù)和有根根樹(shù):潛在的的數(shù)目#Taxa無(wú)根樹(shù)有有根樹(shù)31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,計(jì)算量量急劇增加,,因此,目前前算法都為優(yōu)優(yōu)化算法,不不能保證最優(yōu)優(yōu)解4.基因樹(shù),物種種樹(shù)WeoftenassumethatgenetreesgiveusspeciestreesabcABDGenetreeSpeciestree系統(tǒng)發(fā)育樹(shù)重重建分析步驟驟多序列比對(duì)((自動(dòng)比對(duì),,手工比對(duì)))建立取代模型型(建樹(shù)方法法)建立進(jìn)化樹(shù)進(jìn)化樹(shù)評(píng)估1.最大簡(jiǎn)約法(maximumparsimony,MP)2.距離法(distance)3.最大似然法(maximumlikelihood,ML)系統(tǒng)發(fā)育樹(shù)重重建的基本方方法最大簡(jiǎn)約法(MP)1.理論基礎(chǔ)為奧奧卡姆剃刀(Ockham)原則:計(jì)算所所需替代數(shù)最最小的那個(gè)拓拓?fù)浣Y(jié)構(gòu),作作為最優(yōu)樹(shù)2.在分析的序列列位點(diǎn)上沒(méi)有有回復(fù)突變或或平行突變,,且被檢驗(yàn)的的序列位點(diǎn)數(shù)數(shù)很大的時(shí)候候,最大簡(jiǎn)約約法能夠推導(dǎo)導(dǎo)獲得一個(gè)很很好的進(jìn)化樹(shù)樹(shù)3.優(yōu)點(diǎn):不需要要在處理核苷苷酸或者氨基基酸替代的時(shí)時(shí)候引入假設(shè)設(shè)(替代模型)4.缺點(diǎn):分析序序列上存在較較多的回復(fù)突突變或平行突突變,而被檢檢驗(yàn)的序列位位點(diǎn)數(shù)又比較較少的時(shí)候,,可能會(huì)給出出一個(gè)不合理理的或者錯(cuò)誤誤的進(jìn)化樹(shù)推推導(dǎo)結(jié)果1.信息位點(diǎn),必必須在至少2個(gè)taxa中具有相同的的序列性狀2.信息位點(diǎn)是指指那些至少存存在2個(gè)不同堿基/氨基酸且每個(gè)個(gè)不同堿基/氨基酸至少出出現(xiàn)兩次的位位點(diǎn)信息位點(diǎn)(Sitesareinformative)上例1.Position5,7,9為信息位點(diǎn)2.基于position5的三個(gè)MP樹(shù):Tree1長(zhǎng)度1,Tree2&3長(zhǎng)度23.Tree1更為簡(jiǎn)約2.距離法又稱(chēng)距離矩陣陣法,首先通通過(guò)各個(gè)物種種之間的比較較,根據(jù)一定定的假設(shè)(進(jìn)進(jìn)化距離模型型)推導(dǎo)得出出分類(lèi)群之間間的進(jìn)化距離離,構(gòu)建一個(gè)個(gè)進(jìn)化距離矩矩陣。進(jìn)化樹(shù)樹(shù)的構(gòu)建則是是基于這個(gè)矩矩陣中的進(jìn)化化距離關(guān)系計(jì)算序列的距距離,建立距距離矩陣通過(guò)距離矩陣陣建進(jìn)化樹(shù)簡(jiǎn)單的距離矩矩陣由進(jìn)化距離構(gòu)構(gòu)建進(jìn)化樹(shù)的的方法有很多多,常見(jiàn)有::(1)Fitch-MargoliashMethod(FM法):對(duì)短支長(zhǎng)非常常有效(2)Neighbor-JoiningMethod(NJ法/鄰接法):求最短支長(zhǎng),,最通用的距距離方法(3)NeighborsRelatonMethod(鄰居關(guān)系法)(4)UnweightedPairGroupMethod(UPGMA法)通過(guò)距離矩陣陣建樹(shù)的方法法1.找出關(guān)系最近近的序列對(duì),,如A和B2.將剩余的序列列作為一個(gè)簡(jiǎn)簡(jiǎn)單復(fù)合序列列,分別計(jì)算算A、B到所有其他序序列的距離的的平均值3.用這些值來(lái)計(jì)計(jì)算A和B間的距離4.將A、B作為一個(gè)單單一的復(fù)合合序列AB,計(jì)算與每每一個(gè)其他他序列的距距離,生成成新的距離離矩陣5.確定下一對(duì)對(duì)關(guān)系最近近的序列,,重復(fù)前面面的步聚計(jì)計(jì)算枝長(zhǎng)7.從每個(gè)序列列對(duì)開(kāi)始,,重復(fù)整個(gè)個(gè)過(guò)程8.對(duì)每個(gè)樹(shù)計(jì)計(jì)算每對(duì)序序列間的預(yù)預(yù)測(cè)距離,,發(fā)現(xiàn)與原原始數(shù)據(jù)最最符合的樹(shù)樹(shù)Fitch-Margoliash方法(FM法)Fitch-Margoliash方法(FM法)D和E最接近!分成三組::D,E,以及ABCDE距離=d+e(1)D到ABC間的平均距距離=d+m(2)E到ABC間的平均距距離=e+m(3)(2)-(3)+(1)d=4,e=6C最接近DE!分成三組::C,DE,以及ABc+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)得:c=9c+g+(e+d)/2=19(e+d)/2=5,c=9,則g=5由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,則b=12練習(xí)題計(jì)算以下序序列的進(jìn)化化距離,畫(huà)畫(huà)出進(jìn)化樹(shù)樹(shù)。序列1:AACTGTTAGTCAATTGATTCCAATGGTCCATAAACGAATC序列2:AACAGTCAGTCAAGTGTTTCCTTTGGTCCATCGACGAATC序列3:AAGGGTCTGTCACAGGATGGCATCGGTCGGTAAACGAGAC序列4:AAGGGTCTGTCACAGGAAGGCATCGGTGGGTAAACGTGAC序列5:AACACACAGTCAAGAGTTTCCTTGGGTCCATCGTCGAATCNJ法/鄰接法Neighbor-JoiningMethod(NJ法/鄰接法):鄰接法(Neighbor-joiningMethod)由Saitou和Nei(1987)提出。該方方法通過(guò)確確定距離最最近(或相鄰)的成對(duì)分類(lèi)類(lèi)單位來(lái)使使系統(tǒng)樹(shù)的的總距離達(dá)達(dá)到最小。。相鄰是指指兩個(gè)分類(lèi)類(lèi)單位在某某一無(wú)根分分叉樹(shù)中僅僅通過(guò)一個(gè)個(gè)節(jié)點(diǎn)(node)相連。通過(guò)過(guò)循序地將將相鄰點(diǎn)合合并成新的的點(diǎn),就可可以建立一一個(gè)相應(yīng)的的拓?fù)錁?shù)。。NJ/鄰接法1.與FM方法非常類(lèi)類(lèi)似2.保證總的支支長(zhǎng)最短總支長(zhǎng):a+b+c+d+e=314/4=78.5找到距離最最近的兩個(gè)個(gè)點(diǎn)1.任意兩個(gè)節(jié)節(jié)點(diǎn)選為相相鄰序列的的總支長(zhǎng)計(jì)計(jì)算公式:2.計(jì)算SAB,SBC,SCD,SDE…等數(shù)值3.該例中,SAB最小把A、B看成一個(gè)新新的復(fù)合序序列,構(gòu)建建一個(gè)新的的距離表,,重復(fù)以上上過(guò)程計(jì)算算A,B的分分支支長(zhǎng)長(zhǎng)度度AB組合合出出現(xiàn)現(xiàn)3次,,DE組合合出出現(xiàn)現(xiàn)3次,,CD、AC、BC組合合各各一一次次,,則則AB和DE各為為兩兩對(duì)對(duì)關(guān)關(guān)系系最最近近的的鄰鄰居居。。(關(guān)系系最最近近的的鄰鄰居居作作為為鄰鄰居居的的次次數(shù)數(shù)最最多多),將將鄰鄰居居看看成成一一個(gè)個(gè)新新的的復(fù)復(fù)合合序序列列,,重重復(fù)復(fù)這這個(gè)個(gè)過(guò)過(guò)程程鄰居居關(guān)關(guān)系系法法UPGMA法稱(chēng)為為(應(yīng)用用算算術(shù)術(shù)平平均均數(shù)數(shù)的的非非加加權(quán)權(quán)成成組組配配對(duì)對(duì)法法,,unweightedpair-groupmethodusinganarithmeticaverage)。該法法將將類(lèi)類(lèi)間間距距離離定定義義為為兩兩個(gè)個(gè)類(lèi)類(lèi)的的成成員員所所有有成成對(duì)對(duì)距距離離的的平平均均值值,,廣廣泛泛用用于于距距離離矩矩陣陣。。Nei等模模擬擬了了構(gòu)構(gòu)建建樹(shù)樹(shù)的的不不同同方方法法,,發(fā)發(fā)現(xiàn)現(xiàn)當(dāng)當(dāng)沿沿樹(shù)樹(shù)上上所所有有分分枝枝的的突突變變率率相相同同時(shí)時(shí),,UPGMA法一一般般能能夠夠得得到到較較好好的的結(jié)結(jié)果果。。但但必必須須強(qiáng)強(qiáng)調(diào)調(diào)有有關(guān)關(guān)突突變變率率相相等等(或幾幾乎乎相相等等)的假假設(shè)設(shè)對(duì)對(duì)于于UPGMA的應(yīng)應(yīng)用用是是重重要要的的。。另另一一些些模模型型研研究究(如Kim和Burgman)已證證實(shí)實(shí)當(dāng)當(dāng)各各分分枝枝的的突突變變率率不不相相等等時(shí)時(shí),,這這一一方方法法的的結(jié)結(jié)果果不不盡盡人人意意。。當(dāng)當(dāng)各各分分枝枝突突變變率率相相等等時(shí)時(shí),,認(rèn)認(rèn)為為分分子子鐘鐘(molecularclock)在起起作作用用。。d=e=10/2=5UPGMA法c=19/2=9.5g=c-d=9.5-5=4.5a=b=22/2=11AB(CDE)A-2239.5B--41.5(CDE)---(AB)(CDE)(AB)-40.5(CDE)--f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75最大大似似然然法法(ML)1.最大大似似然然法法(maximumlikelihood,ML):最早早應(yīng)應(yīng)用用于于對(duì)對(duì)基基因因頻頻率率數(shù)數(shù)據(jù)據(jù)的的分分析析上上2.選取取一一個(gè)個(gè)特特定定的的替替代代模模型型來(lái)來(lái)分分析析給給定定的的一一組組序序列列數(shù)數(shù)據(jù)據(jù),,使使得得獲獲得得的的每每一一個(gè)個(gè)拓拓?fù)鋼浣Y(jié)結(jié)構(gòu)構(gòu)的的似似然然率率都都為為最最大大值值,,然然后后再再挑挑出出其其中中似似然然率率最最大大的的拓拓?fù)鋼浣Y(jié)結(jié)構(gòu)構(gòu)作作為為最最優(yōu)優(yōu)樹(shù)樹(shù)3.在最大似似然法的的分析中中,所考考慮的參參數(shù)并不不是拓?fù)鋼浣Y(jié)構(gòu)而而是每個(gè)個(gè)拓?fù)浣Y(jié)結(jié)構(gòu)的枝枝長(zhǎng),并并對(duì)似然然率求最最大值來(lái)來(lái)估計(jì)枝枝長(zhǎng)4.缺點(diǎn):費(fèi)費(fèi)時(shí),每每個(gè)步驟驟都要考考慮內(nèi)部部節(jié)點(diǎn)的的所有可可能性5.改進(jìn):?jiǎn)l(fā)式算算法構(gòu)建進(jìn)化化樹(shù)的一一般原則則1.選擇一個(gè)個(gè)或多個(gè)個(gè)已知與與分析序序列關(guān)系系較遠(yuǎn)的的序列作作為外圍圍支2.外圍支可可以輔助助定位樹(shù)樹(shù)根3.外圍支序序列必須須與剩余余序列關(guān)關(guān)系較近近,但外外圍支序序列與其其他序列列間的差差異必須須比其他他序列之之間的差差異更顯顯著選擇外圍圍支(Outgroup)1.進(jìn)化樹(shù)的的可靠性性分析:自展法(BootstrapMethod)從排列的的多序列列中隨機(jī)機(jī)有放回回的抽取取某一列列,構(gòu)成成相同長(zhǎng)長(zhǎng)度的新新的排列列序列2.重復(fù)上面面的過(guò)程程,得到到多組新新的序列列3.對(duì)這些新新的序列列進(jìn)行建建樹(shù),再再觀察這這些樹(shù)與與原始樹(shù)樹(shù)是否有有差異,,以此評(píng)評(píng)價(jià)建樹(shù)樹(shù)的可靠靠性自展法原始排列列AlphaAACAACBetaAACCCCGammaACCAACDeltaCCACCAEpsilonCCAAACBootstrap1AlphaACAAACBetaACCCCCGammaACAAACDeltaCACCCAEpsilonCAAAACBootstrap2AlphaAAAACCBetaAACCCCGammaCCAACCDeltaCCCCAAEpsilonCCAACCBootstrap3AlphaACAAACBetaACCCCCGammaCCAAACDeltaCACCCAEpsilonCAAAACPHYLIP、PUZZLE、MEGA、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)常用的進(jìn)進(jìn)化樹(shù)軟軟件phylip3.6a3進(jìn)化樹(shù)分分析軟件件,并可可繪制進(jìn)進(jìn)化樹(shù)。。進(jìn)化樹(shù)處處理軟件件。GeneTree1.3比較基因因與種系系進(jìn)化樹(shù)樹(shù)的程序序。用來(lái)編輯輯NEXUS格式文件件的程序序。TreeMap1.0用來(lái)可視視地比較較主、從從進(jìn)化樹(shù)樹(shù)的程序序。Spectrum分析進(jìn)化化信息而而不用將將之轉(zhuǎn)化化為進(jìn)化化樹(shù)的軟軟件。Phyltools1.32計(jì)算與處處理進(jìn)化化樹(shù)數(shù)據(jù)據(jù)的軟件件。tree-puzzle5.0核酸序列列、蛋白白序列相相似性分分析及進(jìn)進(jìn)化樹(shù)構(gòu)構(gòu)建工具具。ATV1.92JAVA語(yǔ)言編寫(xiě)寫(xiě)的顯示示“NewHampshire”與NHX格式的進(jìn)進(jìn)化樹(shù)文文件軟件。TREECON1.3bDemo構(gòu)建和繪繪制進(jìn)化化樹(shù)的軟軟件包。。ProBiosys1.0比較表現(xiàn)現(xiàn)型分類(lèi)類(lèi)法數(shù)據(jù)據(jù)和分析析計(jì)算核核酸序列列數(shù)據(jù)距距離值的的軟件。。COMPONENT2.0分析進(jìn)化化樹(shù)免費(fèi)費(fèi)軟件。。NJplot小巧的顯顯示進(jìn)化化樹(shù)的免免費(fèi)軟件件NJplot。MEGA2.1免費(fèi)分子子進(jìn)化遺遺傳分析析軟件PAUP4PAUP的快速使使用手冊(cè)冊(cè)Phylip軟件包介介紹Phylip是一個(gè)免免費(fèi)的系系統(tǒng)發(fā)生生(phylogenetics)分析軟件件包。以以下鏈接接可以下下載:http://evolution.genetics,/phylip.html由華盛頓頓大學(xué)遺遺傳學(xué)系系開(kāi)發(fā),,1980年首次公公布。Phylip軟件包介介紹Phylip包含了35個(gè)獨(dú)立的的程序,,這些獨(dú)獨(dú)立的程程序都實(shí)實(shí)現(xiàn)特定定的功能能,這些些程序基基本上包包括了系系統(tǒng)發(fā)生生分析的的所有方方面。Phylip有多種不不同平臺(tái)臺(tái)的版本本(包括括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。Phylip是目前最最廣泛使使用的系系統(tǒng)發(fā)生生分析程程序,主主要包括括一下幾幾個(gè)程序序組:分子序列列組,距離矩陣陣組,基因頻頻率組,,離散字字符組,,進(jìn)化樹(shù)繪繪制組。Phylip軟件包介介紹分子序列列組:1.蛋白質(zhì)序序列:protpars,proml,promlk,protdist2.核酸序列列:dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacompPhylip軟件包分分組介紹紹距離矩陣陣組:Fitch,kitsch,neighbor基因頻率率組:Gendist,contml離散字符符組Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factorPhylip軟件包包分組組介紹紹進(jìn)化樹(shù)樹(shù)繪制制組::drawtree,drawgram其他::restdist,restml,seqboot,contrasttreedist,consense,retreePhylip軟件包包分組組介紹紹Phylip軟件包包的文文檔是是非常常詳細(xì)細(xì)的,,對(duì)于于每個(gè)個(gè)獨(dú)立立的程程序,,都有有一個(gè)個(gè)獨(dú)立立的文文檔,,詳細(xì)細(xì)的介介紹了了該程程序的的使用用及其其說(shuō)明明。此外,,Phylip軟件包包還包包括程程序的的源代代碼((c語(yǔ)言))。Phylip軟件包包的文文檔Phylip軟件包包的應(yīng)應(yīng)用1,根據(jù)據(jù)你的的分析析數(shù)據(jù)據(jù),選選擇適適當(dāng)?shù)牡某绦蛐蛉?,你分析析的是DNA數(shù)據(jù),就在在核酸序列列分析類(lèi)中中選擇程序序(dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp)如果分析析的是離散散數(shù)據(jù),如如突變位點(diǎn)點(diǎn)數(shù)據(jù),就就在離散字字符組里面面選擇程序序。2.選擇適當(dāng)?shù)牡姆治龇椒ǚㄈ缒惴治龅牡氖荄NA數(shù)據(jù),可以以選擇簡(jiǎn)約約法(DNAPARS),似然法法(DNAML,DNAMLK),距離法法等(DNADIST)。。。Phylip軟件包的應(yīng)應(yīng)用3.進(jìn)行分析選擇好程序序后,執(zhí)行行,讀入分分析數(shù)據(jù),,選擇適當(dāng)當(dāng)?shù)膮?shù),,進(jìn)行分析析,結(jié)果自自動(dòng)保存為為outfile,outtree。Phylip軟件包的應(yīng)應(yīng)用Outfile是一個(gè)記錄錄文件,記記錄了分析析的過(guò)程和和結(jié)果,可可以直接用用文本編輯輯器(如寫(xiě)寫(xiě)字板)打打開(kāi)。outtree是分析結(jié)果果的樹(shù)文件件,可以用用phylip提供的繪樹(shù)樹(shù)程序打開(kāi)開(kāi)查看,也也可以用其其他的程序序來(lái)打開(kāi),,如treeviewPhylip軟件包的應(yīng)應(yīng)用出發(fā)數(shù)據(jù)--已經(jīng)排列列好的蛋白白序列。重構(gòu)算法--距離法(protdist.exe)最大簡(jiǎn)約法法(protpars.exe)最大似然法法(proml.exe)統(tǒng)計(jì)分析--撥靴法(bootstrap)實(shí)際應(yīng)用((從蛋白序序列推導(dǎo)進(jìn)進(jìn)化樹(shù))實(shí)際操作Phylip軟件包中的的每個(gè)分析析程序都是是一個(gè)獨(dú)立立的應(yīng)用程程序。我們們選擇好了了分析算法法后,按一一定的順序序組合使用用選擇的程程序,就可可以獲得按按選擇的算算法分析的的結(jié)果(進(jìn)進(jìn)化樹(shù))。。例子:從我我們剛剛通通過(guò)clustal比對(duì)獲得的的蛋白序列列推測(cè)進(jìn)進(jìn)化樹(shù)。選擇方法::距離法(protdist.exe)第一步:雙雙擊執(zhí)行protdist.exe,根據(jù)提示輸輸入分析的的文件名(程序默認(rèn)是是infile)。第二步:設(shè)設(shè)定各個(gè)參參數(shù),執(zhí)行行程序,獲獲得距離矩陣數(shù)據(jù)據(jù)輸出文件件outfile。第三步:選選擇通過(guò)距距離矩陣推推測(cè)進(jìn)化樹(shù)樹(shù)的算法(fitch.exe,kotsch.exe,neighbor.exe)。第四步:將將剛獲得的的輸出文件件改名為infile,執(zhí)行選擇擇的推測(cè)算算法(neighbor.exe)。設(shè)置好參參數(shù)后執(zhí)行行程序,獲獲得outfile和outtree兩個(gè)結(jié)果輸輸出。獲得的結(jié)果果文件中,,outtree文件是一個(gè)個(gè)樹(shù)文件,,可以用treeview等軟件打開(kāi)開(kāi)。outfile是一個(gè)分析析結(jié)果的輸輸出報(bào)告,,包括了樹(shù)樹(shù)和其他一一些分析報(bào)報(bào)告,可以以用記事本本直接打開(kāi)開(kāi)。outfileouttree加入統(tǒng)計(jì)分分析(bootstrap)我們剛剛獲獲得的進(jìn)化化樹(shù)是純粹粹的根據(jù)先先前獲得的的排列數(shù)據(jù)據(jù)所推導(dǎo)出出來(lái)的。有有很多可能能使得這個(gè)個(gè)樹(shù)并不一一定可靠。。1.測(cè)序的出錯(cuò)錯(cuò)。2.多序列比對(duì)對(duì)算法本身身的問(wèn)題。。3.其他的問(wèn)題題。我們可以引引進(jìn)一些統(tǒng)統(tǒng)計(jì)分析來(lái)來(lái)尋找更優(yōu)優(yōu)的進(jìn)化樹(shù)樹(shù)最常見(jiàn)的就就是bootstrap分析。Bootstrap分析Phylip軟件包中有有兩個(gè)用于于執(zhí)行bootstrap分析的程序序。(seqboot.exe,consence.exe)。分析過(guò)程::1.Seqboot產(chǎn)生大量的的數(shù)據(jù)組2.應(yīng)用選擇的的算法對(duì)產(chǎn)產(chǎn)生的數(shù)據(jù)據(jù)組進(jìn)行分分析。3.由consence獲得最優(yōu)樹(shù)樹(shù)。PAUP*的使用PAUP*的數(shù)據(jù)格式式(Nexus)#NEXUSbegintaxa;dimensionsntax=12;taxlabelsLemur_catta…Tarsius_syrichta;end;begincharacters;dimensionsnchar=898;formatmissing=?gap=-matchchar=.interleavedatatype=dna;optionsgapmode=missing;matrixLemur_cattaAAGCTTCATAGGAGCAACCATTCTAATAATCGCACATGGCCTTACATCATCCATATTATTHomo_sapiensAAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGGCTTACATCCTCATTACTATTPanAAGCTTCACCGGCGCAATTATCCTCATAATCGCCCACGGACTTACATCCTCATTATTATTGorillaAAGCTTCACCGGCGCAGTTGTTCTTATAATTGCCCACGGACTTACATCATCATTATTATTPongoAAGCTTCACCGGCGCAACCACCCTCATGATTGCCCATGGACTCACATCCTCCCTACTGTTHylobatesAAGCTTTACAGGTGCAACCGTCCTCATAATCGCCCACGGACTAACCTCTTCCCTGCTATTbeginassumptions;charsetcoding=2-457660-896;charsetnoncoding=1458-659897-898;charset1stpos=2-457\3660-896\3;charset2ndpos=3-457\3661-896\3;charset3rdpos=4-457\3662-.\3;exsetcoding=noncoding;exsetnoncoding=coding;usertype2_1=4[weightstransversions2timestransitions]acgt[a].212[c]2.21[g]12.2[t]212.;usertype3_1=4[weightstransversions3timestransitions]acgt[a].313[c]3.31[g]13.3[t]313.;taxsethominoids=Homo_sapiensPanGorillaPongoHylobates;end;beginpaup;constraintsch=((Homo_sapiens,Pan));constraintschg=((Homo_sapiens,Pan,Gorilla));end;PAUP*的數(shù)數(shù)據(jù)據(jù)格格式式(Nexus)主要要包包括括taxa,characters,assumptions,sets,trees,codons,distances,paup八個(gè)數(shù)據(jù)塊。對(duì)于一個(gè)常規(guī)規(guī)的分析,taxa,characters塊是必須的。。而分析的命命令可以通過(guò)過(guò)菜單操作((mac),或者鍵盤(pán)盤(pán)命令(win,linux),也可以在nexus文件中加入paup命令塊1.TAXA塊主要是定義所所分析的數(shù)據(jù)據(jù)(如分子序序列)個(gè)數(shù),以及這些數(shù)數(shù)據(jù)的名稱(chēng)((如物種名稱(chēng))。2.CHARACTERS塊主要是定義數(shù)數(shù)據(jù)矩陣(如如多序列比對(duì)對(duì)結(jié)果)和其其他一些相關(guān)關(guān)的信息(如如序列特征值值,序列有效效區(qū)域等)PAUP*的Nexus的文件塊3.ASSUMPTIONS塊定義了對(duì)數(shù)據(jù)據(jù)的一些設(shè)定定,如那些特特征值是不需需考慮的,怎怎么處理gap這個(gè)特征值等等,用戶(hù)自定定義的一些數(shù)數(shù)據(jù)也放在這這塊,如自定定義的打分矩矩陣。4.SETS塊定義了一系列列的數(shù)據(jù)組,,如特征值組組,物種組等等,這些設(shè)置置都是為了方方便后續(xù)的分分析。5.TREES塊定義了用戶(hù)自自己設(shè)定的樹(shù)樹(shù)。用于后續(xù)續(xù)的分析,如如作為限制樹(shù)樹(shù)等。6.CODONS塊定義了遺傳密密碼子的一些些信息。如編編碼的位置((哪些是編碼碼的,密碼子子的位點(diǎn)等))。7.DISTANCES塊定義了一些距距離矩陣。8.PAUP塊是軟件的核心心塊,所有的的分析命令和和一些參數(shù)設(shè)設(shè)置(90多個(gè)命令)都都放在這一塊塊。這一塊并不是是分析輸入數(shù)數(shù)據(jù)所必須的的,這些命令令可以寫(xiě)在這這一塊(文件件中),這時(shí)時(shí)載入文件時(shí)時(shí)就開(kāi)始根據(jù)據(jù)該塊的命令令進(jìn)行分析((有點(diǎn)類(lèi)似dos的批處理過(guò)程程)。當(dāng)然也也可以通過(guò)鍵鍵盤(pán)命令逐一一敲入,交互進(jìn)行分析。批處理的方式在分析析過(guò)程比較長(zhǎng)長(zhǎng),耗時(shí)比較較久的時(shí)候是是比較有用的的。當(dāng)然在進(jìn)進(jìn)行處理之前前一定要先保保證該批處理理過(guò)程沒(méi)有問(wèn)問(wèn)題。一個(gè)PAUP*的基本分析實(shí)實(shí)例1.通過(guò)clustalw/clustalx獲取一個(gè)多序序列比對(duì)結(jié)果果(可能要經(jīng)經(jīng)過(guò)人工調(diào)整整,推薦用bioedit做輔助編輯器器)。保存成成nexus格式的文件,,或者用其他他格式轉(zhuǎn)換軟軟件轉(zhuǎn)換成nexus格式。paup*中也有一個(gè)tonexus命令可以將其其他格式(包包括phylip,GCG等格式)的文文件轉(zhuǎn)換為nexus格式的文件。。2.在PAUP*程序中讀入數(shù)數(shù)據(jù)(Nexus格式)輸入命令的地地方打開(kāi)文件的窗窗口程序自帶的測(cè)測(cè)試數(shù)據(jù)執(zhí)行該文件還還是編輯該文文件?執(zhí)行文件時(shí)將將文件數(shù)據(jù)讀讀入程序,編編輯文件則調(diào)調(diào)用一個(gè)文本本編輯器。如如果不是nexus格式,執(zhí)行時(shí)時(shí)候會(huì)出錯(cuò),,然后調(diào)用文文本編輯器打打開(kāi)。3.數(shù)據(jù)輸入完成成,開(kāi)始分析析…兩個(gè)很有用的的命令?:顯示所有的的命令命令?:顯示命令的的所有參數(shù)分析…(開(kāi)始一)1.開(kāi)始之前打開(kāi)記錄文件件?(跟蹤整整個(gè)分析過(guò)程程)命令:logstartfile=your_log_file_name;停止:logstop;2.設(shè)置數(shù)據(jù)哪些用于分析析?如:includecoding/only;excludecoding/only;哪些物種要分分析(刪除不不要的)?如:delete1;或者deletetaxa_name…undelete1;……分析…(開(kāi)始二)3.確定建樹(shù)方法法最大簡(jiǎn)約法??最大似然法法?距離法法?命令:Setcriterion=parsimony|likelihood|distance;分析…(建樹(shù)一)4.確定其他參數(shù)數(shù)Set?查看其他參參數(shù)的設(shè)置,,改為自己所所需要的設(shè)置置。如:setmaxtree=10000increase=noautoclose=yes;分析…(建樹(shù)二)5.確定搜索方法法(對(duì)于距離離法不適用))窮盡法:alltrees分支跳跳躍查查找::bandb啟發(fā)式式搜索索:hsearch其他::puzzle(只在在likelihood時(shí)有效效)…分析…(建樹(shù)樹(shù)三))6.開(kāi)始搜搜索樹(shù)樹(shù)之前前(設(shè)設(shè)置各各個(gè)建建樹(shù)方方法的的參數(shù)數(shù))距離法法:dset如:dsetdistance=tamneinegbrlen=allow最大簡(jiǎn)簡(jiǎn)約法法:pset如psetcollapse=nogapmode=newstate最大似似然法法:lset如:lsetnst=6clock=yes分析…(建樹(shù)樹(shù)四))7.再次確確認(rèn)參參數(shù)是否要要設(shè)置置外圍圍群((outgroup)?如outgroup1,2;或者outgrouptaxa_set;其他參參數(shù)??分析…(建樹(shù)樹(shù)五))7.開(kāi)始搜搜索樹(shù)樹(shù)距離法法:NJ,UPGMA最大簡(jiǎn)簡(jiǎn)約法法,最最大似似然法法Hsearch?參數(shù)數(shù)是否否要更更改??如:hsearchandseq=randomswap=spr分析…(建樹(shù)樹(shù)六))8.進(jìn)化樹(shù)樹(shù)的評(píng)評(píng)估選擇評(píng)評(píng)估方方法??Bootstrap(自展展法))用的最最多,,是對(duì)進(jìn)進(jìn)化樹(shù)樹(shù)重新新取樣樣的評(píng)評(píng)估方方法,,可以以對(duì)距距離法法,簡(jiǎn)簡(jiǎn)約法法,似似然法法以及及衍生生出的的任何何其他他方法法構(gòu)建建的進(jìn)進(jìn)化樹(shù)樹(shù)進(jìn)行行評(píng)估估。其其分析析結(jié)果果是一一組數(shù)數(shù)字,,這個(gè)個(gè)數(shù)字字描述述了進(jìn)進(jìn)化樹(shù)樹(shù)進(jìn)化化分支支的支支持比比例,,也就就是進(jìn)進(jìn)化樹(shù)樹(shù)分支支的穩(wěn)穩(wěn)健性性。分析…(樹(shù)評(píng)評(píng)估一一)分析…(樹(shù)評(píng)評(píng)估二二)未經(jīng)過(guò)過(guò)bootstrap的樹(shù)Bootstrap后的樹(shù)樹(shù)BOOTSTRAP[options][/heuristic-search-options|branch-and-bound-search-options];使用分分支限限制或或者是是啟發(fā)發(fā)式搜搜索的的方法法進(jìn)行行bootstrap分析。。參數(shù)::?BSEED=integer-value隨機(jī)數(shù)數(shù)種子子。?NREPS=integer-valuebootstrap重復(fù)的的次數(shù)數(shù),默默認(rèn)值值為100。?SEARCH=HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA搜索方方式?CONLEVEL=integer-valuebootstrap重復(fù)次次數(shù)的的最低低比率率,默默認(rèn)為為50。?KEEPALL=YES|NO?WTS=IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL?NCHAR=CURRENT|number-of-characters每次重重復(fù)采采樣的的數(shù)目目。?GRPFREQ=YES|NO顯示bootstrap分割頻頻率?TREEFILE=bootstrap-tree-file-name樹(shù)的文文件?FORMAT=NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG?BRLENS=YES|NO分支的的長(zhǎng)度度?*REPLACE=YES|NO?CUTOFFPCT=integer-value定義顯顯示的的最低低bootstrap分割頻頻率。。Examplebootstrapnreps=200treefile=boot.tresearch=heuristic/addseq=random;分析…(樹(shù)評(píng)評(píng)估三三)PAUP*中的bootstrap命令對(duì)折分分析((jackknife)跟bootstrap類(lèi)似,,只是是在對(duì)對(duì)原始始數(shù)據(jù)據(jù)取樣樣的時(shí)時(shí)候不不會(huì)取取重復(fù)復(fù)的數(shù)數(shù)據(jù)位位點(diǎn)。。因?yàn)闉樗刂貜?fù)取取樣的的時(shí)候候是在在原始始數(shù)據(jù)據(jù)中除除去一一個(gè)或或者多多個(gè)比比對(duì)位位點(diǎn)。。對(duì)折分分析得得出的的結(jié)果果和bootstrap是一樣樣的。。命令和和參數(shù)數(shù)都類(lèi)類(lèi)似,,用的的比bootstrap少很多多。分析…(樹(shù)評(píng)評(píng)估四四)JACKKNIFE[options][/heuristic-search-options|branchand-bound-search-options];對(duì)折分分析?PCTDELETE=real-value每個(gè)個(gè)對(duì)對(duì)折折分分析析循循環(huán)環(huán)中中刪刪除除的的dataset百分分?jǐn)?shù)數(shù)?JSEED=integer-value隨機(jī)機(jī)數(shù)數(shù)種種子子?NREPS=integer-value對(duì)折折循循環(huán)環(huán)次次數(shù)數(shù)?SEARCH=HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA樹(shù)的的搜搜索索方方法法((NJ和UPGMA僅在在最最優(yōu)優(yōu)規(guī)規(guī)則為為distance時(shí)才才可可用用))?RESAMPLE=NORMAL|JAC?CONLEVEL=integer-valueboostrap中出出現(xiàn)現(xiàn)的的最最小小比比例例((最最為為保保留留group),,默默認(rèn)認(rèn)為為50,即即50%?KEEPALL=YES|NO低于于conlevel的樹(shù)樹(shù),,若若與與一一致致樹(shù)樹(shù)兼兼容容,,也也保保留留?WTS=IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL?GRPFREQ=YES|NO顯示示對(duì)對(duì)折折分分區(qū)區(qū)頻頻率率?TREEFILE=tree-file-name?FORMAT=NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG?*REPLACE=YES|NO?CUTOFFPCT=integer-value對(duì)折折頻頻率率表表中中顯顯示示的的最最小小頻頻率率。。ExampleJACKKNIFEnre

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論