五序列的同源比較及分子系統(tǒng)學(xué)和分子進(jìn)化分析PPT課件_第1頁
五序列的同源比較及分子系統(tǒng)學(xué)和分子進(jìn)化分析PPT課件_第2頁
五序列的同源比較及分子系統(tǒng)學(xué)和分子進(jìn)化分析PPT課件_第3頁
五序列的同源比較及分子系統(tǒng)學(xué)和分子進(jìn)化分析PPT課件_第4頁
五序列的同源比較及分子系統(tǒng)學(xué)和分子進(jìn)化分析PPT課件_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

20 04 2020 1 第五章 序列的同源比較及分子系統(tǒng)學(xué)和分子進(jìn)化分析 第一節(jié) 簡(jiǎn)介第二節(jié) 相似序列的獲得第三節(jié) 多序列比對(duì)第四節(jié) 系統(tǒng)發(fā)育分析第五節(jié) 其他分子標(biāo)記在生物系統(tǒng)學(xué)中的應(yīng)用 20 04 2020 2 第一節(jié) 簡(jiǎn)介 生物學(xué)研究中常用的方法之一是通過比較分析獲得有用的信息 過去進(jìn)化學(xué)家和分類學(xué)家為衡量物種間親緣關(guān)系的密切程度 花大量的精力把形態(tài)學(xué)特征數(shù)量化 希望以量化的形態(tài)學(xué)差異來表示物種間進(jìn)化距離 但工作量大 標(biāo)準(zhǔn)不統(tǒng)一 導(dǎo)致進(jìn)展緩慢 現(xiàn)如今 以大量公開的核酸和蛋白質(zhì)數(shù)據(jù)為基礎(chǔ) 利用序列分析的計(jì)算機(jī)軟件構(gòu)建生物進(jìn)化樹來研究各物種間的進(jìn)化關(guān)系 20 04 2020 3 在本章里研究進(jìn)化關(guān)系所用的軟件 我們?cè)趹?yīng)用這些軟件時(shí)會(huì)遇到很多專業(yè)術(shù)語和應(yīng)用的計(jì)算機(jī)程序 這些陌生的術(shù)語對(duì)于初學(xué)者的我們沒必要搞清 只要會(huì)用就可以了 但要做出非常專業(yè)的進(jìn)化分析則必須搞清每個(gè)專業(yè)術(shù)語的含義 構(gòu)建系統(tǒng)樹有很多的方法和步驟 我們會(huì)逐步學(xué)習(xí) 但不管采用什么樣的方法 都有一些值得注意的問題 20 04 2020 4 第二節(jié) 相似序列的獲得 對(duì)一段序列進(jìn)行進(jìn)化分析的基礎(chǔ)是獲得此序列大量的同源序列 包括同一物種和不同物種之間 當(dāng)序列有足夠的相似性性 我們才能推斷序列之間是否具有同源性 同源性的判斷是質(zhì)的判斷 進(jìn)化分析是量的結(jié)果 兩者之間如何進(jìn)行統(tǒng)一 就是要有假設(shè) 當(dāng)序列之間相似性超過一個(gè)值時(shí) 認(rèn)為其是同源的 序列相似的原因有兩個(gè) 一是來自于同一祖先 然后發(fā)生分歧 二是兩個(gè)序列來自于不同的祖先 在相似的選擇壓力下發(fā)生趨同進(jìn)化 形成相似序列 20 04 2020 5 三 VASTVAST是NCBI的相似結(jié)構(gòu)搜索工具 它將一個(gè)新的蛋白質(zhì)三維結(jié)構(gòu)與PDB或MMDB數(shù)據(jù)庫中的結(jié)構(gòu)進(jìn)行比較 通過結(jié)構(gòu)比較 可以發(fā)現(xiàn)通過序列比較而無法發(fā)現(xiàn)的遠(yuǎn)程同源蛋白質(zhì) VAST算法是基于統(tǒng)計(jì)以下的結(jié)構(gòu)相似性比較算法 VAST在評(píng)價(jià)結(jié)構(gòu)相似顯著性時(shí) 不過多的考慮微小子結(jié)構(gòu)因偶然因素而形成的相似關(guān)系 而是著重考慮結(jié)構(gòu)域的相似性 http www ncbi nlm nih gov structure VAST 20 04 2020 6 VAST的比較有三個(gè)步驟 首先 在數(shù)據(jù)坐標(biāo)的基礎(chǔ)上 標(biāo)出所有構(gòu)成蛋白質(zhì)核心部分的 螺旋和 片層 然后根據(jù)這些二級(jí)結(jié)構(gòu)單位的位置計(jì)算向量 使用這些向量進(jìn)行結(jié)構(gòu)比對(duì)而不是整個(gè)一套坐標(biāo) 然后算法試圖最佳地匹配這些向量 尋找類型和相對(duì)方向相同的成對(duì)結(jié)構(gòu)單位 并且在這些單位之間還要有同樣的連接方式 最后 在每個(gè)殘基位置上使用蒙特卡洛方法對(duì)結(jié)構(gòu)的比對(duì)進(jìn)行優(yōu)化 1LFL 20 04 2020 7 第三節(jié) 多序列比對(duì) 用于多序列比對(duì)的程序開發(fā)是一個(gè)很活躍的領(lǐng)域 目前 絕大多數(shù)的方法均是基于漸進(jìn)比對(duì)的概念 漸進(jìn)比對(duì)的方法假設(shè)了參與比對(duì)的序列存在親緣關(guān)系 在算法上下功夫 以尋求計(jì)算速度與獲得最佳比對(duì)之間的平衡 一 CLUSTAL W 20 04 2020 8 CLUSTAL是一個(gè)單機(jī)版的基于漸進(jìn)比對(duì)的多序列比對(duì)工具 由HigginsD G 等開發(fā) 有應(yīng)用于多種操作系統(tǒng)平臺(tái)的版本 包括linux版 DOS版的clustlw clustalx等 CLUSTAL是一種漸進(jìn)的比對(duì)方法 先將多個(gè)序列兩兩比對(duì)構(gòu)建距離矩陣 反應(yīng)序列之間兩兩關(guān)系 然后根據(jù)距離矩陣計(jì)算產(chǎn)生系統(tǒng)進(jìn)化指導(dǎo)樹 對(duì)關(guān)系密切的序列進(jìn)行加權(quán) 然后從最緊密的兩條序列開始 逐步引入臨近的序列并不斷重新構(gòu)建比對(duì) 直到所有序列都被加入為止 20 04 2020 9 CLUSTAL W工作原理 Clustal輸入多個(gè)序列 快速的序列兩兩比對(duì) 計(jì)算序列間的距離 獲得一個(gè)距離矩陣 鄰接法 NJ 構(gòu)建一個(gè)樹 引導(dǎo)樹 根據(jù)引導(dǎo)樹 漸進(jìn)比對(duì)多個(gè)序列 20 04 2020 10 CLUSTAL W應(yīng)用 1 輸入輸出格式 輸入序列的格式比較靈活 可以是前面介紹過的FASTA格式 還可以是PIR SWISS PROT GDE Clustal GCG MSF RSF等格式 輸出格式也可以選擇 有ALN GCG PHYLIP和NEXUS等 用戶可以根據(jù)自己的需要選擇合適的輸出格式 20 04 2020 11 2 兩種工作模式 a 多序列比對(duì)模式 b 剖面 profile 比對(duì)模式 3 一個(gè)實(shí)際的例子 CLUSTAL W的應(yīng)用 20 04 2020 12 多序列比對(duì)實(shí)例步驟 輸入文件的格式 fasta KCC2 YEASTNYIFGRTLGAGSFGVVRQARKLSTN DMK HUMANDFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK KPRO MAIZETRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN DAF1 CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD 1CSNHYKVGRRIGEGSFGVIFEGTNLLNN 20 04 2020 13 第一步 輸入序列文件 20 04 2020 14 第二步 設(shè)定比對(duì)的一些參數(shù) 20 04 2020 15 第三步 開始序列比對(duì) 第三步 開始序列比對(duì) 20 04 2020 16 第四步 比對(duì)完成 選擇保存結(jié)果文件的格式 第四步 比對(duì)完成 選擇保存結(jié)果文件的格式 20 04 2020 17 二 BioEditBioEdit程序非常適合序列比對(duì) 編輯和分析 是基于Windows平臺(tái)的一種比對(duì)程序 目前應(yīng)用最多 可免費(fèi)下載 BioEdit具體用法見三 MultAlinMultAlin從一系列的兩聯(lián)比對(duì)開始 得到分值 然后根據(jù)這個(gè)分值進(jìn)行分層次的聚類 http multalin toulouse inra fr multalin multalin html四 GCG數(shù)據(jù)庫GCG軟件是一套蛋白質(zhì) 核酸序列分析軟件 20 04 2020 18 GCG支持五種數(shù)據(jù)庫供Wisconsin軟件包使用 其中包括兩種核酸數(shù)據(jù)庫 GenBank數(shù)據(jù)庫 由GenBank中沒有的序列組成的簡(jiǎn)化版的EMBL核酸序列數(shù)據(jù)庫 和三種蛋白質(zhì)數(shù)據(jù)庫 PIR Swiss Prot SP TrEMBL數(shù)據(jù)庫 GCG支持的數(shù)據(jù)庫兩個(gè)月更新一次 20 04 2020 19 第四節(jié) 系統(tǒng)發(fā)育分析課本104頁 系統(tǒng)發(fā)育分析是根據(jù)同源性狀的分歧來評(píng)估物種或分子之間的進(jìn)化關(guān)系 這種進(jìn)化關(guān)系通常用分支圖 系統(tǒng)樹 來描述 對(duì)序列的系統(tǒng)發(fā)育分析又稱為分子系統(tǒng)學(xué)或分子系統(tǒng)發(fā)育研究 比起其他實(shí)驗(yàn)性學(xué)科 分子系統(tǒng)學(xué)與其他進(jìn)化研究一樣有其局限 即系統(tǒng)發(fā)育的發(fā)生過程都是已經(jīng)完成的歷史 不能再現(xiàn) 如何從序列中得到有用的信息 如何用計(jì)算的辦法得到可信的進(jìn)化樹 如何從有限的數(shù)據(jù)得到進(jìn)化模式已成為這個(gè)領(lǐng)域的研究熱點(diǎn) 系統(tǒng)發(fā)育樹是什么 對(duì)一組實(shí)際對(duì)象的世系關(guān)系的描述 如基因 物種等 20 04 2020 20 一個(gè)系統(tǒng)發(fā)育樹 末端 物種 頂端 中間節(jié)點(diǎn) 中間枝條 根 末端分支 葉子 節(jié)點(diǎn) 20 04 2020 21 A B C D E F G 樹只代表分支的拓?fù)浣Y(jié)構(gòu) F G C D E A B 20 04 2020 22 一般來說 系統(tǒng)樹是一種兩叉樹 由一系列節(jié)點(diǎn)和分支組成 每個(gè)節(jié)點(diǎn)代表一個(gè)分類單元 物種或序列 而節(jié)點(diǎn)之間的連線代表物種間的進(jìn)化關(guān)系 樹的節(jié)點(diǎn)又分為外部節(jié)點(diǎn)和內(nèi)部節(jié)點(diǎn) 系統(tǒng)發(fā)生樹有多種形式 可能是有根樹 rootedtree 也可能是無根樹 unrootedtree 可能是一般的樹 也可能是二叉樹 可能是有權(quán)值的樹 或標(biāo)度樹 樹中標(biāo)明分支長(zhǎng)度 也可能是無權(quán)值樹 非標(biāo)度樹 在有根樹中 有一個(gè)唯一的根節(jié)點(diǎn) 代表所有其他根節(jié)點(diǎn)的共同祖先 這樣的樹能夠反映進(jìn)化層次 從根節(jié)點(diǎn)歷經(jīng)進(jìn)化到任何其他節(jié)點(diǎn)只有唯一的路徑 20 04 2020 23 Rootedbyoutgroup archaea archaea archaea bacteriaoutgroup root eukaryote eukaryote eukaryote eukaryote 無根樹 archaea archaea archaea Monophyleticgroup 單源群 Monophyleticgroup 有根樹 無根樹 外圍群 有根樹 外圍群 20 04 2020 24 分子進(jìn)化研究的基礎(chǔ) 假設(shè) 核苷酸和氨基酸序列中含有生物進(jìn)化歷史的全部信息 分子進(jìn)化研究的基礎(chǔ) 理論 在各種不同的發(fā)育譜系及足夠大的進(jìn)化時(shí)間尺度中 許多序列的進(jìn)化速率幾乎是恒定不變的 分子鐘理論 1965 分子進(jìn)化研究的基礎(chǔ) 實(shí)際 雖然很多時(shí)候仍然存在爭(zhēng)議 但是分子進(jìn)化確實(shí)能闡述一些生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律 20 04 2020 25 從一個(gè)分歧數(shù)據(jù)可以推測(cè)其他 序列分歧度 分歧時(shí)間 x 分子鐘理論 20 04 2020 26 一 系統(tǒng)樹的構(gòu)建方法系統(tǒng)樹的構(gòu)建主要有三種方法 距離法 最簡(jiǎn)約法 最大似然法 1 距離法距離法又稱距離矩陣法 首先通過各個(gè)物種之間的比較 根據(jù)一定的假設(shè) 進(jìn)化距離模型 推導(dǎo)得出分類群之間的進(jìn)化距離 構(gòu)建一個(gè)進(jìn)化距離矩陣 進(jìn)化樹的構(gòu)建則是基于這個(gè)矩陣中的進(jìn)化距離關(guān)系 計(jì)算序列的距離 建立距離矩陣 通過距離矩陣建進(jìn)化樹 20 04 2020 27 一種簡(jiǎn)單的距離矩陣 20 04 2020 28 由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多 常見有 1 Fitch MargoliashMethod FM法 2 Neighbor JoiningMethod NJ法 鄰接法 3 NeighborsRelatonMethod 鄰居關(guān)系法 4 UnweightedPairGroupMethod UPGMA法 通過矩陣建樹的方法 20 04 2020 29 Fitch Margoliash方法 FM法 20 04 2020 30 1 找出關(guān)系最近的序列對(duì) 如A和B2 將剩余的序列作為一個(gè)簡(jiǎn)單復(fù)合序列 分別計(jì)算A B到所有其他序列的距離的平均值3 用這些值來計(jì)算A和B間的距離4 將A B作為一個(gè)單一的復(fù)合序列AB 計(jì)算與每一個(gè)其他序列的距離 生成新的距離矩陣5 確定下一對(duì)關(guān)系最近的序列 重復(fù)前面的步聚計(jì)算枝長(zhǎng)7 從每個(gè)序列對(duì)開始 重復(fù)整個(gè)過程8 對(duì)每個(gè)樹計(jì)算每對(duì)序列間的預(yù)測(cè)距離 發(fā)現(xiàn)與原始數(shù)據(jù)最符合的樹 Fitch Margoliash方法 FM法 小結(jié) 20 04 2020 31 NJ 鄰接法 任意兩個(gè)節(jié)點(diǎn)選為相鄰序列的總支長(zhǎng)計(jì)算公式 20 04 2020 32 把A B看成一個(gè)新的復(fù)合序列 構(gòu)建一個(gè)新的距離表 重復(fù)以上過程 20 04 2020 33 鄰居關(guān)系法 AB組合出現(xiàn)3次 DE組合出現(xiàn)3次 CD AC BC組合各一次 則AB和DE各為兩對(duì)關(guān)系最近的鄰居 關(guān)系最近的鄰居作為鄰居的次數(shù)最多 將鄰居看成一個(gè)新的復(fù)合序列 重復(fù)這個(gè)過程 20 04 2020 34 UPGMA法 d e 10 2 5 20 04 2020 35 c 19 2 9 5g c d 9 5 5 4 5 20 04 2020 36 a b 22 2 11 20 04 2020 37 f1 a f2 c 40 5 2 20 25f1 9 25 f2 11 75 20 04 2020 38 2 最大簡(jiǎn)約法簡(jiǎn)約法是分子系統(tǒng)學(xué)中應(yīng)用最廣的一種方法 該方法的原則是在所有可能的物種中 最能反映進(jìn)化歷史的樹具有最短的樹長(zhǎng) 即進(jìn)化步數(shù)最少 形狀在系統(tǒng)樹種改變的次數(shù) 樹長(zhǎng)是所有形狀在所有分支上發(fā)生的狀態(tài)改變的總和 20 04 2020 39 最大簡(jiǎn)約法 maximumparsimony MP 最早源于形態(tài)性狀研究 現(xiàn)在已經(jīng)推廣到分子序列的進(jìn)化分析中 最大簡(jiǎn)約法的理論基礎(chǔ)是奧卡姆 Ockham 哲學(xué)原則 這個(gè)原則認(rèn)為 解釋一個(gè)過程的最好理論是所需假設(shè)數(shù)目最少的那一個(gè) 對(duì)所有可能的拓?fù)浣Y(jié)構(gòu)進(jìn)行計(jì)算 并計(jì)算出所需替代數(shù)最小的那個(gè)拓?fù)浣Y(jié)構(gòu) 作為最優(yōu)樹 優(yōu)點(diǎn) 最大簡(jiǎn)約法不需要在處理核苷酸或者氨基酸替代的時(shí)候引入假設(shè) 替代模型 此外 最大簡(jiǎn)約法對(duì)于分析某些特殊的分子數(shù)據(jù)如插入 缺失等序列有用 20 04 2020 40 缺點(diǎn) 在分析的序列位點(diǎn)上沒有回復(fù)突變或平行突變 且被檢驗(yàn)的序列位點(diǎn)數(shù)很大的時(shí)候 最大簡(jiǎn)約法能夠推導(dǎo)獲得一個(gè)很好的進(jìn)化樹 然而在分析序列上存在較多的回復(fù)突變或平行突變 而被檢驗(yàn)的序列位點(diǎn)數(shù)又比較少的時(shí)候 最大簡(jiǎn)約法可能會(huì)給出一個(gè)不合理的或者錯(cuò)誤的進(jìn)化樹推導(dǎo)結(jié)果 20 04 2020 41 3 最大似然法用于構(gòu)建基于基因頻率的系統(tǒng)樹 這種方法是首先選定一個(gè)進(jìn)化模型 計(jì)算該模型下 各種分支樹產(chǎn)生現(xiàn)有數(shù)據(jù)的可能性 具有最大可能性的系統(tǒng)樹為最優(yōu) 一個(gè)樹的似然性等于每一個(gè)形狀的似然性之和或每一個(gè)性狀的似然性對(duì)數(shù)和 20 04 2020 42 最大似然法分析中 選取一個(gè)特定的替代模型來分析給定的一組序列數(shù)據(jù) 使得獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的似然率都為最大值 然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為最優(yōu)樹 在最大似然法的分析中 所考慮的參數(shù)并不是拓?fù)浣Y(jié)構(gòu)而是每個(gè)拓?fù)浣Y(jié)構(gòu)的枝長(zhǎng) 并對(duì)似然率球最大值來估計(jì)枝長(zhǎng) 最大似然法的建樹過程是個(gè)很費(fèi)時(shí)的過程 因?yàn)樵诜治鲞^程中有很大的計(jì)算量 每個(gè)步驟都要考慮內(nèi)部節(jié)點(diǎn)的所有可能性 最大似然法是一個(gè)比較成熟的參數(shù)估計(jì)的統(tǒng)計(jì)學(xué)方法 具有很好的統(tǒng)計(jì)學(xué)理論基礎(chǔ) 在當(dāng)樣本量很大的時(shí)候 似然法可以獲得參數(shù)統(tǒng)計(jì)的最小方差 只要使用了一個(gè)合理的 正確的替代模型 最大似然法可以推導(dǎo)出一個(gè)很好的進(jìn)化樹結(jié)果 20 04 2020 43 由于最大似然法的分析過程需要耗費(fèi)較多的時(shí)間 針對(duì)這種情況 發(fā)展出了許多優(yōu)化的可以加快最大似然法尋找最優(yōu)樹的搜索方法 如啟發(fā)式搜索 分枝交換搜索等 最大似然法具有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ) 充分的使用了分析序列中的信息資源 只要采用了合理的替代模型 可以得出很好的進(jìn)化樹分析結(jié)果 20 04 2020 44 4 對(duì)三種構(gòu)建方法的評(píng)價(jià) 1 距離法是一種純數(shù)學(xué)計(jì)算過程 其算法本身就決定了最優(yōu)樹的選擇標(biāo)準(zhǔn) 2 當(dāng)DNA的進(jìn)化速率在不同分支上相差很大或親緣關(guān)系太遠(yuǎn)時(shí) 簡(jiǎn)約法低估了實(shí)際發(fā)生的堿基替換數(shù)而造成數(shù)據(jù)越多越支持錯(cuò)誤的系統(tǒng)樹 3 在計(jì)算時(shí)間上 距離法最快 最大似然法最慢 因此 當(dāng)數(shù)據(jù)矩陣過大時(shí) 距離法非常有用 4 距離法和最大似然法都可以估計(jì)枝長(zhǎng) 而簡(jiǎn)約法不能 20 04 2020 45 5 系統(tǒng)樹的統(tǒng)計(jì)分析 1 在分子系統(tǒng)學(xué)研究中 用重復(fù)取樣來檢驗(yàn)系統(tǒng)樹的可靠性 主要有兩種方法即自展法和折刀法 自展法是原有數(shù)據(jù)中的性狀進(jìn)行復(fù)置重復(fù)取樣 即隨機(jī)抽取一個(gè)性狀后 再將該性狀放回原數(shù)據(jù) 繼續(xù)隨機(jī)抽樣 直到新產(chǎn)生的一組數(shù)據(jù)大小與原有數(shù)據(jù)相同為止 20 04 2020 46 2 對(duì)整個(gè)系統(tǒng)樹的評(píng)價(jià)廣泛用于評(píng)價(jià)一個(gè)系統(tǒng)樹可靠性的指標(biāo)是一致性系數(shù) CI 和保持性指數(shù) RI Ic R LR 所有性狀的范圍的總和 即性狀可能變化的最小值L 給定系統(tǒng)樹的最小進(jìn)化步數(shù) 20 04 2020 47 二 常用的系統(tǒng)樹構(gòu)建程序1 PHYLIPPHYLIP是包含35個(gè)獨(dú)立程序的軟件包 基本上包括了系統(tǒng)發(fā)育分析的所有方面 可在很多平臺(tái)上運(yùn)行 包括windows Macintosh DOS Linux Unix和OpenVMX http evolution genetics washington edu phylip html可以免費(fèi)下載軟件及手冊(cè) PHYLIP是目前使用較為廣泛的系統(tǒng)發(fā)育程序 主要包括一下幾個(gè)程序組 分子序列組 距離矩陣組 基因頻率組 離散字符組 進(jìn)化樹繪制組 PHYLIP現(xiàn)版本為3 69 20 04 2020 48 PHYLIP軟件包分組介紹 分子序列組 1 蛋白質(zhì)序列 protpars proml promlk protdist2 核酸序列 dnapenny dnapars dnamove dnaml dnamlk dnainvar dnadist dnacomp距離矩陣組 Fitch kitsch neighbor基因頻率組 Gendist contml 20 04 2020 49 離散字符組 Pars mix move penny dollop dolmove dolpenny clique factor進(jìn)化樹繪制組 drawtree drawgram其他 restdist restml seqboot contrasttreedist consense retree 20 04 2020 50 PHYLIP軟件包的文檔是非常詳細(xì)的 對(duì)于每個(gè)獨(dú)立的程序 都有一個(gè)獨(dú)立的文檔 詳細(xì)的介紹了該程序的使用及其說明 此外 PHYLIP軟件包還包括程序的源代碼 c語言 PHYLIP軟件包的文檔 20 04 2020 51 軟件包的應(yīng)用 1 根據(jù)你的分析數(shù)據(jù) 選擇適當(dāng)?shù)某绦蛉?你分析的是DNA數(shù)據(jù) 就在核酸序列分析類中選擇程序 dnapenny dnapars dnamove dnaml dnamlk dnainvar dnadist dnacomp 如果分析的是離散數(shù)據(jù) 如突變位點(diǎn)數(shù)據(jù) 就在離散字符組里面選擇程序 2 選擇適當(dāng)?shù)姆治龇椒ㄈ缒惴治龅氖荄NA數(shù)據(jù) 可以選擇簡(jiǎn)約 DNAPARS 似然法 DNAML DNAMLK 距離法等 DNADIST 20 04 2020 52 3 進(jìn)行分析選擇好程序后 執(zhí)行 讀入分析數(shù)據(jù) 選擇適當(dāng)?shù)膮?shù) 進(jìn)行分析 結(jié)果自動(dòng)保存為outfile outtree Outfield是一個(gè)記錄文件 記錄了分析的過程和結(jié)果 可以直接用文本編輯器 如寫字板 打開 Outtree是分析結(jié)果的樹文件 可以用phylip提供的繪樹程序打開查看 也可以用其他的程序來打開 如treeview 20 04 2020 53 加入統(tǒng)計(jì)分析 我們剛剛獲得的進(jìn)化樹是純粹的根據(jù)先前獲得的排列數(shù)據(jù)所推導(dǎo)出來的 有很多可能使得這個(gè)樹并不一定可靠 1 測(cè)序的出錯(cuò) 2 多序列比對(duì)算法本身的問題 3 其他的問題 我們可以引進(jìn)一些統(tǒng)計(jì)分析來尋找更優(yōu)的進(jìn)化樹最常見的就是bootstrap分析 20 04 2020 54 分析 Phylip軟件包中有兩個(gè)用于執(zhí)行bootstrap分析的程序 seqboot exe consence exe 分析過程 1 Seqboot產(chǎn)生大量的數(shù)據(jù)組2 應(yīng)用選擇的算法對(duì)產(chǎn)生的數(shù)據(jù)組進(jìn)行分析 3 由consence獲得最優(yōu)樹 20 04 2020 55 2 PAUPPAUP是著名的系統(tǒng)發(fā)育分析商業(yè)軟件 具有簡(jiǎn)單并帶有菜單的頁面 目前 PAUP中構(gòu)建系統(tǒng)樹的方法包括MP 最簡(jiǎn)約法 如果針對(duì)核苷酸數(shù)據(jù) 還有距離法和最大似然法 現(xiàn)今有mac win linux等多種版本 該軟件不是免費(fèi)軟件 使用者需要向開發(fā)者購(gòu)買 20 04 2020 56 3 PAMLPAML是免費(fèi)軟件包 PAML能夠進(jìn)行ML模型的建立和系統(tǒng)樹的構(gòu)建與評(píng)估 4 其他程序 1 FastDNAml是一個(gè)獨(dú)立的最大似然法建樹程序 2 MACCLEADE是一個(gè)交互式的Macintosh程序 能夠?qū)ο到y(tǒng)樹和數(shù)據(jù)進(jìn)行操作 研究特性狀態(tài)下的系統(tǒng)發(fā)育行為 3 MEGAplusMETREE 4 MOLPHY是共享軟件包 可進(jìn)行ML分析及核苷酸序列或氨基酸序列的統(tǒng)計(jì) 20 04 2020 57 三 一些需要注意的問題 1 到目前為止 在進(jìn)行系統(tǒng)的發(fā)育分析中 最重要的不是進(jìn)行發(fā)育分析采用的方法 而是輸入數(shù)據(jù)的質(zhì)量 即選擇數(shù)據(jù)永遠(yuǎn)比比對(duì)過程重要 即使是最復(fù)雜的發(fā)育推斷方法都不能矯正數(shù)據(jù)的錯(cuò)誤 2 從盡可能多的角度觀察數(shù)據(jù) 可以分別從距離法 最大簡(jiǎn)約法和最大似然法分別觀察數(shù)據(jù) 然后比較其所建立的進(jìn)化樹的一致性 盡管不同的方法得到的結(jié)果一致 也不能必然意味著結(jié)果就是統(tǒng)計(jì)顯著的 因?yàn)檫_(dá)到一致性的因素很多 20 04 2020 58 3 選擇合適的外群對(duì)分析相當(dāng)重要 尤其是當(dāng)外群同一個(gè)或幾個(gè)內(nèi)在的分類群擁有一個(gè)不同尋常的屬性時(shí) 問題就會(huì)復(fù)雜化 4 序列的輸入順序不同 程序也會(huì)給出不同的系統(tǒng)樹 如建樹軟件PHYLIP和PAUP提供了一個(gè)隨機(jī)選項(xiàng) 可以按照隨機(jī)的順序輸入程序進(jìn)行運(yùn)算 20 04 2020 59 系統(tǒng)樹構(gòu)建案例分析 1 病毒基因組分析病毒受自身突變和自然選擇的影響 但病毒基因組的進(jìn)化速度遠(yuǎn)遠(yuǎn)超過其他細(xì)胞的基因組 2 運(yùn)用生物信息學(xué)方法研究SARS由一個(gè)典型的冠狀病毒結(jié)構(gòu) 按照一定的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論