生物信息軟件綜合實(shí)踐2019bioinf05mega4-部分中文手冊實(shí)例_第1頁
生物信息軟件綜合實(shí)踐2019bioinf05mega4-部分中文手冊實(shí)例_第2頁
生物信息軟件綜合實(shí)踐2019bioinf05mega4-部分中文手冊實(shí)例_第3頁
生物信息軟件綜合實(shí)踐2019bioinf05mega4-部分中文手冊實(shí)例_第4頁
生物信息軟件綜合實(shí)踐2019bioinf05mega4-部分中文手冊實(shí)例_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 張志想 王升正 周建橋 鐘增明Caas08s3MEGA 的使用產(chǎn)生背景及簡介隨著不同物種基因組測序的快速發(fā)展,產(chǎn)生了大量的 DNA 序列信息,這時就需要一種簡便而快速的統(tǒng)計(jì)分析工具來對這些數(shù)據(jù)進(jìn)行有效的分析,以提取其中包含的大量信息。MEGA 就是基于這種需求開發(fā)的。MEGA 軟件的目的就是提供一個以進(jìn)化的角度從 DNA 和蛋白序列中提取有用的信息的工具,并且,此軟件可以免費(fèi)下載使用。 現(xiàn)在我們使用的是 MEGA4 的版本。它主要集中于進(jìn)化分析獲得的綜合的序列信息。使用它我們可以編輯序列數(shù)據(jù)、序列比對、構(gòu)建系統(tǒng)發(fā)育樹、推測物種間的進(jìn)化距離等。此軟件的輸出結(jié)果資源管理器允許用戶瀏覽、編輯、打印

2、輸入所得到的結(jié)果而且所得到的結(jié)果具有不同形式的可視化效果。此外,該軟件還能夠得出不同序列間的距離矩陣,這是他不同與其他分析軟件的地方。在計(jì)算矩陣 方面有一些自己的特點(diǎn): .推測序列或者物種間的進(jìn)化距離 根據(jù)MCL(Maximum Composite Likeliood method)的方法構(gòu)建系統(tǒng)發(fā)育樹考慮到了不同堿基替換的不同的比率,考慮到了堿基轉(zhuǎn)換和顛換的差別。隨時可以使用標(biāo)注:所以的結(jié)果輸入都可以使用標(biāo)注,而且標(biāo)注的內(nèi)容可以被保存,復(fù)制。 具體使用我們以分析 20 個物種的血紅蛋白為例來具體說明此軟件的具體使用情況。一啟動程序 1.2.運(yùn)行環(huán)境:在 Windows 95/9

3、8, NT, ME, 2000, XP, vista 等操作系統(tǒng)下均可使用。下載安裝:可以直接登陸 進(jìn)行下載安裝,另外還可以 從 /tools/phylogeny.php 中的鏈接進(jìn)去。 3.雙擊桌面快捷方式圖標(biāo),動。 進(jìn)入主界面;或者從開始菜單,單擊圖標(biāo)啟 二序列分析。1.啟動 張志想王升正周建橋鐘增明Caas08s3單擊后,會出現(xiàn)如下界面:這里有三個選項(xiàng),分別對應(yīng)三種不同的情況:以下分別予以介紹: Create a new alignment :是在你沒有任何比對的時候使用,比如你只有一個 fasta

4、 格式的序列就可以選擇這個選項(xiàng)。 Open a saved alignment session:使用它可以打開一個我們已經(jīng)比對好的序列文件; Retieve a sequence from a file :這種情況同第一種情況相似,只是不用選擇是 DNA 還是蛋白質(zhì)序列比對,選擇的也是 fasta 格式的文件,打開后的界面都是一樣的。 以第一種情況為例說明。 點(diǎn)擊如出現(xiàn)下界面: 張志想 王升正 周建橋鐘增明Caas08s3這里我們分析的是蛋白序列所以選擇 No。點(diǎn)擊出現(xiàn)如下界面:然后從 data 菜單選擇輸入數(shù)據(jù)文件如圖:選擇你保存的 fasta 格式序列后就會出現(xiàn): 張志想王升正周建橋鐘增明

5、Caas08s3下面介紹菜單的使用: Data: Creat a new :創(chuàng)建一個新的數(shù)據(jù)比對文件,也就是說當(dāng)我們比對完一組后, 想接著比對另一組,那么使用它就可以不用退出直接把數(shù)據(jù)文件導(dǎo)入; Open:打開先前已經(jīng)比對并保存好的文件,它包含兩個子菜單:retive sequence from file 和 saved aligment session ; Close: 關(guān)閉當(dāng)前的比對數(shù)據(jù)文件; Save session:保存當(dāng)前比對結(jié)果,可以給比對的結(jié)果一個文件名; Export alignment:將當(dāng)前的序列比對結(jié)果輸出到指定文件,有兩種輸入格式可供選擇:MGTA 和 FASTA.DN

6、A sequence:使用它來選擇輸入的數(shù)據(jù) DNA 序列,這里需要說明的是如果你輸入的數(shù)據(jù)是氨基酸序列的話,比對窗口只顯示一個標(biāo)簽,若是 DNA 序列的話則顯示兩個標(biāo)簽,一個是 DNA 序列的,另一個是氨基酸序列的。如圖: 張志想王升正周建橋鐘增明Caas08s3Protein sequences:選擇輸入的氨基酸序列,選擇后,所以的位點(diǎn)就被當(dāng)作氨基酸殘基位點(diǎn)來對待。 Translate/untranslate:只有比對的序列是編碼蛋白的DNA 序列的時候才可用。它可以根據(jù)指定的遺傳表將 DNA 序列翻譯成特定的氨基酸序列。 Select genetic code table:使用它將編碼蛋

7、白的 DNA 翻譯成特定的蛋白序列。Reverse complement:將選擇的一整行的 DNA 序列變?yōu)榕c之互補(bǔ)配對堿基序列。 Exit alignment explorer:退出序列比對的資源管理窗口。 Edit 菜單: 使用這個菜單可以對我們的比對序列進(jìn)行想要的一些編輯工作具體為Undo:撤銷上一步操作; Copy:復(fù)制;cut:剪切;Paste:粘貼;前面三個操作都可以只針對一個堿 基或氨基酸殘基也可以是一段甚至是整個序列; Delete:從比對表格中刪除一段序列; Delete gaps:去掉序列中的空缺; Insert blank sequence:重新插入一空行;標(biāo)簽和序列都是

8、空的; Insert sequence from file:從已保存的文件中插入新的序列; 張志想 王升正 周建橋 鐘增明Caas08s3Select sites:選擇一列序列,與點(diǎn)擊比對表上方的灰白空格作用類似; Select sequence:選擇一行序列,與點(diǎn)擊比對表格左側(cè)的標(biāo)簽名作用類似; Select all:全選; Allow base editing:只讀保護(hù),只有選擇后才能對序列進(jìn)行編輯操作,否則 所以的序列為只讀格式,不能進(jìn)行任何編輯操作。 Search 菜單: 用來快捷查找序列中的標(biāo)記未定或者目的堿基或殘基。Find motif:選擇后出現(xiàn)如下對話框: 輸入你想要查看的一小

9、段序列。找到后會以黃色標(biāo)出;Find next:在序列的下游查找目的序列片段; Find preious:在序列的上有查找目的序列片段; Find marked sites:查找標(biāo)記位點(diǎn); Highlight motif:突出標(biāo)記已經(jīng)選擇的位點(diǎn)。 Web 菜單 這個菜單提供一個鏈接 Genbank 的入口,可以在網(wǎng)上直接做 Blast 搜索。當(dāng)手上沒有準(zhǔn)備好要比對的序列時,可以直接去網(wǎng)上搜索。 Query gene banks:開啟 NCBI 的主頁; Do blast search:開啟 NCBI BLAST 主頁; Show browser:開啟網(wǎng)頁瀏覽器。 Sequencer 菜單 此菜

10、單下只有一個子菜單:edit sequencer file,用來打開一個打開文件對話框,此對話框可以打開一個 sequencer data file,一旦打開,這個文件就在 trace data file viewer/editor 的對話框中展示出來。這個編輯窗口允許你查看和編輯 automatd DNA sequencer 產(chǎn)生的 trace data。它可以閱讀和編輯 ABI 和 Staden 格式文件并 且序列可以直接被導(dǎo)入到序列比對窗口或被上傳到網(wǎng)頁瀏覽器做 blast 搜索。 張志想 王升正 周建橋 鐘增明Caas08s3Display 菜單: 這個菜單相對簡單,主要用來調(diào)整工具欄

11、。 Toolbars:工具欄菜單,它包含一些子菜單,選擇后就會出現(xiàn)在比對的窗口中; Use colors:將不同的位點(diǎn)以不同的顏色顯示; Background color:選擇后位點(diǎn)的顯示與位點(diǎn)一樣的背景顏色; Font:字體對話框,通過選擇來調(diào)整窗口中的序列字符的大小。 最后,結(jié)合實(shí)例來介紹 alignment 菜單 Mark/unmark site:在比對的表格中標(biāo)記或者不標(biāo)記一個單一位點(diǎn),一次每條序列只能被標(biāo)記一個位點(diǎn),不同序列間的位點(diǎn)你可以選擇同一列的,也可以是錯開的,要根據(jù)自己的目的進(jìn)行選擇。選擇標(biāo)記后的序列可以使用 align marked sites 進(jìn)行比對分析。 Align

12、marked sites:比對標(biāo)記的序列,在這里如果在兩個或多個序列間標(biāo)記了不在一列的位點(diǎn)重新比對后會出現(xiàn)空格。如圖: Unmarked all sites:把所以標(biāo)記的位點(diǎn)去標(biāo)記; Delete gap-only site:去掉序同是空格的一列;這在多序列比對前很有用。 張志想 王升正 周建橋 鐘增明Caas08s3Auto-fill gaps:使用空格補(bǔ)齊不同長度的序列。 Align by clustalw:此軟件整合了 clustalw 程序,這也是它的方便之處,選擇要比對的序列后點(diǎn)擊會出現(xiàn)下面的對話框: 一般參數(shù): DNA/protein weight matrix:選擇不同的加權(quán)矩陣

13、; Residue-specific penalties:特殊氨基酸罰分。在序列比對的過程中特異氨基酸可能增加或減少罰分值,比如:富含甘氨酸的區(qū)段比富含纈氨酸的區(qū)段更可能有空格出現(xiàn),因而他們的罰分不同。 Hydrophilic penalties:如果有連續(xù)的 5 個或者更多的親水性氨基酸的話,他們傾向于出現(xiàn)空格,這些區(qū)段很可能出現(xiàn)環(huán)狀或卷曲,因此罰分不一樣。 Gap separation distance:參數(shù)設(shè)置來盡可能降低空格之間離的太近的機(jī)會, 小于指定數(shù)值的空格罰分要多余其他的,這不能避免出現(xiàn)相鄰空格,只能降低他們出現(xiàn)的頻率。 Use negative matrix:使用負(fù)性矩陣,

14、Delay divergent cutoff:若一條序列相似性低于設(shè)定的百分值將推遲比對。 當(dāng)一切參數(shù)都設(shè)定好了之后就點(diǎn)擊 OK 就可以進(jìn)行比對了,中間出現(xiàn)一個過這是一個序列比對參數(shù)設(shè)置對話框,需要注意的是:這個軟件不會考慮到核酸序列中的編碼位點(diǎn),所以在比對的過程中可能會在編碼區(qū)中插入空格,所以如果分析 cDNA 或者編碼序列建議將他們翻譯成蛋白序列后在比對。 一對序列比對和多序列比對下的設(shè)置都是一樣的如下: Gap opening penalty:空格罰分設(shè)置,增加一個空格就罰相應(yīng)的分值,增加這一分值會降低空格出現(xiàn)的頻率。 Gap extension penalty:空格擴(kuò)展罰分,就是根據(jù)空

15、格的長度來罰分,增加這一分值會使空格變短,末端空格不計(jì)入罰分。 張志想王升正周建橋鐘增明Caas08s3度對話框,等一下就出現(xiàn)如下界面:注意:以上介紹的許多操作菜單在窗口的上放有快捷操作按鈕。如上圖標(biāo)記內(nèi)。 比對結(jié)束后,可以將結(jié)果保存(data/save session/),以供構(gòu)建系統(tǒng)發(fā)育樹使 用。另外,如果不保存直接關(guān)閉,系統(tǒng)跳出一個對話框: 下面這個是序列數(shù)據(jù)管理的管理界面,此外我們還可以通過主界面上的 data/open data 路徑打開,效果是一樣的,注意這里打開的只能是剛才保存的后綴是.MEG 的文件。 根據(jù)提示選擇是否將當(dāng)前的分析結(jié)果保存到文件中,這里我們選擇是。然后會跳出一個

16、對話框提示你輸入數(shù)據(jù)的名稱,輸入后點(diǎn)擊 OK 即可跳一對話框提示你是否在 MEGA 中打開剛才保存的 文 件 , 選 擇 是 出 現(xiàn) 下 面 界 張志想王升正周建橋鐘增明Caas08s3當(dāng)這個序列數(shù)據(jù)界面出來后,注意軟件的主界面發(fā)生了一定的變化,多出了 幾個功能菜單: 下面就著重介紹一下序列數(shù)據(jù)窗口的一些具體使用: 這個窗口用來展示比對后的序列數(shù)據(jù),這里提供了許多的功能菜單用來查看序列比對后的數(shù)據(jù)統(tǒng)計(jì)結(jié)果或者來選擇想要的子序列。 Data 菜單 張志想 王升正 周建橋 鐘增明Caas08s3Write data to file:導(dǎo)入序列打開窗口; Translate/untranslate:將

17、蛋白編碼序列翻譯成蛋白序列,或者再轉(zhuǎn)變成核酸序列; Selected genetic code table:打開 select genetic code 對話框,從這個對話框可以選擇編輯或者添加遺傳表; Setup/select genes and domains:打開 sequence data organizer 對話框,在這個對話框里可以定義和編輯基因和結(jié)構(gòu)域。 使用這個窗口可以查看,定義,和選擇結(jié)構(gòu)域和基因,并且標(biāo)記單個的位點(diǎn)。具體使用這里不作詳細(xì)介紹。 Setup/select taxa and groups:打開一個可以編輯分類和定義分類組的對話框: 張志想王升正周建橋鐘增明Caa

18、s08s3這個窗口分為兩個子窗口,左邊的是分類組,顯示不同的分組情況,右邊的是未分組窗口顯示還沒有歸入任何一個組群的分類。中間和下邊是一些操作鍵, 通過他們我們可以建立新的組,如果你將所以的分類都?xì)w入到不同的組里,并且給予組名,你們在序列數(shù)據(jù)窗口中就會在物種名字后邊顯示他所屬的組名。 Quite data viewer:退出界面。 Display 菜單: Show only selected sequence:只顯示你所選擇的感興趣的序列; Use identical symbol:將一列中絕大部分相同等堿基或氨基酸字符用點(diǎn)來代替; Color cells:將序列中連續(xù)的一致的堿基或者氨基酸給

19、以相同的顏色背景以區(qū)別顯示; Sort sequences:將顯示的分類以不同的方式排序,可以根據(jù)序列名字、組名來排序; Restore input order:將經(jīng)過修改的序列順序回復(fù)到剛打開時的樣子; Show sequencename:顯示序列的名字,不選則隱藏; Grouped:顯示組名; Change font:更改顯示的字體格式。 張志想 王升正 周建橋 鐘增明Caas08s3Highlight 菜單 這里的子菜單大部分都顯示在工具欄里,如圖所示:Statistics 菜單 Nucleotide composition:當(dāng)序列為核酸時可用。計(jì)算每條序列中的不同的堿基百分比; Nuc

20、leotide pair frenquencies:只有當(dāng)序列為核酸時可用。 Codon usage:只有序列為編碼蛋白的核酸序列時可用。計(jì)算出 codon usage的百分比和 RSCU(relative synonymous codon usage)值; Amino acid composition:當(dāng)序列為氨基酸序列或編碼蛋白的核酸序列時可用。計(jì)算每條序列氨基酸殘基的百分比;并且跳出一個顯示窗口,在這個窗口中可以進(jìn)行許多操作: 可以得到的這一數(shù)據(jù)保存到文件中;還可以打印出來;還以直接分析統(tǒng)計(jì)所 得到的結(jié)果,查看每一行等。具體大家可以自己摸索; 分別是高亮度顯示保守序列、可變序列、比對信息

21、序列、和一列中至少有兩個不同字符的列等。 張志想 王升正 周建橋 鐘增明Caas08s3Use all selected sites:保證上面的分析統(tǒng)計(jì)是在選擇所有的序列下進(jìn)行的, 不考慮被標(biāo)記的位點(diǎn)。 三從以上大家應(yīng)該可以粗略的了解到這個軟件的強(qiáng)大而又方便的序列比對分 析的功能。下面再簡要介紹主頁面上的幾個菜單的使用。 Distances 菜單: 相關(guān)原理:兩條序列間的進(jìn)化距離是通過計(jì)算兩條序列間堿基或氨基酸替換得來的,推測進(jìn)化距離是研究分子進(jìn)化、構(gòu)建系統(tǒng)發(fā)育樹和推測物種分化時間的基礎(chǔ),這個軟件中包括了絕大部分廣泛使用的推測進(jìn)化距離的方法。值得提出的是, 該軟件還使用解析公式和 bootst

22、rap 的方法來評價(jià)出現(xiàn)的錯誤。 該軟件所包括的方法大致可被分為三類:核酸;同義非同義替換;氨基酸。 1)核酸:序列是核酸和核酸之間的比較,計(jì)算編碼蛋白和非編碼蛋白的核酸序列間的進(jìn)化距離,主要有兩種方法: No. of differences 和 p-distance 還包括許多的模型:Jukes-Cantor Model 、Tajima-Nei Model、Kimura 2-Parameter Model、Tamura 3-Parameter Model、Tamura-Nei Model、Maximum Composite Likelihood Model 等,可以根據(jù)需要進(jìn)行不同的選擇。

23、同義-非同義替換:序列是編碼子和編碼子之間的比較,所以只能用來計(jì)算編碼蛋白的序列。常用的模型有: Nei-Gojobori Method 、 Modified Nei-Gojobori Method 、 Li-Wu-Luo Method 、 Pamilo-Bianchi-Li Method、Kumar Method 等。 氨基酸類:序列間是氨基酸殘基之間的比較。能夠用來計(jì)算氨基酸序列間以及編碼蛋白的核酸間的距離,編碼蛋白的核酸在比對的時候自動被翻譯成氨基酸序列進(jìn)行比較。常用的模型有:Poisson Model、Equal Input Model、 Dayhoff and JTT Models。

24、 2)3)Choose model:選擇模型,選擇跳出一個距離模型的選項(xiàng)窗口: 張志想 王升正 周建橋 鐘增明Caas08s3在這個窗口里,model 選項(xiàng)是選擇推測進(jìn)化距離的隨機(jī)模型的,可以通過單擊綠色小方框進(jìn)行選擇。Pattern among lineages:只有當(dāng)距離模型選定后才可用; rates among sites:允許位點(diǎn)間存在不同的替換率。選好后單擊 OK 即可。 Compute pairwise:單擊出現(xiàn)上面類似的對話框: Compute:選擇是只計(jì)算進(jìn)化距離還是選擇計(jì)算同時進(jìn)行評價(jià)。選擇后者會出現(xiàn) standard error computation by 選項(xiàng), 通過這

25、一選項(xiàng)選擇解析公式或者bootstrap method 來評價(jià)結(jié)果的好壞。Gaps and missing data:在計(jì)算開始前選擇去除所有包含比對空格和失意的位點(diǎn);另外,最初你也可以保留這些位點(diǎn),在必要的時候在去掉。Labled sites:只有當(dāng)一些或者全部位點(diǎn)有相關(guān)標(biāo)簽時才可用。點(diǎn)擊綠色方框,就可以看到包括選擇標(biāo)簽的位點(diǎn),如果你選擇這些位點(diǎn)的話,這 些位點(diǎn)就最先從數(shù)據(jù)中提出來。 選好后 compute 出現(xiàn)以下窗口: 張志想王升正周建橋鐘增明Caas08s3這是一個比對后的距離矩陣窗口,這個窗口包括很多不同的功能菜單,來調(diào)節(jié)顯示的內(nèi)容。File 菜單中有一個子菜單是 Show Anal

26、ysis Description:顯示計(jì)算 所用的不同的選項(xiàng),這些信息可以被保存或者打印出來。 Average Menu:這里面有個子菜單 Overall 單擊會顯示比對的總體平均距離。Distance 菜單中其他的子菜單操作同上類似只是內(nèi)容略有不同,具體可自行摸索。 張志想 王升正 周建橋 鐘增明Caas08s3PhylogenyPhylogeny 選項(xiàng)中有以下子菜單:其中 Construct Phylogeny 和 Bootstrap Test of Phylogeny 基本一致,其中后者給出了在計(jì)算過 程中的出現(xiàn)的概率。 下面用以下 21 條血紅蛋白序列來對各種方法做一個簡單的介紹。AC

27、ID中文名蒼鷹P08850 P07417 P18969 P18970 P84216 P02020 P01999 P18972 P69905 P63108 P21768 P18975 P63109 P63110 P69906 P09420 P11750 P07428 P02010 P14389P14390ACCGE AEGMO AILFU AILME BATEA LEPPA ALLMI CALAR HUMAN MACMU MACSI PANLE PANON PANPO PANPA SPECI SPEPA XENTR VIPAS PTEALPTEPO黑小熊貓大熊貓鰩魚南美肺魚美洲鱷銀絹絨猴人獼猴斯

28、里蘭卡猴獅美洲虎遠(yuǎn)東豹倭黑猩猩長尾黃鼠北極黃鼠非洲爪蟾蝰蛇黑妖狐蝠灰頭狐蝠 張志想 王升正 周建橋 鐘增明Caas08s3最大簡約法 Maximum Parsimony,使用的運(yùn)算法則是 branch-and bound 的檢索方法。得到的是無根樹。這種方法在序列非常相似以及序列數(shù)目較小的情形下較適用(構(gòu)建 21 條序列的進(jìn)化樹時,在幾種方法中花費(fèi)的時間最長)。 在實(shí)際運(yùn)行得到拓?fù)鋱D之后,上面有兩個選項(xiàng),點(diǎn)擊 Original tree,可以選擇查看計(jì)算所得到的所有結(jié)構(gòu)樹。 點(diǎn)擊 Bootstrap consensus tree 得到我們所需要的結(jié)果點(diǎn)擊,則可以指定樹根。點(diǎn)擊和,可以調(diào)整樹枝的位置。點(diǎn)擊按鈕,得到的是給出了相對遺傳距離的進(jìn)化樹 張志想王升正周建橋鐘增明Caas08s3點(diǎn)擊按鈕,得到結(jié)構(gòu)樹標(biāo)出了整

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論