版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基因組數(shù)據(jù)注釋和功能分析 通過序列比對工具BLAST學(xué)習(xí),了解蛋白編碼基因的功能注釋原理介紹多序列聯(lián)配工具ClustalX分子進(jìn)化分析軟件MEGA4的基本知識,掌握系統(tǒng)發(fā)生樹繪制的基本方法序列比對的進(jìn)化基礎(chǔ)序列比對的目的:從核酸以及氨基酸的層次去分析序列的相同點(diǎn)和不同點(diǎn),以推測他們的結(jié)構(gòu)、功能以及進(jìn)化上的聯(lián)系通過判斷兩個序列之間的相似性來判定兩者是否具有同源性相似性:直接的數(shù)量關(guān)系,如:序列之間相似部分的百分比同源性:質(zhì)的判斷,兩個基因在進(jìn)化上是否曾有共同祖先的推斷BLAST基本局部比對搜索工具 (Basic Local Alignment Search Tool)NCBI 上 BLAST 服
2、務(wù)的網(wǎng)址:/blast/NCBI 的 BLAST 程序及數(shù)據(jù)庫下載網(wǎng)址: ftp:/blast選擇物種選擇blast程序Query SequenceAmino acid SequenceDNA SequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslated程序名搜索序列數(shù)據(jù)庫內(nèi)容備注blastpProteinProtein比較氨基酸序列與蛋白質(zhì)數(shù)據(jù)庫使用取代矩陣尋找較遠(yuǎn)的
3、關(guān)系,進(jìn)行SEG過濾blastnNucleotideNucleotide比較核酸序列與核酸數(shù)據(jù)庫尋找較高分值的匹配,對較遠(yuǎn)的關(guān)系不太適用blastxNucleotideProtein比較核酸序列理論上的六框架的所有轉(zhuǎn)換結(jié)果和蛋白質(zhì)數(shù)據(jù)庫用于新的DNA序列和ESTs的分析,可轉(zhuǎn)譯搜索序列tblastnProteinNucleotide比較蛋白質(zhì)序列和核酸序列數(shù)據(jù)庫,動態(tài)轉(zhuǎn)換為六框架結(jié)果用于尋找數(shù)據(jù)庫中沒有標(biāo)注的編碼區(qū),可轉(zhuǎn)譯數(shù)據(jù)庫序列tblastxNucleotideNucleotide比較核酸序列和核酸序列數(shù)據(jù)庫,經(jīng)過兩次動態(tài)轉(zhuǎn)換為六框架結(jié)果轉(zhuǎn)譯搜索序列與數(shù)據(jù)庫序列與核酸相關(guān)的數(shù)據(jù)庫與蛋白質(zhì)相
4、關(guān)的數(shù)據(jù)庫選擇數(shù)據(jù)庫序列或目標(biāo)序列的GI號以文件格式上傳配對與錯配空位罰分PSI-BLAST:位點(diǎn)特異迭代 打分矩陣:PAM 30PAM 70BLOSUM80BLOSUM62BLOSUM45選擇打分矩陣(scoring matrix)The PAM family Based on global alignments The PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM
5、1.The BLOSUM family Based on local alignments. BLOSUM 62 is a matrix calculated from comparisons of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alignments; they are not extrapolated from comparisons of closely related proteins. 進(jìn)行比對的數(shù)據(jù)庫圖形化結(jié)果The Expect value
6、(E) is a parameter that describes the number of hits one can expect to see just by chance when searching a database of a particular size.上機(jī)實(shí)習(xí)1:網(wǎng)上運(yùn)行blastx和blastn(NCBI blast網(wǎng)址:http:/BLAST/)lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGC
7、CACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTC
8、CAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACAC
9、TCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGG
10、GTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC對contig34進(jìn)行網(wǎng)上blastn(演示),blastx(自行操作)比對本地運(yùn)行BLAST下載 (http:/blast/download.shtml )安裝(安裝到C:)數(shù)據(jù)庫的格式化(formatdb)程序運(yùn)行 (blastall) 雙擊安裝到D盤產(chǎn)生三個文件夾bindatadoc將 db,in復(fù)制到Blast/bin文件夾下bin含可執(zhí)行程序(將數(shù)據(jù)庫及需要比對操作的數(shù)據(jù)放
11、入該文件);data文件夾含打分矩陣及演示例子的序列數(shù)據(jù)信息;doc文件夾含關(guān)于各子程序的說明文檔。 數(shù)據(jù)庫的格式化formatdb命令用于數(shù)據(jù)庫的格式化: formatdb option1option2option3 formatdb常用參數(shù) -i database_name 需要格式化的數(shù)據(jù)庫名稱 -p TF 待格式化數(shù)據(jù)庫的序列類型 (核苷酸選F;蛋白質(zhì)選T;默認(rèn)值為T) 例:formatdb -i db -p T 對蛋白質(zhì)數(shù)據(jù)庫“db”進(jìn)行格式化 程序運(yùn)行blastall命令用于運(yùn)行五個blast子程序: blastall option1option2option3 blastall常
12、用參數(shù) 四個必需參數(shù) -p program_name, 程序名,根據(jù)數(shù)據(jù)庫及搜索文件序列性質(zhì)進(jìn)行選擇; -d database_name,數(shù)據(jù)庫名稱, 比對完成格式化的數(shù)據(jù)庫; -i input_file, 搜索文件名稱; -o output_file, BLAST結(jié)果文件名稱; 2個常用參數(shù) -e expectation,期待值,默認(rèn)值為10.0,可采用科學(xué)計(jì)數(shù)法來表示,如2e-5; -F filter? 過濾低復(fù)雜性序列,默認(rèn)為T,默認(rèn)低復(fù)雜性序列不參加比對;例: blastall -p blastx -d db -F F -i in -o out -e 2e-5 blast部分參數(shù):上機(jī)
13、實(shí)習(xí)2:本地運(yùn)行blastx進(jìn)入DOS命令行提示符狀態(tài) (“運(yùn)行” cmd)進(jìn)入C盤 “cd ”進(jìn)入包含序列數(shù)據(jù)的bin目錄下 “cd Blastbin”察看目錄下內(nèi)容 “dir” 格式化數(shù)據(jù)庫db “formatdb i db p T”運(yùn)行blastx“blastall p blastx i in d db o out”察看結(jié)果 more out.txt輸入數(shù)據(jù)庫類型:F/TBlast程序 序列輸入 數(shù)據(jù)庫 結(jié)果輸出輸入“cd ”-回車回到安裝目錄 C盤輸入“cd blastbin”-回車到達(dá)blast程序下bin文件夾輸入“dir”-回車察看bin文件夾下內(nèi)容bin文件夾下包含以.exe為
14、后綴的程序文件以及這次實(shí)習(xí)需要用到的數(shù)據(jù)可文件“bd”和目標(biāo)序列文件“in”輸入“more db”-回車 察看db文件內(nèi)容空格鍵翻頁輸入“q”跳出輸入“formatdb i db p T ” -回車對db數(shù)據(jù)庫進(jìn)行格式化輸入“dir ” -回車察看bin文件夾下內(nèi)容格式化以后產(chǎn)生的文件輸入“blastall p blastx i in d db o out ” -回車運(yùn)行blastx程序產(chǎn)生的結(jié)果文件 “out”用”more out”察看結(jié)果文件EST數(shù)據(jù)注釋小結(jié):一、注釋評價(jià)相同物種中有高度相似的序列其它物種有高度相似的序列其它物種有中度相似的序列其它物種相似度低的序列含有某些結(jié)構(gòu)域或者基序
15、(motif)二、程序選擇 序列信息BLASTFASTA(http:/www.ebi.ac.uk/fasta/)較高敏感度,但速度較慢(可通過ktup值調(diào)節(jié))BLITZ(http:/www.ebi.ac.uk/searches/blitz.html)更為靈敏,所需時間更長三、低復(fù)雜度區(qū)域(LCRs)低復(fù)雜度區(qū)域過濾將該類區(qū)域轉(zhuǎn)化為不明確字符(蛋白質(zhì)用X,核酸用N)多序列比對的目的從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。通過序列同源性的比較進(jìn)而了解基因的進(jìn)化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。分子鐘不同生物系統(tǒng)的同一血紅蛋白分子的氨基酸隨著時間的推移而以幾乎一定的比例相互量換著
16、(Zuckerkandl&Pauling,1962 )蛋白質(zhì),基因序列在單位時間以大致恒定的速度進(jìn)行置換 直系同源(orthologs): 同源的基因是由于共同的祖先基因進(jìn)化而產(chǎn)生的.旁系同源(paralogs): 同源的基因是由于基因復(fù)制產(chǎn)生的.用于分子進(jìn)化分析中的序列必須是直系同源的,才能真實(shí)反映進(jìn)化過程。paralogsorthologs多序列比對的應(yīng)用:系統(tǒng)發(fā)育分析(phylogenetic analysis)結(jié)構(gòu)預(yù)測(structure prediction)序列基序鑒定(sequence motif identification)功能預(yù)測(function prediction)C
17、lustalW/ClustalX:一種全局的多序列比對程序,可以用來繪制親緣樹,分析進(jìn)化關(guān)系。 MEGA4 ClustalW的運(yùn)行 本地運(yùn)行命令行操作的ClustalX(linux) 窗口化操作的ClustalX(windows)下載頁面:(http:/www.ebi.ac.uk/clustalw)網(wǎng)上運(yùn)行 (http:/www.ebi.ac.uk/clustalw) 目標(biāo)序列各種參數(shù)設(shè)定下載ClustalXJalview結(jié)果下載上機(jī)實(shí)習(xí)2:本地運(yùn)行ClastalX17-RNASE1.fasta多序列比對 (Multiple Alignment)構(gòu)建進(jìn)化樹 (Bootstrap N-J)在C:
18、zcnishiyan1clustalx1.83文件夾下,找到clustalx.exe雙擊打開Clustalx窗口點(diǎn)擊File下拉菜單中Load sequences選項(xiàng),打開序列文件17-RNASE1.fasta.txt打開后的界面可在Alignment下拉菜單中的Alignment Parameters中設(shè)定各個參數(shù)點(diǎn)擊Alignment下拉菜單中的Do Complete Alignment 進(jìn)行比對比對結(jié)果 * : 和空格依次代表改為點(diǎn)的序列一致性由高到低 選擇Trees下拉菜單中的Draw N-J Tree構(gòu)建進(jìn)化樹,并且保存在C:zcnishiyan1clustalx1.83文件夾下,找
19、到njplotWIN95.exe雙擊打開用于打開進(jìn)化樹文件在njplotWIN95中打開剛才構(gòu)建的進(jìn)化樹(文件后綴為.ph)在ClustalX中采用Bootstrap檢驗(yàn)進(jìn)化樹Bootstrap重復(fù)值至少為100(默認(rèn)設(shè)置為1000)在njplotWIN95中打開進(jìn)化樹(文件后綴為.phb)點(diǎn)擊Bootstrap Value前的方框在各節(jié)點(diǎn)前顯示該點(diǎn)所通過Bootstrap檢驗(yàn)的次數(shù)MEGA4一個關(guān)于序列分析及比較統(tǒng)計(jì)的工具包包含距離建樹,MP等建樹法自動或手動進(jìn)行序列比對;推斷進(jìn)化樹;估算分子進(jìn)化率,進(jìn)行進(jìn)化假設(shè)測驗(yàn);聯(lián)機(jī)進(jìn)行數(shù)據(jù)庫搜索;聯(lián)機(jī)BLAST輸入序列號:NM_198232 選擇數(shù)據(jù)
20、庫(Nucleotide collection) 選擇符合要求的序列:19386966932095761938696819386946提取所選序列以genbank格式顯示點(diǎn)擊Add to Alignment自動跳出序列窗口進(jìn)行ClustalW比對DataExport AlignmentMEGA format命名為17RNASE.meg,保存到目錄C:zcnishixi1更改參數(shù)設(shè)定為:差異位點(diǎn)百分?jǐn)?shù)(p-distance) 顯示兩兩序列間距離 進(jìn)行分子鐘檢驗(yàn)(Molecular Clock Test) 選擇外類群(Outgroup):H. sapiens RNASE1A和B序列M. mulat
21、ta RNASE1P. nemaeus RNASE1采用默認(rèn)設(shè)置 MEGA4可以識別fasta格式文件將17-RNASE1.fasta.txt重命名為17-RNASE1.fasta編輯 標(biāo)注保守區(qū)域 標(biāo)注不匹配的區(qū)域選擇打開方式為MEGA4,打開17-RNASE1.fasta,自動跳出序列窗口在MEGA4主窗口構(gòu)建進(jìn)化樹選擇Bootstrap重復(fù)次數(shù),至少為100次進(jìn)化樹的可靠性分析Bootstrap Method從排列的多序列中隨機(jī)有放回的抽取某一列,構(gòu)成相同長度的新的排列序列重復(fù)上面的過程,得到多組新的序列對這些新的序列進(jìn)行建樹,再觀察這些樹與原始樹是否有差異,以此評價(jià)建樹的可靠性至少進(jìn)行
22、100次重復(fù)取樣原始數(shù)據(jù)多序列比對結(jié)果對序列中每個位置重復(fù)抽樣,基于原比對結(jié)果生成多個樣本Oringinal treeBootstrap consensus tree節(jié)點(diǎn)上的值為通過 Bootstrap檢驗(yàn)的次數(shù)選擇模型為P-distance不同樹型Tree:樹型選擇Branch:分支信息修改Label:分支名稱修改Scale:標(biāo)尺設(shè)定Cutoff:cut off 值 軟件網(wǎng)址說明ClustalXhttp:/bips.u-strasbg.fr/fr/Documentation/ClustalX/圖形化的多序列比對工具ClustalWhttp:/www.cf.ac.uk/biosi/research/biosoft/Downloads/clustalw.html命令行格式的多序列比對工具GeneDochttp:/biomed/genedoc/多序列比對結(jié)果的美化工具BioEdithttp:/BioEdit/bioedit.html序列分析的綜合工具M(jìn)EGAhttp:/圖形化、集成的進(jìn)化分析工具,不包括MLPAUPhttp:/商業(yè)軟件,集成的進(jìn)化分析工具PHYLIPhttp:/phyli
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年湘師大新版必修三語文下冊階段測試試卷
- 2025年浙教版七年級生物下冊月考試卷含答案
- 2025年湘教新版選擇性必修3物理上冊階段測試試卷含答案
- 2025年度面料質(zhì)量認(rèn)證與采購合同范本4篇
- 2025版牛羊養(yǎng)殖基地與養(yǎng)殖戶合作銷售合同范本4篇
- 二零二五年度苗圃場租賃與農(nóng)業(yè)生態(tài)保護(hù)合作合同4篇
- 擔(dān)保合同執(zhí)行協(xié)議書(2篇)
- 2025年度模板腳手架租賃與施工一體化合同標(biāo)準(zhǔn)版4篇
- 2025版美容院員工培訓(xùn)與職業(yè)發(fā)展規(guī)劃合同4篇
- 2025年度ICP證年審專項(xiàng)服務(wù)合同4篇
- GB/T 45120-2024道路車輛48 V供電電壓電氣要求及試驗(yàn)
- 春節(jié)文化常識單選題100道及答案
- 華中師大一附中2024-2025學(xué)年度上學(xué)期高三年級第二次考試數(shù)學(xué)試題(含解析)
- 12123交管學(xué)法減分考試題及答案
- 2025年寒假實(shí)踐特色作業(yè)設(shè)計(jì)模板
- 24年追覓在線測評28題及答案
- 高考滿分作文常見結(jié)構(gòu)
- 心肌梗死診療指南
- 食堂項(xiàng)目組織架構(gòu)圖
- 原油脫硫技術(shù)
- GB/T 2518-2019連續(xù)熱鍍鋅和鋅合金鍍層鋼板及鋼帶
評論
0/150
提交評論