版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
實(shí)習(xí)一
基因組數(shù)據(jù)注釋和功能分析
劉振
范苗
周國艷邱慶崇
實(shí)習(xí)一基因組數(shù)據(jù)注釋和功能分析實(shí)習(xí)二核苷酸序列分析實(shí)習(xí)三芯片的基本數(shù)據(jù)處理和分析實(shí)習(xí)四蛋白質(zhì)結(jié)構(gòu)與功能分析實(shí)習(xí)五蛋白質(zhì)組學(xué)數(shù)據(jù)分析課程內(nèi)容基因組學(xué)轉(zhuǎn)錄物組學(xué)蛋白質(zhì)組學(xué)通過序列比對工具BLAST學(xué)習(xí),了解蛋白編碼基因的功能注釋原理介紹多序列聯(lián)配工具ClustalX分子進(jìn)化分析軟件MEGA5的基本知識(shí),掌握系統(tǒng)發(fā)生樹繪制的基本方法課程提綱序列比對是進(jìn)化分析的基礎(chǔ)什么是序列比對:將兩條或多條序列按照最佳匹配方式排列在一起。對應(yīng)的相同或相似的符號排列在同一列上。錯(cuò)配與突變相應(yīng),空位與插入或缺失對應(yīng)。序列比對的目的:從核苷酸以及氨基酸的層次去分析序列的相同點(diǎn)和不同點(diǎn),以推測他們的結(jié)構(gòu)、功能以及進(jìn)化上的聯(lián)系通過判斷兩個(gè)序列之間的相似性來判定兩者是否具有同源性相似性(Similarity):可以被數(shù)量化,如:序列之間相似部分的百分比,A序列和B序列的相似性有70%同源性(Homology):質(zhì)的判斷,兩個(gè)基因在進(jìn)化上是否曾有共同祖先的論斷相似不一定同源!直系同源(orthologous):不同物種內(nèi)的同源序列,它們來自于物種形成時(shí)的共同祖先基因。旁系同源(paralogous):同一物種內(nèi)的同源序列,它們是通過類似基因復(fù)制的機(jī)制產(chǎn)生的同源序列。From/index.htmlBLAST基本局部比對搜索工具(BasicLocalAlignmentSearchTool)NCBI上BLAST服務(wù)的網(wǎng)址:/NCBI上BLAST程序的下載:/blast/executables/release//blast/executables/release/NCBI的BLAST數(shù)據(jù)庫下載網(wǎng)址:/blast/db/選擇物種選擇blast程序QuerySequenceAminoacidSequenceDNASequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslatedTranslated程序名搜索序列數(shù)據(jù)庫內(nèi)容備注blastpProteinProtein比較氨基酸序列與蛋白質(zhì)數(shù)據(jù)庫使用取代矩陣尋找較遠(yuǎn)的關(guān)系,進(jìn)行SEG過濾blastnNucleotideNucleotide比較核酸序列與核酸數(shù)據(jù)庫尋找較高分值的匹配,對較遠(yuǎn)的關(guān)系不太適用blastxNucleotideProtein比較核酸序列理論上的六個(gè)讀碼框的所有轉(zhuǎn)換結(jié)果和蛋白質(zhì)數(shù)據(jù)庫用于新的DNA序列和ESTs的分析,可轉(zhuǎn)譯搜索序列tblastnProteinNucleotide比較蛋白質(zhì)序列和核酸序列數(shù)據(jù)庫,動(dòng)態(tài)轉(zhuǎn)換為六個(gè)讀碼框的結(jié)果用于尋找數(shù)據(jù)庫中沒有標(biāo)注的編碼區(qū),可轉(zhuǎn)譯數(shù)據(jù)庫序列tblastxNucleotideNucleotide比較核酸序列和核酸序列數(shù)據(jù)庫,經(jīng)過兩次動(dòng)態(tài)轉(zhuǎn)換為六個(gè)讀碼框的結(jié)果轉(zhuǎn)譯搜索序列與數(shù)據(jù)庫序列以Blastx為例:
目標(biāo)序列為ATGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC6個(gè)讀碼框翻譯5’端到3’端第一位起始:ATGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC第二位起始:TGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC第三位起始:GAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC3’端到5’端第一位起始:GCGGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第二位起始:CGGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第三位起始:GGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT選擇數(shù)據(jù)庫序列或目標(biāo)序列的GI號以文件格式上傳blastnBlastn算法選擇所有的BLAST檢索都包含4個(gè)步驟:選擇相應(yīng)的序列。選擇一個(gè)用于搜索的數(shù)據(jù)庫。選擇一個(gè)BLAST程序。為搜索和輸出進(jìn)行參數(shù)調(diào)整。選擇物種配對與錯(cuò)配空位罰分blastpBlastp算法選擇打分矩陣:PAM30PAM70BLOSUM80BLOSUM62BLOSUM45選擇打分矩陣(scoringmatrix) ThePAMfamilyBasedonglobalalignmentsThePAM1isthematrixcalculatedfromcomparisonsofsequenceswithnomorethan1%divergence.OtherPAMmatricesareextrapolatedfromPAM1.
TheBLOSUMfamilyBasedonlocalalignments.BLOSUM62isamatrixcalculatedfromcomparisonsofsequenceswithnolessthan62%divergence.AllBLOSUMmatricesarebasedonobservedalignments;theyarenotextrapolatedfromcomparisonsofcloselyrelatedproteins.比對的數(shù)據(jù)庫信息圖形化結(jié)果檢索序列信息blastn結(jié)果E值(E-value)表示僅僅因?yàn)殡S機(jī)性造成獲得這一比對結(jié)果的可能性。這一數(shù)值越接近零,隨機(jī)發(fā)生這一事件的可能性越小,結(jié)果可靠性越高。blastn結(jié)果blastn結(jié)果上機(jī)實(shí)習(xí)1:網(wǎng)上運(yùn)行blastx和blastn
(NCBIblast網(wǎng)址:/)>lesson.seq.screen.Contig34TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC對contig34進(jìn)行網(wǎng)上blastn(演示),blastx(自行操作)比對網(wǎng)頁版BLAST的優(yōu)缺點(diǎn):優(yōu)點(diǎn):直觀方便,容易操作,數(shù)據(jù)庫同步更新缺點(diǎn):不利于操作大批量的數(shù)據(jù),同時(shí)也不能自己定義搜索的數(shù)據(jù)庫,對網(wǎng)絡(luò)依賴性太大。本地運(yùn)行BLAST下載NCBI上blast程序:/blast/executables/release//blast/executables/release/安裝(安裝到C:\blast)數(shù)據(jù)庫的格式化(formatdb)程序運(yùn)行(blastall)登陸NCBI的FTP下載blast程序雙擊安裝到C盤產(chǎn)生三個(gè)文件夾bindatadoc將數(shù)據(jù)庫文件(db)及目標(biāo)序列文件(in)保存在Blast/bin文件夾下bin含可執(zhí)行程序(將數(shù)據(jù)庫及需要比對操作的數(shù)據(jù)放入該文件);data文件夾含打分矩陣及演示例子的序列數(shù)據(jù)信息;doc文件夾含關(guān)于各子程序的說明文檔。本地?cái)?shù)據(jù)庫的構(gòu)建查看db文件由fasta格式的序列組成,以“>”開頭,緊接著是序列描述信息,換行后即是核苷酸或蛋白質(zhì)序列,直至下一個(gè)“>”前為止。數(shù)據(jù)庫的格式化formatdb命令用于數(shù)據(jù)庫的格式化:formatdb[option1][option2][option3]…formatdb常用參數(shù)-idatabase_name需要格式化的數(shù)據(jù)庫名稱-pT\F待格式化數(shù)據(jù)庫的序列類型(核苷酸選F;蛋白質(zhì)選T;默認(rèn)值為T)例:formatdb-idb-pT對蛋白質(zhì)數(shù)據(jù)庫“db”進(jìn)行格式化程序運(yùn)行 blastall命令用于運(yùn)行五個(gè)blast子程序: blastall[option1][option2][option3] *可在dos下輸入blastall查看各個(gè)參數(shù)的意義及使用blastall常用參數(shù)四個(gè)必需參數(shù)-pprogram_name,程序名,根據(jù)數(shù)據(jù)庫及搜索文件序列性質(zhì)進(jìn)行選擇;-ddatabase_name,數(shù)據(jù)庫名稱,比對完成格式化的數(shù)據(jù)庫;-iinput_file,搜索文件名稱;-ooutput_file,BLAST結(jié)果文件名稱;兩個(gè)常用參數(shù)-eexpectation,期待值,默認(rèn)值為10.0,可采用科學(xué)計(jì)數(shù)法來表示,如2e-5;-malignmentviewoptions:比對顯示選項(xiàng),其具體的說明可以用以下的比對實(shí)例說明
例:blastall-pblastx-ddb-iin-oout-e2e-5-m9(表格顯示比對結(jié)果)采用blastx程序,將in中的序列到數(shù)據(jù)庫db中進(jìn)行比對,結(jié)果以表格形式輸入到out文件上機(jī)實(shí)習(xí)2:本地運(yùn)行blastx進(jìn)入DOS命令行提示符狀態(tài)(“運(yùn)行”輸入cmd)進(jìn)入C盤,輸入:cd\進(jìn)入包含序列數(shù)據(jù)的bin目錄下,輸入:cdblast\bin查看目錄下內(nèi)容,輸入:dir格式化數(shù)據(jù)庫db:formatdb-idb-pT運(yùn)行blastxblastall-pblastx-iin-ddb-oout-e2e-5-m9查看結(jié)果:用寫字板或者記事本打開out文件輸入數(shù)據(jù)庫類型:F/TBlast程序序列輸入數(shù)據(jù)庫結(jié)果輸出輸入“cd\”,回車回到安裝目錄C盤輸入“cdzcni\shixi1\blast\bin”,回車到達(dá)blast程序下bin文件夾輸入“dir”,回車查看bin文件夾下內(nèi)容bin文件夾下包含以.exe為后綴的程序文件以及這次實(shí)習(xí)需要用到的數(shù)據(jù)文件“db”和目標(biāo)序列文件“in”輸入“formatdb-idb-pT”,回車對db數(shù)據(jù)庫進(jìn)行格式化輸入“dir”,回車查看bin文件夾下內(nèi)容格式化以后產(chǎn)生的文件輸入“blastall-pblastx-iin-ddb-oout-e2e-5-m9”-〉回車運(yùn)行blastx程序產(chǎn)生的結(jié)果文件“out”用記事本查看結(jié)果文件不使用-m參數(shù)或者-m參數(shù)為0時(shí)顯示序列兩兩比對結(jié)果多序列比對MultipleSequenceAlignment多序列比對的應(yīng)用:系統(tǒng)發(fā)育分析(phylogeneticanalysis)結(jié)構(gòu)預(yù)測(structureprediction)序列基序鑒定(sequencemotifidentification)功能預(yù)測(functionprediction)ClustalW/ClustalX:一種全局的多序列比對程序,可以用來繪制親緣樹,分析進(jìn)化關(guān)系。MEGA5——分子進(jìn)化遺傳分析軟件ClustalW/X的運(yùn)行本地運(yùn)行 命令行操作的ClustalW(linux&windows)窗口化操作的ClustalX(windows) 下載頁面:/download/current/歐洲生物學(xué)中心(EBI)還提供了ClustalW的網(wǎng)上運(yùn)行服務(wù):http://www.ebi.ac.uk/Tools/msa/clustalw2/目標(biāo)序列參數(shù)設(shè)定Jalview結(jié)果下載上機(jī)實(shí)習(xí)3:本地運(yùn)行ClustalX
17-RNASE1.fasta多序列比對(MultipleSequenceAlignment)在C:\zcni\shixi1\Clustalx2文件夾下,找到clustalx.exe雙擊打開ClustalX窗口點(diǎn)擊File下拉菜單中Loadsequences選項(xiàng),打開序列文件17-RNASE1.fasta.txt注意!ClustalX打開文件時(shí)文件所在路徑不能包含中文,否則會(huì)出現(xiàn)錯(cuò)誤!打開后的界面可在Alignment下拉菜單中的AlignmentParameters中設(shè)定各個(gè)參數(shù)
比對結(jié)果輸出設(shè)置點(diǎn)擊進(jìn)行多序列比對比對結(jié)果“*”、“:”、“.”和空格依次代表改位點(diǎn)的序列一致性由高到低MEGA5一個(gè)關(guān)于序列分析及比較統(tǒng)計(jì)的工具包包含距離建樹,MP等建
樹法自動(dòng)或手動(dòng)進(jìn)行序列比對;推斷進(jìn)化樹;估算分子進(jìn)化率,進(jìn)行進(jìn)化假設(shè)測驗(yàn);聯(lián)機(jī)進(jìn)行數(shù)據(jù)庫搜索;…下載地址:/MEGA5可以識(shí)別fasta格式文件將17-RNASE1.fasta.txt重命名為17-RNASE1.fasta選擇打開方式為MEGA5,打開17-RNASE1.fasta,自動(dòng)跳出序列窗口用ClustalW做多序列聯(lián)配ClustalW參數(shù)設(shè)置多序列聯(lián)配后結(jié)果以.meg格式保存結(jié)果回到MEGA主窗口打開所保存的文件(.meg)點(diǎn)擊按鈕打開文件窗口顯示保守位點(diǎn)顯示變異位點(diǎn)回到MEGA主窗口構(gòu)建進(jìn)化樹當(dāng)前打開的文件選擇鄰接法建樹選擇Bootstrap檢驗(yàn)構(gòu)建系統(tǒng)發(fā)生樹主要有五個(gè)步驟:選擇感興趣的序列。進(jìn)行多序列比對。選擇一個(gè)替換模型。建樹。樹的可靠性檢測。系統(tǒng)進(jìn)化樹構(gòu)建方法基于距離:通過計(jì)算分子序列之間的距離來構(gòu)建系統(tǒng)發(fā)生樹。代表有除權(quán)配對法(UPGMA)和鄰接法(Neighbor-joining,NJ)?;谧址卣鳎簭拇怪钡慕嵌葋矸治龆嘈蛄新?lián)配結(jié)果,在每一列氨基酸的排列形式中,哪一種最能解釋字符進(jìn)化。代表有最大簡約法(MaximumParsimony,MP)和最大似然法(MaximumLikelihood,ML)。MEGA5內(nèi)嵌五種系統(tǒng)進(jìn)化樹構(gòu)建方法分化程度較大的遠(yuǎn)緣序列:
最大似然法(MaximumLikelihood,ML)鄰接法(Neighbor-joining,NJ)最小進(jìn)化法(Minimum-Evolution,ME)分化程度較小的近緣序列:最大簡約法(MaximumParsimony,MP)除權(quán)配對法(UPGMA)進(jìn)化樹的可靠性分析BootstrapMethod從排列的多序列中隨機(jī)有放回的抽取某一列,構(gòu)成相同長度的新的排列序列重復(fù)上面的過程,得到多組新的序列對這些新的序列進(jìn)行建樹,再觀察這些樹
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版知識(shí)產(chǎn)權(quán)反擔(dān)保保證合同書2篇
- 2025版土地抵押權(quán)抵押資產(chǎn)證券化合同模板3篇
- 設(shè)備監(jiān)理合同-《設(shè)備監(jiān)理合同管理》押題密卷2
- 土壤污染治理與農(nóng)業(yè)生態(tài)環(huán)境保護(hù)考核試卷
- 唇部護(hù)理產(chǎn)品的選擇與涂抹技巧考核試卷
- 2025年銷售部勞動(dòng)合同加班時(shí)間規(guī)定范本2篇
- 2025年家政服務(wù)服務(wù)調(diào)整協(xié)議
- 2025年度木材行業(yè)綠色認(rèn)證及產(chǎn)品檢測服務(wù)合同范本4篇
- 2025年婚禮廣告合作協(xié)議
- 二零二五年度房地產(chǎn)項(xiàng)目納稅擔(dān)保及貸款擔(dān)保合同2篇
- 2024年安全教育培訓(xùn)試題附完整答案(奪冠系列)
- 神農(nóng)架研學(xué)課程設(shè)計(jì)
- 文化資本與民族認(rèn)同建構(gòu)-洞察分析
- 2025新譯林版英語七年級下單詞默寫表
- 小學(xué)語文閱讀教學(xué)落實(shí)學(xué)生核心素養(yǎng)方法的研究-中期報(bào)告
- 眼內(nèi)炎患者護(hù)理查房課件
- 唯物史觀課件
- 2021-2022學(xué)年四川省成都市武侯區(qū)部編版四年級上冊期末考試語文試卷(解析版)
- 中國傳統(tǒng)文化服飾文化
- 大氣污染控制工程 第四版
- 淺析商務(wù)英語中模糊語言的語用功能
評論
0/150
提交評論