對一條新的基因序列進行生物信息學(xué)的分析.doc_第1頁
對一條新的基因序列進行生物信息學(xué)的分析.doc_第2頁
對一條新的基因序列進行生物信息學(xué)的分析.doc_第3頁
對一條新的基因序列進行生物信息學(xué)的分析.doc_第4頁
對一條新的基因序列進行生物信息學(xué)的分析.doc_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

對一條新的基因序列進行生物信息學(xué)的分析對一條新的基因序列進行生物信息學(xué)的分析 海南中學(xué)海南中學(xué) 作者 許汝言作者 許汝言 指導(dǎo)老師 黃小指導(dǎo)老師 黃小 葵葵 論文摘要論文摘要 本研究的主要內(nèi)容是運用生物信息學(xué)的手段結(jié)合生物學(xué)實驗 方法對從一株產(chǎn) 甘露聚糖酶的新菌種 A tabescens EJLY2098 獲得的新基因序列 命名為 man 進行生物信息學(xué)的分析 針 對然后結(jié)合利用所獲得的信息設(shè)計生物學(xué)方法證實其生物學(xué)功能 關(guān)鍵詞 甘露聚糖酶 A tabescens EJLY2098 生物信息學(xué) 論文目的和意義論文目的和意義 英國 自然 雜志網(wǎng)絡(luò)版 2006 年 5 月 18 日報道 科學(xué)家已對 含有 2 23 億個堿基對 占人類基因組中堿基對總量的 8 左右的人 類第一號染色體完成測序 宣告持續(xù) 16 年的人類基因組計劃全部完 成 作為人類自然科學(xué)史上重要的里程碑 人類基因組 的研究已 從 結(jié)構(gòu)基因組 階段進入 功能基因組 階段 在人類基因組計 Comment l1 Comment l2 劃后相繼推出的水稻基因組計劃 馬鈴薯基因組計劃 草魚基因組 計劃等 和快速增長的微生物基因測序 海量 的基因信息的積累 催生了 功能基因組 時代的來臨 針對充分利用 海量 基因組 信息的生物信息學(xué)不僅應(yīng)運而生 而且為以注釋 闡明基因功和利 用基因生物學(xué)功能的 后基因組時代 的研究發(fā)揮了重大作用 生物信息學(xué)是把基因組 DNA 序列信息分析作為源頭 在獲得了蛋 白質(zhì)編碼區(qū)的信息后 進行蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測和模擬 然后依據(jù) 特定蛋白質(zhì)的功能進行必要的藥物設(shè)計 就是說 生物信息學(xué)的主要 任務(wù)是組織和分析生物學(xué)數(shù)據(jù) 而生物學(xué)數(shù)據(jù)的分析離不開計算機算 法的運用 因此 可以說生物信息學(xué)是一門集生命科學(xué) 計算機科學(xué) 數(shù)學(xué) 物理學(xué)為一身的多學(xué)科交叉的前沿學(xué)科 生物信息學(xué)的主要研究對象是序列 即一維的分子排列順序所分 析 包括 DNA 分子堿基序列和編碼蛋白質(zhì)的氨基酸序列 DNA 序列分 析的主要任務(wù)是基因識別和發(fā)現(xiàn)某些功能區(qū) 如啟動子 增強子等 DNA 序列研究的最終目的是說明遺傳語言的語法和語法規(guī)則 從而最 終讀懂 DNA 序列 蛋白質(zhì)的結(jié)構(gòu)預(yù)測研究始終是生物信息學(xué)的核心 內(nèi)容之一 目前研究工作是利用一級結(jié)構(gòu)中的氨基酸排列順序所隱藏 的信息來預(yù)測蛋白質(zhì)的高級結(jié)構(gòu) 而蛋白質(zhì)結(jié)構(gòu)研究的最終目標(biāo)是闡 明肽鏈的折疊規(guī)律 即所謂破譯 第二套生物學(xué)密碼 基因組計劃 積累了大量生物信息 而生物信息學(xué)的任務(wù)就 是挖掘和利用這些信息 從眾多生命信息中發(fā)現(xiàn)統(tǒng)一的 本質(zhì)的 有用 的規(guī)律 而這些規(guī)律必將促進生命科學(xué) 如結(jié)構(gòu)生物學(xué) 生物技術(shù) 藥 物設(shè)計 分子進化等研究工作的進展 所以 生物信息學(xué)將在 后基因組 的時代 發(fā)揮極其重要的作 用 這將有助于全部讀懂人類基因組的全部信息 有助于揭示基因組 物質(zhì)結(jié)構(gòu)的復(fù)雜性 有助于生命起源和生物進化問題的最終解決 有 助于識別與鑒定人類特定疾病的相關(guān)基因 有助于藥物設(shè)計理論和方 法的改進和提高 1 10 研究現(xiàn)狀研究現(xiàn)狀 隨著信息學(xué)大環(huán)境的改善 如信息高速公路 國際互聯(lián)網(wǎng)的發(fā)展 生 物信息學(xué)發(fā)展迅速 美國 日本及歐洲各國的生物信息學(xué)已相繼在 Internet 上建立了各自的網(wǎng)絡(luò)節(jié)點 進行管理大型數(shù)據(jù)庫 為研究人 員提供研究數(shù)據(jù)的分析 處理 采集 交換的服務(wù) 國際互聯(lián)網(wǎng)所 到之處 都有各種研究機構(gòu)的聯(lián)網(wǎng) 數(shù)據(jù)庫的建立 開展生物信息學(xué) 研究 各種數(shù)據(jù)庫各具特色 GenBank EMBL DDBJ 是三大核苷酸 及蛋白質(zhì)數(shù)據(jù)庫 GDB 數(shù)據(jù)庫主要收集遺傳學(xué)制圖的資料 CEPH 的 數(shù)據(jù)庫收集 YACcontig Genethon CHLC 儲存遺傳學(xué)標(biāo)記系列 Whiethead 研究所的數(shù)據(jù)庫可了解全部 18000 個 STS 及聯(lián)系作圖的 信息 另外還有突變序列的數(shù)據(jù)庫在建立之中 在各類數(shù)據(jù)庫建立 的同時 數(shù)據(jù)庫設(shè)計中出現(xiàn)了集成化趨勢 集成化包括 各類數(shù)據(jù)的 集成 數(shù)據(jù)庫與數(shù)據(jù)分析軟件的整合 各種數(shù)據(jù)庫分析 測序應(yīng)用 軟件包也被開發(fā)出來 11 除了數(shù)據(jù)庫 數(shù)據(jù)分析軟件的發(fā)展 生物信息學(xué)中比較基因組學(xué) 的發(fā)展也較為突出 其中河豚 鼠 豬 牛和馬的基因組與人基因 組的比較研究 秀麗隱桿線蟲與人基因組的比較研究 酵母與人基因 組的比較研究 支原體與嗜血流感桿菌基因組的比較研究 都取得了 成果 從比較中分離到一些人類遺傳病的候選基因 鑒定了一些新克 隆的基因 為人類基因組的分析提供了有益的數(shù)據(jù) 隨著計算機技術(shù)的發(fā)展和滲透 生物信息學(xué)在人類基因組中大規(guī) 模測序的自動化控制 測序結(jié)果分析處理 序列數(shù)據(jù)的計算機管理 各類遺傳圖譜 物理圖譜的繪制 研究數(shù)據(jù)網(wǎng)絡(luò)獲取 分析和交換 以數(shù)據(jù)分析的結(jié)果輔助基因組研究等都發(fā)揮著不可替代的功能 顯示 出越來越重要的作用 全長全長 cDNA 序列序列 man 的生物信息學(xué)分析的生物信息學(xué)分析 前言前言 隨著因特網(wǎng)在上世紀(jì) 90 年代的出現(xiàn)和信息技術(shù)的迅猛發(fā)展 生命科學(xué)也相伴走向信息化 其主要標(biāo)志就是人類基因組計劃的 實施 這一計劃及其相繼展開的眾多的基因組計劃使得生物學(xué)數(shù) 據(jù)急劇增加 而傳統(tǒng)的實驗手段卻遠遠不能滿足對這些數(shù)據(jù)的解 釋 使之上升到科學(xué)知識的高度 9 10 隨著人類基因組計劃的實施 分子生物學(xué)家提供了大量的有關(guān)生物 分子的數(shù)據(jù) 如何將這些從實驗室中取得的生物信息進行整理 并能 對以后的研究提供資料和依據(jù) 這就需要運用到現(xiàn)代計算機技術(shù)對這 些原始數(shù)據(jù)進行收集 整理和分析 從而是人們在研究過程中及時得到 有效的生物信息 因此 生物信息學(xué)不僅是一門學(xué)科 也是研究過程中 的一項技術(shù)和開發(fā)工具 核酸序列分析是生物信息學(xué)應(yīng)用中的一個重 要方面 DNA 序列分析可分兩大類 1 面向測序的 DNA 序列分析 2 指定 DNA 序列的分析 通過一個簡單序列相似性的比較可以對未知 序列進行初步的功能預(yù)測 對后續(xù)實驗確定初步研究方向 12 本論文 通過對從真菌 tabescens 中克隆出一個基因的全長 cDNA 進行生 物信息的分析 預(yù)測這個未知 cDNA 的功能 目前因特網(wǎng)上有許多生物學(xué)信息庫 采用不同的算法 對生物學(xué)數(shù) 據(jù)進行從序列水平到結(jié)構(gòu)層次 進而到功能的多種分析 本章的分 析主要利用這些數(shù)據(jù)庫和相關(guān)軟件完成 材料和儀器材料和儀器 1 生物技術(shù)實驗室從一株產(chǎn) 甘露聚糖酶的新菌種 A tabescens EJLY2098 克隆出一個全長 cDNA 命名為 man 2 可以連接國際互聯(lián)網(wǎng)的計算機 核酸序列的基本分析核酸序列的基本分析 運用 DNAMAN 軟件分析核酸序列的分子質(zhì)量 堿基組成和堿 基分布 同時運用 BioEdit 版本 7 0 5 3 軟件對 manman 做酶切譜分析 堿基同源性分析 運用運用 NCBI 信息庫的信息庫的 BLAST 程序?qū)Τ绦驅(qū)?manman 進行堿基同源性分進行堿基同源性分析 Translated query vs protien database blastx 網(wǎng)站如下 http www ncbi nlm nih gov BLAST 參數(shù)選擇 TRANSLATED query PROTEIN database blastx nr stander1 開放性閱讀框 開放性閱讀框 ORFORF 分析 分析 利用 NCBI 的 ORF Finder 程序?qū)?man 做開放性閱讀框分析 網(wǎng) 址如下 http www ncbi nlm nih gov projects gorf orfig cgi 參數(shù)選擇 Genetic Codes 1 Standard 對蛋白質(zhì)序列的結(jié)構(gòu)功能域分析對蛋白質(zhì)序列的結(jié)構(gòu)功能域分析 運用簡單模塊構(gòu)架搜索工具 Simple Modular Architecture Research Tool SMART 對 manORF 出的蛋白質(zhì)序列進行蛋白質(zhì)結(jié) 構(gòu)功能域分析 該數(shù)據(jù)庫由 EMBL 建立 其中集成了大部分目前已 知的蛋白質(zhì)結(jié)構(gòu)功能域的數(shù)據(jù) 12 網(wǎng)址如下 http smart embl heidelberg de 運用運用 NCBI 的的 BLAST 程序再對此蛋白質(zhì)序列進行程序再對此蛋白質(zhì)序列進行 rpsBlast 分分 析析 參數(shù)選擇 Search Database CDD v2 07 11937PSSMs Expect 0 01 Filter Low complexity Search mode multiple hits 1 pass 同源物種分析同源物種分析 用 DNAMAN 軟件將蛋白質(zhì)序列與 GHF5 的 甘露聚糖酶序列和 GHF6 的 甘露聚糖酶序列序列比對 根據(jù)結(jié)果繪出系統(tǒng)進化樹 并 進行分析 蛋白質(zhì)一級序列的基本分析蛋白質(zhì)一級序列的基本分析 運用 BioEdit 版本 7 0 5 3 軟件對 man ORF 翻譯的蛋白的一些 基本性質(zhì) 對分子量 等電點 氨基酸組成等作出分析 二級結(jié)構(gòu)和功能分析二級結(jié)構(gòu)和功能分析 信號肽預(yù)測信號肽預(yù)測 利用丹麥科技大學(xué) DTU 的 CBS 服務(wù)器蛋白質(zhì)序列的信號肽 signal peptide 預(yù)測 進入 Prediction Serves 頁面 網(wǎng)址如下 http www cbs dtu dk services SignalP 參數(shù)選擇 Eukaryotes Both GIF inline Standard 疏水性分析疏水性分析 利用瑞士生物信息學(xué)研究所 Swiss Institute of Bioinformatics SIB 的 ExPASy 服務(wù)器上的 ProtScale 程序 13 對 ORF 翻譯后的氨基 酸序列做疏水性分析 網(wǎng)址如下 http us expasy org cgi bin protscale pl 參數(shù)選擇 Hphob Kyte Composition 388 A 358 C 351 G 386 T 0 OTHER Percentage 26 2 A 24 1 C 23 7 G 26 0 T 0 0 OTHER Molecular Weight kDa ssDNA 457 73 dsDNA 914 24 ORIGIN 1 ACGCGGGGGA AAGATGCATC TGCTCGCTTT TCTGTCTCTG AGTACATTCC TGTGCTCTGC 61 GTTCGCTGCT GTTCCTGAGT GGGGCCAATG TGGCGGCATT GGATGGACAG GACAGACCAC 121 TTGCGTTAGT GGTACAGTAT GCGCAGCTCT CAATGACTAT TATTCTCAAT GTGTGCCTGG 181 AACGGCCACA ACAACGGCCG CTCCCACGAC TGCTACATCA ACAACCATTT CTTCCACTTC 241 TCGCACAACT GCTACGTCGA CCACAGCTTC CGCACCATCT TCTACTGGCT TTGTAACTAC 301 CTCTGGCACA GAGTTCCGCC TCAACGGTGC CAAATTTACT ATCTTCGGCG CCAACTCATA 361 CTGGGTCGGG TTGATGGGCT ATAGCACTAC AGATATGAAT AAAGCCTTCG CAGACATCGC 421 GGCTACAGGT GCCACCGTCG TCCGCACATG GGGCTTCAAT GAGGTAACGA GTCCTAACGG 481 GATTTATTAC CAGAGTTGGT CCGGAAGTAC ACCAACTATC AACACAGGTT CTACGGGTCT 541 TCAAAACTTT GATGCCGTCG TCGCTGCTGC TGCTGCACAT GGCTTGAGGC TTATTGTTGC 601 CATAACGAAC AACTGGTCCG ACTATGGTGG AATGGATGTA TACGTTAACC AAATTGTCGG 661 GTCTGGCTCT GCGCACGATT TATTCTATAC CGACTGTGAG GTTATATCTA CTTACATGAA 721 CTACGTCAAG ACCTTCGTCT CGCGCTATGT GAACGAACCT ACTATTTTAG GTTGGGAGCT 781 TGCAAATGAA CCTAGATGCA AGGGGAGTAC CGGGACGACC TCTGGATCAT GCACTGCAAC 841 GACTATCACA AAATGGGCCG CGGCAATTTC AGCGTACATC AAGTCGATCG ATCCCAACCA 901 TCTTGTCGGG ATAGGAGATG AAGGGTTCTA CAATGAACCT AGCGCACCAA CATATCCATA 961 TCAAGGTAGC GAAGGTATCG ATTTTGATGC AAATTTGGCC ATTAGTAGCA TTGATTTCGG 1021 TACATTCCAT TCCTATCCTA TCAGCTGGGG TCAAACCACT GATCCTCAGG GATGGGGTAC 1081 GCAATGGATC GCTGATCATG CAACGTCAAT GACAGCTGCG GGAAAGCCCG TAATCTTAGA 1141 GGAGTTTGGA GTCACCACTA ATCAAGCAAC TGTTTATGGC GCCTGGTATC AGGAAGTTGT 1201 CTCTTCGGGT CTTACTGGTG CTCTTATTTG GCAAGCTGGT TCTTATTTAT CATCCGGAGC 1261 TACTCCGGAC GACGGATATG CAATTTATCC TGATGATCCT GTATATTCCC TGGAAACCTC 1321 CTATGCGGTT ACATTGAAAG CGCGGGCGTA GGATAGGGTA CAGAATAAAT TTTGCTCCGA 1381 TGTGGTACTG TAGCCGAGCG GCTTGACTAT GTGAATAAAA ATAGCACTGT TGTCACGATC 1441 GATCAACACC TAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAA 對其所做對其所做的酶切譜分析結(jié)果如下 對 DQ286392 的酶切圖 見附錄 1 單酶切統(tǒng)計 見下表 Restriction table Enzyme Recognition frequency Positions AccI GT mk AC 2 258 640 AloI GAACnnnnnnTCCnnnnnnn nnnnn 1 632 AloI GGAnnnnnnGTTCnnnnnnn nnnnn 1 600 AlwI GGATCnnnn n 5 833 885 1056 1095 1290 ApoI r AATT y 3 333 992 1368 BanI G GyrC C 4 327 348 429 1179 BbeI G GCGC C 2 352 1183 BbsI GAAGACnn nnnn 1 531 BbvI GCAGCnnnnnnnn nnnn 7 53 156 551 554 557 560 1103 BceAI ACGGCnnnnnnnnnnnn nn 3 199 211 540 BcgI CGAnnnnnnTGCnnnnnnnnnn nn 3 1003 998 1294 BcgI GCAnnnnnnTCGnnnnnnnnnn nn 3 969 1032 1260 BclI T GATC A 1 1094 BfrBI ATG CAT 1 17 BglI GCCn nnn nGGC 1 91 BmrI ACTGGGnnnn n 1 371 BpuEI CTTGAGnnnnnnnnnnnnnn nn 1 605 BsaHI Gr CG yC 2 349 1180 BsaJI C CnnG G 2 859 1309 BsaWI w CCGG w 3 501 1254 1265 BsaXI ACnnnnnCTCCnnnnnnn nnn 1 215 BsaXI GGAGnnnnnGTnnnnnnnnn nnn 1 185 BseMII CTCAGnnnnnnnn nn 3 30 67 1080 BseRI GAGGAGnnnnnnnn nn 1 1155 BseYI C CCAG C 1 1045 BsgI GTGCAGnnnnnnnnnnnnnn nn 1 559 BsiEI CG ry CG 3 199 889 1440 BsiHKAI G wGCw C 2 57 1223 BslI CCnn nnn nnGG 4 81 449 963 1272 BsmAI GTCTCn nnnn 3 40 743 1205 BsmBI CGTCTCn nnnn 1 743 BsmFI GGGACnnnnnnnnnn nnnn 1 827 Bsp1286I G dGCh C 2 57 1223 BspCNI CTCAGnnnnnnn nn 3 31 68 1079 BspEI T CCGG A 3 501 1254 1265 BsrI ACTG Gn 4 290 366 618 1220 BsrBI CCG CTC 2 201 1399 BsrDI GCAATG nn 1 1089 BstF5I GGATG nn 4 108 641 1077 1251 BstZ17I GTA TAC 1 641 Bsu36I CC TnA GG 1 1066 BtgI C CryG G 1 859 BtsI GCAGTG nn 1 832 Cac8I GCn nGC 4 25 781 1234 1345 ClaI AT CG AT 3 889 979 1440 EaeI y GGCC r 3 184 196 997 EagI C GGCC G 1 196 EarI CTCTTCn nnn 1 1208 EciI GGCGGAnnnnnnnnn nn 1 306 FauI CCCGCnnnn nn 2 1112 1336 FokI GGATGnnnnnnnnn nnnn 4 115 648 1084 1238 FspI TGC GCA 2 143 673 HaeII r GCGC y 2 352 1183 Hin4I GAynnnnnvTCnnnnnnnn nnnnn 3 690 1079 1111 Hin4I GAbnnnnnrTCnnnnnnnn nnnnn 3 722 1079 1111 HincII GTy rAC 2 259 647 HpaI GTT AAC 1 647 HphI GGTGAnnnnnnn n 1 1145 Hpy8I GTn nAC 5 259 510 641 647 752 Hpy188III TC nn GA 10 75 502 728 823 908 1191 1255 1266 1290 1435 HpyF10VI GCn nnnnn nGC 11 67 92 418 430 452 562 571 574 871 997 1099 KasI G GCGC C 2 348 1179 MboII GAAGAnnnnnnn n 5 223 271 335 531 1195 MlyI GAGTCnnnnn 2 479 1159 MmeI TCCrACnnnnnnnnnnnnnnnnnn nn 1 643 MnlI CCTCnnnnnn n 9 311 330 455 580 692 830 1075 1133 1328 MscI TGG CCA 1 999 MslI CAynn nnrTG 1 50 MspA1I CmG CkG 3 861 1045 1116 MwoI GCnn nnn nnGC 11 66 91 417 429 451 561 570 573 870 996 1098 NarI GG CG CC 2 349 1180 NlaIV GGn nCC 5 84 329 350 431 1181 NsiI A TGCA T 1 19 PleI GAGTCnnnn n 2 478 1158 PshAI GACnn nnGTC 1 735 PvuI CG AT CG 2 889 1440 PvuII CAG CTG 2 1045 1116 SacII CC GC GG 1 862 SalI G TCGA C 1 257 SfaNI GCATCnnnnn nnnn 5 4 26 542 786 977 SfcI C TryA G 4 380 388 424 1389 SfoI GGC GCC 2 350 1181 SmlI C TyrA G 1 584 TatI w GTAC w 2 42 507 TspDTI ATGAAnnnnnnnnn nn 5 411 732 802 934 949 TspGWI ACGGAnnnnnnnnn nn 1 1288 TspRI nnCAsTGnn 3 839 1064 1432 Enzymes that cut five or fewer times Enzyme Recognition frequency Positions AccI GT mk AC 2 258 640 AloI GAACnnnnnnTCCnnnnnnn nnnnn 1 632 AloI GGAnnnnnnGTTCnnnnnnn nnnnn 1 600 AlwI GGATCnnnn n 5 833 885 1056 1095 1290 ApoI r AATT y 3 333 992 1368 BanI G GyrC C 4 327 348 429 1179 BbeI G GCGC C 2 352 1183 BbsI GAAGACnn nnnn 1 531 BceAI ACGGCnnnnnnnnnnnn nn 3 199 211 540 BcgI CGAnnnnnnTGCnnnnnnnnnn nn 3 1003 998 1294 BcgI GCAnnnnnnTCGnnnnnnnnnn nn 3 969 1032 1260 BclI T GATC A 1 1094 BfrBI ATG CAT 1 17 BglI GCCn nnn nGGC 1 91 BmrI ACTGGGnnnn n 1 371 BpuEI CTTGAGnnnnnnnnnnnnnn nn 1 605 BsaHI Gr CG yC 2 349 1180 BsaJI C CnnG G 2 859 1309 BsaWI w CCGG w 3 501 1254 1265 BsaXI ACnnnnnCTCCnnnnnnn nnn 1 215 BsaXI GGAGnnnnnGTnnnnnnnnn nnn 1 185 BseMII CTCAGnnnnnnnn nn 3 30 67 1080 BseRI GAGGAGnnnnnnnn nn 1 1155 BseYI C CCAG C 1 1045 BsgI GTGCAGnnnnnnnnnnnnnn nn 1 559 BsiEI CG ry CG 3 199 889 1440 BsiHKAI G wGCw C 2 57 1223 BslI CCnn nnn nnGG 4 81 449 963 1272 BsmAI GTCTCn nnnn 3 40 743 1205 BsmBI CGTCTCn nnnn 1 743 BsmFI GGGACnnnnnnnnnn nnnn 1 827 Bsp1286I G dGCh C 2 57 1223 BspCNI CTCAGnnnnnnn nn 3 31 68 1079 BspEI T CCGG A 3 501 1254 1265 BsrI ACTG Gn 4 290 366 618 1220 BsrBI CCG CTC 2 201 1399 BsrDI GCAATG nn 1 1089 BstF5I GGATG nn 4 108 641 1077 1251 BstZ17I GTA TAC 1 641 Bsu36I CC TnA GG 1 1066 BtgI C CryG G 1 859 BtsI GCAGTG nn 1 832 Cac8I GCn nGC 4 25 781 1234 1345 ClaI AT CG AT 3 889 979 1440 EaeI y GGCC r 3 184 196 997 EagI C GGCC G 1 196 EarI CTCTTCn nnn 1 1208 EciI GGCGGAnnnnnnnnn nn 1 306 FauI CCCGCnnnn nn 2 1112 1336 FokI GGATGnnnnnnnnn nnnn 4 115 648 1084 1238 FspI TGC GCA 2 143 673 HaeII r GCGC y 2 352 1183 Hin4I GAynnnnnvTCnnnnnnnn nnnnn 3 690 1079 1111 Hin4I GAbnnnnnrTCnnnnnnnn nnnnn 3 722 1079 1111 HincII GTy rAC 2 259 647 HpaI GTT AAC 1 647 HphI GGTGAnnnnnnn n 1 1145 Hpy8I GTn nAC 5 259 510 641 647 752 KasI G GCGC C 2 348 1179 MboII GAAGAnnnnnnn n 5 223 271 335 531 1195 MlyI GAGTCnnnnn 2 479 1159 MmeI TCCrACnnnnnnnnnnnnnnnnnn nn 1 643 MscI TGG CCA 1 999 MslI CAynn nnrTG 1 50 MspA1I CmG CkG 3 861 1045 1116 NarI GG CG CC 2 349 1180 NlaIV GGn nCC 5 84 329 350 431 1181 NsiI A TGCA T 1 19 PleI GAGTCnnnn n 2 478 1158 PshAI GACnn nnGTC 1 735 PvuI CG AT CG 2 889 1440 PvuII CAG CTG 2 1045 1116 SacII CC GC GG 1 862 SalI G TCGA C 1 257 SfaNI GCATCnnnnn nnnn 5 4 26 542 786 977 SfcI C TryA G 4 380 388 424 1389 SfoI GGC GCC 2 350 1181 SmlI C TyrA G 1 584 TatI w GTAC w 2 42 507 TspDTI ATGAAnnnnnnnnn nn 5 411 732 802 934 949 TspGWI ACGGAnnnnnnnnn nn 1 1288 TspRI nnCAsTGnn 3 839 1064 1432 Enzymes that do not cut AarI AatII Acc65I AclI AfeI AflII AflIII AgeI AhdI AleI AlwNI ApaI ApaLI AscI AseI AsiSI AvaI AvrII BaeI BaeI BamHI BanII BbvCI BciVI BglII BlpI Bme1580I BmgBI BmtI BplI BpmI Bpu10I BsaI BsaAI BsaBI BsiWI BsmI BspHI BspMI BsrFI BsrGI BssHII BssSI BstAPI BstBI BstEII BstXI BstYI DraI DraIII DrdI Eco57I EcoICRI Eco57MI EcoNI EcoO109I EcoRI EcoRV FalI FseI FspAI HgaI HindIII KpnI MfeI MluI NaeI NcoI NdeI NgoMIV NheI NotI NruI NspI PacI PciI PflMI PmeI PmlI PpiI PpiI PpuMI PsiI PspOMI PsrI PsrI PstI RsrII SacI SanDI SapI SbfI ScaI SexAI SfiI SgrAI SmaI SnaBI SpeI SphI SrfI SspI StuI StyI SwaI TaqII TaqII Tth111I XbaI XcmI XhoI XmaI XmnI ZraI 堿基同源性分析堿基同源性分析 DQ286392序列的BLASTX分析結(jié)果 見圖1 圖1 DQ286392序列的BLASTX分析結(jié)果 Score E Sequences producing significant alignments Bits Value gi 82659769 gb ABB88954 1 mannanase Armillariella tabescens 768 0 0 gi 7208638 emb CAB76904 1 CEL4a mannanase Agaricus bisporus 532 2e 149 gi 1679597 emb CAA90423 1 CEL4b mannanase Agaricus bisporus 528 3e 148 gi 110627661 gb ABG79370 1 Man5D Phanerochaete chrysosporium 513 1e 143 gi 116508737 gb EAU91632 1 hypothetical protein CC1G 09314 473 2e 131 gi 110627663 gb ABG79371 1 Man5C Phanerochaete chrysosporium 467 6e 130 gi 119485791 ref XP 001262238 1 endo 1 4 beta mannosidase p 278 6e 73 gi 121715087 ref XP 001275153 1 endo 1 4 beta mannosidase p 277 9e 73 gi 70983951 ref XP 747501 1 endo 1 4 beta mannosidase Asper 272 4e 71 gi 70982592 ref XP 746824 1 endo 1 4 beta mannosidase Asper 261 7e 68 gi 84621433 gb ABC59553 1 beta mannanase Aspergillus sulphureu 260 2e 67 gi 83775912 dbj BAE66031 1 unnamed protein product Aspergillus 258 8e 67 gi 558311 gb AAA67426 1 mannanase 254 7e 66 gi 119488588 ref XP 001262744 1 endo 1 4 beta mannosidase N 252 3e 65 gi 115402327 ref XP 001217240 1 hypothetical protein ATEG 08 250 2e 64 以下省略 由分析結(jié)果可知 DQ286392 和其他物種的 甘露聚糖酶相似性最 高 尤其是與 Agaricus bisporus 物種的 CEL4a 和 CEL4b 的 甘露 聚糖酶的相同性達到 64 和 63 相似性均達到 76 以下是 DQ286392 分別與 CEL4a 和 CEL4b 序列對比 gi 7208638 emb CAB76904 1 CEL4a mannanase Agaricus bisporus Length 439 Score 532 bits 1371 Expect 2e 149 Identities 284 442 64 Positives 339 442 76 Gaps 7 442 1 Frame 2 Query 23 LAFLSLSTFLCSAFAAVPEWGQCGGIGWTGQTTCVSGTVCAALNDYYSQCVPGtatttaa 202 F L A A VP WGQCGG GWTG T C SG C N YSQC PG T T Sbjct 5 IRFIILAISISLATADVPVWGQCGGRGWTGETACASGSSCVVQNEWYSQCLPGSTTPTNP 64 Query 203 pttatsttisstsrttatsttasapsstGFVTTSGTEFRLNGAKFTIFGANSYWVGLMGY 382 P T T T T GFV SGT F LNG K T G NSYWVGL G Sbjct 65 PPTTTTSQTTAPPTTSHPVST GFVKASGTRFTLNGQKYTVVGGNSYWVGLTGL 117 Query 383 STTDMNKAFADIAATGATVVRTWGFNEVTSPNGIYYQSWSGSTPTINTGSTGLQNFDavv 562 ST MN AF DIA G T VRTWGFNEVTSPNG YYQSWSG PTINTG GL NFD V Sbjct 118 STSAMNQAFSDIANAGGTTVRTWGFNEVTSPNGNYYQSWSGARPTINTGASGLLNFDNVI 177 Query 563 aaaaaHGLRLIVAITNNWSDYGGMDVYVNQIVGSGSAHDLFYTDCEVISTYMNYVKTFVS 742 AAA A G RLIVA TNNW DYGGMDVYVNQ VG G HDLFYT YV TFVS Sbjct 178 AAAKANGIRLIVALTNNWADYGGMDVYVNQMVGNGQPHDLFYTNTAIKDAFKSYVRTFVS 237 Query 743 RYVNEPTILGWELANEPRCKgstgttsgsctattitkwaaaisaYIKSIDPNHLVGIGDE 922 RY NEPT WELANEPRCKGSTGTTSG CT TT T WA SA IK ID NHLV IGDE Sbjct 238 RYANEPTVMAWELANEPRCKGSTGTTSGTCTTTTVTNWAKEMSAFIKTIDSNHLVAIGDE 297 Query 923 GFYNEPSAPTYPYQGSEGIDFDANLAISSIDFGTFHSYPISWGQTTDPQGWGTQWIADHA 1102 GFYN P APTYPYQGSEG DF ANLAISS DF TFHSYP WGQ D WGTQWI DHA Sbjct 298 GFYNQPGAPTYPYQGSEGVDFEANLAISSVDFATFHSYPEPWGQGADAKAWGTQWITDHA 357 Query 1103 TSMTAAGKPVILEEFGVTTNQATVYGAWYQEVVSSGLTGALIWQAGSYLSSGATPDDGYA 1282 SM KPVILEEFGVTTNQ Y W EV SSGLTG LIWQAGS LS G T DGYA Sbjct 358 ASMKRVNKPVILEEFGVTTNQPDTYAEWFNEVESSGLTGDLIWQAGSHLSTGDTHNDGYA 417 Query 1283 IYPDDPVYSLETSYAVTLKARA 1348 YPD PVY L S A K RA Sbjct 418 VYPDGPVYPLMKSHASAMKNRA 439 gi 1679597 emb CAA90423 1 CEL4b mannanase Agaricus bisporus Length 439 Score 528 bits 1360 Expect 3e 148 Identities 280 442 63 Positives 336 442 76 Gaps 7 442 1 Frame 2 Query 23 LAFLSLSTFLCSAFAAVPEWGQCGGIGWTGQTTCVSGTVCAALNDYYSQCVPGtatttaa 202 F L A A VP WGQCGG WTG T C SG C N YSQC PG T T Sbjct 5 IRFIILAISISLATADVPVWGQCGGRDWTGETACASGSSCVVQNEWYSQCLPGSTTPTNP 64 Query 203 pttatsttisstsrttatsttasapsstGFVTTSGTEFRLNGAKFTIFGANSYWVGLMGY 382 P T T T GFV SGT F LNG K T G NSYWVGL G Sbjct 65 PPATTTSQTTAPPTTSHPVST GFVKASGTRFTLNGQKYTVVGGNSYWVGLTGL 117 Query 383 STTDMNKAFADIAATGATVVRTWGFNEVTSPNGIYYQSWSGSTPTINTGSTGLQNFDavv 562 ST MN AF DIA G T VRTWGFNEVTSPNG YYQSWSG PTINTG GL NFD V Sbjct 118 STSAMNQAFSDIANAGGTTVRTWGFNEVTSPNGNYYQSWSGARPTINTGASGLLNFDNVI 177 Query 563 aaaaaHGLRLIVAITNNWSDYGGMDVYVNQIVGSGSAHDLFYTDCEVISTYMNYVKTFVS 742 AAA A G RLIVA TNNW DYGGMDVYVNQ VG G HDLFYT Y FVS Sbjct 178 AAAKANGIRLIVALTNNWADYGGMDVYVNQMVGNGQPHDLFYTNTAIKDAFKSYGRAFVS 237 Query 743 RYVNEPTILGWELANEPRCKgstgttsgsctattitkwaaaisaYIKSIDPNHLVGIGDE 922 RY NEPT WELANEPRCKGSTGTTSG CT TT T WA SA IK ID NHLV IGDE Sbjct 238 RYANEPTVMAWELANEPRCKGSTGTTSGTCTTTTVTNWAKEMSAFIKTIDSNHLVAIGDE 297 Query 923 GFYNEPSAPTYPYQGSEGIDFDANLAISSIDFGTFHSYPISWGQTTDPQGWGTQWIADHA 1102 GFYN P APTYPYQGSEG DF ANLAISS DF TFHSYP WGQ D WGTQWI DHA Sbjct 298 GFYNQPGAPTYPYQGSEGVDFEANLAISSVDFATFHSYPEPWGQGADAKAWGTQWITDHA 357 Query 1103 TSMTAAGKPVILEEFGVTTNQATVYGAWYQEVVSSGLTGALIWQAGSYLSSGATPDDGYA 1282 SM KPVILEEFGVTTNQ Y W E SSGLTG LIWQAGS LS G TP DGYA Sbjct 358 ASMKRVNKPVILEEFGVTTNQPDTYAEWFNEIESSGLTGDLIWQAGSHLSTGDTPNDGYA 417 Query 1283 IYPDDPVYSLETSYAVTLKARA 1348 YPD PVY L S A K RA Sbjct 418 VYPDGPVYPLVKSHASAMKNRA 439 開放性閱讀框 開放性閱讀框 ORFORF 分析 分析 用 NCBI 的 ORF Finder 對 DQ286392 序列作開放閱讀框分析 結(jié)果如 圖 2 序列 DQ286392 14 1351 位存在一個長 1338bp 的開放閱讀框 編 碼為 445 個氨基酸 起始密碼子為 ATG 終止密碼子為 TAG 編碼區(qū) 兩側(cè)為 13bp 的 5 非翻譯區(qū)和 100bp 的 3 非翻譯區(qū) 1 13bp 1352 1451bp 而且在 3 末端的 polyA 尾上游 88bp 和 38bp 處各有一個加尾信號 為 AATAAA 進一步表明所獲得片段 包括全長的 mRNA3 非翻譯區(qū) 將該蛋白質(zhì)序列命名為 MAN 序列 MAN 的開放閱讀框及其編碼的氨基酸序列如下 14 atgcatctgctcgcttttctgtctctgagtacattcctgtgctct M H L L A F L S L S T F L C S 59 gcgttcgctgctgttcctgagtggggccaatgtggcggcattgga A F A A V P E W G Q C G G I G 104 tggacaggacagaccacttgcgttagtggtacagtatgcgcagct W T G Q T T C V S G T V C A A 149 ctcaatgactattattctcaatgtgtgcctggaacggccacaaca L N D Y Y S Q C V P G T A T T 194 acggccgctcccacgactgctacatcaacaaccatttcttccact T A A P T T A T S T T I S S T 239 tctcgcacaactgctacgtcgaccacagcttccgcaccatcttct S R T T A T S T T A S A P S S 284 actggctttgtaactacctctggcacagagttccgcctcaacggt T G F V T T S G T E F R L N G 329 gccaaatttactatcttcggcgccaactcatactgggtcgggttg A K F T I F G A N S Y W V G L 374 atgggctatagcactacagatatgaataaagccttcgcagacatc M G Y S T T D M N K A F A D I 419 gcggctacaggtgccaccgtcgtccgcacatggggcttcaatgag A A T G A T V V R T W G F N E 464 gtaacgagtcctaacgggatttattaccagagttggtccggaagt V T S P N G I Y Y Q S W S G S 509 acaccaactatcaacacaggttctacgggtcttcaaaactttgat T P T I N T G S T G L Q N F D 554 gccgtcgtcgctgctgctgctgcacatggcttgaggcttattgtt A V V A A A A A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論