




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
生物信息學(xué)資源與數(shù)據(jù)挖掘工具第一頁(yè),共一百一十五頁(yè),編輯于2023年,星期三一、國(guó)外重要生物信息中心第二頁(yè),共一百一十五頁(yè),編輯于2023年,星期三NCBI美國(guó)國(guó)家生物技術(shù)信息中心(NationalCenterforBiotechnologyInformation)前身是NIH所屬的一個(gè)研究所的計(jì)算生物學(xué)研究室,1988年獨(dú)立為NCBI,形式上屬于國(guó)家醫(yī)學(xué)圖書館(NationalLibraryofMedicine/NLM)管理著許多著名數(shù)據(jù)庫(kù),如GenBank、Medline、dbSNP、COG、OMIM等提供Entrez、BLAST等服務(wù)
第三頁(yè),共一百一十五頁(yè),編輯于2023年,星期三EBI歐洲生物信息學(xué)研究所(EuropeanBioinformaticsInstitute)1994年建于英國(guó)劍橋,前身是德國(guó)海德堡的歐洲分子生物學(xué)實(shí)驗(yàn)室的信息服務(wù)部門EBI接收了原來(lái)EMBL數(shù)據(jù)庫(kù)的管理和維護(hù)是歐洲分子生物學(xué)網(wǎng)(EMBnet)的一個(gè)特別節(jié)點(diǎn)http://www.ebi.ac.uk/(主頁(yè))http://www2.ebi.ac.uk/(工具)http://www3.ebi.ac.uk/(服務(wù))第四頁(yè),共一百一十五頁(yè),編輯于2023年,星期三NIG日本國(guó)立遺傳學(xué)研究所(NationalInstituteofGenetics)創(chuàng)立于1949年7月1日,屬文部省管轄信息服務(wù)始于1984年維護(hù)管理著DDBJ1987年1月發(fā)行DDBJ第一版http://www.nig.ac.jp第五頁(yè),共一百一十五頁(yè),編輯于2023年,星期三其他重要中心HHMI(HowardHughesMedicalInstitute)[美]MIPS(MunichInformationCenterforProteinSequences)[德]SIB(SwissInstituteofBioinformatics)[瑞士]SWISS-PROT,ExPASy,ENZYME,…NCGR[美],JIPID[日],HGMP[英],BioBase[丹],…第六頁(yè),共一百一十五頁(yè),編輯于2023年,星期三二、數(shù)據(jù)庫(kù)目錄第七頁(yè),共一百一十五頁(yè),編輯于2023年,星期三NAR數(shù)據(jù)庫(kù)專輯從1994年開(kāi)始,《核酸研究》雜志(NeucleicAcidsResearch)每年第一期是生物數(shù)據(jù)庫(kù)專輯每個(gè)專輯大約介紹100多種庫(kù)從2000年起,該雜志的出版社(牛津大學(xué)出版社)設(shè)立了一個(gè)數(shù)據(jù)庫(kù)目錄網(wǎng)頁(yè)第八頁(yè),共一百一十五頁(yè),編輯于2023年,星期三其他數(shù)據(jù)庫(kù)列表NIH全球數(shù)據(jù)庫(kù)列表/molbio/db.htmlCBI的生物數(shù)據(jù)庫(kù)鏡像列表/help/dwut.html第九頁(yè),共一百一十五頁(yè),編輯于2023年,星期三三、常用序列格式第十頁(yè),共一百一十五頁(yè),編輯于2023年,星期三FASTA序列格式也叫Pearson格式簡(jiǎn)單使用最多例子(單序列)>NameofthesequencectgcgagNcgcgcgatgatagMMM-NNNnnnnatgancgcggcgagcatgtagcatgctagctgtcgcgagcactUUUURRRrrrrrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVvvvcgtaggcagccgcc“-”表示間隔第十一頁(yè),共一百一十五頁(yè),編輯于2023年,星期三多序列FASTA>sequence1,E.colictgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgctagctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgcc>sequence2,B.subtilisctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgctagctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgcc>sequence3,B.nattoctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgctagctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc第十二頁(yè),共一百一十五頁(yè),編輯于2023年,星期三FASTA序列格式中的核苷酸表示法A腺嘌呤(adenosine)MA或C(amino)C胞嘧啶(cytidine)SG或C(strong)G鳥(niǎo)嘌呤(guanine)WA或T(weak)T胸腺嘧啶(thymidine)BG或T或CU尿嘧啶(uridine)DG或A或TRG或A(purine)HA或C或TYT或C(pyrimidine)VG或C或AKG或T(keto)NA或G或C或T(any)–不確定長(zhǎng)度間隔第十三頁(yè),共一百一十五頁(yè),編輯于2023年,星期三FASTA序列格式中的氨基酸表示法A丙(alanine)P脯(proline)BD或NQ谷氨酰胺(glutamine)C半胱(cystine)R精(arginine)D天冬(asparticacid)S絲(serine)E谷(glutamicacid)T蘇(threonine)F苯丙(phenylalanine)U硒代半胱(selenocysteine)G甘(glycine)V纈(valine)H組(histidine)W色(tryptophan)I異亮(isoleucine)Y酪(tyrosine)K賴(lysine)ZE或QL亮(leucine)X任何氨基(any)M甲硫(methionine)*翻譯終止(translationstop)N天冬酰胺(asparagine)–不確定長(zhǎng)度間隔第十四頁(yè),共一百一十五頁(yè),編輯于2023年,星期三PHYLIP序列格式例子515Sequence1agctggcttaaggccSequence2tcggactagagaatcSequence3gggacattacga--tSequence4gaataactag-gactSequence5ag--gatagaag第一行:序列數(shù)和序列長(zhǎng)度(包括間隔)每一條序列長(zhǎng)度相等第十五頁(yè),共一百一十五頁(yè),編輯于2023年,星期三四、核酸數(shù)據(jù)庫(kù)第十六頁(yè),共一百一十五頁(yè),編輯于2023年,星期三國(guó)際核苷酸序列數(shù)據(jù)庫(kù)聯(lián)盟InternationalNucleotideSequenceDatabaseCollaboration(INSDC)包括GenBank [美]/GenbankEMBL [歐]http://www.ebi.ac.uk/embl/
DDBJ [日]http://www.ddbj.nig.ac.jp/
每天這三個(gè)數(shù)據(jù)庫(kù)作數(shù)據(jù)同步操作在任何一個(gè)數(shù)據(jù)庫(kù)操作(查找、投遞數(shù)據(jù)等)是等效的第十七頁(yè),共一百一十五頁(yè),編輯于2023年,星期三GenBank
主頁(yè)第十八頁(yè),共一百一十五頁(yè),編輯于2023年,星期三GenBank結(jié)構(gòu)GenBank包括三個(gè)子數(shù)據(jù)庫(kù)CoreNucleotidedbESTdbGSS其中CoreNucleotide還分為更小的BLAST數(shù)據(jù)庫(kù)nrhtgswgsenv_nt第十九頁(yè),共一百一十五頁(yè),編輯于2023年,星期三GenBank查詢(1)已知收錄號(hào)(accessionnumber)的情況選數(shù)據(jù)庫(kù)輸入收錄號(hào)查詢結(jié)果摘要點(diǎn)擊查看詳細(xì)結(jié)果第二十頁(yè),共一百一十五頁(yè),編輯于2023年,星期三GenBank查詢查看詳細(xì)結(jié)果DNA第二十一頁(yè),共一百一十五頁(yè),編輯于2023年,星期三第二十二頁(yè),共一百一十五頁(yè),編輯于2023年,星期三GenBank查詢:Protein第二十三頁(yè),共一百一十五頁(yè),編輯于2023年,星期三GenBank序列格式注釋部分序列部分LOCUSAY513897470bpDNAlinearPLN14-JUN-2004DEFINITIONZeamayssubsp.parviglumisvoucherPI331789RFLPmarkercsu1171.ACCESSIONAY513897VERSIONAY513897.1GI:42405706KEYWORDS.SOURCEZeamayssubsp.parviglumis
ORGANISMZeamayssubsp.parviglumisEukaryota;Viridiplantae;Streptophyta;Embryophyta;Tracheophyta;Spermatophyta;Magnoliophyta;Liliopsida;Poales;Poaceae;PACCADclade;Panicoideae;Andropogoneae;Zea.REFERENCE1(bases1to470)
AUTHORSTenaillon,M.I.,U'Ren,J.,Tenaillon,O.andGaut,B.S.
TITLESelectionVersusDemography:AMultilocusInvestigationoftheDomesticationProcessinMaize
JOURNALMol.Biol.Evol.21(7),1214-1225(2004)
PUBMED15014173REFERENCE2(bases1to470)
AUTHORSTenaillon,M.I.,U'Ren,J.,Tenaillon,O.andGaut,B.S.
TITLEDirectSubmission
JOURNALSubmitted(23-DEC-2003)EcologyandEvolutionaryBiology,UCIrvine,321SteinhausHall,Irvine,CA92697,USAFEATURESLocation/Qualifierssource1..470/organism="Zeamayssubsp.parviglumis"/mol_type="genomicDNA"/cultivar="BenitoJuarez"/sub_species="parviglumis"/specimen_voucher="PI331789(USDA/NCRPIS)"/db_xref="taxon:76912"/chromosome="1"/country="Mexico"misc_feature1..470/note="RFLPmarkercsu1171"ORIGIN
1cagactacgctgaaggcatggtttcttctcagtgtcattcatgctctaaatttgaaattc61aatataggttgtcagcgactacgaaagtttttattgacgatcctcttgcgattctgcagc121tatcaaaggaataaagaccagccaaagacctctagctgtagccgcataaggagctggacg181tgtaatcatttactctgtgcaagtttaccagtgatgcgatctgtatagatgtgtgtcttg241tccagccatacgtataccggagatgaaaggagatggaggcagtgaagaaatatccttttt301tttttcttctcatttttcacgaggatgcggtgcactgctcccagaatgctgtgtccaatt361tacaaacgcacaggtggcatatgaactagcagagtagctttatcttgaaaggaaactgta421tttggggtcgatgaaccctctggtgttattcttcagactggtaaacgatg//第二十四頁(yè),共一百一十五頁(yè),編輯于2023年,星期三GenBank查詢利用Entrezbrowser來(lái)查詢各種數(shù)據(jù)(集成搜索工具)Entrez是美國(guó)國(guó)家生物技術(shù)信息中心所提供的在線資源檢索器。該資源將GenBank序列與其原始文獻(xiàn)出處鏈接在一起。Entrez是由NCBI主持的一個(gè)數(shù)據(jù)庫(kù)檢索系統(tǒng)。第二十五頁(yè),共一百一十五頁(yè),編輯于2023年,星期三第二十六頁(yè),共一百一十五頁(yè),編輯于2023年,星期三向GenBank投遞序列GenBank提供多種工具投遞序列,如BankIt(網(wǎng)上投遞)
適于少量的、注釋簡(jiǎn)單的序列投遞Sequin(本地投遞;軟件)
適于大量的、復(fù)雜的序列投遞 可投遞變異、種系發(fā)生、群體數(shù)據(jù)集 圖形界面操作 選項(xiàng)多、功能強(qiáng) 可向GenBank,EMBL,DDBJ中的任一數(shù)據(jù)庫(kù)投遞第二十七頁(yè),共一百一十五頁(yè),編輯于2023年,星期三BankIt第二十八頁(yè),共一百一十五頁(yè),編輯于2023年,星期三Sequin第二十九頁(yè),共一百一十五頁(yè),編輯于2023年,星期三EMBL
主頁(yè)第三十頁(yè),共一百一十五頁(yè),編輯于2023年,星期三DDBJ主頁(yè)第三十一頁(yè),共一百一十五頁(yè),編輯于2023年,星期三BioSino是中國(guó)自主開(kāi)發(fā)的核酸序列公共數(shù)據(jù)庫(kù)發(fā)表我國(guó)學(xué)者提供的核酸序列,并接受注冊(cè)登記有CDNAP和DDIB兩個(gè)產(chǎn)品//DIDWeb/index.html第三十二頁(yè),共一百一十五頁(yè),編輯于2023年,星期三DNA結(jié)構(gòu)數(shù)據(jù)庫(kù)CUTG(CodonUsageTabulatedfromGenBank,密碼子使用頻度表)[日]EPD(EukaryoticPromotorDatabase,真核生物啟動(dòng)子數(shù)據(jù)庫(kù))[歐]TRANSFAC(真核生物基因表達(dá)調(diào)控因子的數(shù)據(jù)庫(kù))[德]RepBase(重復(fù)序列),MicroSatellite(微衛(wèi)星),COMPEL(復(fù)合元件),MPDB(分子探針),dbSTS,dbEST,NDB(晶體),VectorDB(載體),EID(外顯內(nèi)含子),ASDB(剪接),…第三十三頁(yè),共一百一十五頁(yè),編輯于2023年,星期三RNA序列和核糖體數(shù)據(jù)庫(kù)TheRNASocietysnoRNAsmallRNARNAsePtmRNAgRNA(guideRNA)TransTerm(mRNA)ncRNA(non-coding)RNAmods(modification)tRNA,uRNADB,RDP,SSUrRNA,…第三十四頁(yè),共一百一十五頁(yè),編輯于2023年,星期三基因圖譜數(shù)據(jù)庫(kù)RHdb(輻射雜交;人、鼠)MouseRHGDB(人類)GeneMap(人類;NCBI)第三十五頁(yè),共一百一十五頁(yè),編輯于2023年,星期三GDB(人類基因組)GDB代謝數(shù)據(jù)庫(kù)HGVbase[瑞典](變異,雙等位序列)HGMD[英](變異)hum-molgen(分子遺傳)OMIM(遺傳,變異)HUGE[日](未經(jīng)證實(shí)的編碼基因)CEPHGenotype[法](SNP)、p53[法]HIB[德](來(lái)自UniGene)人類基因組相關(guān)數(shù)據(jù)庫(kù)第三十六頁(yè),共一百一十五頁(yè),編輯于2023年,星期三其他模式生物的基因組數(shù)據(jù)庫(kù)DOGSDatabaseofGenomeSizes[丹麥]綜合線蟲(chóng)ACeDB,Sanger果蠅FlyBase,Berkeley小鼠MGD,Japan酵母Stanford,MIPS狗Berkeley大腸桿菌WISC第三十七頁(yè),共一百一十五頁(yè),編輯于2023年,星期三五、蛋白數(shù)據(jù)庫(kù)第三十八頁(yè),共一百一十五頁(yè),編輯于2023年,星期三一級(jí)結(jié)構(gòu)二級(jí)結(jié)構(gòu)三級(jí)結(jié)構(gòu)第三十九頁(yè),共一百一十五頁(yè),編輯于2023年,星期三多級(jí)蛋白序列數(shù)據(jù)庫(kù)結(jié)構(gòu)一級(jí)(次)序列數(shù)據(jù)庫(kù)PIR(全面,注釋少),MIPS,SWISS-PROT(注釋多),TrEMBL,NRL-3D(三維)序列復(fù)合數(shù)據(jù)庫(kù):NRDB(NCBI,全,更新快),OWL(注釋多,冗余低),MIPSX,SWISS-PROT+TrEMBL(冗余更低)二級(jí)(次)序列數(shù)據(jù)庫(kù)PROSITE(motif,MSA),PRINTS(motifs,MSA),BLOCKS(非正則表達(dá)式),Profile(全序列),Pfam(HMM)三級(jí)(次)序列數(shù)據(jù)庫(kù):INDENTIFY第四十頁(yè),共一百一十五頁(yè),編輯于2023年,星期三SWISS-PROT蛋白數(shù)據(jù)庫(kù)最重要的是瑞士的SWISS-PROT和美、德、日合建的PIRSWISS-PROT對(duì)數(shù)據(jù)人工審核非常嚴(yán)格只有實(shí)際存在的蛋白質(zhì)才被收入每一條數(shù)據(jù)都有詳細(xì)注釋包括功能、結(jié)構(gòu)域、翻譯后的修飾等還有齊全的引文、到許多其他數(shù)據(jù)庫(kù)的鏈接冗余度很低http://www.expasy.ch/sprot
第四十一頁(yè),共一百一十五頁(yè),編輯于2023年,星期三TrEMBLTrEMBL是由EMBL庫(kù)中的核酸序列翻譯出來(lái)的氨基酸序列已完成計(jì)算機(jī)注釋但尚未完成人工審核是SWISS-PROT的補(bǔ)充ftp://ftp.ebi.ac.uk/pub/databases/trembl/第四十二頁(yè),共一百一十五頁(yè),編輯于2023年,星期三PIR(1)蛋白質(zhì)信息資源(proteininformationresource)是一個(gè)國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(kù)包含所有序列已知的自然界中野生型蛋白質(zhì)的信息提供按同源性和分類學(xué)組織的、綜合的、非冗余的數(shù)據(jù)庫(kù)由NBRF(美)、MIPS(德)、JIPID(日)共同維護(hù)第四十三頁(yè),共一百一十五頁(yè),編輯于2023年,星期三PIR(2)1984年建立,每周更新內(nèi)容分四級(jí)PIR1完全分類清楚PIR2已檢查和分類PIR3未檢查PIR4未解碼翻譯/第四十四頁(yè),共一百一十五頁(yè),編輯于2023年,星期三PROSITE數(shù)據(jù)來(lái)源于SWISS-PROT經(jīng)生物專家審編,是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫(kù)包含有生物學(xué)意義的位點(diǎn)(site)、模式(pattern)、輪廓(profile)可幫助判斷新發(fā)現(xiàn)的序列是否屬于已有的蛋白家族http://www.expasy.ch/prosite/第四十五頁(yè),共一百一十五頁(yè),編輯于2023年,星期三由EBI和瑞士創(chuàng)辦有詳細(xì)注釋的序列,數(shù)據(jù)來(lái)源于實(shí)驗(yàn)與44個(gè)數(shù)據(jù)庫(kù)相互參照(cross-reference)數(shù)據(jù)庫(kù)主頁(yè)http://www.ebi.ac.uk/swissprot/點(diǎn)擊Access在DatabaseAccess網(wǎng)頁(yè)選擇數(shù)據(jù)庫(kù)、輸入關(guān)鍵詞檢索到的條目第四十六頁(yè),共一百一十五頁(yè),編輯于2023年,星期三酶數(shù)據(jù)庫(kù)酶的EC號(hào)已經(jīng)清楚的酶被賦予一個(gè)有4個(gè)數(shù)字的號(hào)碼如,腺三磷酶(ATPase)的EC號(hào)是7ENZYME資源:EC號(hào),分類,學(xué)名,俗名,所催化的反應(yīng),來(lái)源,功能,輔助因子,文獻(xiàn),代謝圖http://www.expasy.ch/enzymeBRENDA(內(nèi)容廣泛的酶數(shù)據(jù)庫(kù))http://www.brenda.uni-koeln.de/第四十七頁(yè),共一百一十五頁(yè),編輯于2023年,星期三PDB(proteindatabank)(1)是重要的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)包含實(shí)驗(yàn)(X射線晶體衍射,核磁共振NMR,電子顯微鏡等)測(cè)定的生物大分子的三維結(jié)構(gòu)大分子包括蛋白質(zhì),核酸,蛋白復(fù)合體等1971年始建于美國(guó)布魯克海文國(guó)家實(shí)驗(yàn)室1998年起管理交給了RCSBRCSB是結(jié)構(gòu)生物學(xué)合作研究組織第四十八頁(yè),共一百一十五頁(yè),編輯于2023年,星期三PDB(2)PDBID一個(gè)四位的含有數(shù)字和字母的代號(hào)如,”9ins”代表insulin檢索可按多種方法檢索:PDBID,名稱等等高級(jí)檢索第四十九頁(yè),共一百一十五頁(yè),編輯于2023年,星期三PDB(3)檢索結(jié)果第五十頁(yè),共一百一十五頁(yè),編輯于2023年,星期三PDB(4)數(shù)據(jù)格式
(簡(jiǎn)化)HEADERHORMONE23-OCT-919INS9INS2TITLEMONOVALENTCATIONBINDINGINCUBICINSULINCRYSTALS9INSA2COMPNDINSULIN9INS3SOURCEPIG(SUS$SCROFA)9INS4KEYWDSHORMONE9INSA4EXPDTAX-RAYDIFFRACTION9INSB4AUTHORJ.BADGER,G.G.DODSON9INS5REVDAT204-MAY-049INS1TITLEKEYWDSEXPDTAREVDAT9INSA5REVDAT107-NOV-919INS09INS6REMARK19INS7REMARK1REFERENCE19INS8REMARK1AUTHO.GURSKY,Y.LI,J.BADGER,D.L.D.CASPAR9INS9REMARK1REFTOBEPUBLISHED9INS12REMARK1REFN3539INS13REMARK29INS32REMARK2RESOLUTION.1.7ANGSTROMS.9INS33REMARK39INS34REMARK3CHIIIANGLES26.8(20.0)9INS57REMARK49INS58REMARK4SOLVENTVOLUMEIS64PERCENTOFTHECRYSTALVOLUME.9INS63REMARK59INS64REMARK5ENTRYSUPERSEDE5INS.9INS76SEQRES1A21GLYILEVALGLUGLNCYSCYSTHRSERILECYSSERLEU9INS77SEQRES2A21TYRGLNLEUGLUASNTYRCYSASN9INS78SEQRES1B30PHEVALASNGLNHISLEUCYSGLYSERHISLEUVALGLU9INS79SEQRES2B30ALALEUTYRLEUVALCYSGLYGLUARGGLYPHEPHETYR9INS80SEQRES3B30THRPROLYSALA9INS81FTNOTE19INS82FTNOTE29INS86FTNOTE2SEEREMARK5.9INS87FORMUL3HOH*81(H2O1)9INS88HELIX1A11GLYA1ILEA1019INS89HELIX2A12SERA12GLUA1759INS90HELIX3B11SERB9GLYB2019INS91TURN11B1CYSB19ARGB229INS92TURN21B2GLYB20GLYB239INS93SSBOND1CYSA6CYSA119INS94SSBOND2CYSA7CYSB79INS95SSBOND3CYSA20CYSB199INS96CRYST178.90078.90078.90090.0090.0090.00I213249INS97ORIGX11.0000000.0000000.0000000.000009INS98ORIGX20.0000001.0000000.0000000.000009INS99ORIGX30.0000000.0000001.0000000.000009INS100SCALE10.0126740.0000000.0000000.000009INS101SCALE20.0000000.0126740.0000000.000009INS102SCALE30.0000000.0000000.0126740.000009INS103ATOM1NGLYA113.74947.13332.1721.0029.449INS104ATOM2CAGLYA113.95046.14531.0921.0027.619INS105ATOM3CGLYA115.30645.45731.2621.0038.429INS106TER453ALAB309INS556HETATM454OHOH122.10433.47337.9831.0016.569INS557HETATM455OHOH218.60942.63638.4140.506.399INS558HETATM456OHOH320.80332.20720.5331.0028.109INS559CONECT4342769INS638CONECT49482419INS639MASTER7060302065322659INS644END9INS645第五十一頁(yè),共一百一十五頁(yè),編輯于2023年,星期三Pfam蛋白域數(shù)據(jù)庫(kù)五個(gè)官方鏡像(US,UK,Swe,Fr,Ko)基于HMMER(SeanEddy)pfam數(shù)據(jù)庫(kù)是一個(gè)蛋白質(zhì)家族大集合,依賴于由多序列比對(duì)和隱馬爾可夫模型(HMMs的)。蛋白質(zhì)中,一般由一個(gè)或多個(gè)功能區(qū)構(gòu)成,這些區(qū)通常被稱為域。結(jié)構(gòu)域的不同組合方式產(chǎn)生的蛋白質(zhì)在自然界中各種不同。蛋白結(jié)構(gòu)域的鑒別對(duì)分析蛋白質(zhì)的功能來(lái)說(shuō)尤其重要。
第五十二頁(yè),共一百一十五頁(yè),編輯于2023年,星期三Pfam主頁(yè)[美]第五十三頁(yè),共一百一十五頁(yè),編輯于2023年,星期三Pfam搜索蛋白域第五十四頁(yè),共一百一十五頁(yè),編輯于2023年,星期三Pfam搜索結(jié)果可進(jìn)一步點(diǎn)擊查看蛋白家族第五十五頁(yè),共一百一十五頁(yè),編輯于2023年,星期三蛋白質(zhì)組學(xué)數(shù)據(jù)庫(kù)COG/COG/蛋白質(zhì)直系同源聚類數(shù)據(jù)庫(kù)BIOBASE的蛋白質(zhì)組數(shù)據(jù)庫(kù)群http://www.biobase.de/pages/index.php?id=38HumanPSD(人)YPD,PombePD(酵母)WormPD(線蟲(chóng))第五十六頁(yè),共一百一十五頁(yè),編輯于2023年,星期三七、其他數(shù)據(jù)庫(kù)第五十七頁(yè),共一百一十五頁(yè),編輯于2023年,星期三TIGR基因組研究所(TheInstituteforGenomicResearch)是重要的測(cè)序中心1992年建立1995年參與完成首次全基因組測(cè)序(流感嗜血桿菌)擁有世界最大的cDNA數(shù)據(jù)庫(kù)之一/第五十八頁(yè),共一百一十五頁(yè),編輯于2023年,星期三比較基因組學(xué)數(shù)據(jù)庫(kù)Genecensus耶魯大學(xué)基因組比較數(shù)據(jù)庫(kù)著重于折疊單元的結(jié)構(gòu)對(duì)比/genome第五十九頁(yè),共一百一十五頁(yè),編輯于2023年,星期三基因表達(dá)數(shù)據(jù)庫(kù)Flyview[德]果蠅NEXTDB[日]線蟲(chóng)MAGEST[日]海鞘BodyMap[日]人,小鼠AxelDB[法]非洲爪蟾TRIPLES[Yale]酵母EpoDB[美]脊椎動(dòng)物紅細(xì)胞toothexp[芬]牙齒第六十頁(yè),共一百一十五頁(yè),編輯于2023年,星期三HGMD人類基因突變Collagen人類膠原ALFRED人口多樣性、DNA多態(tài)性KMDB人類疾病有關(guān)的基因突變?nèi)毡緫c應(yīng)大學(xué)醫(yī)學(xué)院KMearDB,KMeyeDB,KMheartDB,KMbrainDB,KMcancerDB,…OMIA動(dòng)物Atlas[法]腫瘤,血液,細(xì)胞基因突變、病理和免疫數(shù)據(jù)庫(kù)第六十一頁(yè),共一百一十五頁(yè),編輯于2023年,星期三代謝途徑和細(xì)胞調(diào)控?cái)?shù)據(jù)庫(kù)WIT
EMP
MPW[美]代謝Boehringer
Mannheim
[瑞士]著名代謝掛圖BioCyc
EcoCyc
大腸桿菌MetaCyc
微生物,…KEGG[日]核酸,蛋白,表達(dá),基因組,代謝LIGAND[日]酶反應(yīng)第六十二頁(yè),共一百一十五頁(yè),編輯于2023年,星期三農(nóng)牧林相關(guān)數(shù)據(jù)庫(kù)AgDB[美]農(nóng)業(yè)資源總清單UKCropNet[英]農(nóng)作物INE[日]水稻TreeGenesChickG
BASEPiGBASEDogMap第六十三頁(yè),共一百一十五頁(yè),編輯于2023年,星期三生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)MEDLINE3800多種生物醫(yī)學(xué)期刊(通過(guò)PubMed查詢)SCIISI提供的文獻(xiàn)引用檢索(收費(fèi))第六十四頁(yè),共一百一十五頁(yè),編輯于2023年,星期三其他數(shù)據(jù)庫(kù)Taxonomy分類學(xué)ETI生物多樣性TAED脊索動(dòng)物,植物的適應(yīng)性進(jìn)化RegTransBase原核生物轉(zhuǎn)錄調(diào)節(jié)第六十五頁(yè),共一百一十五頁(yè),編輯于2023年,星期三Taxonomy主頁(yè)可編程或者點(diǎn)擊這里第六十六頁(yè),共一百一十五頁(yè),編輯于2023年,星期三Taxonomy搜索結(jié)果第六十七頁(yè),共一百一十五頁(yè),編輯于2023年,星期三Taxonomy搜索結(jié)果(單個(gè)物種)第六十八頁(yè),共一百一十五頁(yè),編輯于2023年,星期三序列相似性查詢軟件BLAST第六十九頁(yè),共一百一十五頁(yè),編輯于2023年,星期三生物序列的相似性相似性(similarity):
是指一種很直接的數(shù)量關(guān)系,比如部分相同或相似的百分比或其它一些合適的度量。比如說(shuō),A序列和B序列的相似性是80%,或者4/5。這是個(gè)量化的關(guān)系。當(dāng)然可進(jìn)行自身局部比較。第七十頁(yè),共一百一十五頁(yè),編輯于2023年,星期三同源性(homology):
指從一些數(shù)據(jù)中推斷出的兩個(gè)基因或蛋白質(zhì)序列具而共同祖先的結(jié)論,屬于質(zhì)的判斷。就是說(shuō)A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而說(shuō)A和B的同源性為80%都是不科學(xué)的。生物序列的同源性第七十一頁(yè),共一百一十五頁(yè),編輯于2023年,星期三相似性和同源性關(guān)系序列的相似性和序列的同源性有一定的關(guān)系,一般來(lái)說(shuō)序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經(jīng)??梢酝ㄟ^(guò)序列的相似性來(lái)推測(cè)序列是否同源。正因?yàn)榇嬖谶@樣的關(guān)系,很多時(shí)候?qū)π蛄械南嗨菩院屯葱跃蜎](méi)有做很明顯的區(qū)分,造成經(jīng)常等價(jià)混用兩個(gè)名詞。所以有出現(xiàn)A序列和B序列的同源性為80%一說(shuō)。第七十二頁(yè),共一百一十五頁(yè),編輯于2023年,星期三序列相似性比較和序列同源性分析序列相似性比較:就是將待研究序列與DNA或蛋白質(zhì)序列庫(kù)進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;序列同源性分析:是將待研究序列加入到一組與之同源,但來(lái)自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;第七十三頁(yè),共一百一十五頁(yè),編輯于2023年,星期三BLAST簡(jiǎn)介BLAST是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)開(kāi)發(fā)的一個(gè)基于序列相似性的數(shù)據(jù)庫(kù)搜索程序。BLAST是“局部相似性基本查詢工具”(BasicLocalAlignmentSearchTool)的縮寫。/Blast.cgi第七十四頁(yè),共一百一十五頁(yè),編輯于2023年,星期三Blast是一個(gè)序列相似性搜索的程序包,其中包含了很多個(gè)獨(dú)立的程序,這些程序是根據(jù)查詢的對(duì)象和數(shù)據(jù)庫(kù)的不同來(lái)定義的。如果查詢的序列為核酸,查詢數(shù)據(jù)庫(kù)亦為核酸序列數(shù)據(jù)庫(kù),那么就應(yīng)該選擇blastn程序。如果查詢的序列為蛋白質(zhì),查詢數(shù)據(jù)庫(kù)亦為蛋白質(zhì)序列數(shù)據(jù)庫(kù),那么就應(yīng)該選擇blastp程序。程序名p查詢序列i數(shù)據(jù)庫(kù)d搜索方法Blastn核酸核酸核酸序列搜索逐一核酸數(shù)據(jù)庫(kù)中的序列Blastp蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)序列搜索逐一蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列Blastx核酸蛋白質(zhì)核酸序列6框翻譯成蛋白質(zhì)序列后和蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列逐一搜索。TBlastn蛋白質(zhì)核酸蛋白質(zhì)序列和核酸數(shù)據(jù)庫(kù)中的核酸序列6框翻譯后的蛋白質(zhì)序列逐一比對(duì)。TBlastx核酸核酸核酸序列6框翻譯成蛋白質(zhì)序列,與核酸數(shù)據(jù)庫(kù)中核酸序列6框翻譯成的蛋白質(zhì)序列逐一進(jìn)行比對(duì)。第七十五頁(yè),共一百一十五頁(yè),編輯于2023年,星期三Blast資源1.NCBI主站點(diǎn):
/BLAST/(網(wǎng)絡(luò)版)
/blast/(單機(jī)版)2.其他站點(diǎn):
/blast/
http://nema.cap.ed.ac.uk/ncbi_blast.html
/blast/(果蠅)第七十六頁(yè),共一百一十五頁(yè),編輯于2023年,星期三Blast結(jié)果給出的信息Blast結(jié)果會(huì)列出跟查詢序列相似性比較高,符合限定要求的序列結(jié)果,根據(jù)這些結(jié)果可以獲取以下一些信息:查詢序列可能具有某種功能查詢序列可能是來(lái)源于某個(gè)物種查詢序列可能是某種功能基因的同源基因這些信息都可以應(yīng)用到后續(xù)分析中。第七十七頁(yè),共一百一十五頁(yè),編輯于2023年,星期三兩種版本的Blast比較網(wǎng)絡(luò)版本包括NCBI在內(nèi)的很多網(wǎng)站都提供了在線的blast服務(wù),這也是我們最經(jīng)常用到的blast服務(wù)。網(wǎng)絡(luò)版本的blast服務(wù)就有方便,容易操作,數(shù)據(jù)庫(kù)同步更新等優(yōu)點(diǎn)。但是缺點(diǎn)是不利于操作大批量的數(shù)據(jù),同時(shí)也不能自己定義搜索的數(shù)據(jù)庫(kù)。單機(jī)版 單機(jī)版的blast可以通過(guò)NCBI的ftp站點(diǎn)獲得,有適合不同平臺(tái)的版本(包括linux,dos等)。獲得程序的同時(shí)必須獲取相應(yīng)的數(shù)據(jù)庫(kù)才能在本地進(jìn)行blast分析。單機(jī)版的優(yōu)點(diǎn)是可以處理大批的數(shù)據(jù),可以自己定義數(shù)據(jù)庫(kù),但是需要耗費(fèi)本地機(jī)的大量資源,此外操作也沒(méi)有網(wǎng)絡(luò)版直觀、方便,需要一定的計(jì)算機(jī)操作水平。第七十八頁(yè),共一百一十五頁(yè),編輯于2023年,星期三本地WEB版的BLAST
在NCBI的FTP上,在blast程序的目錄下,還提供了一種供用戶在自己的服務(wù)器上建立Blast網(wǎng)頁(yè)服務(wù)的軟件包(wwwblast)。使用該軟件包,用戶可以建立一個(gè)簡(jiǎn)易的進(jìn)行Blast運(yùn)算的網(wǎng)站供實(shí)驗(yàn)室人員使用。用于搜索的數(shù)據(jù)庫(kù)同樣可以靈活的定義。第七十九頁(yè),共一百一十五頁(yè),編輯于2023年,星期三Blast程序評(píng)價(jià)序列相似性的兩個(gè)數(shù)據(jù)Score:使用打分矩陣對(duì)匹配的片段進(jìn)行打分,這是對(duì)各對(duì)氨基酸殘基(或堿基)打分求和的結(jié)果,一般來(lái)說(shuō),匹配片段越長(zhǎng)、相似性越高則Score值越大。Evalue:在相同長(zhǎng)度的情況下,兩個(gè)氨基酸殘基(或堿基)隨機(jī)排列的序列進(jìn)行打分,得到上述Score值的概率的大小。E值越小表示隨機(jī)情況下得到該Score值的可能性越低。第八十頁(yè),共一百一十五頁(yè),編輯于2023年,星期三網(wǎng)絡(luò)BLAST使用流程第八十一頁(yè),共一百一十五頁(yè),編輯于2023年,星期三基因組根據(jù)需要選擇程序第八十二頁(yè),共一百一十五頁(yè),編輯于2023年,星期三序列范圍(默認(rèn)全部)填入查詢(query)的序列選擇搜索數(shù)據(jù)庫(kù)如果接受其他參數(shù)默認(rèn)設(shè)置,點(diǎn)擊開(kāi)始搜索第八十三頁(yè),共一百一十五頁(yè),編輯于2023年,星期三一些過(guò)濾選項(xiàng),包括簡(jiǎn)單重復(fù)序列,人類基因組中的重復(fù)序列等E值上限窗口大小一次顯示的結(jié)果數(shù)目打分選項(xiàng)第八十四頁(yè),共一百一十五頁(yè),編輯于2023年,星期三遞交序列長(zhǎng)度第八十五頁(yè),共一百一十五頁(yè),編輯于2023年,星期三比對(duì)結(jié)果提交序列信息其他形式結(jié)果第八十六頁(yè),共一百一十五頁(yè),編輯于2023年,星期三第八十七頁(yè),共一百一十五頁(yè),編輯于2023年,星期三比對(duì)得分提交序列的覆蓋率期望值e匹配序列編號(hào)匹配序列描述第八十八頁(yè),共一百一十五頁(yè),編輯于2023年,星期三相似程度最高的序列第八十九頁(yè),共一百一十五頁(yè),編輯于2023年,星期三BLAST流程1.登陸blast主頁(yè)/Blast.cgi2.根據(jù)數(shù)據(jù)類型,選擇合適的程序3.填寫表單信息4.提交任務(wù)5.查看和分析結(jié)果第九十頁(yè),共一百一十五頁(yè),編輯于2023年,星期三單機(jī)版BLAST軟件包使用說(shuō)明第九十一頁(yè),共一百一十五頁(yè),編輯于2023年,星期三為什么使用單機(jī)版BLAST? 特殊的數(shù)據(jù)庫(kù)要求。 涉及序列的隱私與價(jià)值。 批量處理 ·························第九十二頁(yè),共一百一十五頁(yè),編輯于2023年,星期三BLAST程序的下載:/blast/executables/release/根據(jù)系統(tǒng)選擇程序版本第九十三頁(yè),共一百一十五頁(yè),編輯于2023年,星期三BLAST程序的安裝:解壓后自動(dòng)生成3個(gè)文件夾:bin,data,doc幾個(gè)重要程序:formatdb.exeblastall.exe第九十四頁(yè),共一百一十五頁(yè),編輯于2023年,星期三BLAST的使用:
1.打開(kāi)MS-DOS窗口
2.進(jìn)入BLAST軟件包目錄第九十五頁(yè),共一百一十五頁(yè),編輯于2023年,星期三BLAST的使用:把將要比對(duì)的序列(query)文件和數(shù)據(jù)庫(kù)文件copy到/bin文件夾中序列文件可以是單個(gè)序列也可以是多個(gè)序列;序列格式使用fasta格式序列文件說(shuō)明:
prothe.txt:Clostridiumthermocellum基因組蛋白質(zhì)序列
genthe.txt:Clostridiumthermocellum基因組核酸序列
p825.txt:未知基因的蛋白質(zhì)序列
n825.txt:位置基因的核酸序列
GHpro.txt:多個(gè)糖苷水解酶的蛋白質(zhì)序列第九十六頁(yè),共一百一十五頁(yè),編輯于2023年,星期三BLAST的使用:1.格式化數(shù)據(jù)庫(kù)文件 formatdb.exe
第九十七頁(yè),共一百一十五頁(yè),編輯于2023年,星期三B
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 河北省保定曲陽(yáng)2024-2025學(xué)年四下數(shù)學(xué)期末檢測(cè)試題含解析
- 河南開(kāi)封科技傳媒學(xué)院《應(yīng)用統(tǒng)計(jì)軟件》2023-2024學(xué)年第二學(xué)期期末試卷
- 超聲波在智能交通系統(tǒng)中的應(yīng)用
- 陜西職業(yè)技術(shù)學(xué)院《商業(yè)環(huán)境設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 江漢大學(xué)《汽車輕量化技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 南京郵電大學(xué)通達(dá)學(xué)院《空間數(shù)據(jù)采集與管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 涂料干燥后硬度檢測(cè)方法
- 南京財(cái)經(jīng)大學(xué)《貴金屬及鑒別》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024-2025學(xué)年霞浦縣小升初數(shù)學(xué)綜合練習(xí)卷含解析
- 于都縣2025屆三下數(shù)學(xué)期末質(zhì)量檢測(cè)模擬試題含解析
- 《大學(xué)物理矢量》課件
- 中醫(yī)藥文化知識(shí)培訓(xùn)課件
- 2024年漢中職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)有答案解析
- 2025中智集團(tuán)招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- 新疆所有煤礦基本信息
- DB33T 2515-2022 公共機(jī)構(gòu)“零碳”管理與評(píng)價(jià)規(guī)范
- 通站(2017)8012 鐵路站場(chǎng)排水構(gòu)筑物
- 2024-2025學(xué)年上學(xué)期上海初中英語(yǔ)七年級(jí)期末模擬試卷2
- 極端天氣下的新能源電力系統(tǒng)電力電量平衡體系
- 成人重癥患者人工氣道濕化護(hù)理專家共識(shí)解讀教學(xué)課件
- 教育技術(shù)學(xué)導(dǎo)論 黃榮懷(第2版)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
評(píng)論
0/150
提交評(píng)論