生物信息數(shù)據(jù)庫演示文稿_第1頁
生物信息數(shù)據(jù)庫演示文稿_第2頁
生物信息數(shù)據(jù)庫演示文稿_第3頁
生物信息數(shù)據(jù)庫演示文稿_第4頁
生物信息數(shù)據(jù)庫演示文稿_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

生物信息數(shù)據(jù)庫演示文稿當(dāng)前第1頁\共有77頁\編于星期四\19點(diǎn)生物信息數(shù)據(jù)庫當(dāng)前第2頁\共有77頁\編于星期四\19點(diǎn)一級(jí)數(shù)據(jù)庫

直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類、整理和注釋。一級(jí)核酸數(shù)據(jù)庫:GenBank數(shù)據(jù)庫、EMBL數(shù)據(jù)庫、DDBJ數(shù)據(jù)庫一級(jí)蛋白質(zhì)序列數(shù)據(jù)庫:SWISS-PROT庫、PIR庫一級(jí)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫:PDB數(shù)據(jù)庫二級(jí)數(shù)據(jù)庫

在一級(jí)數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上,針對(duì)不同的研究內(nèi)容和需要,對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步整理得到的數(shù)據(jù)庫。人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫TRANSFAC、蛋白質(zhì)序列功能位點(diǎn)數(shù)據(jù)庫Prosite等。當(dāng)前第3頁\共有77頁\編于星期四\19點(diǎn)生物分子數(shù)據(jù)庫幾個(gè)明顯的特征:(1)數(shù)據(jù)庫的更新速度不斷加快數(shù)據(jù)量呈指數(shù)增長趨勢(2)數(shù)據(jù)庫使用頻率增長更快(3)數(shù)據(jù)庫的復(fù)雜程度不斷增加(4)數(shù)據(jù)庫網(wǎng)絡(luò)化(5)面向應(yīng)用(6)先進(jìn)的軟硬件配置當(dāng)前第4頁\共有77頁\編于星期四\19點(diǎn)建立分子生物信息數(shù)據(jù)庫的流程圖當(dāng)前第5頁\共有77頁\編于星期四\19點(diǎn)一.核酸序列數(shù)據(jù)庫當(dāng)前第6頁\共有77頁\編于星期四\19點(diǎn)三大核酸序列數(shù)據(jù)庫GenBankEMBL(EuropeanMelecularBiologyLaboratory)DDBJ(DNADataBankofJapan)當(dāng)前第7頁\共有77頁\編于星期四\19點(diǎn)GenBank1982.4由LosAlamosNationalLab創(chuàng)建NCBI(NationalCenterforBiotechnologyInformation)NIH(NationalInstituteofHealth)

數(shù)據(jù)庫查詢工具:Entrez數(shù)據(jù)提交工具:Sequin

NucleicAcidsResearch,2008Jan;36(Databaseissue):D25-30當(dāng)前第8頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第9頁\共有77頁\編于星期四\19點(diǎn)GenBank中測序最多的20個(gè)物種v173.0,2009.09當(dāng)前第10頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第11頁\共有77頁\編于星期四\19點(diǎn)Refseq1.提供高質(zhì)量的,無冗余的,完整的序列信息;2.包括基因組的DNA,轉(zhuǎn)錄成的RNA以及蛋白質(zhì)序列信息。3.序列文件的標(biāo)識(shí)符:mRNA序列:NM_001158非編碼RNA:NR_002769蛋白質(zhì)序列:NP_001159

當(dāng)前第12頁\共有77頁\編于星期四\19點(diǎn)GenBankVS.RefSeq當(dāng)前第13頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第14頁\共有77頁\編于星期四\19點(diǎn)EMBL1982.3由德國科隆大學(xué)收集整理EBI(EuropeanBioinformaticsInstitute)

數(shù)據(jù)庫查詢工具:SAS(開源)數(shù)據(jù)提交工具:WebIn,Sequin當(dāng)前第15頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第16頁\共有77頁\編于星期四\19點(diǎn)DDBJ創(chuàng)建于1986年NIG(NationalInstituteofGenetics)

數(shù)據(jù)庫查詢工具:SAS數(shù)據(jù)提交工具:Sequin

當(dāng)前第17頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第18頁\共有77頁\編于星期四\19點(diǎn)INSDC1998年,GenBank、EMBL和DDBJ共同成立了國際核酸序列數(shù)據(jù)庫協(xié)會(huì)(InternationalNucleotideSequenceDatabaseCollaboration,INSDC)三大核酸數(shù)據(jù)庫之間每天將新測定或更新的數(shù)據(jù)進(jìn)行交換共享,保證數(shù)據(jù)信息的完整與同步,每兩個(gè)月更新一次版本。當(dāng)前第19頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第20頁\共有77頁\編于星期四\19點(diǎn)三大核酸數(shù)據(jù)庫之間的聯(lián)系當(dāng)前第21頁\共有77頁\編于星期四\19點(diǎn)二.蛋白質(zhì)序列數(shù)據(jù)庫當(dāng)前第22頁\共有77頁\編于星期四\19點(diǎn)蛋白質(zhì)序列數(shù)據(jù)庫PIRSwissProtTrEMBL當(dāng)前第23頁\共有77頁\編于星期四\19點(diǎn)PIR1984年,蛋白質(zhì)信息資源(ProteinInformationResource,PIR)計(jì)劃由美國國家醫(yī)學(xué)研究基金會(huì)(NREF)正式啟動(dòng)1988年,日本的國際蛋白質(zhì)信息數(shù)據(jù)庫(JIPID)和德國慕尼黑蛋白質(zhì)序列信息中心(MIPS)加入PIR非冗余、高質(zhì)量注釋、全面分類當(dāng)前第24頁\共有77頁\編于星期四\19點(diǎn)Swiss-Prot1986年,由瑞士日內(nèi)瓦大學(xué)創(chuàng)建。SIB(SwissInstituteofBioinformatics)ExPASy(ExpertProteinAnalysisSystem)所有序列條目均經(jīng)過有經(jīng)驗(yàn)的分子生物學(xué)家和蛋白質(zhì)化學(xué)家審核,因此又稱為蛋白質(zhì)專家?guī)飚?dāng)前第25頁\共有77頁\編于星期四\19點(diǎn)TrEMBL1996年創(chuàng)建,意為“TranslationofEMBL”從EMBL的cDNA序列翻譯而來,包含EMBL數(shù)據(jù)庫中所有核酸編碼序列信息當(dāng)前第26頁\共有77頁\編于星期四\19點(diǎn)ExPASy當(dāng)前第27頁\共有77頁\編于星期四\19點(diǎn)ExPASyProteomicsTools當(dāng)前第28頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第29頁\共有77頁\編于星期四\19點(diǎn)UniProt2002年在NIH資助下將PIR、Swiss-Prot和TrEMBL合并為UniProt(UniversalProteinResource)具有全世界最全面的蛋白質(zhì)分類信息包含三個(gè)子庫UniProtKB(UniProtKnowledgebase)UniRef(UniProtReferenceClusters)UniParc(UniprotArchive)當(dāng)前第30頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第31頁\共有77頁\編于星期四\19點(diǎn)UniProtKBUniProtKnowledgebase(UniProtKB):Release15.4,16-Jun-2009,包括:Swiss-ProtRelease57.4:497293entriesTrEMBLRelease40.4:9145906entries包含蛋白質(zhì)序列全面的信息,提供準(zhǔn)確、豐富的序列與功能注釋。記錄以6位字母和數(shù)字組成,例:Q5K8D3

當(dāng)前第32頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第33頁\共有77頁\編于星期四\19點(diǎn)Swiss-Prot

Release57.4當(dāng)前第34頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第35頁\共有77頁\編于星期四\19點(diǎn)TrEMBLRelease40.4當(dāng)前第36頁\共有77頁\編于星期四\19點(diǎn)UniRefUniProtRefefenceClusters(UniRef)通過CD-HIT算法把非常相似的序列聚類根據(jù)序列Identity=100%,Identity>90%,Identity>50%進(jìn)行聚類合并,形成UniRef100、UniRef90和UniRef50三個(gè)子庫,加速同源搜索。記錄以UniRefXX開頭加UniProtKB的Accession表示,例:UniRef90_O70405

當(dāng)前第37頁\共有77頁\編于星期四\19點(diǎn)UniParcUniProtArchive(UniParc)存儲(chǔ)所有公共數(shù)據(jù)庫中有效的蛋白質(zhì)序列數(shù)據(jù),包括序列的來源及來源數(shù)據(jù)庫的鏈接。記錄所有蛋白質(zhì)的當(dāng)前狀態(tài)和歷史信息記錄以UPI開頭,例:UPI000005E9D0

當(dāng)前第38頁\共有77頁\編于星期四\19點(diǎn)三.蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫當(dāng)前第39頁\共有77頁\編于星期四\19點(diǎn)PDB網(wǎng)址:(美國)(1)PDB(ProteinDataBank)

由BrookhavenNationalLaboratories創(chuàng)辦

蛋白質(zhì)核酸其它

57,706個(gè)結(jié)構(gòu)圖()當(dāng)前第40頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第41頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第42頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第43頁\共有77頁\編于星期四\19點(diǎn)wwPDB2003年,PDB(RCSB),MSD-EBI(EBI),PDBj(Japan)組建了全球范圍的PDB庫(worldwidePDB,wwPDB)數(shù)據(jù)共享,統(tǒng)一數(shù)據(jù)格式數(shù)據(jù)集中存儲(chǔ),尚未提供數(shù)據(jù)檢索服務(wù)當(dāng)前第44頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第45頁\共有77頁\編于星期四\19點(diǎn)顯示分子結(jié)構(gòu)(RasMol,ChemView)當(dāng)前第46頁\共有77頁\編于星期四\19點(diǎn)四.基因組數(shù)據(jù)庫當(dāng)前第47頁\共有77頁\編于星期四\19點(diǎn)基因組數(shù)據(jù)庫收集某些生物整個(gè)基因組序列的數(shù)據(jù)庫基因組計(jì)劃HumanGenomeProjectC.elegansProject從GenBank中選擇同一物種的核酸信息組成的二級(jí)庫當(dāng)前第48頁\共有77頁\編于星期四\19點(diǎn)部分生物基因組計(jì)劃網(wǎng)址

老鼠(Mouse) 小鼠(Rat) http://ratmap.gen.gu.se

狗(Dog) 牛(Cow) 豬(Pig) 羊(Sheep) http://dirk.invermay.cri.nz

雞(Chicken)

斑馬魚(Zebrafish)

線蟲(C.elegans)

果蠅(Drosophila)

蚊子(Mosquito)

擬南芥(Arabidopsis)棉花(Cotton)

玉米(Maize)

水稻(Rice) http://www.staff.or.jp

大豆(Soya) :8000/main.html

樹(Trees)

當(dāng)前第49頁\共有77頁\編于星期四\19點(diǎn)二級(jí)數(shù)據(jù)庫簡介二級(jí)數(shù)據(jù)庫的形式:大多以web界面為基礎(chǔ),具有文字信息、表格、圖形、圖表等方式顯示數(shù)據(jù)庫內(nèi)容;一級(jí)數(shù)據(jù)庫與二級(jí)數(shù)據(jù)庫之間并無明確的界限。(例如:GDB、AceDB、SCOP、CATH等都已經(jīng)具有二級(jí)數(shù)據(jù)庫的特色)當(dāng)前第50頁\共有77頁\編于星期四\19點(diǎn)

E.coli基因組數(shù)據(jù)庫Colibri

德國Pastear研究所建立。除具有瀏覽、檢索、搜尋功能外,還對(duì)環(huán)狀基因組實(shí)現(xiàn)可視化。網(wǎng)址:http:///

TransFac(真核生物基因轉(zhuǎn)錄調(diào)控因子數(shù)據(jù)庫)

德國生物工程研究所開發(fā)維護(hù),始建于1988年。包括順式調(diào)控位點(diǎn)、基因、轉(zhuǎn)錄因子、細(xì)胞來源、分類和調(diào)控位點(diǎn)核苷酸分布6個(gè)子庫。TransFac的網(wǎng)址:http://

A)基因組信息二級(jí)數(shù)據(jù)庫當(dāng)前第51頁\共有77頁\編于星期四\19點(diǎn)ColiBri網(wǎng)址:當(dāng)前第52頁\共有77頁\編于星期四\19點(diǎn)TransFac網(wǎng)址:當(dāng)前第53頁\共有77頁\編于星期四\19點(diǎn)

Prosite(蛋白質(zhì)序列功能位點(diǎn)數(shù)據(jù)庫)

始建于1990年代初,由瑞典生物信息學(xué)研究所SIB負(fù)責(zé)維護(hù)。基于對(duì)蛋白質(zhì)家族中同源序列多重序列比對(duì)得到的保守區(qū)域,這些區(qū)域通常與生物學(xué)功能相關(guān)。數(shù)據(jù)庫包括兩個(gè)數(shù)據(jù)庫文件:數(shù)據(jù)文件Prosite;說明文件PrositeDoc。B)蛋白質(zhì)序列二級(jí)數(shù)據(jù)庫Prosite網(wǎng)址:當(dāng)前第54頁\共有77頁\編于星期四\19點(diǎn)當(dāng)前第55頁\共有77頁\編于星期四\19點(diǎn)

DSSP(DefinitionofSecondaryStructureofProteins)

蛋白質(zhì)二級(jí)結(jié)構(gòu)構(gòu)象參數(shù)數(shù)據(jù)庫

DSSP的網(wǎng)址:http:///

FSSP(FamiliesofStructuralSimilarProteins)

蛋白質(zhì)家族數(shù)據(jù)庫

FSSP的網(wǎng)址:

HSSP(HomologyDerivedSecondaryStructureofProteins)

同源蛋白質(zhì)數(shù)據(jù)庫

HSSP的網(wǎng)址:http:///

C)蛋白質(zhì)結(jié)構(gòu)二級(jí)數(shù)據(jù)庫當(dāng)前第56頁\共有77頁\編于星期四\19點(diǎn)其他數(shù)據(jù)庫當(dāng)前第57頁\共有77頁\編于星期四\19點(diǎn)酶和代謝數(shù)據(jù)庫(1)KEGG(KyotoEncyclopediaofGenesandGenomes)

各種代謝、遺傳等路徑圖可檢索參于各種路徑的基因KEGG主頁點(diǎn)擊“KEGGPATHWAY”“PATHWAY”網(wǎng)頁點(diǎn)擊任何代謝路徑(Metabolism),如糖酵解/糖原異生途徑(Glycolysis/Gluconeogenesis)檢索Metabolism(1)當(dāng)前第58頁\共有77頁\編于星期四\19點(diǎn)檢索GeneticInformationProcessing(2)KEGG主頁點(diǎn)擊“KEGGPATHWAY”“PATHWAY”網(wǎng)頁點(diǎn)擊任何遺傳信息(GeneticInformationProcessing)路徑,如Proteinexport路徑可以查看參加這一路徑蛋白質(zhì)的信息

當(dāng)前第59頁\共有77頁\編于星期四\19點(diǎn)檢索EnvironmentalInformationProcessing(3)KEGG主頁點(diǎn)擊“KEGGPATHWAY”“PATHWAY”網(wǎng)頁點(diǎn)擊任何EnvironmentalInformationProcessing路徑,如MAPKsignalingpathway路徑可以查看與這一路徑相連的其它信號(hào)路徑或參加這一路徑的蛋白質(zhì)信息

當(dāng)前第60頁\共有77頁\編于星期四\19點(diǎn)檢索CelluarProcesses(4)KEGG主頁點(diǎn)擊“KEGGPATHWAY”“PATHWAY”網(wǎng)頁點(diǎn)擊任何CellularProcesses路徑,如Cellcycle路徑可以查看與這一路徑相連的其它信號(hào)路徑或參加這一路徑的蛋白質(zhì)信息當(dāng)前第61頁\共有77頁\編于星期四\19點(diǎn)數(shù)據(jù)庫格式簡介歷史原因:沒有完全統(tǒng)一的數(shù)據(jù)庫格式;了解所用數(shù)據(jù)庫格式的重要性一般由兩部分組成:文字注釋內(nèi)容(序列,……)當(dāng)前第62頁\共有77頁\編于星期四\19點(diǎn)一個(gè)數(shù)據(jù)庫記錄(entry)一般由兩部分組成:

1.原始序列數(shù)據(jù)(sequencedata)2.描述這些數(shù)據(jù)生物學(xué)信息的注釋(annotation)注釋中包含的信息與相應(yīng)的序列數(shù)據(jù)同樣重要和有應(yīng)用價(jià)值數(shù)據(jù)的完整性和注釋工作量:

1.序列數(shù)據(jù)廣,序列注釋不夠完整

2.庫數(shù)據(jù)面窄,序列注釋全面數(shù)據(jù)庫的動(dòng)態(tài)更新:

1.不斷增加

2.不斷修正當(dāng)前第63頁\共有77頁\編于星期四\19點(diǎn)序列數(shù)據(jù)的文件格式1.DNA/RNA/氨基酸代碼的標(biāo)識(shí)2.GenBank數(shù)據(jù)格式3.UniProt4.FASTA當(dāng)前第64頁\共有77頁\編于星期四\19點(diǎn)DNA代碼當(dāng)前第65頁\共有77頁\編于星期四\19點(diǎn)氨基酸代碼當(dāng)前第66頁\共有77頁\編于星期四\19點(diǎn)GenBank數(shù)據(jù)格式(1)子庫類型GenInfoIdentifier當(dāng)前第67頁\共有77頁\編于星期四\19點(diǎn)GenBank數(shù)據(jù)格式(2)當(dāng)前第68頁\共有77頁\編于星期四\19點(diǎn)GenBank數(shù)據(jù)格式(3)當(dāng)前第69頁\共有77頁\編于星期四\19點(diǎn)GenBank子庫類型當(dāng)前第70頁\共有77頁\編于星期四\19點(diǎn)EMBL標(biāo)識(shí)字GenBank標(biāo)識(shí)字含義IDLOCUS序列名稱DEDEFINITION序列簡單說明ACACCESSION唯一的序列編號(hào)SVVERSION序列版本號(hào)KWKEYWORDS與序列相關(guān)的關(guān)鍵詞OSSOURCE序列來源的物種名OCORGANISM序列來源的物種學(xué)名和分類學(xué)位置DT建立日期RNREFERENCE相關(guān)文獻(xiàn)編號(hào)或提交注冊信息RAAUTHORS相關(guān)文獻(xiàn)作者或提交序列作者RTTITLE相關(guān)文獻(xiàn)題目RLJOURNAL相關(guān)文獻(xiàn)刊物名或作者單位RXMEDLINE相關(guān)文獻(xiàn)Medline引文代碼RCREMARK相關(guān)文獻(xiàn)注釋RP相關(guān)文獻(xiàn)其它注釋CCCOMMENT關(guān)于序列的注釋信息DR相關(guān)數(shù)據(jù)庫交叉引用號(hào)FHFEATURES序列特征表起始FT序列特征表子項(xiàng)SQBASECONTENT序列長度、堿基數(shù)目統(tǒng)計(jì)數(shù)空格ORIGIN序列////序列結(jié)束標(biāo)志、空行EMBL和GenBank數(shù)據(jù)庫的行識(shí)別標(biāo)志比較當(dāng)前第71頁\共有77頁\編于星期四\19點(diǎn)FASTA格式當(dāng)前第72頁\共有77頁\編于星期四\19點(diǎn)關(guān)鍵詞

名詞、描述性詞、詞組序列注冊號(hào)(Accessionnumber)

檢索體系

EntrezSequenceRetrievalSystem(SRS)Integrateddatabaseretrievalsystem(DBGET)如何獲得序列數(shù)據(jù)當(dāng)前第73頁\共有77頁\編于星期四\19點(diǎn)在線獲取序列(entrez)

Entrez是基于Web界面的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)。

利用Entrez系統(tǒng),用戶不僅可以方便地檢索Genbank的核酸數(shù)據(jù),還可以檢索來自Genbank和其它數(shù)據(jù)庫的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論