生物信息數(shù)據(jù)庫_第1頁
生物信息數(shù)據(jù)庫_第2頁
生物信息數(shù)據(jù)庫_第3頁
生物信息數(shù)據(jù)庫_第4頁
生物信息數(shù)據(jù)庫_第5頁
已閱讀5頁,還剩72頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

生物信息數(shù)據(jù)庫一級數(shù)據(jù)庫直接來源于實驗獲得得原始數(shù)據(jù),只經(jīng)過簡單得歸類、整理和注釋。一級核酸數(shù)據(jù)庫:GenBank數(shù)據(jù)庫、EMBL數(shù)據(jù)庫、DDBJ數(shù)據(jù)庫一級蛋白質(zhì)序列數(shù)據(jù)庫:SWISS-PROT庫、PIR庫一級蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫:PDB數(shù)據(jù)庫二級數(shù)據(jù)庫在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析得基礎上,針對不同得研究內(nèi)容和需要,對生物學知識和信息得進一步整理得到得數(shù)據(jù)庫。人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點庫TRANSFAC、蛋白質(zhì)序列功能位點數(shù)據(jù)庫Prosite等。生物分子數(shù)據(jù)庫幾個明顯得特征:(1)數(shù)據(jù)庫得更新速度不斷加快數(shù)據(jù)量呈指數(shù)增長趨勢(2)數(shù)據(jù)庫使用頻率增長更快(3)數(shù)據(jù)庫得復雜程度不斷增加(4)數(shù)據(jù)庫網(wǎng)絡化(5)面向應用(6)先進得軟硬件配置建立分子生物信息數(shù)據(jù)庫得流程圖一、核酸序列數(shù)據(jù)庫三大核酸序列數(shù)據(jù)庫GenBankEMBL(EuropeanMelecularBiologyLaboratory)DDBJ(DNADataBankofJapan)GenBank1982、4由LosAlamosNationalLab創(chuàng)建NCBI(NationalCenterforBiotechnologyInformation)NIH(NationalInstituteofHealth)

數(shù)據(jù)庫查詢工具:Entrez數(shù)據(jù)提交工具:Sequin

NucleicAcidsResearch,2008Jan;36(Databaseissue):D25-30GenBank中測序最多得20個物種v173、0,2009、0911大家應該也有點累了,稍作休息大家有疑問的,可以詢問和交流Refseq1、提供高質(zhì)量得,無冗余得,完整得序列信息;2、包括基因組得DNA,轉(zhuǎn)錄成得RNA以及蛋白質(zhì)序列信息。3、序列文件得標識符:mRNA序列:NM_001158非編碼RNA:NR_002769蛋白質(zhì)序列:NP_001159

GenBankVS、RefSeqEMBL1982、3由德國科隆大學收集整理EBI(EuropeanBioinformaticsInstitute)

數(shù)據(jù)庫查詢工具:SAS(開源)數(shù)據(jù)提交工具:WebIn,SequinDDBJ創(chuàng)建于1986年NIG(NationalInstituteofGenetics)

數(shù)據(jù)庫查詢工具:SAS數(shù)據(jù)提交工具:Sequin

INSDC1998年,GenBank、EMBL和DDBJ共同成立了國際核酸序列數(shù)據(jù)庫協(xié)會(InternationalNucleotideSequenceDatabaseCollaboration,INSDC)三大核酸數(shù)據(jù)庫之間每天將新測定或更新得數(shù)據(jù)進行交換共享,保證數(shù)據(jù)信息得完整與同步,每兩個月更新一次版本。三大核酸數(shù)據(jù)庫之間得聯(lián)系二、蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫PIRSwissProtTrEMBLPIR1984年,蛋白質(zhì)信息資源(ProteinInformationResource,PIR)計劃由美國國家醫(yī)學研究基金會(NREF)正式啟動1988年,日本得國際蛋白質(zhì)信息數(shù)據(jù)庫(JIPID)和德國慕尼黑蛋白質(zhì)序列信息中心(MIPS)加入PIR非冗余、高質(zhì)量注釋、全面分類Swiss-Prot1986年,由瑞士日內(nèi)瓦大學創(chuàng)建。SIB(SwissInstituteofBioinformatics)ExPASy(ExpertProteinAnalysisSystem)所有序列條目均經(jīng)過有經(jīng)驗得分子生物學家和蛋白質(zhì)化學家審核,因此又稱為蛋白質(zhì)專家?guī)霻rEMBL1996年創(chuàng)建,意為“TranslationofEMBL”從EMBL得cDNA序列翻譯而來,包含EMBL數(shù)據(jù)庫中所有核酸編碼序列信息ExPASyExPASyProteomicsToolsUniProt2002年在NIH資助下將PIR、Swiss-Prot和TrEMBL合并為UniProt(UniversalProteinResource)具有全世界最全面得蛋白質(zhì)分類信息包含三個子庫UniProtKB(UniProtKnowledgebase)UniRef(UniProtReferenceClusters)UniParc(UniprotArchive)UniProtKBUniProtKnowledgebase(UniProtKB):Release15、4,16-Jun-2009,包括:Swiss-ProtRelease57、4:497293entriesTrEMBLRelease40、4:9145906entries包含蛋白質(zhì)序列全面得信息,提供準確、豐富得序列與功能注釋。記錄以6位字母和數(shù)字組成,例:Q5K8D3

Swiss-Prot

Release57、4TrEMBLRelease40、4UniRefUniProtRefefenceClusters(UniRef)通過CD-HIT算法把非常相似得序列聚類根據(jù)序列Identity=100%,Identity>90%,Identity>50%進行聚類合并,形成UniRef100、UniRef90和UniRef50三個子庫,加速同源搜索。記錄以UniRefXX開頭加UniProtKB得Accession表示,例:UniRef90_O70405

UniParcUniProtArchive(UniParc)存儲所有公共數(shù)據(jù)庫中有效得蛋白質(zhì)序列數(shù)據(jù),包括序列得來源及來源數(shù)據(jù)庫得鏈接。記錄所有蛋白質(zhì)得當前狀態(tài)和歷史信息記錄以UPI開頭,例:UPI000005E9D0

三、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB網(wǎng)址:(美國)(1)PDB(ProteinDataBank)

由BrookhavenNationalLaboratories創(chuàng)辦

蛋白質(zhì)核酸其她

57,706個結(jié)構(gòu)圖(2009、5、20)wwPDB2003年,PDB(RCSB),MSD-EBI(EBI),PDBj(Japan)組建了全球范圍得PDB庫(worldwidePDB,wwPDB)數(shù)據(jù)共享,統(tǒng)一數(shù)據(jù)格式數(shù)據(jù)集中存儲,尚未提供數(shù)據(jù)檢索服務顯示分子結(jié)構(gòu)(RasMol,ChemView)四、基因組數(shù)據(jù)庫基因組數(shù)據(jù)庫收集某些生物整個基因組序列得數(shù)據(jù)庫基因組計劃HumanGenomeProjectC、elegansProject從GenBank中選擇同一物種得核酸信息組成得二級庫部分生物基因組計劃網(wǎng)址

老鼠(Mouse)

小鼠(Rat)

狗(Dog)

牛(Cow)

豬(Pig)

羊(Sheep)

雞(Chicken)

斑馬魚(Zebrafish)

線蟲(C、elegans)

果蠅(Drosophila)

蚊子(Mosquito)

擬南芥(Arabidopsis)

棉花(Cotton)

玉米(Maize)

水稻(Rice)

大豆(Soya)

樹(Trees)

二級數(shù)據(jù)庫簡介二級數(shù)據(jù)庫得形式:大多以web界面為基礎,具有文字信息、表格、圖形、圖表等方式顯示數(shù)據(jù)庫內(nèi)容;一級數(shù)據(jù)庫與二級數(shù)據(jù)庫之間并無明確得界限。(例如:GDB、AceDB、SCOP、CATH等都已經(jīng)具有二級數(shù)據(jù)庫得特色)

E、coli基因組數(shù)據(jù)庫Colibri

德國Pastear研究所建立。除具有瀏覽、檢索、搜尋功能外,還對環(huán)狀基因組實現(xiàn)可視化。網(wǎng)址:

TransFac(真核生物基因轉(zhuǎn)錄調(diào)控因子數(shù)據(jù)庫)

德國生物工程研究所開發(fā)維護,始建于1988年。包括順式調(diào)控位點、基因、轉(zhuǎn)錄因子、細胞來源、分類和調(diào)控位點核苷酸分布6個子庫。TransFac得網(wǎng)址:

A)基因組信息二級數(shù)據(jù)庫ColiBri網(wǎng)址:TransFac網(wǎng)址:

Prosite(蛋白質(zhì)序列功能位點數(shù)據(jù)庫)

始建于1990年代初,由瑞典生物信息學研究所SIB負責維護?;趯Φ鞍踪|(zhì)家族中同源序列多重序列比對得到得保守區(qū)域,這些區(qū)域通常與生物學功能相關。數(shù)據(jù)庫包括兩個數(shù)據(jù)庫文件:數(shù)據(jù)文件Prosite;說明文件PrositeDoc。B)蛋白質(zhì)序列二級數(shù)據(jù)庫Prosite網(wǎng)址:

DSSP(DefinitionofSecondaryStructureofProteins)

蛋白質(zhì)二級結(jié)構(gòu)構(gòu)象參數(shù)數(shù)據(jù)庫

DSSP得網(wǎng)址:

FSSP(FamiliesofStructuralSimilarProteins)

蛋白質(zhì)家族數(shù)據(jù)庫

FSSP得網(wǎng)址:

HSSP(HomologyDerivedSecondaryStructureofProteins)

同源蛋白質(zhì)數(shù)據(jù)庫

HSSP得網(wǎng)址:

C)蛋白質(zhì)結(jié)構(gòu)二級數(shù)據(jù)庫其她數(shù)據(jù)庫酶和代謝數(shù)據(jù)庫(1)KEGG(KyotoEncyclopediaofGenesandGenomes)

各種代謝、遺傳等路徑圖可檢索參于各種路徑得基因KEGG主頁點擊“KEGGPATHWAY”“PATHWAY”網(wǎng)頁點擊任何代謝路徑(Metabolism),如糖酵解/糖原異生途徑(Glycolysis/Gluconeogenesis)檢索Metabolism(1)檢索GeneticInformationProcessing(2)KEGG主頁點擊“KEGGPATHWAY”“PATHWAY”網(wǎng)頁點擊任何遺傳信息(GeneticInformationProcessing)路徑,如Proteinexport路徑可以查看參加這一路徑蛋白質(zhì)得信息

檢索EnvironmentalInformationProcessing(3)KEGG主頁點擊“KEGGPATHWAY”“PATHWAY”網(wǎng)頁點擊任何EnvironmentalInformationProcessing路徑,如MAPKsignalingpathway路徑可以查看與這一路徑相連得其她信號路徑或參加這一路徑得蛋白質(zhì)信息

檢索CelluarProcesses(4)KEGG主頁點擊“KEGGPATHWAY”“PATHWAY”網(wǎng)頁點擊任何CellularProcesses路徑,如Cellcycle路徑可以查看與這一路徑相連得其她信號路徑或參加這一路徑得蛋白質(zhì)信息數(shù)據(jù)庫格式簡介歷史原因:沒有完全統(tǒng)一得數(shù)據(jù)庫格式;了解所用數(shù)據(jù)庫格式得重要性一般由兩部分組成:文字注釋內(nèi)容(序列,……)一個數(shù)據(jù)庫記錄(entry)一般由兩部分組成:

1、原始序列數(shù)據(jù)(sequencedata)2、描述這些數(shù)據(jù)生物學信息得注釋(annotation)注釋中包含得信息與相應得序列數(shù)據(jù)同樣重要和有應用價值數(shù)據(jù)得完整性和注釋工作量:

1、序列數(shù)據(jù)廣,序列注釋不夠完整

2、庫數(shù)據(jù)面窄,序列注釋全面數(shù)據(jù)庫得動態(tài)更新:

1、不斷增加

2、不斷修正序列數(shù)據(jù)得文件格式1、DNA/RNA/氨基酸代碼得標識2、GenBank數(shù)據(jù)格式3、UniProt4、FASTADNA代碼氨基酸代碼GenBank數(shù)據(jù)格式(1)子庫類型GenInfoIdentifierGenBank數(shù)據(jù)格式(2)GenBank數(shù)據(jù)格式(3)GenBank子庫類型EMBL標識字GenBank標識字含義IDLOCUS序列名稱DEDEFINITION序列簡單說明ACACCESSION唯一得序列編號SVVERSION序列版本號KWKEYWORDS與序列相關得關鍵詞OSSOURCE序列來源得物種名OCORGANISM序列來源得物種學名和分類學位置DT建立日期RNREFERENCE相關文獻編號或提交注冊信息RAAUTHORS相關文獻作者或提交序列作者RTTITLE相關文獻題目RLJOURNAL相關文獻刊物名或作者單位RXMEDLINE相關文獻Medline引文代碼RCREMARK相關文獻注釋RP相關文獻其她注釋CCMENT關于序列得注釋信息DR相關數(shù)據(jù)庫交叉引用號FHFEATURES序列特征表起始FT序列特征表子項SQBASECONTENT序列長度、堿基數(shù)目統(tǒng)計數(shù)空格ORIGIN序列////序列結(jié)束標志、空行EMBL和GenBank數(shù)據(jù)庫得行識別標志比較FASTA格式關鍵詞

名詞、描述性詞、詞組序列注冊號(Accessionnumber)

檢索體系

EntrezSequenceRetrievalSystem(SRS)Integrateddatabaseretrievalsystem(DBGET)如何獲得序列數(shù)據(jù)在線獲取序列(entrez)

Entrez就是基于Web界面得綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)。

利用Entrez系統(tǒng),用戶不僅可以方便地檢索Genbank得核酸數(shù)據(jù),還可以檢索來自Genbank和其她數(shù)據(jù)庫得蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(MMDB)得蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由PubMed獲得Medline得文獻數(shù)據(jù)。

8大類44個與Entreze體系相連得數(shù)據(jù)庫

“Nucl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論