版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、生物信息學數(shù)據(jù)庫信息檢索教研室薛曉芳2019年11月2日生物信息學概念生物信息學概念 生物信息學是對生物學數(shù)據(jù)進行收集、處置、存儲、檢索和分析的一門交叉學科 研究生物信息的采集、處置、存儲、傳布、分析和解釋等各個方面,通過綜合數(shù)學、計算機科學和生物學的工具與技術來揭示大量而復雜的生物數(shù)據(jù)所賦有的生物學奧秘 研究目標是發(fā)展和利用先進計算技術解決生物學難題生物信息學數(shù)據(jù)庫生物信息學數(shù)據(jù)庫 大量生物學數(shù)據(jù)的存儲和利用離不開數(shù)據(jù)庫 用于結(jié)構(gòu)化存儲生物數(shù)據(jù),以便進一步對數(shù)據(jù)進行分析和利用數(shù)據(jù)庫的數(shù)據(jù)來源數(shù)據(jù)庫的數(shù)據(jù)來源 兩大主要來源 經(jīng)典的生物醫(yī)學研究:大量生物醫(yī)學科研工作者根據(jù)自己的興趣開展的個別研究
2、 大規(guī)模組學研究:代表性工作是大規(guī)模人類基因組學和蛋白質(zhì)組學研究 經(jīng)典生物醫(yī)學研究經(jīng)典生物醫(yī)學研究 針對某較小領域開展深入研究,采集的生物學數(shù)據(jù) 對大量零碎的生物學數(shù)據(jù),進一步收集、整理和利用,對推動生物醫(yī)學的研究有重要意義 最具代表性的是KEGG數(shù)據(jù)庫,該數(shù)據(jù)庫整理收錄了大量代謝網(wǎng)絡PATHWAY的研究成果,描繪了生物體內(nèi)代謝網(wǎng)絡涉及的各種分子及關系大規(guī)模組學研究大規(guī)模組學研究 上世紀90年代初啟動人類基因組計劃,短時間內(nèi)產(chǎn)生海量生物學數(shù)據(jù) 隨著基因組計劃進行,多種相關高通量研究逐漸開展起來 基于表達序列標簽EST和DNA微陣列的高通量轉(zhuǎn)錄組研究 基于生物質(zhì)譜的蛋白質(zhì)組表達譜和修飾譜研究 基
3、于酵母雙雜交等技術的高通量蛋白質(zhì)-蛋白質(zhì)相互作用組研究 代謝組等相關的組學研究組學數(shù)據(jù)庫分類組學數(shù)據(jù)庫分類 一級數(shù)據(jù)庫:通過收集組學數(shù)據(jù)構(gòu)建的數(shù)據(jù)庫 二級和三級數(shù)據(jù)庫:對一級數(shù)據(jù)庫數(shù)據(jù)進一步分析、歸納和整理,目的性和實用性 TRANSFAC:轉(zhuǎn)錄因子和結(jié)合位點數(shù)據(jù)庫 SMART、pFam數(shù)據(jù)庫:收錄了可能的蛋白質(zhì)結(jié)構(gòu)域信息,并提供了特定算法工具生物信息學數(shù)據(jù)庫的地位和作用生物信息學數(shù)據(jù)庫的地位和作用經(jīng)典生物醫(yī)學實驗經(jīng)典生物醫(yī)學實驗大量零碎數(shù)據(jù)大量零碎數(shù)據(jù)數(shù)據(jù)收集整理數(shù)據(jù)收集整理大規(guī)模組學實驗大規(guī)模組學實驗海量組學數(shù)據(jù)海量組學數(shù)據(jù)數(shù)據(jù)存儲、注釋數(shù)據(jù)存儲、注釋數(shù)數(shù) 據(jù)據(jù) 庫庫生物醫(yī)學應用生物醫(yī)學應
4、用理論分析理論分析檢索查詢檢索查詢生物學研究生物學研究生物信息學數(shù)據(jù)庫類型生物信息學數(shù)據(jù)庫類型 核酸研究Nucleic Acids Research雜志 每年第一期為生物信息學數(shù)據(jù)庫專刊,收錄最主要的生物學相關數(shù)據(jù)庫 2019年的核酸研究雜志提供的數(shù)據(jù)庫列表將國際上生物學數(shù)據(jù)庫歸納為14類(/nar/database/c/)核酸研究核酸研究的的14類數(shù)據(jù)庫類數(shù)據(jù)庫Nucleotide Sequence Databases 核酸序列數(shù)據(jù)庫RNA sequence databases RNA序列數(shù)據(jù)庫Protein sequence databases 蛋白質(zhì)序
5、列數(shù)據(jù)庫Structure Databases 結(jié)構(gòu)數(shù)據(jù)庫Genomics Databases (non-vertebrate) 基因組數(shù)據(jù)庫(非脊椎動物)Metabolic and Signaling Pathways 代謝和信號通路Human and other Vertebrate Genomes 人和其他脊椎基因組Human Genes and Diseases 人基因和疾病Microarray Data and other Gene Expression DatabasesProteomics Resources微陣列和其他基因表達數(shù)據(jù)庫蛋白質(zhì)組資源Other Molecular B
6、iology Databases 其他分子生物學數(shù)據(jù)庫Organelle databases 細胞器數(shù)據(jù)庫Plant databases 植物數(shù)據(jù)庫Immunological databases 免疫學數(shù)據(jù)庫常用分類類型常用分類類型 序列數(shù)據(jù)庫 結(jié)構(gòu)數(shù)據(jù)庫 功能數(shù)據(jù)庫 其它專業(yè)數(shù)據(jù)庫主要內(nèi)容主要內(nèi)容 生物信息學數(shù)據(jù)庫類型生物信息學數(shù)據(jù)庫類型 序列數(shù)據(jù)庫序列數(shù)據(jù)庫 結(jié)構(gòu)數(shù)據(jù)庫結(jié)構(gòu)數(shù)據(jù)庫 功能數(shù)據(jù)庫功能數(shù)據(jù)庫 其它專業(yè)數(shù)據(jù)庫其它專業(yè)數(shù)據(jù)庫 生物信息學數(shù)據(jù)庫的檢索生物信息學數(shù)據(jù)庫的檢索 檢索方法概述檢索方法概述 檢索實踐和案例檢索實踐和案例一、序列數(shù)據(jù)庫一、序列數(shù)據(jù)庫 主要收錄核酸和蛋白質(zhì)序列數(shù)據(jù)主
7、要收錄核酸和蛋白質(zhì)序列數(shù)據(jù) 包括由基因組計劃產(chǎn)生的基因組及其表達包括由基因組計劃產(chǎn)生的基因組及其表達序列,由基因組序列所推測的編碼和非編序列,由基因組序列所推測的編碼和非編碼核酸和蛋白質(zhì)序列,以及個別生物學實碼核酸和蛋白質(zhì)序列,以及個別生物學實驗中測序獲得的核酸和蛋白質(zhì)序列驗中測序獲得的核酸和蛋白質(zhì)序列一、序列數(shù)據(jù)庫一、序列數(shù)據(jù)庫(基因組基因組) Genome Database(GDB)數(shù)據(jù)庫數(shù)據(jù)庫 Ensembl,由由EMBL - EBI和和Sanger研究所聯(lián)合開研究所聯(lián)合開發(fā)發(fā),對后生動物基因組的自動注釋和維護對后生動物基因組的自動注釋和維護/ 包括人
8、、鼠、斑馬魚和果蠅包括人、鼠、斑馬魚和果蠅4種真核生物基因組種真核生物基因組的注釋分析,主要依據(jù)已測序獲得的基因組序列,的注釋分析,主要依據(jù)已測序獲得的基因組序列,定位所有已知基因,并預測未知新基因,同時為定位所有已知基因,并預測未知新基因,同時為這些基因提供功能、疾病相關特征等方面的注釋這些基因提供功能、疾病相關特征等方面的注釋信息;信息;Ensembl基因組注釋的核心是基因預測,基因組注釋的核心是基因預測,考慮到現(xiàn)有預測方法的限制,該系統(tǒng)整合了多種考慮到現(xiàn)有預測方法的限制,該系統(tǒng)整合了多種預測方法,并提供了各種預測方法結(jié)果的下載預測方法,并提供了各種預測方法結(jié)果的下載 UCSC Genom
9、e Browser,加州大學圣克魯茲分加州大學圣克魯茲分校建立校建立,包括各種脊椎和無脊椎動物,以及主要模包括各種脊椎和無脊椎動物,以及主要模式生物的基因組數(shù)據(jù)式生物的基因組數(shù)據(jù) /一、序列數(shù)據(jù)庫一、序列數(shù)據(jù)庫(核酸核酸) GenBank、EMBL、DDBJ /Genbank,ebi.ac.uk/embl/,ddbj.nig.ac.jp/ 三個數(shù)據(jù)庫每天互相交換數(shù)據(jù)三個數(shù)據(jù)庫每天互相交換數(shù)據(jù) GenBank可通過可通過NCBI的檢索系統(tǒng)的檢索系統(tǒng)Entrez獲取,獲取, Entrez集成來自主要集成來自主要DNA和蛋白序列數(shù)據(jù)庫的數(shù)
10、和蛋白序列數(shù)據(jù)庫的數(shù)據(jù),包括物種、基因組、定位、蛋白結(jié)構(gòu)和結(jié)構(gòu)據(jù),包括物種、基因組、定位、蛋白結(jié)構(gòu)和結(jié)構(gòu)域等信息域等信息 各種專業(yè)核酸數(shù)據(jù)庫各種專業(yè)核酸數(shù)據(jù)庫 非冗余參考序列數(shù)據(jù)庫非冗余參考序列數(shù)據(jù)庫RefSeq 密碼子使用數(shù)據(jù)庫密碼子使用數(shù)據(jù)庫Codon Usage Database CUTG 基因可變剪接數(shù)據(jù)庫基因可變剪接數(shù)據(jù)庫ASDB 轉(zhuǎn)錄因子數(shù)據(jù)庫轉(zhuǎn)錄因子數(shù)據(jù)庫TRANSFAC一、序列數(shù)據(jù)庫一、序列數(shù)據(jù)庫(蛋白質(zhì)蛋白質(zhì))國際主要蛋白質(zhì)數(shù)據(jù)庫的數(shù)據(jù)來源及其關系吳松鋒等, 遺傳, 2019, 27(5): 687-693 主要蛋白質(zhì)序列數(shù)據(jù)庫主要蛋白質(zhì)序列數(shù)據(jù)庫 UniProt unipr
11、 由由Swiss-Prot、TrEMBL和和PIR蛋白質(zhì)數(shù)據(jù)庫聯(lián)合蛋白質(zhì)數(shù)據(jù)庫聯(lián)合構(gòu)建,提供蛋白質(zhì)序列和功能注釋的核心資源。由構(gòu)建,提供蛋白質(zhì)序列和功能注釋的核心資源。由三個子庫組成:(三個子庫組成:(1UniProtKB,知識庫,知識庫2UniRef:參考簇:參考簇3UniParc,所有公開的蛋白,所有公開的蛋白質(zhì)序列,包括每個序列源數(shù)據(jù)庫的追溯信息質(zhì)序列,包括每個序列源數(shù)據(jù)庫的追溯信息 IPI ebi.ac.uk/IPI/ 國際蛋白質(zhì)索引數(shù)據(jù)庫,針對蛋白質(zhì)組研究中利用國際蛋白質(zhì)索引數(shù)據(jù)庫,針對蛋白質(zhì)組研究中利用數(shù)據(jù)庫搜索鑒定蛋白的策略而構(gòu)建的參考數(shù)據(jù)庫,數(shù)據(jù)庫搜索鑒定蛋白的策略
12、而構(gòu)建的參考數(shù)據(jù)庫,月更新月更新 整合國際上主要的蛋白質(zhì)數(shù)據(jù)庫整合國際上主要的蛋白質(zhì)數(shù)據(jù)庫SwissProt,Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-Inv DB翻譯的蛋白數(shù)據(jù)),整合過程中,直接翻譯的蛋白數(shù)據(jù)),整合過程中,直接接受手工注釋結(jié)果接受手工注釋結(jié)果 Nr NCBI構(gòu)建,非冗余蛋白質(zhì)數(shù)據(jù)庫,為每個蛋白質(zhì)構(gòu)建,非冗余蛋白質(zhì)數(shù)據(jù)庫,為每個蛋白質(zhì)序列記錄賦予一個唯一的序列記錄賦予一個唯一的gi號,并將序列完全一致號,并將序列完全一致的非冗余蛋白質(zhì)合并成簇的非冗余蛋白質(zhì)合并成簇蛋白質(zhì)功能模體和結(jié)構(gòu)域數(shù)據(jù)庫蛋白質(zhì)功能模體和結(jié)構(gòu)域數(shù)據(jù)庫 功能模體或活性位點數(shù)據(jù)庫功
13、能模體或活性位點數(shù)據(jù)庫(protein domains, families and functional sites) PROSITE /prosite,收集了上千個序,收集了上千個序列模體列模體 PRINTS(Protein motif fingerprint database) bioinf.manchester.ac.uk/dbbrowser/PRINTS/ 結(jié)構(gòu)域數(shù)據(jù)庫結(jié)構(gòu)域數(shù)據(jù)庫(families,domains,regions,sites) Pfam pfam.sanger.ac.uk/ SMART smart.embl-heidelberg.de InterP
14、ro ebi.ac.uk/interpro 二、結(jié)構(gòu)數(shù)據(jù)庫二、結(jié)構(gòu)數(shù)據(jù)庫 核酸和蛋白質(zhì)的空間結(jié)構(gòu)數(shù)據(jù)庫,一般通核酸和蛋白質(zhì)的空間結(jié)構(gòu)數(shù)據(jù)庫,一般通過過X射線衍射和核磁共振獲得數(shù)據(jù),也有同射線衍射和核磁共振獲得數(shù)據(jù),也有同源建模等計算方法獲得源建模等計算方法獲得二、結(jié)構(gòu)數(shù)據(jù)庫二、結(jié)構(gòu)數(shù)據(jù)庫(核酸核酸) 核酸結(jié)構(gòu)數(shù)據(jù)庫核酸結(jié)構(gòu)數(shù)據(jù)庫(NDB, /) 收錄核酸的晶體結(jié)構(gòu)數(shù)據(jù),包含收錄核酸的晶體結(jié)構(gòu)數(shù)據(jù),包含X射線衍射和射線衍射和核磁共振的結(jié)果,可通過核磁共振的結(jié)果,可通過ADIT (the AutoDep Input Tool)同時將結(jié)構(gòu)存儲到同時將結(jié)構(gòu)存儲
15、到NDB和和PDB中,提供序列號檢索功能,可以用中,提供序列號檢索功能,可以用NDB或或PDB的的ID號檢索,結(jié)果包含核酸結(jié)構(gòu)號檢索,結(jié)果包含核酸結(jié)構(gòu)的簡要信息和圖片的簡要信息和圖片 Rfam數(shù)據(jù)庫數(shù)據(jù)庫, rfam.sanger.ac.uk/ RNA家族多重序列比對,一致性二級結(jié)構(gòu)和家族多重序列比對,一致性二級結(jié)構(gòu)和協(xié)方差模型,基于多重序列比對的非編碼協(xié)方差模型,基于多重序列比對的非編碼RNA家族的變異模式家族的變異模式二、結(jié)構(gòu)數(shù)據(jù)庫二、結(jié)構(gòu)數(shù)據(jù)庫(蛋白質(zhì)蛋白質(zhì)) PDB /pdb/ RCSB(Research Collaboratory for Structural Bio
16、informatics) 國際上專門用于處理和發(fā)布生物大分子三維結(jié)構(gòu)的知識庫,國際上專門用于處理和發(fā)布生物大分子三維結(jié)構(gòu)的知識庫,提供數(shù)據(jù)庫的檢索和下載服務,以及提供數(shù)據(jù)庫的檢索和下載服務,以及PDB數(shù)據(jù)文件格式和數(shù)據(jù)文件格式和其它文檔的說明,使用軟件可對其它文檔的說明,使用軟件可對PDB數(shù)據(jù)庫記錄用多種模數(shù)據(jù)庫記錄用多種模式顯示生物大分子三維結(jié)構(gòu)式顯示生物大分子三維結(jié)構(gòu) 蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫SCOP scop.mrc-lmb.cam.ac.uk/scop/ 包含從包含從PDB數(shù)據(jù)庫中提取的所有結(jié)構(gòu)域,并詳細描述已知數(shù)據(jù)庫中提取的所有結(jié)構(gòu)域,并詳細描述已知蛋白質(zhì)結(jié)構(gòu)之間的關
17、系蛋白質(zhì)結(jié)構(gòu)之間的關系 MMDB NCBI的分子模型數(shù)據(jù)庫的分子模型數(shù)據(jù)庫/sites/entrez?db=structure/ 包括由包括由x射線衍射和核磁共振實驗得到的所有射線衍射和核磁共振實驗得到的所有PDB生物分生物分子三維結(jié)構(gòu),與原始的子三維結(jié)構(gòu),與原始的PDB結(jié)構(gòu)相比,增加一些附加信息:結(jié)構(gòu)相比,增加一些附加信息:經(jīng)程序驗證的顯性化學圖像信息、一致的二級結(jié)構(gòu)衍生定經(jīng)程序驗證的顯性化學圖像信息、一致的二級結(jié)構(gòu)衍生定義、與義、與MEDLINE相匹配的引用、基于源自生物實體的蛋相匹配的引用、基于源自生物實體的蛋白質(zhì)或核酸鏈進行分類的分子匹配白質(zhì)或核酸鏈進行
18、分類的分子匹配三、功能數(shù)據(jù)庫三、功能數(shù)據(jù)庫 收錄生物分子的功能數(shù)據(jù),由收錄生物分子的功能數(shù)據(jù),由ID號與序列和結(jié)構(gòu)數(shù)據(jù)鏈接號與序列和結(jié)構(gòu)數(shù)據(jù)鏈接 組織表達譜和亞細胞定位組織表達譜和亞細胞定位 根據(jù)不同組織中的根據(jù)不同組織中的EST、SAGE或芯片雜交信號,繪制出不或芯片雜交信號,繪制出不同組織中表達基因的圖譜:同組織中表達基因的圖譜: BodyMap bodymap.ims.u-tokyo.ac.jp/ Unigene /sites/entrez?db=unigene SAGEmap /projects/SAGE/ GEO ncb
19、/projects/geo/ Stanford Microarray Database /microarray 亞細胞定位數(shù)據(jù)庫:亞細胞定位數(shù)據(jù)庫: PSORTdb / DBSubLoc /dbsubloc.html 膜蛋白質(zhì)數(shù)據(jù)庫膜蛋白質(zhì)數(shù)據(jù)庫TMPDB bioinfo.si.hirosaki-u.ac.jp/TMPDB/ 線粒體蛋白質(zhì)數(shù)據(jù)庫線粒體蛋白質(zhì)數(shù)據(jù)庫MitoP2 mitop.de:8080/mitop2/三、功能數(shù)據(jù)庫三、功能數(shù)據(jù)庫 蛋白翻譯后修飾蛋白翻譯
20、后修飾 dbPTM .tw/ ,磷酸化、糖基化和硫,磷酸化、糖基化和硫修飾,也收錄和蛋白質(zhì)翻譯后修飾相關的生物信息,確認修飾,也收錄和蛋白質(zhì)翻譯后修飾相關的生物信息,確認的修飾信息、的修飾信息、Swiss-Prot蛋白中可能存在的三類修飾信息、蛋白中可能存在的三類修飾信息、部分針對某種修飾的數(shù)據(jù)庫部分針對某種修飾的數(shù)據(jù)庫 部分某種修飾數(shù)據(jù)庫部分某種修飾數(shù)據(jù)庫 O-GlycBasecbs.dtu.dk/databases/OGLYCBASE/)只收錄)只收錄O糖基化糖基化數(shù)據(jù);數(shù)據(jù);PhosphoB/)只收錄磷)只收錄
21、磷酸化位點的數(shù)據(jù);酸化位點的數(shù)據(jù);RESIDebi.ac.uk/RESID/) 收錄蛋白收錄蛋白質(zhì)修飾的注釋和結(jié)構(gòu)的數(shù)據(jù)質(zhì)修飾的注釋和結(jié)構(gòu)的數(shù)據(jù) 蛋白質(zhì)蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù)庫蛋白質(zhì)相互作用數(shù)據(jù)庫 DIP /,由實驗驗證的蛋白質(zhì),由實驗驗證的蛋白質(zhì)-蛋白質(zhì)蛋白質(zhì)相互作用數(shù)據(jù),包括蛋白質(zhì)的信息、相互作用的信息和檢相互作用數(shù)據(jù),包括蛋白質(zhì)的信息、相互作用的信息和檢測相互作用的實驗技術測相互作用的實驗技術 IntAct ebi.ac.uk/intact ,提供用于蛋白質(zhì)相互作用數(shù)據(jù),提供用于蛋白質(zhì)相互作用數(shù)據(jù)存儲、展示和分析的開源數(shù)據(jù)庫和工具包,可對相互作
22、用存儲、展示和分析的開源數(shù)據(jù)庫和工具包,可對相互作用數(shù)據(jù)在網(wǎng)頁上進行文本和圖像的展示,允許用戶通過數(shù)據(jù)在網(wǎng)頁上進行文本和圖像的展示,允許用戶通過GO注注釋或釋或InterPro結(jié)構(gòu)域注釋進行網(wǎng)絡的擴充結(jié)構(gòu)域注釋進行網(wǎng)絡的擴充 三、功能數(shù)據(jù)庫三、功能數(shù)據(jù)庫 代謝網(wǎng)絡和信號途徑代謝網(wǎng)絡和信號途徑 KEGG(Kyoto Encyclopedia of Genes and Genomes) genome.ad.jp/kegg/ 系統(tǒng)分析基因功能、聯(lián)系基因組信息和功能信息的系統(tǒng)分析基因功能、聯(lián)系基因組信息和功能信息的知識庫知識庫 GENES收錄完整和部分測序的基因組序列;收錄完整和部分測序的基因組序列;
23、PATHWAY數(shù)據(jù)庫存儲更高級的功能信息,包括圖解數(shù)據(jù)庫存儲更高級的功能信息,包括圖解的細胞生化過程和同系保守的子通路等信息;的細胞生化過程和同系保守的子通路等信息; LIGAND數(shù)據(jù)庫收錄關于化學物質(zhì)、酶分子和酶反應數(shù)據(jù)庫收錄關于化學物質(zhì)、酶分子和酶反應等信息等信息四、其它專業(yè)數(shù)據(jù)庫四、其它專業(yè)數(shù)據(jù)庫 人類基因和疾病數(shù)據(jù)庫人類基因和疾病數(shù)據(jù)庫 OMIM(/sites/entrez?db=omim) 收錄所有已知的遺傳病、遺傳性狀和基因,除收錄所有已知的遺傳病、遺傳性狀和基因,除簡略描述各種疾病的臨床特征、診斷、治療和預簡略描述各種疾病的臨床特征、診斷、治療和預
24、防外,還提供致病基因的連鎖關系、染色體定位、防外,還提供致病基因的連鎖關系、染色體定位、組織結(jié)構(gòu)、動物模型及其參考文獻等信息組織結(jié)構(gòu)、動物模型及其參考文獻等信息 dbSNP(/sites/entrez?db=SNP )收錄已經(jīng)識別的收錄已經(jīng)識別的SNPs的數(shù)據(jù)庫的數(shù)據(jù)庫 HapMap Project()收錄了三大人群收錄了三大人群(非洲人非洲人,高加索人和亞洲人群高加索人和亞洲人群)主要的變異模式主要的變異模式,所所選擇的選擇的SNPs具有相對代表性具有相對代表性 CGED(lifesciencedb.jp/cged/)收錄多種癌癥的收錄
25、多種癌癥的臨床和基因表達數(shù)據(jù)臨床和基因表達數(shù)據(jù),更新到更新到2019年年四、其它專業(yè)數(shù)據(jù)庫四、其它專業(yè)數(shù)據(jù)庫 基于電泳和生物質(zhì)譜的蛋白質(zhì)組數(shù)據(jù)庫基于電泳和生物質(zhì)譜的蛋白質(zhì)組數(shù)據(jù)庫 SWISS-2DPAGE(/ch2d/)收錄各種雙收錄各種雙向電泳或向電泳或SDS的電泳圖,并提供蛋白在電泳圖中的電泳圖,并提供蛋白在電泳圖中的位置及其信息的位置及其信息 PRIDE(ebi.ac.uk/pride/)數(shù)據(jù)庫收集國際蛋白質(zhì)數(shù)據(jù)庫收集國際蛋白質(zhì)組計劃所產(chǎn)出的鑒定結(jié)果數(shù)據(jù)組計劃所產(chǎn)出的鑒定結(jié)果數(shù)據(jù) PeptideAtlas(/)收錄大規(guī)模收錄大規(guī)模LC-
26、MS/MS實驗鑒定的蛋白信息,并將信息匹配到實驗鑒定的蛋白信息,并將信息匹配到Ensembl數(shù)據(jù)庫數(shù)據(jù)庫 dbLEP()為肝臟蛋白質(zhì)組計劃設為肝臟蛋白質(zhì)組計劃設計,提供鑒定結(jié)果及可追溯的信息,包括可供評計,提供鑒定結(jié)果及可追溯的信息,包括可供評估結(jié)果質(zhì)量的鑒定肽段數(shù)和質(zhì)譜圖譜等,同時還估結(jié)果質(zhì)量的鑒定肽段數(shù)和質(zhì)譜圖譜等,同時還提供大量的注釋信息,更新到提供大量的注釋信息,更新到2019年年四、其它專業(yè)數(shù)據(jù)庫四、其它專業(yè)數(shù)據(jù)庫 免疫學數(shù)據(jù)庫免疫學數(shù)據(jù)庫 IMGTimgt.cines.fr數(shù)據(jù)庫是關于免疫球蛋白、數(shù)據(jù)庫是關于免疫球蛋白、T細胞受體、主要組織相容性復合體以
27、及人類和細胞受體、主要組織相容性復合體以及人類和哺乳動物免疫系統(tǒng)相關蛋白的綜合數(shù)據(jù)庫,由序哺乳動物免疫系統(tǒng)相關蛋白的綜合數(shù)據(jù)庫,由序列數(shù)據(jù)庫、基因組和結(jié)構(gòu)數(shù)據(jù)庫、網(wǎng)站資源數(shù)據(jù)列數(shù)據(jù)庫、基因組和結(jié)構(gòu)數(shù)據(jù)庫、網(wǎng)站資源數(shù)據(jù)庫和各種研究工具數(shù)據(jù)庫組成庫和各種研究工具數(shù)據(jù)庫組成 dbMHC/mhc/)提供人類組)提供人類組織相容性抗原織相容性抗原HLA的序列數(shù)據(jù)和臨床上干細的序列數(shù)據(jù)和臨床上干細胞移植及風濕性關節(jié)炎等數(shù)據(jù),也提供全世界胞移植及風濕性關節(jié)炎等數(shù)據(jù),也提供全世界90多個人群的多個人群的HLA位點、等位基因和單倍型頻率的位點、等位基因和單倍型頻率的遺傳檢測工具遺
28、傳檢測工具生物信息學數(shù)據(jù)庫總結(jié)生物信息學數(shù)據(jù)庫總結(jié)如此多的數(shù)據(jù)庫如何掌握?如此多的數(shù)據(jù)庫如何掌握?不用掌握,只需要有印象不用掌握,只需要有印象( (某些領域著名數(shù)據(jù)庫某些領域著名數(shù)據(jù)庫) ),需要時再找相應的,需要時再找相應的數(shù)據(jù)庫:新的或較小的數(shù)據(jù)庫數(shù)據(jù)庫:新的或較小的數(shù)據(jù)庫以上所講數(shù)據(jù)庫皆為各類數(shù)據(jù)庫,多數(shù)重要的是數(shù)據(jù)集本身,對于檢以上所講數(shù)據(jù)庫皆為各類數(shù)據(jù)庫,多數(shù)重要的是數(shù)據(jù)集本身,對于檢索來講,需要在常用生物信息學系統(tǒng)上進行索來講,需要在常用生物信息學系統(tǒng)上進行( (如如EntrezEntrez、SRSSRS和和ExpasyExpasy,大多數(shù)據(jù)庫集成于此大多數(shù)據(jù)庫集成于此) )數(shù)據(jù)庫
29、是不斷更新和發(fā)展的,網(wǎng)址變化、新的數(shù)據(jù)庫出現(xiàn)、舊數(shù)據(jù)庫數(shù)據(jù)庫是不斷更新和發(fā)展的,網(wǎng)址變化、新的數(shù)據(jù)庫出現(xiàn)、舊數(shù)據(jù)庫不再維護數(shù)據(jù)不存在等等,需要從互聯(lián)網(wǎng)上不斷尋找不再維護數(shù)據(jù)不存在等等,需要從互聯(lián)網(wǎng)上不斷尋找數(shù)據(jù)庫之間的關系,以及數(shù)據(jù)庫中內(nèi)容等等需要同學自己在互聯(lián)網(wǎng)中數(shù)據(jù)庫之間的關系,以及數(shù)據(jù)庫中內(nèi)容等等需要同學自己在互聯(lián)網(wǎng)中尋找自己所關心的內(nèi)容,在數(shù)據(jù)庫網(wǎng)站上看簡介和使用方法,搜索引尋找自己所關心的內(nèi)容,在數(shù)據(jù)庫網(wǎng)站上看簡介和使用方法,搜索引擎查詢某些同類數(shù)據(jù)庫的關系,發(fā)信詢問服務器如擎查詢某些同類數(shù)據(jù)庫的關系,發(fā)信詢問服務器如NCBINCBI等等以上所講數(shù)據(jù)庫只是給一些概念和印象,希望同學以
30、后在自己所研究以上所講數(shù)據(jù)庫只是給一些概念和印象,希望同學以后在自己所研究領域或平時接觸到的領域中碰到這些數(shù)據(jù)庫有所了解,不陌生領域或平時接觸到的領域中碰到這些數(shù)據(jù)庫有所了解,不陌生生物信息學數(shù)據(jù)庫的檢索生物信息學數(shù)據(jù)庫的檢索 主要檢索系統(tǒng)和工具主要檢索系統(tǒng)和工具 Entrez(National Center for Biotechnology Information,NCBI) SRS(European Bioinformatics Institute,EBI) ExPasy Expert Protein Analysis System (Swiss Institute of Bioinfo
31、rmatics,SIB) 日本、歐洲、美國其他研究機構(gòu)的工具平日本、歐洲、美國其他研究機構(gòu)的工具平臺臺一、數(shù)據(jù)庫字段檢索一、數(shù)據(jù)庫字段檢索 / 例例1: 用用ID號檢索號檢索protein數(shù)據(jù)庫序列及相關信息數(shù)據(jù)庫序列及相關信息 人人TPA(tissue plasminogen activator)蛋白蛋白質(zhì)質(zhì) ID號:號:AAO34406一、數(shù)據(jù)庫字段檢索一、數(shù)據(jù)庫字段檢索 檢索步驟檢索步驟 在在NCBI界面中選擇界面中選擇“protein數(shù)據(jù)庫數(shù)據(jù)庫 在檢索框中填寫在檢索框中填寫“AAO34406”,點擊,點擊“GO”Fasta格式蛋白質(zhì)特性參考文獻物種起源
32、原序列復制后,可到BLAST中進行相似性對比 例例2:同時獲得多個蛋白的信息:同時獲得多個蛋白的信息 獲得多個蛋白信息 Display設置輸送到文件、剪切板等 例例3:一次性獲取幾百:一次性獲取幾百/上千蛋白信息上千蛋白信息 使用使用Batch Entrez 將序列號存儲在文件中將序列號存儲在文件中(每個序列號一行,每個序列號一行,不要有其它任何字符不要有其它任何字符),點擊,點擊“閱讀閱讀”即可即可得到結(jié)果列表得到結(jié)果列表 /sites/batchentrez上傳序列文件 關鍵字檢索數(shù)據(jù)庫記錄關鍵字檢索數(shù)據(jù)庫記錄 數(shù)據(jù)庫字段未知數(shù)據(jù)庫字段未知 例例4: 查詢查
33、詢tissue plasminogen activator蛋白信蛋白信息息315條記錄 70條記錄 選擇題名中有選擇題名中有RecNameRecName被識別序列的記錄被識別序列的記錄 tissue plasminogen activator and tissue plasminogen activator and human and Recnamehuman and Recname名稱是所需要的 蛋白SwissProt號以P/Q開頭gi號 Fasta格式序列 例6: 獲取核酸序列:人類血小板衍生因子的序列 關鍵詞:Platelet derived growth factor homo sap
34、iens 限定字段:基因定義標題) Platelet derived growth factorTI and homo sapiensTI基因定義 堿基數(shù)、核酸類型序列長度 物種來源 參考文獻 染色體特性 NCBI structure查詢查詢檢索步驟檢索步驟檢索欄中直接輸入的檢索詞包括:檢索欄中直接輸入的檢索詞包括:PDB PDB 代代碼碼, , 蛋白質(zhì)名蛋白質(zhì)名, , 作者作者, , 或期刊名或期刊名搜索,得出檢索初步結(jié)果,需注意篩選搜索,得出檢索初步結(jié)果,需注意篩選也許出現(xiàn)多個指定的蛋白質(zhì)存在的記錄也許出現(xiàn)多個指定的蛋白質(zhì)存在的記錄, , 反映不同實驗技術情況反映不同實驗技術情況, , 并
35、出現(xiàn)或缺乏各并出現(xiàn)或缺乏各種配合基或金屬離子種配合基或金屬離子也許包含全長分子的不同片段也許包含全長分子的不同片段還有許多突變體蛋白質(zhì)結(jié)構(gòu)還有許多突變體蛋白質(zhì)結(jié)構(gòu)包含了包含了PDBPDB記錄記錄( (實驗性描述實驗性描述, PDB, PDB代碼代碼) )顯示結(jié)構(gòu)概略頁顯示結(jié)構(gòu)概略頁點擊次要結(jié)構(gòu)點擊次要結(jié)構(gòu) Secondary StructureSecondary Structure按鈕按鈕對觀看對觀看3D 3D 分子的結(jié)構(gòu)有用分子的結(jié)構(gòu)有用觀看完整蛋白質(zhì)結(jié)構(gòu)按鈕觀看完整蛋白質(zhì)結(jié)構(gòu)按鈕FullFullProtein StructuresProtein Structures須下載須下載Cn3DCn
36、3D軟件)軟件) Viewing 3D StructuresViewing 3D Structures實例實例 例例7 7:查找鐵氧化還原蛋白的三維結(jié)構(gòu):查找鐵氧化還原蛋白的三維結(jié)構(gòu) 蛋白質(zhì)代碼:蛋白質(zhì)代碼:1doi1doi 鐵氧化還原蛋白名:鐵氧化還原蛋白名:ferredoxin feferredoxin fe蛋白質(zhì)代碼蛋白質(zhì)描述:來自死海古菌的鐵氧化還原蛋白發(fā)表文獻生物體分類名稱顯示三維結(jié)構(gòu)參考文獻蛋白質(zhì)鏈欄,鼠標放在欄上,顯示殘基;點擊顯示分子各條鏈、鄰族結(jié)構(gòu)點擊顯示存儲域點擊顯示序列Genome數(shù)據(jù)庫檢索數(shù)據(jù)庫檢索 Map Viewer (Map Viewer (圖形顯示器圖形顯示器)
37、,),可觀看數(shù)據(jù)庫內(nèi)帶有可觀看數(shù)據(jù)庫內(nèi)帶有綜合遺傳和自然圖的各種有機體基因組、全部染綜合遺傳和自然圖的各種有機體基因組、全部染色體、序列集成數(shù)據(jù)色體、序列集成數(shù)據(jù) 通常檢索的是序列全長序列通常檢索的是序列全長序列cDNAcDNA,難以檢索某一,難以檢索某一序列特定區(qū)域,了解序列特定區(qū)域,了解5 5或或3 3的核酸序列或?qū)?nèi)含的核酸序列或?qū)?nèi)含子等其它分子生物學內(nèi)容進行分析子等其它分子生物學內(nèi)容進行分析 例例8 8: 利用利用Map ViewerMap Viewer獲取特定基因周圍的獲取特定基因周圍的基因組序列基因組序列 選擇選擇“Genome數(shù)據(jù)庫,找到數(shù)據(jù)庫,找到Map viewer工具點擊
38、進入工具點擊進入獲取FMR1基因組3, 5端序列OMIM數(shù)據(jù)庫數(shù)據(jù)庫 例例9 9: 查找角化過度癥營養(yǎng)不良性神經(jīng)查找角化過度癥營養(yǎng)不良性神經(jīng)?。┎。?Keratoderma,palmoplantarKeratoderma,palmoplantar染色體位點內(nèi)容目錄相關數(shù)據(jù)庫連接二、序列數(shù)據(jù)的相似性檢索二、序列數(shù)據(jù)的相似性檢索 常用工具:常用工具:BLAST(Basic Local Alignment BLAST(Basic Local Alignment Search Tool)Search Tool)、FASTAFASTA /Blast.cgibl
39、/Blast.cgi 5 5種查詢方式種查詢方式 例例1010:檢索人:檢索人TPATPA蛋白的同源蛋白序列蛋白的同源蛋白序列 選擇選擇“protein blastprotein blast”5種查詢方式輸入SP號,gi號或序列 上傳比對序列文件 工作名稱 選擇比對數(shù)據(jù)庫 生物組織名稱 選擇算法參數(shù),可用默認值 類似性圖譜比對結(jié)果描述詳細比對結(jié)果比對積分報告數(shù)據(jù)庫標識符蛋白定義積分值比對結(jié)果檢索序列匹配的數(shù)據(jù)庫記錄打分情況匹配結(jié)果引物設計引物設計 引物:在聚合反應中作為底物引發(fā)聚合產(chǎn)物的短引物:在聚合反應中作為底物引發(fā)聚合產(chǎn)物的短的序列統(tǒng)稱為引物。的序列統(tǒng)稱為引物。PCRPCR反應中擴增一個已知序列反應中擴增一個已知序列DNA,DNA,對其引物須有一定的滿足條件對其引物須有一定的滿足條件, ,才能有效地擴才能有效地擴增模板序列增模板序列, ,這些條件有:(這些條件有:(1 1引物長度為引物長度為2020個個堿基堿基2 2引物序列與被擴增的序列不具有同源性引物序列與被擴增的序列不具有同源性3 3引物中引物中G+CG+C堿基的含量以堿基的含量以40%60%40%60%為宜等為宜等 根據(jù)引物設
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學語文六年級上冊教案
- 企業(yè)財務審計管理中的風險控制
- 海洋資源驗收管理辦法
- 企業(yè)團隊建設行政人事部策略
- 民生改善提案管理辦法
- 互聯(lián)網(wǎng)金融服務招投標合同模板
- 汽車物流倉儲協(xié)議
- 建筑空調(diào)工程延期合同協(xié)議書
- 專利權交易合同
- 河道綜合治理工程合同
- 敏感節(jié)點維穩(wěn)工作應急預案
- 情景教學法的相關研究
- 六年級家長會家長代表演講稿-PPT.ppt
- 基于STEM教育理念的高中生物教學研究
- 2022年普通高中地理課程標(完整哦)
- 事業(yè)單位處分條例2021事業(yè)單位工作人員處分條例
- 《腦出血》PPT課件(完整版)
- 大班科學活動《認識牙齒》ppt課件
- T∕CSCB 0005-2021 人誘導多能干細胞
- 溫室大棚、花卉苗圃采暖項目設計方案
- 山西省蒲縣高閣村煤層火災治理工程施工組織設計(總
評論
0/150
提交評論