基因組數(shù)據(jù)庫課件

上傳人：6*** IP屬地：貴州上傳時間：2022-07-24 格式：PPT 頁數(shù)：95 大小：393KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩90頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、網(wǎng)絡(luò)生物醫(yī)學(xué)資源概論生物分子數(shù)據(jù)庫基因組數(shù)據(jù)庫蛋白質(zhì)序列、生物大分子結(jié)構(gòu)數(shù)據(jù)庫蛋白質(zhì)二級結(jié)構(gòu)、互作數(shù)據(jù)庫基因產(chǎn)物注釋數(shù)據(jù)庫網(wǎng)絡(luò)生物醫(yī)學(xué)資源概論網(wǎng)絡(luò)生物醫(yī)學(xué)資源所包含的主要內(nèi)容網(wǎng)上生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫網(wǎng)上生物醫(yī)學(xué)數(shù)據(jù)庫(分子生物學(xué)數(shù)據(jù)庫)網(wǎng)上生物醫(yī)學(xué)文獻(xiàn)類型1文摘型數(shù)據(jù)庫2全文型數(shù)據(jù)庫3事實型數(shù)據(jù)庫4生物醫(yī)學(xué)專業(yè)網(wǎng)站5生物醫(yī)學(xué)整合知識平臺文摘型生物醫(yī)學(xué)數(shù)據(jù)庫1.Pubmed數(shù)據(jù)庫2.TOXNET數(shù)據(jù)庫3.EMBase荷蘭醫(yī)學(xué)文摘？如是對引起胃癌基因感興趣的讀者，想從事這方面的研究，請問如何查找這方面的信息。能夠?qū)@方面的研究動態(tài)有一定的了解生物分子數(shù)據(jù)庫生物分子數(shù)據(jù)庫應(yīng)滿足5個方面的主要需求（1）

2、時間性（2）注釋（3）支撐數(shù)據(jù) （4）數(shù)據(jù)質(zhì)量（5）集成性生物分子數(shù)據(jù)庫一級數(shù)據(jù)庫數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù)，只經(jīng)過簡單的歸類整理和注釋二級數(shù)據(jù)庫對原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果，是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的。國際上權(quán)威的核酸序列數(shù)據(jù)庫（1）歐洲分子生物學(xué)實驗室的EMBL http:/www.embl-heidelberg.de （2）美國生物技術(shù)信息中心的GenBank /Web/Genbank/index.html （3）日本遺傳研究所的DDBJ http:/www.ddbj.nig.ac.jp/“ID”為序列的標(biāo)識

3、符行，包括登錄號、類型，分子的長度 “AC”為登錄號行；“XX”為分隔符號行； “DT”為創(chuàng)建和更新日期行 “DE”為序列描述行；“KW”為關(guān)鍵字行；“OG”行描述細(xì)胞組織；“OS”行描述生物體種屬；“OC”行描述生物體分類信息；“RN”描述參考文獻(xiàn)的編號；“RP”描述參考文獻(xiàn)的頁碼；“RA”描述參考文獻(xiàn)的作者；“RT”描述參考文獻(xiàn)的題目；“RL”描述參考文獻(xiàn)的出處；“RC”描述參考文獻(xiàn)的注解；“RX”、“DR”行描述交叉引用信息；“FH” 為特征開始符號；“FT”為特征表行（1）Feature Key，它是描述域生物功能的關(guān)鍵字；（2）Location，指明特征在序列中的特定位置；（3

4、）Qualifiers，描述關(guān)于一個特征的輔助信息；文件體由序列本身所組成，由“SQ”標(biāo)志的行開始。序列結(jié)束的標(biāo)記是“/”。EMBL核酸數(shù)據(jù)庫中的每一個序列數(shù)據(jù)被賦予一個登錄號，它是一個永久性的唯一標(biāo)識 EMBL的序列數(shù)據(jù)用外在的ASCII文本文件來表示，而每一個文件分為文件頭和文件體兩大部分文件頭由一系列的信息描述行所組成，文件頭實際上對應(yīng)于一個序列的注釋（annotation）核酸數(shù)據(jù)庫提供一些與序列相關(guān)的檢索操作（基于3W服務(wù)器）（1）序列查詢最簡單的查詢就是通過序列的登錄號（如X58929）或序列名稱（如SCARGC）直接查詢。如果找到所查詢的序列，則服務(wù)器將查詢結(jié)果以HTML文件返

5、回給用戶如果數(shù)據(jù)庫中該序列有到MEDLINE的交叉索引，則系統(tǒng)同時返回與包含參考文獻(xiàn)摘要等信息的MEDLINE鏈接如果該序列有到其它數(shù)據(jù)庫的交叉索引，也返回相應(yīng)的鏈接（2）核酸同源性搜索 3W服務(wù)器支持用戶使用FastA程序進(jìn)行核酸同源搜索。FastA根據(jù)給定的目標(biāo)序列在數(shù)據(jù)庫中搜索其同源序列。生物基因組數(shù)據(jù)庫基因組數(shù)據(jù)庫（GDB）鼠基因組數(shù)據(jù)庫 MGD（/）酵母基因組數(shù)據(jù)庫 SGD（/Saccharomyces/）蛋白質(zhì)序列數(shù)據(jù)庫1、PIR（Protein Information Resource）2、SWISS-PROT3、TrEMBL4、蛋白質(zhì)數(shù)據(jù)倉庫UniProtUniProt包含3個

6、部分：（1）UniProt Knowledgebase（UniProt）蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心（2）UniProt Non-redundant Reference（UniRef）數(shù)據(jù)庫將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中以便提高搜索速度；（3）UniProt Archive（UniParc）資源庫，記錄所有蛋白質(zhì)序列的歷史。生物大分子結(jié)構(gòu)數(shù)據(jù)庫1、PDB（Protein Data Bank）PDB中含有通過實驗（X射線晶體衍射，核磁共振NMR）測定的生物大分子的三維結(jié)構(gòu)蛋白質(zhì)核酸糖類其它復(fù)合物其它生物分子數(shù)據(jù)庫核酸序列變化單堿基多態(tài)性SNPs（Single

7、nucleotide polymorphisms）SNPs對人類遺傳學(xué)研究和醫(yī)學(xué)應(yīng)用具有重要的意義無論對于人類種群遺傳學(xué)的研究，還是對疾病性狀分析或個體化醫(yī)療，都需要深入地研究SNPs。 1、單堿基多態(tài)性數(shù)據(jù)庫dbSNP基因組數(shù)據(jù)庫隨著核酸測序技術(shù)的迅速發(fā)展，人類已經(jīng)得到一部分生物的全基因組數(shù)據(jù)，如人、小鼠、大鼠等。這些數(shù)據(jù)對于我們認(rèn)識基因組信息組織的奧秘、了解生物體的生長發(fā)育的規(guī)律是非常重要的。國際上有專門的組織收集和管理這些數(shù)據(jù)。NCBI基因組數(shù)據(jù)庫Entrez Gonomes （/entrez/query.fcgi?db=Genome）所收集的基因組數(shù)據(jù)量非常大，基因組數(shù)據(jù)庫（GDB）

8、GDB 人類基因組學(xué)數(shù)據(jù)庫資源名稱：The Genome Database交替名稱：基因組數(shù)據(jù)庫創(chuàng)建機(jī)構(gòu)：美國馬里蘭州巴爾的摩市約翰霍普金斯大學(xué)基因組數(shù)據(jù)庫(GDB)為人類基因組計劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書，除了構(gòu)建基因組圖譜之外，還開發(fā)了描述序列水平的基因組內(nèi)容的方法，包括序列變異和其它對功能和表型的描述。目前GDB中有：人類基因組區(qū)域(包括基因、克隆、amplimers PCR 標(biāo)記、斷點breakpoints、細(xì)胞遺傳標(biāo)記cytogenetic markers、易碎位點fragile sites、EST序列、綜合區(qū)域syndromi

9、c regions、contigs和重復(fù)序列)；人類基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等)；人類基因組內(nèi)的變異(包括突變和多態(tài)性，加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫以對象模型來保存數(shù)據(jù)，提供基于Web的數(shù)據(jù)對象檢索服務(wù)，用戶可以搜索各種類型的對象，并以圖形方式觀看基因組圖譜此外，GDB數(shù)據(jù)庫還包括了與核酸序列數(shù)據(jù)庫 GenBank和EMBL、遺傳疾病數(shù)據(jù)庫OMIM、醫(yī)藥文摘數(shù)據(jù)庫MedLine等其他網(wǎng)絡(luò)信息資源的超文本鏈接。 GDB數(shù)據(jù)庫是用大型商業(yè)軟件Sybase數(shù)據(jù)庫管理系統(tǒng)開發(fā)的，并用Java語言編寫基因圖譜顯示程序，為用

10、戶提供了很好的界面，缺點是傳輸速度受到一定限制。 GDB數(shù)據(jù)庫是國際合作的成果，其宗旨是為從事基因組研究的生物學(xué)家和醫(yī)護(hù)人員提供人類基因組信息資源。其數(shù)據(jù)來自于世界各國基因組研究的成果，經(jīng)過注冊的用戶可以直接向GDB數(shù)據(jù)庫中添加和編輯數(shù)據(jù)。目前GDB數(shù)據(jù)庫主站點設(shè)在加拿大安大略多倫多兒童醫(yī)院生物信息中心。不過，根據(jù)協(xié)議，生物信息中心對 GDB的管理到2002年底終結(jié)，因此，自2003年始，GDB數(shù)據(jù)庫內(nèi)容沒有更新，不過，各鏡像站點仍繼續(xù)提供檢索服務(wù)。據(jù)稱新的主站點正在建設(shè)中，不過新的主站點將設(shè)在何處尚是未知數(shù)。其它模式生物基因組數(shù)據(jù)庫酵母基因組數(shù)據(jù)庫SGD（/）小鼠基因組信息學(xué)數(shù)據(jù)庫MGI（

11、/）果蠅基因組數(shù)據(jù)庫FlyBase（/）線蟲基因組數(shù)據(jù)庫WormBase（/）蛋白質(zhì)序列、生物大分子結(jié)構(gòu)數(shù)據(jù)庫數(shù)據(jù)庫簡介由于蛋白質(zhì)序列測定技術(shù)先于DNA序列測定技術(shù)問世，蛋白質(zhì)序列的搜集也早于DNA序列。蛋白質(zhì)序列數(shù)據(jù)庫的雛形可以追朔到60年代。60年代中期到80年代初，美國國家生物醫(yī)學(xué)研究基金會(National Biomedical Research Foundation，簡稱NBRF)Dayhoff領(lǐng)導(dǎo)的研究組將搜集到的蛋白質(zhì)序列和結(jié)構(gòu)信息以“蛋白質(zhì)序列和結(jié)構(gòu)地圖集”(Atlas of Protein Sequence and Structure)的形式發(fā)表，主要用來研究蛋白質(zhì)的進(jìn)化關(guān)

12、系。1984年，“蛋白質(zhì)信息資源”(Protein Information Resource，簡稱PIR)計劃正式啟動，蛋白質(zhì)序列數(shù)據(jù)庫PIR也因此而誕生。與核酸序列數(shù)據(jù)庫的國際合作相呼應(yīng)，1988年，美國的NBRF、日本的國際蛋白質(zhì)信息數(shù)據(jù)庫(Japanese International Protein Information Database，簡稱JIPID)和德國的慕尼黑蛋白質(zhì)序列信息中心(Munich Information Center for Protein Sequences，簡稱MIPS)合作成立了國際蛋白質(zhì)信息中心(PIR-International)，共同收集和維護(hù)蛋白質(zhì)序

13、列數(shù)據(jù)庫PIR，除了PIR外，另一個重要的蛋白質(zhì)序列數(shù)據(jù)庫則是SwissProt。該數(shù)據(jù)庫由瑞士日內(nèi)瓦大學(xué)于1986年創(chuàng)建，目前由瑞士生物信息學(xué)研究所(Swiss Institute of Bioinformatics，簡稱SIB)和歐洲生物信息學(xué)研究所 EBI共同維護(hù)和管理。瑞士生物信息研究所下屬的蛋白質(zhì)分析專家系統(tǒng)(Expert Protein Analysis System,，簡稱ExPASy)的Web服務(wù)器除了開發(fā)和維護(hù)SwissProt數(shù)據(jù)庫外，也是國際上蛋白質(zhì)組和蛋白質(zhì)分子模型研究的中心，為用戶提供大量蛋白質(zhì)信息資源。北京大學(xué)生物信息中心設(shè)有ExPASy的鏡象SwissProt數(shù)據(jù)

14、庫中的所有序列條目都經(jīng)過有經(jīng)驗的分子生物學(xué)家和蛋白質(zhì)化學(xué)家通過計算機(jī)工具并查閱有關(guān)文獻(xiàn)資料仔細(xì)核實。SIB和EBI共有70多人的研究隊伍，專門從事蛋白質(zhì)序列數(shù)據(jù)的搜集、整理、分析、注釋、發(fā)布，力圖提供高質(zhì)量的蛋白質(zhì)序列和注釋信息。SwissProt數(shù)據(jù)庫的每個條目都有詳細(xì)的注釋，包括結(jié)構(gòu)域、功能位點、跨膜區(qū)域、二硫鍵位置、翻譯后修飾、突變體等。該數(shù)據(jù)庫中還包括了與核酸序列數(shù)據(jù)庫EMBL/GenBank/DDBJ、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB以及Prosite、PRINTTS等十多個二次數(shù)據(jù)庫的交叉引用代碼。ExPAsy專門聘請了由200多位國際知名生物學(xué)家組成的網(wǎng)上專家評審團(tuán)，并將SwissProt

15、數(shù)據(jù)庫中的蛋白質(zhì)分成200多個類別,每個類別由1位或2位評審專家負(fù)責(zé)，通過計算機(jī)網(wǎng)絡(luò)進(jìn)行審核。ExPASy網(wǎng)站上列出了這些評審專家的姓名、電子郵件地址和他們所負(fù)責(zé)評審蛋白質(zhì)種類。用戶若對某個蛋白質(zhì)條目有疑義，可以直接和相應(yīng)的評審專家取得聯(lián)系.截止1998年6月，SWISS-PROT數(shù)據(jù)庫包含約7萬條序列，這些序列涵蓋了5千多個不同種屬，其中大部分來自于幾種主要模式生物，如人、小鼠等。蛋白質(zhì)序列、生物大分子結(jié)構(gòu)數(shù)據(jù)庫SWISS-PROT 數(shù)據(jù)記錄(Entry)詳解：每條蛋白質(zhì)序列條目按照各種數(shù)據(jù)行的格式書寫排列 1.ID (IDentification)標(biāo)識記錄名 (Entry-name)X_

16、YX代表蛋白質(zhì)名稱的記憶碼，至多4位；Y代表蛋白質(zhì)的生物來源，至多5位，一般前3位是屬名，后2位是種名。常見普通生物以自釋碼表明來源，如HUMAN，YEAST等，病毒例外，以臨時碼代替。如PDI_YEAST ,PDI代表Protein Disulfide Isomerase（蛋白質(zhì)二硫鍵異構(gòu)酶）；YEAST代表它來源于Yeast(酵母)，屬于自釋碼。 FER_HALHAFER代表ferredoxin鐵還原蛋白；HALHA表明其生物來源為Halobacterirn halobium(海洋嗜鹽菌，HAL代表嗜鹽菌層Halobacterium，HA代表海洋生物Halobium)。 1.2 數(shù)據(jù)類型

17、(Data class)分標(biāo)準(zhǔn)(Standard)數(shù)據(jù)和初級(Preliminary)數(shù)據(jù)兩類。數(shù)據(jù)達(dá)不到SWISS- PROT標(biāo)準(zhǔn)的屬于初級數(shù)據(jù)。1.3 分子類型 (Molecular type)在SWISS-PROT數(shù)據(jù)庫，分子類型均為PRT，代表蛋白質(zhì)(PRoTein)。1.4 分子長度(Length of the molecule)ID數(shù)據(jù)行的最后一項是序列的氨基酸殘基數(shù)目。2.AC (Accession number) 蛋白質(zhì)注冊號由于數(shù)據(jù)的合并與增刪，一個記錄可能有幾個注冊號，以第一個注冊號為準(zhǔn)；但一般情況下，一個記錄只有一個注冊號。3.DT (Date) 記錄日期或最后一次更新的

18、日期格式為DD-MMM-YEAR(REL. XX. COMMENT) 日-月-年(發(fā)行號，記錄緣由）記錄緣由分為創(chuàng)建、序列更新和其他內(nèi)容更新三種。4.DE (DEscription) 描述包含蛋白質(zhì)序列的描述性信息，無固定格式。5.GN (GeneName)基因名稱格式為GN NAME1AND/ORNAME2多個基因編碼同一個蛋白時，同義名稱的基因間以 OR 相隔；不同基因編碼蛋白質(zhì)的不同亞基時，基因之間以 AND 相隔。6.KW (KeyWord)關(guān)鍵詞可用于蛋白質(zhì)功能，結(jié)構(gòu)或其他范疇的蛋白質(zhì)序列索引。7.OS (Organism Species)生物種屬表明序列的來源，通常采用拉丁種屬名

19、，括弧中繼以英文名。如：OS SACCHARMYCES CEREVISIAE(BAKERS YEAST)表示：生物來源為酵母OS HOMO SAPIENS（HUMAN）表示：生物來源為人描述內(nèi)容組成。8.OG (OrGanelle)細(xì)胞器(細(xì)胞內(nèi)小器官)表明基因編碼蛋白的來源或定位，如細(xì)胞內(nèi)的線粒體，葉綠體或質(zhì)粒等。9.OC (Organism classification)生物分類以樹狀分類的從上至下的格式列出，最普遍的類目列在最前面。10.RN，RP，RC，RX，RA，RL 參考數(shù)據(jù)RN (Reference Number) 參考號在本記錄中的參考文獻(xiàn)的排號RP (Reference

20、Position) 參考性質(zhì) 文獻(xiàn)作者的工作性質(zhì)和范圍RC (Reference Comment)相關(guān)內(nèi)容文獻(xiàn)相關(guān)內(nèi)容(可選數(shù)據(jù)行)RX (Reference Cross-reference) 交互參照用來表示題錄型數(shù)據(jù)庫(Bibliographic database)中的標(biāo)識號，一般是MEDLINE數(shù)據(jù)庫的標(biāo)識號。如：RX MEDLINE；91001972RA (Reference Author)文獻(xiàn)作者RL (Reference Location)參考文獻(xiàn)來源，包括幾種：雜志：注明雜志縮寫，卷次，頁碼及發(fā)表日期（年）；書：注明書名，版次，卷次，編號，頁碼，出版及發(fā)表日期（年）書名前冠以(

21、IN)字樣；未出版物：示“UNPUBLISHED”字樣；論文(Thesis)：冠以“THESIS”標(biāo)記，注明時間（年），研究所，國家；專利(Patent)：注明專利號，日期；直接遞交序列(submissions)：注明遞交年月及數(shù)據(jù)庫。 11.DR (Database cross-Reference）參照數(shù)據(jù)庫格式為DRDATA_BANK_IDENTIFIER；PRIMARY_IDENTIFIER；SECONDARY_ IDENTIFIER 包含數(shù)據(jù)庫縮寫名，第一標(biāo)識號(Primary Identifier)，第二標(biāo)識號（Secondary Identifier,為補(bǔ)充信息）。12.

22、FT (Feature Table）特征表提供簡潔精煉的數(shù)據(jù)注釋，描述了序列的位點及作用區(qū)域。一般情況下列出翻譯后修飾、結(jié)合位點、酶活性位點和局部二級結(jié)構(gòu)等其他特征。每一特征數(shù)據(jù)行按關(guān)鍵詞、殘基起始序號區(qū)域及簡扼的13.SQ (SeQuence header）序列題頭列出蛋白質(zhì)的序列長度（氨基酸數(shù)目），分子量（MW），CRC32序列值蛋白質(zhì)數(shù)據(jù)庫（簡稱PDB）,專門用于處理和分類儲存蛋白質(zhì)等生物大分子的3D結(jié)構(gòu)及其他生物學(xué)數(shù)據(jù)，應(yīng)用范圍極其廣泛，是十分重要的世界性數(shù)據(jù)庫之一。蛋白質(zhì)的基本立體結(jié)構(gòu)數(shù)據(jù)庫為PDB (Protein Data Bank)，1971年建立于美國布魯海克海文國家實驗室

23、。該數(shù)據(jù)庫中收集了通過X射線衍射和核磁共振（NMR）試驗測定的蛋白質(zhì)結(jié)構(gòu)的精確坐標(biāo)數(shù)據(jù)。這種數(shù)據(jù)即蛋白質(zhì)中的原子坐標(biāo)是蛋白質(zhì)結(jié)構(gòu)的最細(xì)致的層次。該數(shù)據(jù)庫的管理者是結(jié)構(gòu)生物信息學(xué)合作研究組織（Research Collaboration for Structural Bioinformatics， RCSB， /pdb截至2004年4月20日，該數(shù)據(jù)庫所收錄的各種結(jié)構(gòu)數(shù)據(jù)已達(dá)25176條之多。在太平洋時間每個周三的凌晨一點，該數(shù)據(jù)庫會釋放一些新的結(jié)構(gòu)數(shù)據(jù)，在PDB年報和PDB新聞中，用戶可以詳盡地了解該數(shù)據(jù)庫的歷史、功能、最新進(jìn)展以及最終目的等信息。PDB是RCSB建立的全世界最完整的包括蛋白質(zhì)

24、、核酸、蛋白質(zhì)-核酸復(fù)合物及病毒等生物大分子的三維結(jié)構(gòu)數(shù)據(jù)庫。 PDB生物大分子結(jié)構(gòu)數(shù)據(jù)庫的內(nèi)容來自于全世界相關(guān)研究者提交的生物大分子的原子坐標(biāo)、注釋、一級結(jié)構(gòu)、二級機(jī)構(gòu)、晶體結(jié)構(gòu)因子、NMR實驗數(shù)據(jù)，由RCSB維護(hù)。每周大概生成50-100個新數(shù)據(jù)。這些分子結(jié)構(gòu)信息可以從PDB主頁檢索，也可以通過其鏡像站點，或者FTP站點下載。PDB的基本目標(biāo)是使得用戶可以查找到感興趣的結(jié)構(gòu)資料對一個或多個數(shù)據(jù)執(zhí)行簡單的分析作為互聯(lián)網(wǎng)上一個可以了解到更多附加說明信息的入口使得用戶可以下載結(jié)構(gòu)信息，尤其是笛卡爾原子坐標(biāo)等以便于下一步的分析。數(shù)據(jù)格式每個PDB文件可能分割成一系列行,由行終止符終止.在記錄文

25、件中每行由80列組成.每條PDB記錄末尾標(biāo)志應(yīng)該是行終止符.PDB文件中每行都是自我識別的.每行的前六列存放記錄名稱,左對齊空格補(bǔ)足.必須和規(guī)定的記錄名稱一致.PDB文件也可看成是各種記錄類型的總和.每個記錄類型包括一行或多行又被更深一層分成各字段.該文件詳細(xì)描述了每個數(shù)據(jù)類型,一般包括如下幾部分:綜述記錄格式細(xì)節(jié) 例子 HEADER(分子類，公布日期、ID號)記錄的表示PDB數(shù)據(jù)庫中的數(shù)據(jù)都應(yīng)按照一定的規(guī)定來出現(xiàn)，強(qiáng)制記錄類型必須出現(xiàn)在所有的記錄中，當(dāng)強(qiáng)制數(shù)據(jù)沒有提供,記錄名必須出現(xiàn)在記錄中并以NULL表示當(dāng)此條件存在時選擇項表就變成強(qiáng)制記錄類型。以下表格是對這兩種類型的具體劃分和描述：

26、蛋白質(zhì)序列數(shù)據(jù)庫為基礎(chǔ)構(gòu)建的二級數(shù)據(jù)庫生物信息資料的龐大無比，如何快速而正確的取得、管理、分析、使用這些網(wǎng)絡(luò)資源已成為十分重要的課題。建立面向不同領(lǐng)域的二級數(shù)據(jù)庫，將具有相同特點的蛋白質(zhì)資源進(jìn)行歸納、分析，找出它們之間的共同之處。二級數(shù)據(jù)庫的種類蛋白序列模式的二級數(shù)據(jù)庫種類繁多，包括Prosite、Prints、Blocks等等。這些數(shù)據(jù)庫的共同特點是基于多序列比對。不同之處：一次數(shù)據(jù)庫來源及處理比對結(jié)果的原則和方法不同Prosite數(shù)據(jù)庫基于多序列比較得到的單一保守序列片段，或稱序列模體。除Prosite外，蛋白質(zhì)序列二次數(shù)據(jù)庫還有蛋白質(zhì)序列指紋圖譜數(shù)據(jù)庫Prints(Attwood, 19

27、98)、蛋白質(zhì)序列模塊數(shù)據(jù)庫Blocks(Henikoff, 1998)、蛋白質(zhì)序列家族數(shù)據(jù)庫Pfam(Sonnhammer, 1998)、蛋白質(zhì)序列概貌數(shù)據(jù)庫Profile、蛋白質(zhì)序列識別數(shù)據(jù)庫Identify等(表1.16)。應(yīng)該說，這些方法各有一定的特色。從某種意義上說，蛋白質(zhì)序列二次數(shù)據(jù)庫實際上也是蛋白質(zhì)功能數(shù)據(jù)庫，因為從這些數(shù)據(jù)庫中，可以得到有關(guān)蛋白質(zhì)功能、家族、進(jìn)化等信息。？分別說明幾個二級數(shù)據(jù)庫所存儲的內(nèi)容，具有什么功能單元DIP數(shù)據(jù)庫及數(shù)據(jù)介紹DIP(Database of Interacting Proteins，蛋白互相作用數(shù)據(jù)庫)于1999年在UCLA的David Els

28、enberg實驗室建立；主旨：是把關(guān)于蛋白互作的多樣的實驗信息整合成一個容易進(jìn)行查詢的專一數(shù)據(jù)庫?；プ髦傅氖莾蓚€氨基酸鏈在實驗上證實相互結(jié)合。它轉(zhuǎn)化了MEDLINE文獻(xiàn)中關(guān)于蛋白互作的實驗結(jié)果，儲存和組織了多種觀察和實驗技術(shù)下得到的蛋白互作信息.DIP發(fā)展了全基因組范圍的數(shù)據(jù)質(zhì)量監(jiān)測工具，保證了數(shù)據(jù)的可信性 DIP收集的互作蛋白數(shù)據(jù)不僅有利于研究某一具體互作蛋白的關(guān)系，還對信號轉(zhuǎn)導(dǎo)、蛋白相互作用細(xì)胞網(wǎng)絡(luò)的組織和復(fù)雜性研究起推動作用。DIP數(shù)據(jù)庫及數(shù)據(jù)介紹DIP數(shù)據(jù)庫使用開放式的PostgreSQL數(shù)據(jù)庫管理系統(tǒng)。注：PostgreSQL 是一種非常復(fù)雜的對象-關(guān)系型數(shù)據(jù)庫管理系統(tǒng)（ORDBMS

29、），也是目前功能最強(qiáng)大，特性最豐富和最復(fù)雜的自由軟件數(shù)據(jù)庫系統(tǒng)。有些特性甚至連商業(yè)數(shù)據(jù)庫都不具備。這個起源于伯克利（BSD）的數(shù)據(jù)庫研究計劃目前已經(jīng)衍生成一項國際開發(fā)項目，并且有非常廣泛的用戶。 DIP數(shù)據(jù)庫及數(shù)據(jù)介紹Experiment部分包括了對實驗細(xì)節(jié)的介紹和相關(guān)文獻(xiàn)的鏈接。注： EVIDENCE表格提供相關(guān)實驗的具體細(xì)節(jié)SOURCE表格提供了相關(guān)實驗的來源，包括MEDLINE標(biāo)準(zhǔn)的文獻(xiàn)號碼（PMID/UID）和文獻(xiàn)的作者、題目、刊物和出版年份等數(shù)據(jù)庫搜尋DIP數(shù)據(jù)庫可以以多種方式搜尋得到信息，也可以根據(jù)用戶特定的標(biāo)準(zhǔn)得到蛋白或相互作用數(shù)據(jù)庫組成DIP數(shù)據(jù)庫是由節(jié)點（node）和邊（

30、edge）組成: DIP節(jié)點(蛋白) 每個DIP相互作用的蛋白都具有一個獨特的識別信息（形式為）和對應(yīng)其他一個主要的蛋白數(shù)據(jù)庫PIR, SWISSPROT 和/或 GENBANK的參考。另外，包括一些關(guān)于蛋白的基本信息，如名稱、功能、亞細(xì)胞定位、在其他生物學(xué)數(shù)據(jù)庫中的參考等。 DIP邊 (相互作用) 每個DIP相互作用都具有一個獨特的識別信息（形式為），還具有相互作用區(qū)域、區(qū)域分離常數(shù)和實驗手段等標(biāo)志此相互作用的信息。一個DIP發(fā)展的重要方面是整合現(xiàn)在存在的很好的生物學(xué)數(shù)據(jù)庫，如：蛋白數(shù)據(jù)庫SWISS-PROT，通路數(shù)據(jù)庫KEGG、TRANSPATH，酵母數(shù)據(jù)庫YPD等，使用戶能對

31、一個指定的蛋白得到最完整的信息。 1 增加DIP數(shù)據(jù)庫中人亞數(shù)據(jù)的數(shù)據(jù)數(shù)目；2 發(fā)展新的獲得和分析數(shù)據(jù)庫中信息的工具。DIP未來發(fā)展方向 Gene Ontology 的功能本體論框架基因本體論（gene ontology）的建立Ontology是一個哲學(xué)術(shù)語，在西方哲學(xué)中Ontology是指本體論，反映世界的本原是存在的本身。這一個哲學(xué)術(shù)語水者人們對自然科學(xué)的研究的深入，已經(jīng)作為一個概念的規(guī)范以及通過概念與概念之間的關(guān)系來對不同自然科學(xué)知識體系進(jìn)行客觀的描述，完成對不同自然科學(xué)領(lǐng)域的知識表示。這些概念的詳細(xì)說明和它們之間的關(guān)系通過具有代表性的詞匯表來描述，通過這些詞表可以用基于知識的程序來表示

32、知識體系。它所反映的不是某個個體私有的，而是可以被一個群體所接受的。通過Ontology的建立，我們可以達(dá)到知識共享，獲取和再利用的目的，能夠方便有效的進(jìn)行人工智能和機(jī)器學(xué)習(xí)，以實現(xiàn)對知識體系的進(jìn)一步認(rèn)識。Gene Ontology (GO)項目正是為了能夠使對各種數(shù)據(jù)庫中基因產(chǎn)物功能描述相一致的努力結(jié)果。這個項目最初是由1988年對三個模式生物數(shù)據(jù)庫的整合開始：: FlyBase (果蠅數(shù)據(jù)庫Drosophila), Saccharomyces Genome Database (酵母基因組數(shù)據(jù)庫SGD) 和 Mouse Genome Database (小鼠基因組數(shù)據(jù)庫MGD)。從那開始，

33、GO不斷發(fā)展擴(kuò)大，現(xiàn)在已包含數(shù)十個動物、植物、微生物的數(shù)據(jù)庫。GO的結(jié)構(gòu)包括三個方面：分子生物學(xué)上的功能生物學(xué)途徑在細(xì)胞中的組件作用. 當(dāng)然，它們可能在每一個方面都有多種性質(zhì)。如細(xì)胞色素C,在分子功能上體現(xiàn)為電子傳遞活性，在生物學(xué)途徑中與氧化磷酸化和細(xì)胞凋亡有關(guān)，在細(xì)胞中存在于線粒體質(zhì)中和線粒體內(nèi)膜上。下面，將進(jìn)一步的分別說明GO的具體定義情況。基因產(chǎn)物基因產(chǎn)物和其生物功能常常被我們混淆。例如，“乙醇脫氫酶”既可以指放在Eppendorf管里的基因產(chǎn)物，也表明了它的功能。一個基因產(chǎn)物可以擁有多種分子功能，多種基因產(chǎn)物也可以行使同一種分子功能。比如還是“乙醇脫氫酶”，其實多種基因產(chǎn)物都具有這種

34、功能，而并不是所有的這些酶都是由乙醇脫氫酶基因編碼的。一個基因產(chǎn)物可以同時具有“乙醇脫氫酶”和“乙醛歧化酶”兩種功能，甚至更多。所以，在GO中，很重要的一點在于，當(dāng)使用“乙醇脫氫酶活性”這種術(shù)語時，所指的是功能，并不是基因產(chǎn)物。許多基因產(chǎn)物會形成復(fù)合物后執(zhí)行功能。這些“基因復(fù)合物”有些非常簡單（如血紅蛋白由血紅蛋白基因產(chǎn)物球蛋白、球蛋白和小分子的亞血紅素組成），有些非常復(fù)雜（如核糖體）?，F(xiàn)在，小分子的描述還沒有包括在GO中。在未來，這個問題可望由和現(xiàn)在的Klotho和LIGAND等小分子數(shù)據(jù)庫聯(lián)合而解決。分子功能分子功能描述在分子生物學(xué)上的活性，如催化活性或結(jié)合活性。GO分子功能定義功能而不

35、是整體分子，而且不特異性地指出這些功能具體的時空信息。分子功能大部分指的是單個基因產(chǎn)物的功能，還有一小部分是此基因產(chǎn)物形成的復(fù)合物的功能。定義功能的義項包括催化活性、轉(zhuǎn)運活性、結(jié)合活性等，更為狹窄的定義包括腺苷酸環(huán)化酶活性或鐘形受體結(jié)合活性等。生物學(xué)途徑生物學(xué)途徑是由分子功能有序地組成的，具有多個步驟的一個過程。舉例來說，較為寬泛的是細(xì)胞生長和維持、信號傳導(dǎo)。一些更為具體的例子包括嘧啶代謝或配糖基的運輸?shù)?。一個生物學(xué)途徑并不是完全和一條生物學(xué)通路相等。因此，GO并不涉及到通路中復(fù)雜的機(jī)制和所依賴的因素細(xì)胞中的位置指基因產(chǎn)物位于何種細(xì)胞器或基因產(chǎn)物組中（如糙面內(nèi)質(zhì)網(wǎng)，核或核糖體，蛋白酶體等

36、）。GO的形式 GO 定義的術(shù)語有著直接非循環(huán)式（directed acyclic graphs (DAGs)的特點，而并非是傳統(tǒng)的等級制（hierarchy）定義方式（隨著代數(shù)增加，下一級比上一級更為具體）。舉個例子來說，生物學(xué)途徑中有一個定義是己糖合成，它的上一級為己糖代謝和單糖合成。當(dāng)某個基因被注解為“己糖合成活性”后，它自動地獲得了己糖代謝和單糖合成地注解。因為在GO中，每個術(shù)語必須遵循“真途徑“法則，即如果下一代的術(shù)語可以用于描述此基因產(chǎn)物，其上一代術(shù)語也可以適用。Gene Ontology中功能之間關(guān)系的分析Gene Ontology在我們的工作中主要用來分析功能之間的聯(lián)系。如果從

37、物理層面看待生命現(xiàn)象，可以想象蛋白質(zhì)在細(xì)胞中多個生物功能、多個細(xì)胞過程和生化反應(yīng)中發(fā)揮作用，使得生命得以維持；但如果從功能層面來看，每一個蛋白質(zhì)都攜帶了不同的功能，細(xì)胞就可以看作是一個復(fù)雜的功能相互作用的網(wǎng)絡(luò)。在這個網(wǎng)絡(luò)中，通常一個功能會與其他多個功能集中完成同一件任務(wù)，然后與另外一些功能相互作用去完成另一件任務(wù)。 Gene Ontology詳細(xì)的功能分類體系為分析系統(tǒng)的功能結(jié)構(gòu)提供了便利。我們把Gene Ontology中功能之間的聯(lián)系分為兩種類型：第一種是層與層之間的“is a” 關(guān)系和“part of” 關(guān)系，我們統(tǒng)稱為父子關(guān)系；第二種基于功能之間的互作，如果兩個功能之間有互作并且二者沒

38、有包含與被包含的關(guān)系，即其中一個功能不是另一功能的祖先節(jié)點也不是另一功能的子孫節(jié)點，我們就稱兩個功能有非繼承關(guān)系。一個功能會與其他多個功能集中完成同一件任務(wù)，從另一個角度看，這使得一個單個的蛋白質(zhì)會同時具有多個功能。利用這一點，可以識別相關(guān)的功能，并可以利用蛋白質(zhì)層面信息判斷什么情況下不同功能傾向于共同發(fā)揮作用。我們能夠直接從Gene Ontology結(jié)構(gòu)中得到第一種功能關(guān)系；利用蛋白質(zhì)功能注釋信息，判斷不同功能是否在同一個蛋白質(zhì)中出現(xiàn)，可于確定非繼承關(guān)系的功能聯(lián)系。KEGG京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能，聯(lián)系基因組信息和功能信息的知識庫。基因組信息存儲在GENES數(shù)據(jù)庫里，包括完整和部分測序的基因組序列；更高級的功能信息存儲在PATHWAY數(shù)據(jù)庫里，包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運、信號

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基因組數(shù)據(jù)庫課件

文檔簡介

溫馨提示

最新文檔

評論

基因組數(shù)據(jù)庫課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔