基因組數(shù)據(jù)庫課件_第1頁
基因組數(shù)據(jù)庫課件_第2頁
基因組數(shù)據(jù)庫課件_第3頁
基因組數(shù)據(jù)庫課件_第4頁
基因組數(shù)據(jù)庫課件_第5頁
已閱讀5頁,還剩90頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、網(wǎng)絡(luò)生物醫(yī)學(xué)資源概論生物分子數(shù)據(jù)庫基因組數(shù)據(jù)庫蛋白質(zhì)序列、生物大分子結(jié)構(gòu)數(shù)據(jù)庫蛋白質(zhì)二級結(jié)構(gòu)、互作數(shù)據(jù)庫基因產(chǎn)物注釋數(shù)據(jù)庫網(wǎng)絡(luò)生物醫(yī)學(xué)資源概論網(wǎng)絡(luò)生物醫(yī)學(xué)資源所包含的主要內(nèi)容網(wǎng)上生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫網(wǎng)上生物醫(yī)學(xué)數(shù)據(jù)庫(分子生物學(xué)數(shù)據(jù)庫)網(wǎng)上生物醫(yī)學(xué)文獻(xiàn)類型1文摘型數(shù)據(jù)庫2全文型數(shù)據(jù)庫3事實型數(shù)據(jù)庫4生物醫(yī)學(xué)專業(yè)網(wǎng)站5生物醫(yī)學(xué)整合知識平臺文摘型生物醫(yī)學(xué)數(shù)據(jù)庫1.Pubmed數(shù)據(jù)庫2.TOXNET數(shù)據(jù)庫3.EMBase荷蘭醫(yī)學(xué)文摘?如是對引起胃癌基因感興趣的讀者,想從事這方面的研究,請問如何查找這方面的信息。能夠?qū)@方面的研究動態(tài)有一定的了解生物分子數(shù)據(jù)庫生物分子數(shù)據(jù)庫應(yīng)滿足5個方面的主要需求(1)

2、時間性(2)注釋 (3)支撐數(shù)據(jù) (4)數(shù)據(jù)質(zhì)量 (5)集成性生物分子數(shù)據(jù)庫 一級數(shù)據(jù)庫數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋 二級數(shù)據(jù)庫對原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的 。國際上權(quán)威的核酸序列數(shù)據(jù)庫 (1)歐洲分子生物學(xué)實驗室的EMBL http:/www.embl-heidelberg.de (2)美國生物技術(shù)信息中心的GenBank /Web/Genbank/index.html (3)日本遺傳研究所的DDBJ http:/www.ddbj.nig.ac.jp/“ID”為序列的標(biāo)識

3、符行,包括登錄號、類型,分子的長度 “AC”為登錄號行;“XX”為分隔符號行; “DT”為創(chuàng)建和更新日期行 “DE”為序列描述行;“KW”為關(guān)鍵字行;“OG”行描述細(xì)胞組織;“OS”行描述生物體種屬;“OC”行描述生物體分類信息;“RN”描述參考文獻(xiàn)的編號;“RP”描述參考文獻(xiàn)的頁碼;“RA”描述參考文獻(xiàn)的作者;“RT”描述參考文獻(xiàn)的題目;“RL”描述參考文獻(xiàn)的出處;“RC”描述參考文獻(xiàn)的注解;“RX”、“DR”行描述交叉引用信息;“FH” 為特征開始符號;“FT”為特征表行 (1)Feature Key,它是描述域生物功能的關(guān)鍵字; (2)Location,指明特征在序列中的特定位置; (3

4、)Qualifiers,描述關(guān)于一個特征的輔助信息;文件體由序列本身所組成,由“SQ”標(biāo)志的行開始。序列結(jié)束的標(biāo)記是“/”。EMBL核酸數(shù)據(jù)庫中的每一個序列數(shù)據(jù)被賦予一個登錄號,它是一個永久性的唯一標(biāo)識 EMBL的序列數(shù)據(jù)用外在的ASCII文本文件來表示,而每一個文件分為文件頭和文件體兩大部分 文件頭由一系列的信息描述行所組成,文件頭實際上對應(yīng)于一個序列的注釋(annotation)核酸數(shù)據(jù)庫提供一些與序列相關(guān)的檢索操作(基于3W服務(wù)器)(1)序列查詢最簡單的查詢就是通過序列的登錄號(如X58929)或序列名稱(如SCARGC)直接查詢。如果找到所查詢的序列,則服務(wù)器將查詢結(jié)果以HTML文件返

5、回給用戶如果數(shù)據(jù)庫中該序列有到MEDLINE的交叉索引,則系統(tǒng)同時返回與包含參考文獻(xiàn)摘要等信息的MEDLINE鏈接如果該序列有到其它數(shù)據(jù)庫的交叉索引,也返回相應(yīng)的鏈接(2)核酸同源性搜索 3W服務(wù)器支持用戶使用FastA程序進(jìn)行核酸同源搜索。FastA根據(jù)給定的目標(biāo)序列在數(shù)據(jù)庫中搜索其同源序列。生物基因組數(shù)據(jù)庫基因組數(shù)據(jù)庫(GDB)鼠基因組數(shù)據(jù)庫 MGD(/)酵母基因組數(shù)據(jù)庫 SGD(/Saccharomyces/)蛋白質(zhì)序列數(shù)據(jù)庫1、PIR(Protein Information Resource)2、SWISS-PROT3、TrEMBL4、蛋白質(zhì)數(shù)據(jù)倉庫UniProtUniProt包含3個

6、部分:(1)UniProt Knowledgebase(UniProt) 蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心(2)UniProt Non-redundant Reference(UniRef)數(shù)據(jù)庫 將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中 以便提高搜索速度;(3)UniProt Archive(UniParc) 資源庫,記錄所有蛋白質(zhì)序列的歷史。生物大分子結(jié)構(gòu)數(shù)據(jù)庫1、PDB(Protein Data Bank)PDB中含有通過實驗(X射線晶體衍射,核磁共振NMR)測定的生物大分子的三維結(jié)構(gòu)蛋白質(zhì)核酸糖類其它復(fù)合物 其它生物分子數(shù)據(jù)庫核酸序列變化單堿基多態(tài)性SNPs(Single

7、nucleotide polymorphisms)SNPs對人類遺傳學(xué)研究和醫(yī)學(xué)應(yīng)用具有重要的意義無論對于人類種群遺傳學(xué)的研究,還是對疾病性狀分析或個體化醫(yī)療,都需要深入地研究SNPs。 1、單堿基多態(tài)性數(shù)據(jù)庫dbSNP基因組數(shù)據(jù)庫隨著核酸測序技術(shù)的迅速發(fā)展,人類已經(jīng)得到一部分生物的全基因組數(shù)據(jù),如人、小鼠、大鼠等。這些數(shù)據(jù)對于我們認(rèn)識基因組信息組織的奧秘、了解生物體的生長發(fā)育的規(guī)律是非常重要的。國際上有專門的組織收集和管理這些數(shù)據(jù)。NCBI基因組數(shù)據(jù)庫Entrez Gonomes (/entrez/query.fcgi?db=Genome)所收集的基因組數(shù)據(jù)量非常大,基因組數(shù)據(jù)庫(GDB)

8、GDB 人類基因組學(xué)數(shù)據(jù)庫資源名稱:The Genome Database交替名稱:基因組數(shù)據(jù)庫創(chuàng)建機(jī)構(gòu):美國馬里蘭州巴爾的摩市約翰霍普金斯大學(xué)基因組數(shù)據(jù)庫(GDB)為人類基因組計劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書,除了構(gòu)建基因組圖譜之外,還開發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對功能和表型的描述。 目前GDB中有:人類基因組區(qū)域(包括基因、克隆、amplimers PCR 標(biāo)記、斷點breakpoints、細(xì)胞遺傳標(biāo)記cytogenetic markers、易碎位點fragile sites、EST序列、綜合區(qū)域syndromi

9、c regions、contigs和重復(fù)序列);人類基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等);人類基因組內(nèi)的變異(包括突變和多態(tài)性,加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫以對象模型來保存數(shù)據(jù),提供基于Web的數(shù)據(jù)對象檢索服務(wù),用戶可以搜索各種類型的對象,并以圖形方式觀看基因組圖譜此外,GDB數(shù)據(jù)庫還包括了與核酸序列數(shù)據(jù)庫 GenBank和EMBL、遺傳疾病數(shù)據(jù)庫OMIM、醫(yī)藥文摘數(shù)據(jù)庫MedLine等其他網(wǎng)絡(luò)信息資源的超文本鏈接。 GDB數(shù)據(jù)庫是用大型商業(yè)軟件Sybase數(shù)據(jù)庫管理系統(tǒng)開發(fā)的,并用Java語言編寫基因圖譜顯示程序,為用

10、戶提供了很好的界面,缺點是傳輸速度受到一定限制。 GDB數(shù)據(jù)庫是國際合作的成果,其宗旨是為從事基因組研究的生物學(xué)家和醫(yī)護(hù)人員提供人類基因組信息資源。其數(shù)據(jù)來自于世界各國基因組研究的成果,經(jīng)過注冊的用戶可以直接向GDB數(shù)據(jù)庫中添加和編輯數(shù)據(jù)。目前GDB數(shù)據(jù)庫主站點設(shè)在加拿大安大略多倫多兒童醫(yī)院生物信息中心。不過,根據(jù)協(xié)議,生物信息中心對 GDB的管理到2002年底終結(jié),因此,自2003年始,GDB數(shù)據(jù)庫內(nèi)容沒有更新,不過,各鏡像站點仍繼續(xù)提供檢索服務(wù)。據(jù)稱新的主站點正在建設(shè)中,不過新的主站點將設(shè)在何處尚是未知數(shù)。 其它模式生物基因組數(shù)據(jù)庫酵母基因組數(shù)據(jù)庫SGD(/)小鼠基因組信息學(xué)數(shù)據(jù)庫MGI(

11、/)果蠅基因組數(shù)據(jù)庫FlyBase(/)線蟲基因組數(shù)據(jù)庫WormBase(/) 蛋白質(zhì)序列、生物大分子結(jié)構(gòu)數(shù)據(jù)庫數(shù)據(jù)庫簡介由于蛋白質(zhì)序列測定技術(shù)先于DNA序列測定技術(shù)問世,蛋白質(zhì)序列的搜集也早于DNA序列。蛋白質(zhì)序列數(shù)據(jù)庫的雛形可以追朔到60年代。60年代中期到80年代初,美國國家生物醫(yī)學(xué)研究基金會(National Biomedical Research Foundation,簡稱NBRF)Dayhoff領(lǐng)導(dǎo)的研究組將搜集到的蛋白質(zhì)序列和結(jié)構(gòu)信息以“蛋白質(zhì)序列和結(jié)構(gòu)地圖集”(Atlas of Protein Sequence and Structure)的形式發(fā)表,主要用來研究蛋白質(zhì)的進(jìn)化關(guān)

12、系。1984年,“蛋白質(zhì)信息資源”(Protein Information Resource,簡稱PIR)計劃正式啟動,蛋白質(zhì)序列數(shù)據(jù)庫PIR也因此而誕生。與核酸序列數(shù)據(jù)庫的國際合作相呼應(yīng),1988年,美國的NBRF、日本的國際蛋白質(zhì)信息數(shù)據(jù)庫(Japanese International Protein Information Database,簡稱JIPID)和德國的慕尼黑蛋白質(zhì)序列信息中心(Munich Information Center for Protein Sequences,簡稱MIPS)合作成立了國際蛋白質(zhì)信息中心(PIR-International),共同收集和維護(hù)蛋白質(zhì)序

13、列數(shù)據(jù)庫PIR,除了PIR外,另一個重要的蛋白質(zhì)序列數(shù)據(jù)庫則是SwissProt。該數(shù)據(jù)庫由瑞士日內(nèi)瓦大學(xué)于1986年創(chuàng)建,目前由瑞士生物信息學(xué)研究所(Swiss Institute of Bioinformatics,簡稱SIB)和歐洲生物信息學(xué)研究所 EBI共同維護(hù)和管理。瑞士生物信息研究所下屬的蛋白質(zhì)分析專家系統(tǒng)(Expert Protein Analysis System,,簡稱ExPASy)的Web服務(wù)器除了開發(fā)和維護(hù)SwissProt數(shù)據(jù)庫外,也是國際上蛋白質(zhì)組和蛋白質(zhì)分子模型研究的中心,為用戶提供大量蛋白質(zhì)信息資源。北京大學(xué)生物信息中心設(shè)有ExPASy的鏡象SwissProt數(shù)據(jù)

14、庫中的所有序列條目都經(jīng)過有經(jīng)驗的分子生物學(xué)家和蛋白質(zhì)化學(xué)家通過計算機(jī)工具并查閱有關(guān)文獻(xiàn)資料仔細(xì)核實。SIB和EBI共有70多人的研究隊伍,專門從事蛋白質(zhì)序列數(shù)據(jù)的搜集、整理、分析、注釋、發(fā)布,力圖提供高質(zhì)量的蛋白質(zhì)序列和注釋信息。SwissProt數(shù)據(jù)庫的每個條目都有詳細(xì)的注釋,包括結(jié)構(gòu)域、功能位點、跨膜區(qū)域、二硫鍵位置、翻譯后修飾、突變體等。該數(shù)據(jù)庫中還包括了與核酸序列數(shù)據(jù)庫EMBL/GenBank/DDBJ、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB以及Prosite、PRINTTS等十多個二次數(shù)據(jù)庫的交叉引用代碼。ExPAsy專門聘請了由200多位國際知名生物學(xué)家組成的網(wǎng)上專家評審團(tuán),并將SwissProt

15、數(shù)據(jù)庫中的蛋白質(zhì)分成200多個類別,每個類別由1位或2位評審專家負(fù)責(zé),通過計算機(jī)網(wǎng)絡(luò)進(jìn)行審核。ExPASy網(wǎng)站上列出了這些評審專家的姓名、電子郵件地址和他們所負(fù)責(zé)評審蛋白質(zhì)種類。用戶若對某個蛋白質(zhì)條目有疑義,可以直接和相應(yīng)的評審專家取得聯(lián)系.截止1998年6月,SWISS-PROT數(shù)據(jù)庫包含約7萬條序列,這些序列涵蓋了5千多個不同種屬,其中大部分來自于幾種主要模式生物,如人、小鼠等。蛋白質(zhì)序列、生物大分子結(jié)構(gòu)數(shù)據(jù)庫SWISS-PROT 數(shù)據(jù)記錄(Entry)詳解: 每條蛋白質(zhì)序列條目按照各種數(shù)據(jù)行的格式書寫排列 1.ID (IDentification)標(biāo)識記錄名 (Entry-name)X_

16、YX代表蛋白質(zhì)名稱的記憶碼,至多4位;Y代表蛋白質(zhì)的生物來源,至多5位,一般前3位是屬名,后2位是種名。常見普通生物以自釋碼表明來源,如HUMAN,YEAST等,病毒例外,以臨時碼代替。如PDI_YEAST ,PDI代表Protein Disulfide Isomerase(蛋白質(zhì)二硫鍵異構(gòu)酶);YEAST代表它來源于Yeast(酵母),屬于自釋碼。 FER_HALHAFER代表ferredoxin鐵還原蛋白;HALHA表明其生物來源為Halobacterirn halobium(海洋嗜鹽菌,HAL代表嗜鹽菌層Halobacterium,HA代表海洋生物Halobium)。 1.2 數(shù)據(jù)類型

17、(Data class)分標(biāo)準(zhǔn)(Standard)數(shù)據(jù)和初級(Preliminary)數(shù)據(jù)兩類。數(shù)據(jù)達(dá)不到SWISS- PROT標(biāo)準(zhǔn)的屬于初級數(shù)據(jù)。1.3 分子類型 (Molecular type)在SWISS-PROT數(shù)據(jù)庫,分子類型均為PRT,代表蛋白質(zhì)(PRoTein)。1.4 分子長度(Length of the molecule)ID數(shù)據(jù)行的最后一項是序列的氨基酸殘基數(shù)目。2.AC (Accession number) 蛋白質(zhì)注冊號由于數(shù)據(jù)的合并與增刪,一個記錄可能有幾個注冊號,以第一個注冊號為準(zhǔn);但一般情況下,一個記錄只有一個注冊號。3.DT (Date) 記錄日期或最后一次更新的

18、日期格式為DD-MMM-YEAR(REL. XX. COMMENT) 日-月-年(發(fā)行號,記錄緣由)記錄緣由分為創(chuàng)建、序列更新 和其他內(nèi)容更新三種。4.DE (DEscription) 描述包含蛋白質(zhì)序列的描述性信息,無固定格式。5.GN (GeneName)基因名稱格式為GN NAME1AND/ORNAME2多個基因編碼同一個蛋白時,同義名稱的基因間以 OR 相隔;不同基因編碼蛋白質(zhì)的不同亞基時,基因之間以 AND 相隔。6.KW (KeyWord)關(guān)鍵詞可用于蛋白質(zhì)功能,結(jié)構(gòu)或其他范疇的蛋白質(zhì)序列索引。7.OS (Organism Species)生物種屬表明序列的來源,通常采用拉丁種屬名

19、,括弧中繼以英文名。如:OS SACCHARMYCES CEREVISIAE(BAKERS YEAST)表示: 生物來源為酵母OS HOMO SAPIENS(HUMAN)表示: 生物來源為人描述內(nèi)容組成。8.OG (OrGanelle)細(xì)胞器(細(xì)胞內(nèi)小器官)表明基因編碼蛋白的來源或定位,如細(xì)胞內(nèi)的線粒體,葉綠體或質(zhì)粒等。9.OC (Organism classification)生物分類以樹狀分類的從上至下的格式列出,最普遍的類目列在最前面。10.RN,RP,RC,RX,RA,RL 參考數(shù)據(jù)RN (Reference Number) 參考號在本記錄中的參考文獻(xiàn)的排號RP (Reference

20、Position) 參考性質(zhì) 文獻(xiàn)作者的工作性質(zhì)和范圍RC (Reference Comment)相關(guān)內(nèi)容文獻(xiàn)相關(guān)內(nèi)容(可選數(shù)據(jù)行)RX (Reference Cross-reference) 交互參照用來表示題錄型數(shù)據(jù)庫(Bibliographic database)中的標(biāo)識號,一般是MEDLINE數(shù)據(jù)庫的標(biāo)識號。如:RX MEDLINE;91001972RA (Reference Author)文獻(xiàn)作者RL (Reference Location)參考文獻(xiàn)來源,包括幾種:雜志:注明雜志縮寫,卷次,頁碼及發(fā)表日期(年); 書:注明書名,版次,卷次,編號,頁碼,出版及發(fā)表日期(年)書名前冠以(

21、IN)字樣; 未出版物:示“UNPUBLISHED”字樣; 論文(Thesis):冠以“THESIS”標(biāo)記,注明時間(年),研究所,國家; 專利(Patent):注明專利號,日期; 直接遞交序列(submissions):注明遞交年月及數(shù)據(jù)庫。 11.DR (Database cross-Reference) 參照數(shù)據(jù)庫格式為DRDATA_BANK_IDENTIFIER;PRIMARY_IDENTIFIER;SECONDARY_ IDENTIFIER 包含數(shù)據(jù)庫縮寫名,第一標(biāo)識號(Primary Identifier),第二標(biāo)識號(Secondary Identifier,為補(bǔ)充信息)。12.

22、FT (Feature Table) 特征表提供簡潔精煉的數(shù)據(jù)注釋,描述了序列的位點及作用區(qū)域。一般情況下列出翻譯后修飾、結(jié)合位點、酶活性位點和局部二級結(jié)構(gòu)等其他特征。每一特征數(shù)據(jù)行按關(guān)鍵詞、殘基起始序號區(qū)域及簡扼的13.SQ (SeQuence header)序列題頭列出蛋白質(zhì)的序列長度(氨基酸數(shù)目),分子量(MW),CRC32序列值蛋白質(zhì)數(shù)據(jù)庫(簡稱PDB),專門用于處理和分類儲存蛋白質(zhì)等生物大分子的3D結(jié)構(gòu)及其他生物學(xué)數(shù)據(jù),應(yīng)用范圍極其廣泛,是十分重要的世界性數(shù)據(jù)庫之一。蛋白質(zhì)的基本立體結(jié)構(gòu)數(shù)據(jù)庫為PDB (Protein Data Bank),1971年建立于美國布魯海克海文國家實驗室

23、。該數(shù)據(jù)庫中收集了通過X射線衍射和核磁共振(NMR)試驗測定的蛋白質(zhì)結(jié)構(gòu)的精確坐標(biāo)數(shù)據(jù)。這種數(shù)據(jù)即蛋白質(zhì)中的原子坐標(biāo)是蛋白質(zhì)結(jié)構(gòu)的最細(xì)致的層次。該數(shù)據(jù)庫的管理者是結(jié)構(gòu)生物信息學(xué)合作研究組織(Research Collaboration for Structural Bioinformatics, RCSB, /pdb截至2004年4月20日,該數(shù)據(jù)庫所收錄的各種結(jié)構(gòu)數(shù)據(jù)已達(dá)25176條之多。在太平洋時間每個周三的凌晨一點,該數(shù)據(jù)庫會釋放一些新的結(jié)構(gòu)數(shù)據(jù),在PDB年報和PDB新聞中,用戶可以詳盡地了解該數(shù)據(jù)庫的歷史、功能、最新進(jìn)展以及最終目的等信息。PDB是RCSB建立的全世界最完整的包括蛋白質(zhì)

24、、核酸、蛋白質(zhì)-核酸復(fù)合物及病毒等生物大分子的三維結(jié)構(gòu)數(shù)據(jù)庫。 PDB生物大分子結(jié)構(gòu)數(shù)據(jù)庫的內(nèi)容來自于全世界相關(guān)研究者提交的生物大分子的原子坐標(biāo)、注釋、一級結(jié)構(gòu)、二級機(jī)構(gòu)、晶體結(jié)構(gòu)因子、NMR實驗數(shù)據(jù),由RCSB維護(hù)。每周大概生成50-100個新數(shù)據(jù)。這些分子結(jié)構(gòu)信息可以從PDB主頁檢索,也可以通過其鏡像站點,或者FTP站點下載。PDB的基本目標(biāo)是使得用戶可以查找到感興趣的結(jié)構(gòu)資料對一個或多個數(shù)據(jù)執(zhí)行簡單的分析作為互聯(lián)網(wǎng)上一個可以了解到更多附加說明信息的入口使得用戶可以下載結(jié)構(gòu)信息,尤其是笛卡爾原子坐標(biāo)等以便于下一步的分析。 數(shù)據(jù)格式 每個PDB文件可能分割成一系列行,由行終止符終止.在記錄文

25、件中每行由80列組成.每條PDB記錄末尾標(biāo)志應(yīng)該是行終止符.PDB文件中每行都是自我識別的.每行的前六列存放記錄名稱,左對齊空格補(bǔ)足.必須和規(guī)定的記錄名稱一致.PDB文件也可看成是各種記錄類型的總和.每個記錄類型包括一行或多行又被更深一層分成各字段.該文件詳細(xì)描述了每個數(shù)據(jù)類型,一般包括如下幾部分:綜述 記錄格式 細(xì)節(jié) 例子 HEADER(分子類,公布日期、ID號)記錄的表示PDB數(shù)據(jù)庫中的數(shù)據(jù)都應(yīng)按照一定的規(guī)定來出現(xiàn),強(qiáng)制記錄類型必須出現(xiàn)在所有的記錄中,當(dāng)強(qiáng)制數(shù)據(jù)沒有提供,記錄名必須出現(xiàn)在記錄中并以NULL表示當(dāng)此條件存在時選擇項表就變成強(qiáng)制記錄類型。以下表格是對這兩種類型的具體劃分和描述:

26、蛋白質(zhì)序列數(shù)據(jù)庫為基礎(chǔ)構(gòu)建的二級數(shù)據(jù)庫生物信息資料的龐大無比,如何快速而正確的取得、管理、分析、使用這些網(wǎng)絡(luò)資源已成為十分重要的課題。建立面向不同領(lǐng)域的二級數(shù)據(jù)庫,將具有相同特點的蛋白質(zhì)資源進(jìn)行歸納、分析,找出它們之間的共同之處。二級數(shù)據(jù)庫的種類蛋白序列模式的二級數(shù)據(jù)庫種類繁多,包括Prosite、Prints、Blocks等等。這些數(shù)據(jù)庫的共同特點是基于多序列比對。不同之處:一次數(shù)據(jù)庫來源及處理比對結(jié)果的原則和方法不同Prosite數(shù)據(jù)庫基于多序列比較得到的單一保守序列片段,或稱序列模體。除Prosite外,蛋白質(zhì)序列二次數(shù)據(jù)庫還有蛋白質(zhì)序列指紋圖譜數(shù)據(jù)庫Prints(Attwood, 19

27、98)、蛋白質(zhì)序列模塊數(shù)據(jù)庫Blocks(Henikoff, 1998)、蛋白質(zhì)序列家族數(shù)據(jù)庫Pfam(Sonnhammer, 1998)、蛋白質(zhì)序列概貌數(shù)據(jù)庫Profile、蛋白質(zhì)序列識別數(shù)據(jù)庫Identify等(表1.16)。應(yīng)該說,這些方法各有一定的特色。從某種意義上說,蛋白質(zhì)序列二次數(shù)據(jù)庫實際上也是蛋白質(zhì)功能數(shù)據(jù)庫,因為從這些數(shù)據(jù)庫中,可以得到有關(guān)蛋白質(zhì)功能、家族、進(jìn)化等信息。?分別說明幾個二級數(shù)據(jù)庫所存儲的內(nèi)容,具有什么功能單元DIP數(shù)據(jù)庫及數(shù)據(jù)介紹DIP(Database of Interacting Proteins,蛋白互相作用數(shù)據(jù)庫)于1999年在UCLA的David Els

28、enberg實驗室建立;主旨:是把關(guān)于蛋白互作的多樣的實驗信息整合成一個容易進(jìn)行查詢的專一數(shù)據(jù)庫?;プ髦傅氖莾蓚€氨基酸鏈在實驗上證實相互結(jié)合。它轉(zhuǎn)化了MEDLINE文獻(xiàn)中關(guān)于蛋白互作的實驗結(jié)果,儲存和組織了多種觀察和實驗技術(shù)下得到的蛋白互作信息.DIP發(fā)展了全基因組范圍的數(shù)據(jù)質(zhì)量監(jiān)測工具,保證了數(shù)據(jù)的可信性 DIP收集的互作蛋白數(shù)據(jù)不僅有利于研究某一具體互作蛋白的關(guān)系,還對信號轉(zhuǎn)導(dǎo)、蛋白相互作用細(xì)胞網(wǎng)絡(luò)的組織和復(fù)雜性研究起推動作用。DIP數(shù)據(jù)庫及數(shù)據(jù)介紹DIP數(shù)據(jù)庫使用開放式的PostgreSQL數(shù)據(jù)庫管理系統(tǒng)。注:PostgreSQL 是一種非常復(fù)雜的對象-關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(ORDBMS

29、), 也是目前功能最強(qiáng)大,特性最豐富和最復(fù)雜的自由軟件數(shù)據(jù)庫系統(tǒng)。有些特性甚至連商業(yè)數(shù)據(jù)庫都不具備。這個起源于伯克利(BSD)的數(shù)據(jù)庫研究計劃目前已經(jīng)衍生成一項國際開發(fā)項目, 并且有非常廣泛的用戶。 DIP數(shù)據(jù)庫及數(shù)據(jù)介紹Experiment部分包括了對實驗細(xì)節(jié)的介紹和相關(guān)文獻(xiàn)的鏈接。注: EVIDENCE表格提供相關(guān)實驗的具體細(xì)節(jié)SOURCE表格提供了相關(guān)實驗的來源,包括MEDLINE標(biāo)準(zhǔn)的文獻(xiàn)號碼(PMID/UID)和文獻(xiàn)的作者、題目、刊物和出版年份等數(shù)據(jù)庫搜尋DIP數(shù)據(jù)庫可以以多種方式搜尋得到信息,也可以根據(jù)用戶特定的標(biāo)準(zhǔn)得到蛋白或相互作用數(shù)據(jù)庫組成DIP數(shù)據(jù)庫是由節(jié)點(node)和邊(

30、edge)組成: DIP節(jié)點(蛋白) 每個DIP相互作用的蛋白都具有一個獨特的識別信息(形式為)和對應(yīng)其他一個主要的蛋白數(shù)據(jù)庫PIR, SWISSPROT 和/或 GENBANK的參考。另外,包括一些關(guān)于蛋白的基本信息,如名稱、功能、亞細(xì)胞定位、在其他生物學(xué)數(shù)據(jù)庫中的參考等。 DIP邊 (相互作用) 每個DIP相互作用都具有一個獨特的識別信息(形式為),還具有相互作用區(qū)域、區(qū)域分離常數(shù)和實驗手段等標(biāo)志此相互作用的信息。 一個DIP發(fā)展的重要方面是整合現(xiàn)在存在的很好的生物學(xué)數(shù)據(jù)庫, 如: 蛋白數(shù)據(jù)庫SWISS-PROT, 通路數(shù)據(jù)庫KEGG、TRANSPATH, 酵母數(shù)據(jù)庫YPD等, 使用戶能對

31、一個指定的蛋白得到最完整的信息。 1 增加DIP數(shù)據(jù)庫中人亞數(shù)據(jù)的數(shù)據(jù)數(shù)目;2 發(fā)展新的獲得和分析數(shù)據(jù)庫中信息的工具。DIP未來發(fā)展方向 Gene Ontology 的功能本體論框架基因本體論(gene ontology)的建立Ontology是一個哲學(xué)術(shù)語,在西方哲學(xué)中Ontology是指本體論,反映世界的本原是存在的本身。這一個哲學(xué)術(shù)語水者人們對自然科學(xué)的研究的深入,已經(jīng)作為一個概念的規(guī)范以及通過概念與概念之間的關(guān)系來對不同自然科學(xué)知識體系進(jìn)行客觀的描述,完成對不同自然科學(xué)領(lǐng)域的知識表示。這些概念的詳細(xì)說明和它們之間的關(guān)系通過具有代表性的詞匯表來描述,通過這些詞表可以用基于知識的程序來表示

32、知識體系。它所反映的不是某個個體私有的,而是可以被一個群體所接受的。通過Ontology的建立,我們可以達(dá)到知識共享,獲取和再利用的目的,能夠方便有效的進(jìn)行人工智能和機(jī)器學(xué)習(xí),以實現(xiàn)對知識體系的進(jìn)一步認(rèn)識。Gene Ontology (GO)項目正是為了能夠使對各種數(shù)據(jù)庫中基因產(chǎn)物功能描述相一致的努力結(jié)果。這個項目最初是由1988年對三個模式生物數(shù)據(jù)庫的整合開始:: FlyBase (果蠅數(shù)據(jù)庫Drosophila), Saccharomyces Genome Database (酵母基因組數(shù)據(jù)庫SGD) 和 Mouse Genome Database (小鼠基因組數(shù)據(jù)庫MGD)。 從那開始,

33、GO不斷發(fā)展擴(kuò)大,現(xiàn)在已包含數(shù)十個動物、植物、微生物的數(shù)據(jù)庫。GO的結(jié)構(gòu)包括三個方面:分子生物學(xué)上的功能生物學(xué)途徑在細(xì)胞中的組件作用. 當(dāng)然,它們可能在每一個方面都有多種性質(zhì)。如細(xì)胞色素C,在分子功能上體現(xiàn)為電子傳遞活性,在生物學(xué)途徑中與氧化磷酸化和細(xì)胞凋亡有關(guān),在細(xì)胞中存在于線粒體質(zhì)中和線粒體內(nèi)膜上。下面,將進(jìn)一步的分別說明GO的具體定義情況。基因產(chǎn)物 基因產(chǎn)物和其生物功能常常被我們混淆。例如,“乙醇脫氫酶”既可以指放在Eppendorf管里的基因產(chǎn)物,也表明了它的功能。一個基因產(chǎn)物可以擁有多種分子功能,多種基因產(chǎn)物也可以行使同一種分子功能。比如還是“乙醇脫氫酶”,其實多種基因產(chǎn)物都具有這種

34、功能,而并不是所有的這些酶都是由乙醇脫氫酶基因編碼的。一個基因產(chǎn)物可以同時具有“乙醇脫氫酶”和“乙醛歧化酶”兩種功能,甚至更多。所以,在GO中,很重要的一點在于,當(dāng)使用“乙醇脫氫酶活性”這種術(shù)語時,所指的是功能,并不是基因產(chǎn)物。許多基因產(chǎn)物會形成復(fù)合物后執(zhí)行功能。這些“基因復(fù)合物”有些非常簡單(如血紅蛋白由血紅蛋白基因產(chǎn)物球蛋白、球蛋白和小分子的亞血紅素組成),有些非常復(fù)雜(如核糖體)?,F(xiàn)在,小分子的描述還沒有包括在GO中。在未來,這個問題可望由和現(xiàn)在的Klotho和LIGAND等小分子數(shù)據(jù)庫聯(lián)合而解決。分子功能 分子功能描述在分子生物學(xué)上的活性,如催化活性或結(jié)合活性。GO分子功能定義功能而不

35、是整體分子,而且不特異性地指出這些功能具體的時空信息。分子功能大部分指的是單個基因產(chǎn)物的功能,還有一小部分是此基因產(chǎn)物形成的復(fù)合物的功能。定義功能的義項包括催化活性、轉(zhuǎn)運活性、結(jié)合活性等,更為狹窄的定義包括腺苷酸環(huán)化酶活性或鐘形受體結(jié)合活性等。 生物學(xué)途徑 生物學(xué)途徑是由分子功能有序地組成的,具有多個步驟的一個過程。舉例來說,較為寬泛的是細(xì)胞生長和維持、信號傳導(dǎo)。一些更為具體的例子包括嘧啶代謝或配糖基的運輸?shù)?。一個生物學(xué)途徑并不是完全和一條生物學(xué)通路相等。因此,GO并不涉及到通路中復(fù)雜的機(jī)制和所依賴的因素 細(xì)胞中的位置指基因產(chǎn)物位于何種細(xì)胞器或基因產(chǎn)物組中(如糙面內(nèi)質(zhì)網(wǎng),核或核糖體,蛋白酶體等

36、)。GO的形式 GO 定義的術(shù)語有著直接非循環(huán)式(directed acyclic graphs (DAGs)的特點,而并非是傳統(tǒng)的等級制(hierarchy)定義方式(隨著代數(shù)增加,下一級比上一級更為具體)。舉個例子來說,生物學(xué)途徑中有一個定義是己糖合成,它的上一級為己糖代謝和單糖合成。當(dāng)某個基因被注解為“己糖合成活性”后,它自動地獲得了己糖代謝和單糖合成地注解。因為在GO中,每個術(shù)語必須遵循“真途徑“法則,即如果下一代的術(shù)語可以用于描述此基因產(chǎn)物,其上一代術(shù)語也可以適用。Gene Ontology中功能之間關(guān)系的分析Gene Ontology在我們的工作中主要用來分析功能之間的聯(lián)系。如果從

37、物理層面看待生命現(xiàn)象,可以想象蛋白質(zhì)在細(xì)胞中多個生物功能、多個細(xì)胞過程和生化反應(yīng)中發(fā)揮作用,使得生命得以維持;但如果從功能層面來看,每一個蛋白質(zhì)都攜帶了不同的功能,細(xì)胞就可以看作是一個復(fù)雜的功能相互作用的網(wǎng)絡(luò)。在這個網(wǎng)絡(luò)中,通常一個功能會與其他多個功能集中完成同一件任務(wù),然后與另外一些功能相互作用去完成另一件任務(wù)。 Gene Ontology詳細(xì)的功能分類體系為分析系統(tǒng)的功能結(jié)構(gòu)提供了便利。我們把Gene Ontology中功能之間的聯(lián)系分為兩種類型:第一種是層與層之間的“is a” 關(guān)系和“part of” 關(guān)系,我們統(tǒng)稱為父子關(guān)系;第二種基于功能之間的互作,如果兩個功能之間有互作并且二者沒

38、有包含與被包含的關(guān)系,即其中一個功能不是另一功能的祖先節(jié)點也不是另一功能的子孫節(jié)點,我們就稱兩個功能有非繼承關(guān)系。一個功能會與其他多個功能集中完成同一件任務(wù),從另一個角度看,這使得一個單個的蛋白質(zhì)會同時具有多個功能。利用這一點,可以識別相關(guān)的功能,并可以利用蛋白質(zhì)層面信息判斷什么情況下不同功能傾向于共同發(fā)揮作用。我們能夠直接從Gene Ontology結(jié)構(gòu)中得到第一種功能關(guān)系;利用蛋白質(zhì)功能注釋信息,判斷不同功能是否在同一個蛋白質(zhì)中出現(xiàn),可于確定非繼承關(guān)系的功能聯(lián)系。KEGG京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識庫。基因組信息存儲在GENES數(shù)據(jù)庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY數(shù)據(jù)庫里,包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運、信號

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論