Gene Ontology(GO)使用指南(內(nèi)部資料)_第1頁
Gene Ontology(GO)使用指南(內(nèi)部資料)_第2頁
Gene Ontology(GO)使用指南(內(nèi)部資料)_第3頁
Gene Ontology(GO)使用指南(內(nèi)部資料)_第4頁
Gene Ontology(GO)使用指南(內(nèi)部資料)_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、GO 數(shù)據(jù)庫使用指南Version No.2010.09.03(內(nèi)部資料 僅供參考)目 錄目 錄第一部分GO 是什么? 21.1基因本體論(gene ontology)的建立21.2本體論(The ontologies)簡介31.3本體論語義之間的關(guān)系及其組織結(jié)構(gòu) 41.3.1語義之間關(guān)系的基本理解 41.3.2關(guān)系之間的推導(dǎo) 51.3.3調(diào)節(jié)控制關(guān)系(the regulates relation)及其推導(dǎo) 61.3.4本體論的組織結(jié)構(gòu) 71.4GO 的注釋(Annotation)8第二部分GO 怎么用? 102.1下載本體論文件和注釋文件 102.2GO 語義及其相關(guān)注釋的瀏覽與搜索172.

2、2.1AmiGO 的基本使用說明172.2.2語義關(guān)系的圖形化描述 202.2.3 根據(jù)語義檢索 222.2.4根據(jù)基因產(chǎn)物檢索 25第一部分 GO 是什么?- 1 -第一部分GO 是什么?GO(gene ontology)是基因本體聯(lián)合會(Gene Onotology Consortium)所建立的數(shù)據(jù)庫,旨在建立一個適用于各種物種的,對基因和蛋白質(zhì)功能進(jìn)行限定和描述的,并能隨著研究不斷深入而更新的語義詞匯標(biāo)準(zhǔn)。GO 是多種生物本體語言中的一種,提供了三層結(jié)構(gòu)的系統(tǒng)定義方式,用于描述基因產(chǎn)物的功能1.1基因本體論(gene ontology)的建立現(xiàn)今的生物學(xué)家們浪費(fèi)了太多的時間和精力在搜尋

3、生物信息上。這種情況歸結(jié)為生物學(xué)上定義混亂的原因,不同的生物學(xué)數(shù)據(jù)庫可能會使用不同的術(shù)語,好比是一些方言一樣。不光是精確的計算機(jī)難以搜尋到這些 隨時間和人為多重因素而隨機(jī)改變的定義,即使是完全由人手動處理也無法完成。舉個例子來說,如果需要找到一個用于制抗生素的藥物靶點(diǎn),你可能想找到所有的和細(xì)菌蛋白質(zhì)合成相關(guān)的基因產(chǎn)物,特別是那些和人體中蛋白質(zhì)合成組分顯著不同的。但如果一個數(shù)據(jù)庫描述這些基因產(chǎn)物為“翻譯類”,而另一個數(shù)據(jù)庫描述其為“蛋白質(zhì)合成類”,那么這無疑對于計算機(jī)來說是難以區(qū)分這兩個在字面上相差甚遠(yuǎn)卻在功能上相一致的定義。Gene Ontology 就是為了解決上述問題,使各種數(shù)據(jù)庫中基因產(chǎn)

4、物功能描述相一致而發(fā)起的一個項目。這個項目最初是由1988 年對三個模式生物數(shù)據(jù)庫的整合開始:the FlyBase (果蠅數(shù)據(jù)庫 Drosophila),the Saccharomyces Genome Database (酵母基因組數(shù)據(jù)庫 SGD) 和 theMouse Genome Informatics (小鼠基因組數(shù)據(jù)庫 MGI)。從那開始,GO 不斷發(fā)展擴(kuò)大,現(xiàn)在已是包含數(shù)十個動物、植物、微生物的數(shù)據(jù)庫(詳見 GO Consortium Page )。GO 開發(fā)了具有三級結(jié)構(gòu)的語義詞匯標(biāo)準(zhǔn)(Ontologies),根據(jù)基因產(chǎn)物的相關(guān)生物學(xué)途徑、細(xì)胞學(xué)組件以及分子功能而分別給予定義,

5、與具體物種無關(guān)。GO 的工作大致可分為三個部分:第一,給予并維持語義(terms);第二,將位于數(shù)據(jù)庫當(dāng)中的基因、基因產(chǎn)物與 GO 本體論語言當(dāng)中的語義(terms)進(jìn)行關(guān)聯(lián),形成網(wǎng)絡(luò);第三,開發(fā)相關(guān)工具,使本體論標(biāo)準(zhǔn)語言的產(chǎn)生和維持更為便捷。GO 的定義法則已經(jīng)在多個合作的數(shù)據(jù)庫中使用,這使在這些數(shù)據(jù)庫中的查詢具有極高第一部分 GO 是什么?- 2 -的一致性。這種定義語言具有多重結(jié)構(gòu),因此在各種程度上都能進(jìn)行查詢。舉例來說,GO可以被用來在小鼠基因組中查詢和信號轉(zhuǎn)導(dǎo)相關(guān)的基因產(chǎn)物,也可以進(jìn)一步找到各種生物的受體酪氨酸激酶。這種結(jié)構(gòu)允許在各種水平添加對此基因產(chǎn)物特性的認(rèn)識。1.2本體論(Th

6、e ontologies)簡介GO 提供了一系列的語義(terms)用來描述基因、基因產(chǎn)物的特性。這些語義分為三種不同的種類:細(xì)胞學(xué)組件,用于描述亞細(xì)胞結(jié)構(gòu)、位置和大分子復(fù)合物,如核仁、端粒和識別起始的復(fù)合物等;分子功能,用于描述基因、基因產(chǎn)物個體的功能,如與碳水化合物結(jié)合或 ATP 水解酶活性等;生物學(xué)途徑,指分子功能的有序組合,達(dá)成更廣的生物功能,如有絲分裂或嘌呤代謝等。基因產(chǎn)物可能分別具有分子生物學(xué)上的功能、生物學(xué)途徑和在細(xì)胞中的組件作用。當(dāng)然,它們也可能在某一個方面有多種性質(zhì)。如細(xì)胞色素 C,在分子功能上體現(xiàn)為電子傳遞活性,在生物學(xué)途徑中與氧化磷酸化和細(xì)胞凋亡有關(guān),在細(xì)胞中存在于線粒體

7、質(zhì)中和線粒體內(nèi)膜上。注:基因產(chǎn)物和其生物功能常常被我們混淆。例如,“乙醇脫氫酶”既可以指放在 Eppendorf 試管里的基因產(chǎn)物,也表明了它的功能。但是這之間其實(shí)是存在差別的:一個基因產(chǎn)物可以擁有多種分子功能,多種基因產(chǎn)物也可以行使同一種分子功能。比如還是“乙醇脫氫酶”,其實(shí)多種基因產(chǎn)物都具有這種功能,而并不是所有的這些酶都是由乙醇脫氫酶基因編碼的。一個基因產(chǎn)物可以同時具有“乙醇脫氫酶”和“乙醛歧化酶”兩種功能,甚至更多。所以,在 GO 中,很重要的一點(diǎn)在于,當(dāng)使用“乙醇脫氫酶活性”這種術(shù)語時,所指的是功能,并不是基因產(chǎn)物。下面,將進(jìn)一步的分別說明 GO 的具體定義情況。細(xì)胞組件即細(xì)胞中的位

8、置,指基因產(chǎn)物位于何種細(xì)胞器或基因產(chǎn)物組中(如糙面內(nèi)質(zhì)網(wǎng),核或核糖體,蛋白酶體等)。分子功能分子功能描述在分子生物學(xué)上的活性,如催化活性或結(jié)合活性。GO 分子功能用來定義功能而不是整體分子,而且不特異性地指出這些功能具體的時空信息。分子功能大部分指的第一部分 GO 是什么?- 3 -是單個基因產(chǎn)物的功能,還有一小部分是此基因產(chǎn)物形成的復(fù)合物的功能。定義功能的義項包括催化活性、轉(zhuǎn)運(yùn)活性、結(jié)合活性等,更為狹窄的定義包括腺苷酸環(huán)化酶活性或鐘形受體結(jié)合活性等。生物學(xué)途徑生物學(xué)途徑是由分子功能有序地組成的,具有多個步驟的一個過程。舉例來說,較為寬泛的是細(xì)胞生長和維持、信號傳導(dǎo)。一些更為具體的例子包括嘧啶

9、代謝或配糖基的運(yùn)輸?shù)取R粋€生物學(xué)途徑并不是完全和一條生物學(xué)通路相等。因此,GO 并不涉及到通路中復(fù)雜的機(jī)制和所依賴的因素。1.3本體論語義之間的關(guān)系及其組織結(jié)構(gòu)1.3.1語義之間關(guān)系的基本理解基因本體論組織類似于圖,語義作為圖的結(jié)點(diǎn),語義之間的關(guān)系為圖中的邊。因此,一旦產(chǎn)生新的語義,其與其它語義之間的關(guān)系也會同時被定義。語義之間的關(guān)系有四種:is a、part of 和 regulates。關(guān)系表示的幾點(diǎn)約定1. “語義”用圖論的術(shù)語“結(jié)點(diǎn)”表示2. 我們習(xí)慣于用父子結(jié)點(diǎn)來表示語義之間的關(guān)系,其中父結(jié)點(diǎn)離根結(jié)點(diǎn)較近,表示相對寬泛的語義,而子結(jié)點(diǎn)離葉子結(jié)點(diǎn)較近,相對父結(jié)點(diǎn)其語義所代表的內(nèi)容更為具

10、體。3. 圖中的實(shí)線表示結(jié)點(diǎn)之間的關(guān)系4. 虛線表示推理而并未證明的關(guān)系上述可以用下圖表示:A is a B;B is part of C第一部分 GO 是什么?- 4 -從而可以得出:A is part of C,其形式化表示為:is apart of part ofGO 圖具有樹的性質(zhì),但與其不同的是,GO 圖中結(jié)點(diǎn)不但可能具有多個孩子結(jié)點(diǎn),而且可能具有多個父親結(jié)點(diǎn),且與不同的父結(jié)點(diǎn)具有不同的關(guān)系,如下圖所示:線粒體(mitochondrion)便有兩個父親結(jié)點(diǎn),因為線粒體既是一種細(xì)胞器(organelle),又是細(xì)胞質(zhì)(cytoplasm)的一部分。同樣,細(xì)胞器(organelle)也有

11、兩個孩子結(jié)點(diǎn),因為線粒體是一種細(xì)胞器(organelle),細(xì)胞器膜(organelle membrane)是細(xì)胞器的一部分。1.3.2關(guān)系之間的推導(dǎo)is a is a is ais a 具有傳遞性,即如果 A is a B,B is a C,那么 A is a C。形式化表示為 is a is a is a。如下圖:線粒體(mitochondrion)是一種胞內(nèi)細(xì)胞器(intracellular organelle),而胞內(nèi)細(xì)胞器是一種細(xì)胞器官(organelle),從而可以推出:線粒體是一種細(xì)胞器官。part ofpart of part ofpart of 具有傳遞性,如果 A is p

12、art of B,B is part of C,那么 A is part of C。形式化表示為 part ofpart of part of。同樣如下圖所示:線粒體(mitochondrion)是細(xì)胞質(zhì)(cytoplasm)的一部分,細(xì)胞質(zhì)又是細(xì)胞(cell)的一部分,從而可得出:線粒體是細(xì)胞的一部分。第一部分 GO 是什么?- 5 -part ofis a part of 與 is apart of part of如果關(guān)系 is a 與 part of 組合,則其關(guān)系均為 part of。分別如下圖所示:線粒體膜線粒體胞內(nèi)細(xì)胞器線粒體胞內(nèi)細(xì)胞器細(xì)胞1.3.3調(diào)節(jié)控制關(guān)系(the regul

13、ates relation)及其推導(dǎo)基因本體論語義中,如果某一過程直接影響另一過程或參數(shù)值(quality)的表現(xiàn)形式,我們稱前者調(diào)節(jié)控制(regulates)后者。被調(diào)節(jié)的對象可以是一個過程,如生物通路、酶促反應(yīng)等,也可以是一個參數(shù)值,如細(xì)胞大小,pH 值等。與 part of 類似,調(diào)節(jié)控制關(guān)系也是充分非必要的,即:B 能且僅能調(diào)節(jié)控制 A,而 A 并非只受 B 的調(diào)節(jié)控制。如下圖所示:例如:一旦 cell cycle checkpoint(細(xì)胞周期檢查點(diǎn))出現(xiàn)時,它總是調(diào)節(jié)控制 cell cycle(細(xì)胞周期),然而細(xì)胞周期并不單獨(dú)受細(xì)胞周期檢查點(diǎn)調(diào)節(jié)控制,還受其它過程的調(diào)節(jié)控制。第一部

14、分 GO 是什么?- 6 -regulatesis a regulates 、 is a regulates regulates 以及 regulates part of regulates 均為正確的推導(dǎo)關(guān)系,其示意圖分別如下:截至目前,尚不能確定 part ofregulates ?、regulatesregulates ? 為何種關(guān)系。1.3.4本體論的組織結(jié)構(gòu)GO 委員會除了要定義語義(term)以外,還要定義該語義與其它語義之間的關(guān)系,使語義總體構(gòu)成有一定結(jié)構(gòu)的語義詞匯表。本體論的圖形化表示本體論的結(jié)構(gòu)可以用圖表示,其中語義表示為結(jié)點(diǎn),其間的關(guān)系表示為結(jié)點(diǎn)之間的邊。當(dāng)然 GO 語義之

15、間的關(guān)系是單向的,例如:線粒體(mitochondrion)是一個細(xì)胞器(organelle),可以表示為 a mitochondrion is an organelle,但反過來不成立,細(xì)胞器不是一個線粒體!在這種意義上說,本體論的結(jié)構(gòu)更像是有向非循環(huán)樹,其中離根結(jié)點(diǎn)越近的結(jié)點(diǎn)越概括,離葉第一部分 GO 是什么?- 7 -子結(jié)點(diǎn)越近的結(jié)點(diǎn)越具體,但與有向非循環(huán)樹不同的是,本體論結(jié)構(gòu)圖中的結(jié)點(diǎn)可以有兩個及其以上的父結(jié)點(diǎn)。例如:生物過程當(dāng)中的語義已糖合成(hexose biosynthetic process)就有兩個父結(jié)點(diǎn),已糖代謝(hexose metabolic process) 和單糖合

16、成(monosaccharide biosyntheticprocess)。其并不難理解,因為已糖(hexose)是一種單糖(monosaccharide),生物合成過程(biosyntheitc process)也是一種生物代謝過程(metabolic process) 。本體論中部分語義結(jié)構(gòu)的圖形化表示:1.4GO 的注釋(Annotation)那么,GO 中的術(shù)語如何和相對應(yīng)的基因產(chǎn)物相聯(lián)系的呢?這是由參與合作的數(shù)據(jù)庫來完成的,它們使用 GO 的定義方法,對它們所包含的基因產(chǎn)物進(jìn)行注解,并且提供支持這種注解的參考和證據(jù)。每個基因或基因產(chǎn)物都會有一個列表,列出與之相關(guān)的 GO 術(shù)語。每個數(shù)

17、據(jù)庫都會給出所有這些基因產(chǎn)物和 GO 術(shù)語的聯(lián)系數(shù)據(jù)庫,可以在 GO 的站點(diǎn)查詢到。GO 對基因和基因產(chǎn)物的注釋闡明了基因產(chǎn)物和用于定義他們的 GO 術(shù)語之間的關(guān)系?;虍a(chǎn)物指一個基因編碼的 RNA 或蛋白產(chǎn)物。因為一個基因可能編碼多個具有很不相同性質(zhì)的產(chǎn)物,所以 GO 推薦的注釋是針對基因產(chǎn)物的而不是基因的。一個基因是和所有適用于它的術(shù)語聯(lián)系在一起的。一個基因產(chǎn)物可以被一種本體論定義的多種分支或多種水平注釋。注釋需要反映在正常情況下此基因產(chǎn)物的功能,生物途徑,定位等,而并不包括其在突變或病理狀態(tài)下的情況。第一部分 GO 是什么?- 8 -GO 聯(lián)合會的各個數(shù)據(jù)庫成員采用手動或自動的方式生成注

18、釋,這兩種方式共有的原理是:1. 所有的注釋都需要有來源,可以是文字、另一個數(shù)據(jù)庫或是計算機(jī)分析結(jié)果;2. 注釋必須提供支持這種基因產(chǎn)物和 GO 術(shù)語之間聯(lián)系的證據(jù)。第二部分 GO 怎么用?- 9 -第二部分GO 怎么用?如上所述,GO 是分別從三個不同的層面描述基因產(chǎn)物的語義集?;虍a(chǎn)物數(shù)據(jù)庫用GO 提供的語義去注釋基因產(chǎn)物,并向 GO 聯(lián)合會提供注釋文件,闡明了基因產(chǎn)物和用于定義他們的 GO 術(shù)語之間的關(guān)系。下面將詳細(xì)介紹如何下載本體論文件、注釋文件,以及如何瀏覽 GO 語義及其相關(guān)的注釋。2.1下載本體論文件和注釋文件如果在研究中用到 GO 數(shù)據(jù)庫,你需要下載相關(guān)的本體論文件和注釋文件,

19、在使用 GO 之前,對于本體論文件和注釋文件組織結(jié)構(gòu)的了解尤為重要。首先,打開瀏覽器,輸入 ,進(jìn)入 GO 數(shù)據(jù)的起始頁。點(diǎn)擊“Downloads”便進(jìn)入 GO 數(shù)據(jù)庫相關(guān)文件的下載界面,如下圖所示:第二部分 GO 怎么用?- 10 -其中包括:tools 工具欄中相關(guān)的工具軟件、本體論文件、注釋文件、數(shù)據(jù)庫文件以及其它相關(guān)的技術(shù)支持文件。本文主要介紹本體論文件、注釋文件和教學(xué)資源文件。點(diǎn)擊“Ontology file downloads”進(jìn)入如下界面:如圖所示的本體論語義的統(tǒng)計分析:截至 2010 年 8 月 27 日下午 4 時 41 分,共有 32

20、282 條語義,99.3%已被明確定義。其中描述生物學(xué)途徑的有 19303 條語義,描述細(xì)胞組件的有 2750 條,描述分子功能的有 8784 條。另有 1445 為已被廢棄的語義,因為隨著語義集的不第二部分 GO 怎么用?- 11 -斷更新和發(fā)展,有些語義并不能被正確地定義,或者已不能用來描述生物學(xué)途徑、細(xì)胞組件、分子功能。如果想要詳細(xì)地了解本體論語義文件的格式信息,可以點(diǎn)擊“format guide”。這些本體論語義文件每天都會更新,GO 的管理者會加入當(dāng)天新增的語義及其關(guān)系,因此在下載使用這些文件時一定要注意其版本和更新時間。點(diǎn)擊 Download 列的“OBO v1.2”,可以在新打開

21、的窗口中看到如下的文件內(nèi)容信息:*format-version: 1.2date: 27:08:2010 16:41saved-by: tanyaberardiniauto-generated-by: OBO-Edit 2.0subsetdef: goslim_candida Candida GO slimsubsetdef: goslim_generic Generic GO slimsubsetdef: goslim_goa GOA and proteome slimsubsetdef: goslim_pir PIR GO slimsubsetdef: goslim_plant Plant

22、 GO slimsubsetdef: goslim_pombe Fission yeast GO slimsubsetdef: goslim_yeast Yeast GO slimsubsetdef: gosubset_prok Prokaryotic GO subsetsubsetdef: unvetted unvettedsynonymtypedef: systematic_synonym Systematic synonym EXACTdefault-namespace: gene_ontologyremark: cvs version: $Revision: 1.1393 $Termi

23、d: GO:0000001name: mitochondrion inheritancenamespace: biological_processdef: The distribution of mitochondria, including the mitochondrial genome, into daughter cells after mitosis or meiosis, mediated by interactions between mitochondria and the cytoskeleton. GOC:mcc, PMID:10873824, PMID:11389764s

24、ynonym: mitochondrial inheritance EXACT is_a: GO:0048308 ! organelle inheritanceis_a: GO:0048311 ! mitochondrion distributionTermid: GO:0000002name: mitochondrial genome maintenancenamespace: biological_process第二部分 GO 怎么用?- 12 -def: The maintenance of the structure and integrity of the mitochondrial

25、 genome; includes replication and segregation of the mitochondrial chromosome. GOC:ai, GOC:vwis_a: GO:0007005 ! mitochondrion organizationTermid: GO:0000003name: reproductionnamespace: biological_processalt_id: GO:0019952alt_id: GO:0050876def: The production by an organism of new individuals that co

26、ntain some portion of their genetic material inherited from that organism. GOC:go_curators, GOC:isa_complete, ISBN:0198506732 Oxford Dictionary of Biochemistry and Molecular Biologysubset: goslim_genericsubset: goslim_pirsubset: goslim_plantsubset: gosubset_proksynonym: reproductive physiological pr

27、ocess EXACT xref: Wikipedia:Reproductionis_a: GO:0008150 ! biological_process*可以看到,在一段文件格式信息之后,便依次列舉了每一個語義(term):首先是語義的ID 號,緊接著是語義的名字,以及所屬的范疇。接下來是該語義的定義,在定義最后的方括號里說明了該定義的來源依據(jù)。最后列出了該語義與其它語義之間的關(guān)系。點(diǎn)擊 Downloads 下的“Annotations”,如下圖所示:第二部分 GO 怎么用?- 13 -便進(jìn)入到注釋文件的介紹與下載界面:點(diǎn)擊“Annotation Details and Downloads”

28、下面的“Filtered files”:第二部分 GO 怎么用?- 14 -可以看到,這里列舉了所有物種或數(shù)據(jù)庫用 GO 語義的注釋情況,統(tǒng)計時間為 2010 年8 月 28 日。其中第一列為物種或數(shù)據(jù)庫的名字,第二列為用 GO 語義注釋的基因產(chǎn)物數(shù)目,第三列為注釋的條目數(shù),第四列為提交的時間,第五列為該物種或數(shù)據(jù)庫注釋文件的下載鏈接。仔細(xì)觀察,不難得出:不同物種或數(shù)據(jù)庫,其中用 GO 語義注釋的基因產(chǎn)物數(shù)目相差甚遠(yuǎn)!例如: Anaplasma phagocytophilum HZ JCVI 的數(shù)目為 1289 ,而 Agrobacterium tumefaciensstr.C58 PAMGO

29、 的數(shù)目為 83。 這些差別之所以存在,不光是因為不同物種或數(shù)據(jù)庫本身所包含的基因產(chǎn)物數(shù)量不同,還與該數(shù)據(jù)庫的注釋水平有關(guān),像酵母基因組幾乎全部被 GO 語義注釋,而斑馬魚基因組的注釋工作還處于剛起始的階段。第二部分 GO 怎么用?- 15 -如圖,在 GO 的下載頁面點(diǎn)擊“Teaching resources”,進(jìn)入關(guān)于 GO 的教學(xué)文件的下載頁面:該頁面提供了關(guān)于 GO 如何使用的一些演示文件以及相關(guān)的說明文檔,具體為 GO 聯(lián)合會的工作人員針對不同的情況,對 GO 項目進(jìn)行的介紹與講解,其中有的講解時間過早,已與目前的 GO 項目有所出入,參考時請注意檢查時期,并以 GO 項目當(dāng)前網(wǎng)站信

30、息為準(zhǔn)。第二部分 GO 怎么用?- 16 -2.2GO 語義及其相關(guān)注釋的瀏覽與搜索本節(jié)介紹如何使用由 GO 聯(lián)合會開發(fā)的 AmiGO 瀏覽器搜索本體論語義及與其相關(guān)的注釋。2.2.1AmiGO 的基本使用說明打開瀏覽器輸入 ,如下所示:點(diǎn)擊“Borwse”,進(jìn)入如下所示頁面:如上圖所示,本體論語義可以歸為三個獨(dú)立的部分: biological_process 、cellular_component、molecular_function。語義之間有類似樹的組織結(jié)構(gòu),點(diǎn)擊每行前面的+便展開包含于該項的所有語義,同時+變?yōu)?,再次點(diǎn)擊-,展開的項目收縮

31、回原狀。每一條語義單獨(dú)地占據(jù)一行,每行+/-后面的標(biāo)志表示該語義與其父結(jié)點(diǎn)之間的關(guān)系,其中表 示關(guān)系 is a,表示關(guān)系 part of ,表示關(guān)系 regulates。第二部分 GO 怎么用?- 17 -點(diǎn)擊任一語義的名字,能夠在新窗口中顯示該語義詳細(xì)的信息,包括其定義及用其注釋的基因產(chǎn)物的鏈接。例如:點(diǎn)擊 carbohydrate utilization,如圖所示,為語義 carbohydrate utilization 的詳細(xì)信息,如果想知道用其注釋的基因產(chǎn)物,點(diǎn)擊圖中的“4 gene product associations”便得到如下所有用該語義注釋過的基因產(chǎn)物:第二部分 GO 怎么

32、用?- 18 -除此之外,也可以直接點(diǎn)擊任一語義最后面方括號里面的內(nèi)容,其也說明了用該語義注釋的基因產(chǎn)物總數(shù)目。如下圖所示:某些語義后有標(biāo)志,如上圖所示,點(diǎn)擊后便得到該語義所包含的所有子語義各自所占的比例(注釋的基因產(chǎn)物數(shù)目),如點(diǎn)擊 all:all 后面的 :第二部分 GO 怎么用?- 19 -2.2.2語義關(guān)系的圖形化描述依次展開 biological process - biological regulation - regulation of biological process點(diǎn)擊 regulation of anti-apoptosis,便得到該語義的詳細(xì)信息,其中 Term Li

33、neage 顯示了該語義與其它語義之間的關(guān)系,樹形顯示如下:第二部分 GO 怎么用?- 20 -點(diǎn)擊右邊欄中的 Graphical View,便得到該關(guān)系的圖形顯示:第二部分 GO 怎么用?- 21 -2.2.3 根據(jù)語義檢索在 AmiGO 的瀏覽界面,在搜索欄輸入想要搜索的語義,如 cytokine secretion,點(diǎn)擊提交按鈕。第二部分 GO 怎么用?- 22 -搜索到 8 個語義,語義右邊是用該語義注釋的基因產(chǎn)物,如點(diǎn)擊“167 gene products”,便依次列出所有用語義 cytokine secretion 注釋的基因產(chǎn)物。第二部分 GO 怎么用?- 23 -返回搜索結(jié)果頁

34、面,點(diǎn)擊“cytokine secretion”,打開語義“cytokine secretion”的詳細(xì)信息頁面:點(diǎn)擊“167 gene product associations”,也能在新窗口中依次列出用該語義注釋的所有基因產(chǎn)物,如下所示:第二部分 GO 怎么用?- 24 -注意到紅色框里的過濾器,在這里可以通過基因產(chǎn)物的類型、來源、所在物種等條件對現(xiàn)存的基因產(chǎn)物進(jìn)行過濾,從而更精確地搜索基因產(chǎn)物,提高研究結(jié)果的精確性。同時,在“View associations”當(dāng)中選擇“Direct associations”,則結(jié)果為直接用該語義注釋的所有基因產(chǎn)物。2.2.4根據(jù)基因產(chǎn)物檢索在 Ami

35、GO 的首頁,可以通過選擇按鈕選擇所要搜索的是語義還是基因產(chǎn)物,如下所示,選擇“gene or proteins”,然后在搜索框中輸入“grim”,點(diǎn)擊提交按鈕。第二部分 GO 怎么用?- 25 -如圖依次列出了所有與“grim”有關(guān)聯(lián)的基因產(chǎn)物,以第一行為例,“grim”為該基因產(chǎn)物的名字,名字右邊“13 associations”為該基因注釋的語義條目數(shù),點(diǎn)擊“grim”,在新窗口中顯示“grim”的詳細(xì)信息,點(diǎn)擊“13 associations”則在新窗口中依次列出用來注釋該基因產(chǎn)物的所有語義條目,分別如下圖所示:第二部分 GO 怎么用?- 26 -如上圖所示,有的語義條目用 標(biāo)注,如“

36、nurse cell apoptosis”,其說明根據(jù)實(shí)驗數(shù)據(jù),該基因產(chǎn)物并不在“nurse cell apoptosis”過程中起明顯作用,因而該基因產(chǎn)物用該語義注釋只是研究者的一種推測與期望,此推測的根據(jù)是該基因產(chǎn)物與那些在 “nurse cell apoptosis”起明顯作用的基因產(chǎn)物有著非常相似的序列結(jié)構(gòu)。如果你想要搜索的基因產(chǎn)物不存在,你可以聯(lián)系 GO 聯(lián)合會申請對該基因產(chǎn)物的注釋。首先點(diǎn)擊“GO helpdesk”,如下圖所示:在下面的表格中填入相應(yīng)的內(nèi)容,其中 subject 選為 annotation,并確定在 Comment or query 欄中填入如下與基因產(chǎn)物相關(guān)的信

37、息:Gene ID from MOD, EntrezGene or UnitProtGene Symbol or Name第二部分 GO 怎么用?- 27 -Publication PubMed ID with experimental dataSuggestions GO:ID and/or GO term for GO annotationThank you.最后,點(diǎn)擊“Send message”按鈕。Gene Ontology(GO)簡介與使用介紹1.GO 怎么就出現(xiàn)了?現(xiàn)今的生物學(xué)家們浪費(fèi)了太多的時間和精力在搜尋生物信息上。這種情況歸結(jié)為生物學(xué)上定義混亂的原因:不光是精確的計算機(jī)難以搜

38、尋到這些隨時間和人為多重因 素而隨機(jī)改變的定義,即使是完全由人手動處理也無法完成。舉個例子來說,如果需要找到一個用于制抗生素的藥物靶點(diǎn),你可能想找到所有的和細(xì)菌蛋白質(zhì)合成相 關(guān)的基因產(chǎn)物,特別是那些和人中蛋白質(zhì)合成組分顯著不同的。但如果一個數(shù)據(jù)庫描述這些基因產(chǎn)物為“翻譯類”,而另一個描述其為“蛋白質(zhì)合成類”,那么這無 疑對于計算機(jī)來說是難以區(qū)分這兩個在字面上相差甚遠(yuǎn)卻在功能上相一致的定義。Gene Ontology (GO)項目正是為了能夠使對各種數(shù)據(jù)庫中基因產(chǎn)物功能描述相一致的努力結(jié)果。這個項目最初是由 1988 年對三個模式生物數(shù)據(jù)庫的整合開始:: FlyBase (果蠅數(shù)據(jù)庫 Droso

39、phila),t Saccharomyces Genome Database (酵母基因組數(shù)據(jù)庫 SGD) and the Mouse Genome Database (小鼠基因組數(shù)據(jù)庫 MGD)。從那開始,GO不斷發(fā)展擴(kuò)大,現(xiàn)在已包含數(shù)十個動物、植物、微生物的數(shù)據(jù)庫。GO 的定義法則已經(jīng)在多個合作的數(shù)據(jù)庫中使用,這使在這些數(shù)據(jù)庫中的查詢具有極高的一致性。這種定義語言具有多重結(jié)構(gòu),因此在各種程度上都能進(jìn)行查詢。舉 例來說,GO 可以被用來在小鼠基因組中查詢和信號轉(zhuǎn)導(dǎo)相關(guān)的基因產(chǎn)物,也可以進(jìn)一步找到各種生物地受體酪氨酸激酶。這種結(jié)構(gòu)允許在各種水平添加對此基因產(chǎn) 物特性的認(rèn)識。2.GO 的發(fā)展和組

40、織形式GO 發(fā)展了具有三級結(jié)構(gòu)的標(biāo)準(zhǔn)語言(ontologies),根據(jù)基因產(chǎn)物的相關(guān)分子功能,生物學(xué)途徑,細(xì)胞學(xué)組件而給予定義,無物種相關(guān)性。三種本體論的內(nèi)容如下:1)分子功能本體論 基因產(chǎn)物個體的功能,如與碳水化合物結(jié)合或 ATP 水解酶活性等2)生物學(xué)途徑本體論 分子功能的有序組合,達(dá)成更廣的生物功能,如有絲分裂或嘌呤代謝等3)細(xì)胞組件本體論 亞細(xì)胞結(jié)構(gòu)、位置和大分子復(fù)合物,如核仁、端粒和識別起始的復(fù)合物等基本來說,GO 工作可分為三個不同的部分:第一,給予和維持定義;第二,將位于不同數(shù)據(jù)庫中的本體論語言、基因和基因產(chǎn)物進(jìn)行聯(lián)系,形成網(wǎng)絡(luò);第三,發(fā)展相關(guān)工具,使本體論的標(biāo)準(zhǔn)語言的產(chǎn)生和維持

41、更為便捷。3.GO 的形式GO 定義的術(shù)語有著直接非循環(huán)式(directed acyclic graphs (DAGs)的特點(diǎn),而并非是傳統(tǒng)的等級制定義方式(隨著代數(shù)增加,下一級比上一級更為具體)。舉個例子來說,生物學(xué)途徑中有一個定義是己糖合成,它的上 一級為己糖代謝和單糖合成。當(dāng)某個基因被注解為“己糖合成活性”后,它自動地獲得了己糖代謝和單糖合成地注解。因為在 GO 中,每個術(shù)語必須遵循“真途徑 “法則,即如果下一代的術(shù)語可以用于描述此基因產(chǎn)物,其上一代術(shù)語也可以適用。4.GO 的注釋(Annotation)那么,GO 中的術(shù)語如何和相對應(yīng)的基因產(chǎn)物相聯(lián)系的呢?這是由參與合作的數(shù)據(jù)庫來完成的

42、,它們使用 GO 的定義方法,對它們所包含的基因產(chǎn)物進(jìn)行注解,并且 提供支持這種注解的參考和證據(jù)。每個基因或基因產(chǎn)物都會有一個列表,列出與之相關(guān)的 GO 術(shù)語。每個數(shù)據(jù)庫都會給出這些基因產(chǎn)物和 GO 術(shù)語的聯(lián)系數(shù)據(jù)庫,并 且也可以在 GO 的 ftp 站點(diǎn)上和 WEB 方式查詢到。而且,GO 聯(lián)合會提供了簡化的本體論術(shù)語(GO slim),這樣,可以在更高級的層面上研究基因組的功能。比如,粗略地估計哪一部分的基因組與信號傳導(dǎo)、代謝合成或復(fù)制有關(guān)。GO 對基因和蛋白的注釋闡明了基因產(chǎn)物和用于定義他們的 GO 術(shù)語之間的關(guān)系?;虍a(chǎn)物指一個基因編碼的 RNA 或蛋白產(chǎn)物。因為一個基因可能編碼多個具

43、有很不相同性質(zhì)的產(chǎn)物,所以 GO 推薦的注釋是針對基因產(chǎn)物的而不是基因的。一個基因是和所有適用于它的術(shù)語聯(lián)系在一起的。一個基因產(chǎn)物可以被一種本體論定義的多種分支或多種水平注釋。注釋需要反映在正常情況下此基因產(chǎn)物的功能,生物途徑,定位等,而并不包括其在突變或病理狀 態(tài)下的情況。GO 聯(lián)合會的各個數(shù)據(jù)庫成員采用手動或自動的方式生成注釋,這兩種方式共有的原理是:一.所有的注釋都需要有來源,可以是文字、另一個數(shù)據(jù)庫 或是計算機(jī)分析結(jié)果;二.注釋必須提供支持這種基因產(chǎn)物和 GO 術(shù)語之間聯(lián)系的證據(jù)。5.GO 文件格式GO 的所有數(shù)據(jù)都是免費(fèi)獲得的。GO 數(shù)據(jù)有三種格式:flat(每日更新)、XML(每月

44、更新)和 MySQL(每月更新)。 這些數(shù)據(jù)格式都可以在 GO ftp 的站點(diǎn)上下載。XML 和 MySQL 文件是被儲存于獨(dú)立的 GO 數(shù)據(jù)庫中。如果需要找到與某一個 GO 術(shù)語相關(guān)的基因或基因產(chǎn)物,可以找到一個相應(yīng)表格,搜尋到這種注解的編號,并且可以鏈接到與之對應(yīng)的位于不同數(shù)據(jù)庫的基因相關(guān)文件。6.GO 瀏覽器和修改器(browser and editor)GO 術(shù)語和注釋使用了多種不同的工具軟件,它們都可以在 web 方式的“GO 瀏覽器”下“GO softwarepage”中找到。大多數(shù) GO 瀏覽器都是 web 模式的,允許你直觀的看到術(shù)語和其相關(guān)信息,如定義、同義詞和數(shù)據(jù)庫參考等。

45、有些 GO 瀏覽器如 AmiGO 和 QuickGO,可以看到每個術(shù)語的注釋。而可下載的 DAG-Edit 編輯器,一樣可以離線地顯示注釋和所有本體論定義的信息。對于每一個瀏覽器來說,都可以選擇最適用于你要求的工具軟件。1)常見的三種瀏覽器AmiGO from BDGP 在 AmiGO 中,可以通過查詢一個 GO 術(shù)語而得到所有具有這個注釋的基因產(chǎn)物,或查詢一個基因產(chǎn)物而得到它所有的注釋關(guān)系。還可以瀏覽本體論,得到術(shù)語之間的關(guān)系和術(shù)語對應(yīng)的基因產(chǎn)物數(shù)目。AmiGO直接連接 GO 下的 MySQL。MGI GO Browser MGI GO 的功能類似于 AmiGO,所不同的在于它所得到的基因為小鼠基因。MGI GO 瀏覽器直接連接 GO 下的 MGI 數(shù)據(jù)庫。Q

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論