藥理學(xué)專論GeneOntolology_第1頁
藥理學(xué)專論GeneOntolology_第2頁
藥理學(xué)專論GeneOntolology_第3頁
藥理學(xué)專論GeneOntolology_第4頁
藥理學(xué)專論GeneOntolology_第5頁
已閱讀5頁,還剩88頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基因本體論與GO技術(shù)張波 Bozhang_2015年9月引 言背景 隨著后基因組(post-genomics)時代的來臨,基因組學(xué)的研究重心開始從闡明所有遺傳信息轉(zhuǎn)移到在整體分子水平對功能進(jìn)行研究。這種轉(zhuǎn)變的一個重要標(biāo)志是產(chǎn)生了功能基因組學(xué)(functional genomics)。任務(wù) 功能基因組學(xué)的主要任務(wù)之一是進(jìn)行基因組功能注釋(genome annotation),了解基因的功能,認(rèn)識基因與疾病的關(guān)系,掌握基因的產(chǎn)物及其在生命活動中的作用等。意義 快速有效的基因注釋對進(jìn)一步識別基因,研究基因的表達(dá)調(diào)控機(jī)制,研究基因在生物體代謝途徑中的地位,分析基因、基因產(chǎn)物之間的相互作用關(guān)系,預(yù)測和發(fā)

2、現(xiàn)蛋白質(zhì)功能,揭示生命的起源和進(jìn)化等具有重要的意義。 本體論的哲學(xué)基礎(chǔ) 第一哲學(xué):是者之所以為 是 者,以 及是者由 于 本 性 所 應(yīng) 有 的 性 質(zhì)。” “是者”(being)是 從 系 詞 是(to be)的 分 詞 作 成 的 哲學(xué)概念,在西方哲學(xué)中可以用作表示泛指一切的概念、其涵蓋范圍比中文的“存在”、“萬物”都要廣。 ontology:即我們譯作“本體論”并得到廣泛流傳的這個詞,就是由 ont(的變式)加上詞尾logy(意為科學(xué)、學(xué)說)組成的。因此,從亞里士多德起,“第一哲學(xué)”也就是本體論。西方哲學(xué)分類基因注釋數(shù)據(jù)庫 研究人員已經(jīng)掌握了大量的全基因組數(shù)據(jù),同時關(guān)于基因、基因產(chǎn)物以及

3、生物學(xué)通路的數(shù)據(jù)也越來越多,解釋生物學(xué)實驗的結(jié)果,尤其從基因組角度,需要系統(tǒng)的方法。 在基因組范圍內(nèi)描述蛋白質(zhì)功能十分復(fù)雜,最好的工具就是計算機(jī)程序,提供結(jié)構(gòu)化的標(biāo)準(zhǔn)的生物學(xué)模型,以便計算機(jī)程序進(jìn)行分析,成為從整體水平系統(tǒng)研究基因及其產(chǎn)物的一項基本需求。 基因注釋數(shù)據(jù)庫產(chǎn)生的原因基因注釋數(shù)據(jù)庫產(chǎn)生的原因生物學(xué)與計算機(jī)信息學(xué)的矛盾生物信息的巨大與混亂:生物學(xué)家們浪費了太多的時間和精力在搜尋生物信息上。生物學(xué)上定義混亂,不同數(shù)據(jù)庫使用不同的術(shù)語。計算機(jī)難以搜尋,隨時間和人為多重因素而隨機(jī)改變。生物信息的歸類對研究工作帶來的挑戰(zhàn):找一個用于制抗生素的藥物靶點,找到所有的和細(xì)菌蛋白質(zhì)合成相關(guān)的基因產(chǎn)物

4、,特別是那些和人體中蛋白質(zhì)合成組分顯著不同的。如果一個數(shù)據(jù)庫描述這些基因產(chǎn)物為“翻譯類”,而另一個數(shù)據(jù)庫描述其為“蛋白質(zhì)合成類”,那么這無疑對于計算機(jī)來說是難以區(qū)分這兩個在字面上相差甚遠(yuǎn)卻在功能上相一致的定義。一、基因本體論(gene ontology) 1988 年對三個模式生物數(shù)據(jù)庫的整合開始:the FlyBase (果蠅數(shù)據(jù)庫 Drosophila),the Saccharomyces Genome Database (酵母基因組數(shù)據(jù)庫 SGD) 和 the Mouse Genome Informatics (小鼠基因組數(shù)據(jù)庫 MGI)。從那開始,GO 不斷發(fā)展擴(kuò)大,現(xiàn)在已包含數(shù)十個動

5、物、植物、微生物的數(shù)據(jù)庫(詳見 GO Consortium Page )。 /GO.consortiumlist.shtmlGene Ontology widely adopted AgBaseGO的三級語義詞匯標(biāo)準(zhǔn) GO 開發(fā)了具有三級結(jié)構(gòu)的語義詞匯標(biāo)準(zhǔn)(Ontologies),根據(jù)基因產(chǎn)物的相關(guān)生物學(xué)途徑、細(xì)胞學(xué)組件以及分子功能而分別給予定義,與具體物種無關(guān)。 第一,給予并維持語義(terms); 第二,將位于數(shù)據(jù)庫當(dāng)中的基因、基因產(chǎn)物與 GO本體論語言當(dāng)中的語義(terms)進(jìn)行關(guān)聯(lián),形成網(wǎng)絡(luò); 第三,開發(fā)相關(guān)工具,使本體論標(biāo)準(zhǔn)語言的產(chǎn)

6、生和維持更為便捷。本體論(The ontologies)介紹 GO 提供了一系列的語義(terms)用來描述基因、基因產(chǎn)物的特性。這些語義分為三種不同的種類: 細(xì)胞學(xué)組件(CC),用于描述亞細(xì)胞結(jié)構(gòu)、位置和大分子復(fù)合物,如核仁、端粒和識別起始的復(fù)合物等; 分子功能(MF),用于描述基因、基因產(chǎn)物個體的功能,如與碳水化合物結(jié)合或 ATP 水解酶活性等; 生物學(xué)途徑(BP),指分子功能的有序組合,達(dá)成更廣的生物功能,如有絲分裂或嘌呤代謝等。 GO 的具體定義 細(xì)胞組件 即細(xì)胞中的位置,指基因產(chǎn)物位于何種細(xì)胞器或基因產(chǎn)物組中(如糙面內(nèi)質(zhì)網(wǎng),核或核糖體,蛋白酶體等)。 GO 的具體定義 分子功能 分子

7、功能描述在分子生物學(xué)上的活性,如催化活性或結(jié)合活性。GO 分子功能用來定義功能而不是整體分子,而且不特異性地指出這些功能具體的時空信息。分子功能大部分指的是單個基因產(chǎn)物的功能,還有一小部分是此基因產(chǎn)物形成的復(fù)合物的功能。定義功能的義項包括催化活性、轉(zhuǎn)運活性、結(jié)合活性等,更為狹窄的定義包括腺苷酸環(huán)化酶活性或鐘形受體結(jié)合活性等。 生物學(xué)途徑 生物學(xué)途徑是由分子功能有序地組成的,具有多個步驟的一個過程。舉例來說,較為寬泛的是細(xì)胞生長和維持、信號傳導(dǎo)。一些更為具體的例子包括嘧啶代謝或配糖基的運輸?shù)?。一個生物學(xué)途徑并不是完全和一條生物學(xué)通路相等。因此,GO 并不涉及到通路中復(fù)雜的機(jī)制和所依賴的因素。語義

8、之間的關(guān)系及其組織結(jié)構(gòu) 語義之間關(guān)系的基本理解 基因本體論組織類似于圖,語義作為圖的結(jié)點,語義之間的關(guān)系為圖中的邊。因此,一旦產(chǎn)生新的語義,其與其它語義之間的關(guān)系也會同時被定義。語義之間的關(guān)系有三種:is a、part of 和 regulates。關(guān)系表示的幾點約定 1. “語義”用圖論的術(shù)語“結(jié)點”表示 2. 我們習(xí)慣于用父子結(jié)點來表示語義之間的關(guān)系,其中父結(jié)點離根結(jié)點較近,表示相對寬泛的語義,而子結(jié)點離葉子結(jié)點較近,相對父結(jié)點其語義所代表的內(nèi)容更為具體。 3. 圖中的實線表示結(jié)點之間的關(guān)系 4. 虛線表示推理而并未證明的關(guān)系基本關(guān)系圖示語義關(guān)系的推導(dǎo)1 is a 的傳遞性語義關(guān)系的推導(dǎo)2

9、 part of 也具有傳遞性語義關(guān)系的推導(dǎo)3 part of 具有優(yōu)先性調(diào)節(jié)控制關(guān)系(regulate)與推導(dǎo)1調(diào)節(jié)控制關(guān)系(regulate)與推導(dǎo)1調(diào)節(jié)控制關(guān)系的復(fù)合變換本體論的組織結(jié)構(gòu) 本體論的圖形化表示:語義表示為結(jié)點,其間的關(guān)系表示為結(jié)點之間的邊。 GO 語義之間的單向關(guān)系:線粒體(mitochondrion)是一個細(xì)胞器(organelle),可以表示為 a mitochondrion is an organelle,但反過來不成立,細(xì)胞器不是一個線粒體! GO圖形特征:有向非循環(huán)樹,其中離根結(jié)點越近的結(jié)點越概括,離葉子結(jié)點越近的結(jié)點越具體。本體論的結(jié)構(gòu)可視化 本體論結(jié)構(gòu)圖中的結(jié)

10、點可以有兩個及其以上的父結(jié)點。 例如:BP已糖合成(hexose biosynthetic process)就有兩個 父 結(jié) 點 , 已 糖 代 謝 (hexose metabolic process) 和 單 糖 合 成 (monosaccharide biosyntheticprocess)。其并不難理解,因為已糖(hexose)是一種單糖(monosaccharide),生物合成過程(biosyntheitc process)也是一種生物代謝過程(metabolic process) 。GO語義的注釋(Annotation)注釋原理 一個基因產(chǎn)物可以被一種本體論定義的多種分支或多種水平注

11、釋。注釋需要反映在正常情況下此基因產(chǎn)物的功能,生物途徑,定位等,而并不包括其在突變或病理狀態(tài)下的情況。GO 聯(lián)合會的各個數(shù)據(jù)庫成員采用手動或自動的方式生成注釋,這兩種方式共有的原理是: 1. 所有的注釋都需要有來源,可以是文字、另一個數(shù)據(jù)庫或是計算機(jī)分析結(jié)果; 2. 注釋必須提供支持這種基因產(chǎn)物和 GO 術(shù)語之間聯(lián)系的證據(jù)。二、GO 怎么用? GO 是分別從三個不同的層面描述基因產(chǎn)物的語義集?;虍a(chǎn)物數(shù)據(jù)庫用GO 提供的語義去注釋基因產(chǎn)物,并向 GO 聯(lián)合會提供注釋文件,闡明了基因產(chǎn)物和用于定義他們的 GO 術(shù)語之間的關(guān)系。 如何下載本體論文件、注釋文件。 如何瀏覽 GO 語義及其相關(guān)的注釋。

12、下載本體論文件和注釋文件AmiGO的使用BAD的GO注冊信息GO:0051712 : positive regulation of killing of cells of other organism GO詞條關(guān)聯(lián)圖示法GO數(shù)據(jù)庫的開放性二、GO的應(yīng)用 GO語義檢索 未知序列的確認(rèn) 整合代謝途徑分析 基因功能富集分析 基因功能預(yù)測GO語義檢索根據(jù)基因產(chǎn)物檢索“NOT”詞條的涵義未知序列的確認(rèn) 對于未知基因名的序列,可以用序列直接檢索GO 數(shù)據(jù)庫。點擊AmiGO首頁上方的“BLAST”。 界面風(fēng)格類似于其他數(shù)據(jù)庫BLAST搜索的網(wǎng)頁,在檢索框中鐵如氨基酸或核酸序列,網(wǎng)頁能自動識別并相應(yīng)地做BLA

13、STP或BLASTX和數(shù)據(jù)庫中的序列比對。 這里以檢索一段未知基因的序列為例,如圖所示。整合代謝途徑分析 京都基因與基因組百科全書(Kyoto encyclopedia of genes and genomes, KEGG) 是系統(tǒng)分析基因功能、基因組信息的數(shù)據(jù)庫,它整合了基因組學(xué)、生物化學(xué)以及系統(tǒng)功能組學(xué)的信息,有助于研究者把基因及表達(dá)信息作為一個整體網(wǎng)絡(luò)進(jìn)行研究。KEGG數(shù)據(jù)庫的注釋與檢索數(shù)據(jù)庫的注釋與檢索 一組基因直接注釋的結(jié)果是得到大量的功能結(jié)點。這些功能具有概念上的交疊現(xiàn)象,導(dǎo)致分析結(jié)果冗余,不利于進(jìn)一步的精細(xì)分析,所以研究人員希望對得到的功能結(jié)點加以過濾和篩選,以便獲得更有意義的功

14、能信息。 進(jìn)行基因集功能富集分析的原因進(jìn)行基因集功能富集分析的原因富集分析算法富集分析算法 富集分析(超幾何分布)Fishers Exact Test 問題的由來:經(jīng)常看到一些餅圖,描述某些事物的組成,比如說有錢人的學(xué)歷分布,然后我們可以看到高學(xué)歷所占比例并不高,根據(jù)這個比例下結(jié)論通常是錯的,這些比例說明不了問題,如果把各種學(xué)歷在總體人口中的分布做為背景進(jìn)行考慮的話,你就會發(fā)現(xiàn)學(xué)歷還是有點用的。當(dāng)我們用組學(xué)測定了一大堆分子之后,我們希望站在更高的角度去看這些分子和那些生物學(xué)過程相關(guān)。那么通常各種注釋,對這些基因/蛋白進(jìn)行分類,那么從分類的比例上,是不能草率下結(jié)論,正如上面有錢人學(xué)歷分布的例子一

15、樣。我們需要把總體的分布考慮進(jìn)去。 在做富集分析的時候,會涉及到這么一個概念。統(tǒng)計原理超幾何分布是統(tǒng)計學(xué)上一種離散概率分布。它描述了由有限個物件中抽出n個物件,成功抽出指定種類的物件的個數(shù)(不歸還)。超幾何分布和Fishers Exact Test是完全一模一樣的原理,只是兩種不同的稱謂。例如在有N個樣本,其中m個是不及格的。超幾何分布描述了在該N個樣本中抽出n個,其中k個是不合格的的機(jī)率:上式可如此理解:(nN)表示所有在N個樣本中抽出n個,而抽出的結(jié)果不一樣的數(shù)目。(km)表示在m個樣本中,抽出k個的方法數(shù)目。剩下來的樣本都是及格的,而及格的樣本有N-m個,剩下的抽法便有(n-KN-m)種

16、。若n=1,超幾何分布還原為伯努利分布。若N接近,超幾何分布可視為二項分布。 p(x) = choose(m, x) choose(n, k-x) / choose(m+n, k) for x = 0, , k. 其中, m 是袋里面白球的個數(shù), n 是白球的個數(shù), k 是從袋中隨機(jī)取出的球數(shù), x 是取出球中紅球的個數(shù)。累計超幾何分布例:在一個口袋中裝有30個球,其中有10個紅球,其余為白球,這些球除顏色外完全相同.游戲者一次從中摸出5個球.摸到至少4個紅球就中一等獎,那么獲一等獎的概率是多少?解:由題意可見此問題歸結(jié)為超幾何分布模型。其中N = 30. M = 10. n = 5.P(一等

17、獎) = P(X=4 or 5) = P(X=4) + P(X=5)由公式P(X=k)=C(k,M)*C(n-k,N-M)/C(n,N),k=0,1,2,.得:P(X=4) = C(4,10)*C(1,20)/C(5,30)P(X=5) = C(5,10)*C(0,20)/C(5,30)P(一等獎) = 106/3393常用富集分析軟件常用富集分析軟件 富集分析應(yīng)用實例富集分析應(yīng)用實例 人民衛(wèi)生出版社8年制及7年制臨床醫(yī)學(xué)等專業(yè)用生物信息學(xué)功能分子基因列表 ACHE TOP2A BLA SCN5A ESR1 PTPN1 AR HSP90AA1 PPARG RXRA NCOA2 PTGS2 PT

18、GS1 CHRM3 PRKACA CHRM1 OPRD1 F2 ESR2 CHRM2 ACHE ADRB2 PRSS1 PDE3A OPRM1 GABRA1 MAOB CA2 CALM1 ADRA1B DPP4 NOS2A NFE2L2Figure above (4b in the article): network modules were identified and tested for Gene Ontology-term enrichment (gray genes do not show enrichment). A network module enriched for Gene ontology terms related to Pathogenesis is highlighted in the S. aureus network. (Image reproduced with permission. NPG Lic. No. 3346711104169)近來已經(jīng)發(fā)展了很多基于GO數(shù)據(jù)庫或KEGG數(shù)據(jù)庫的方法,利用高通量的基因表達(dá)和蛋白質(zhì)互作數(shù)據(jù)進(jìn)行功能預(yù)測,其中一些新開發(fā)的方法試圖整合多種數(shù)據(jù)類型,通過構(gòu)建功能相關(guān)網(wǎng)絡(luò)的方式預(yù)測基因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論