基因注釋與功能分類_第1頁
基因注釋與功能分類_第2頁
基因注釋與功能分類_第3頁
基因注釋與功能分類_第4頁
基因注釋與功能分類_第5頁
已閱讀5頁,還剩76頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1精選ppt第七章

基因注釋與功能分類生物信息學第一節(jié)引言3精選ppt背景隨著后基因組(post-genomics)時代研究的不斷深入,基因組學的研究任務已由最開始的基因組序列識別,漸漸轉(zhuǎn)移到在整體分子水平對功能進行研究。一個重要標志是功能基因組學(functionalgenomics)的不斷發(fā)展。4精選ppt任務功能基因組學的主要任務之一是進行基因組功能注釋(genomeannotation),了解基因的功能,認識基因與疾病的關(guān)系,掌握基因的產(chǎn)物及其在生命活動中的作用等。5精選ppt意義快速有效的基因注釋對進一步識別基因,研究基因的表達調(diào)控機制,研究基因在生物體代謝途徑中的地位,分析基因、基因產(chǎn)物之間的相互作用關(guān)系,預測和發(fā)現(xiàn)蛋白質(zhì)功能,揭示生命的起源和進化等具有重要的意義。6精選ppt第二節(jié)

基因注釋數(shù)據(jù)庫GeneAnnotationDatabase7精選ppt一、研究人員已經(jīng)掌握了大量的全基因組數(shù)據(jù),同時關(guān)于基因、基因產(chǎn)物以及生物學通路的數(shù)據(jù)也越來越多,解釋生物學實驗的結(jié)果,尤其從基因組角度,需要系統(tǒng)的方法。二、在基因組范圍內(nèi)描述蛋白質(zhì)功能十分復雜,最好的工具就是計算機程序,提供結(jié)構(gòu)化的標準的生物學模型,以便計算機程序進行分析,成為從整體水平系統(tǒng)研究基因及其產(chǎn)物的一項基本需求。

基因注釋數(shù)據(jù)庫產(chǎn)生的原因

8精選ppt一、基因本體(geneontology,GO)數(shù)據(jù)庫基因本體數(shù)據(jù)庫是GO組織(GeneOntologyConsortium)在2000年構(gòu)建的一個結(jié)構(gòu)化的標準生物學模型,旨在建立基因及其產(chǎn)物知識的標準詞匯體系,涵蓋了基因的細胞組分(cellularcomponent)、分子功能(molecularfunction)、生物學過程(biologicalprocess)。9精選pptGO數(shù)據(jù)庫主頁10精選pptGO數(shù)據(jù)庫最初收錄的基因信息來源于3個模式生物數(shù)據(jù)庫:果蠅、酵母和小鼠,隨后相繼收錄了更多數(shù)據(jù),其中包括國際上主要的植物,動物和微生物基因組數(shù)據(jù)庫。GO術(shù)語在多個合作數(shù)據(jù)庫中的統(tǒng)一使用,促進了各類數(shù)據(jù)庫對基因描述的一致性。

GO數(shù)據(jù)庫收錄的基因組數(shù)據(jù)列表

11精選pptGO數(shù)據(jù)庫收錄的基因組數(shù)據(jù)列表12精選pptGO注釋體系特點GO通過控制注釋詞匯的層次結(jié)構(gòu)使得研究人員能夠從不同層面查詢和使用基因注釋信息。從整體上來看GO注釋系統(tǒng)是一個有向無環(huán)圖(directedacyclicgraphs),包含三個分支,即:生物學過程(biologicalprocess),分子功能(molecularfunction)和細胞組分(cellularcomponent)。注釋系統(tǒng)中每一個結(jié)點(node)都是基因或蛋白的一種描述,結(jié)點之間保持嚴格的關(guān)系,即“isa”或“partof”。13精選pptGO中生物學過程的DNA代謝部分功能類示意圖14精選ppt1.用關(guān)鍵詞檢索GO數(shù)據(jù)庫檢索GO數(shù)據(jù)庫通常先進入AmiGO2.0的首頁。在GO數(shù)據(jù)庫中,每條記錄都有一個數(shù)據(jù)標識號GO:XXXXXX和對應的術(shù)語。因此檢索時需要知道待查基因的數(shù)字標識號或術(shù)語,將它們直接輸入框中檢索即可。如果檢索的基因或蛋白質(zhì)存在別名,可在檢索框下勾選“geneorproteins”,并在檢索框中輸入別名檢索;“exactmatch”表示是否完全匹配,可供選擇。二、使用GO數(shù)據(jù)庫

15精選pptAmiGO2檢索網(wǎng)頁16精選ppt這里以檢索神經(jīng)細胞分化因子6(NEUROD6)為例,選擇“AdvancedSearch”下的“Genesandgeneproducts”選項,在檢索框中輸入“NEUROD6”,運行后所得基因產(chǎn)物檢索結(jié)果如圖所示。舉例

17精選pptAmiGO2檢索結(jié)果示例18精選ppt檢索得到的六個記錄分別是不同物種中的神經(jīng)源性分化因子6,點擊物種為人類“Homosapiens”的“NEUROD6”記錄,得到結(jié)果如圖所示,顯示了該基因的基本信息,包括類型、物種、名稱來源等信息。

19精選pptAmiGO2基因描述示例120精選ppt檢索下方還顯示了該基因產(chǎn)物的關(guān)聯(lián)(geneproductassociations)圖,要查看該基因的分子功能,可點擊“directannotation”中的記錄查看,如點擊“proteindimerizationactivity”的結(jié)果如圖所示。21精選ppt22精選ppt此外,還列舉了該功能的詳細注釋,包括“Associations”、“GraphViews”、“InferredTreeView”、“AncestorsandChildren”和“Mappings”等。如點擊可視化視圖“GraphViews”就可清晰地顯示該分子功能構(gòu)成的復雜功能網(wǎng)狀結(jié)構(gòu),既有上下隸屬關(guān)系,也存在平行關(guān)系。23精選pptAmiGO2查詢結(jié)果圖形視圖24精選ppt2.用序列檢索GO數(shù)據(jù)庫在AmiGO1.8

版本中,對于未知基因名的序列,還可以用序列直接檢索GO數(shù)據(jù)庫。點擊AmiGO1.8首頁上方的“BLAST”。界面風格類似于其他數(shù)據(jù)庫BLAST搜索的網(wǎng)頁,在檢索框中輸入氨基酸或核酸序列,網(wǎng)頁能自動識別并相應地做BLASTP或BLASTX和數(shù)據(jù)庫中的序列比對。這里以檢索RPIA基因的序列為例,如圖所示。25精選pptAmiGO1.8BLAST序列檢索網(wǎng)頁

26精選ppt1.簡介京都基因與基因組百科全書(Kyotoencyclopediaofgenesandgenomes,KEGG)

是系統(tǒng)分析基因功能、基因組信息的數(shù)據(jù)庫,它整合了基因組學、生物化學以及系統(tǒng)功能組學的信息,有助于研究者把基因及表達信息作為一個整體網(wǎng)絡進行研究。三、京都基因與基因組百科全書27精選pptKEGG提供的整合代謝途徑查詢十分出色,包括碳水化合物、核苷酸、氨基酸等代謝及有機物的生物降解,不僅提供了所有可能的代謝途徑,還對催化各步反應的酶進行了全面的注解,包含其氨基酸序列、到PDB數(shù)據(jù)庫的鏈接等。此外,KEGG還提供基于Java的圖形工具訪問基因組圖譜、比較基因組圖譜和操作表達圖譜,以及其他序列比較、圖形比較和通路計算的工具。因此,KEGG數(shù)據(jù)庫是進行生物體內(nèi)代謝分析、代謝網(wǎng)絡分析等研究的強有力工具之一。28精選pptKEGG目前共包含了19個子數(shù)據(jù)庫,它們被分類成系統(tǒng)信息、基因組信息和化學信息三個類別。KEGG存儲內(nèi)容

29精選ppt基因組信息存儲在GENES數(shù)據(jù)庫里,包括全部完整的基因組序列和部分測序的基因組序列,并伴有實時更新的基因相關(guān)功能的注釋。

KEGG中化學信息的6個數(shù)據(jù)庫被稱為KEGGLIGAND數(shù)據(jù)庫,包含化學物質(zhì)、酶分子、酶化反應等信息。KEGGBRITE數(shù)據(jù)庫是一個包含多個生物學對象的基于功能進行等級劃分的本體論數(shù)據(jù)庫,它包括分子、細胞、物種、疾病、藥物、以及它們之間的關(guān)系。30精選ppt一些小的通路模塊被存儲在MODULE數(shù)據(jù)庫中,該數(shù)據(jù)庫還存儲了其他的一些相關(guān)功能的模塊以及化合物信息。KEGGDRUG數(shù)據(jù)庫存儲了目前在日本所有非處方藥和美國的大部分處方藥品。KEGGDISEASE是一個存儲疾病基因、通路、藥物、以及疾病診斷標記等信息的新型數(shù)據(jù)庫。31精選pptKEGG通常被看作是生物系統(tǒng)的計算機表示,它囊括了生物系統(tǒng)中的各個對象與對象之間的關(guān)系。在分子層面、細胞層面、組織層面都可以對數(shù)據(jù)庫進行檢索。每個數(shù)據(jù)庫中的檢索條目按照一定規(guī)律被賦予一個檢索號,也就是ID。表中列出了KEGG的13個核心數(shù)據(jù)庫的檢索號。KEGG數(shù)據(jù)庫的注釋與檢索

32精選pptKEGG的13個核心數(shù)據(jù)庫的檢索號33精選ppt另外一種化學注釋的方法是以小分子化學結(jié)構(gòu)的生物學意義為特征來實現(xiàn)的。在KEGG數(shù)據(jù)庫中,酶與酶之間的反應信息以及相關(guān)的化學結(jié)構(gòu)信息分別存儲在KEGGREACTION數(shù)據(jù)庫和KEGGREPAIR數(shù)據(jù)庫中。每個化合物的化學結(jié)構(gòu)都被轉(zhuǎn)化為RDM(atomtypechangesatR:reactioncenterD:differenceatomM:matchedatom)模式。34精選pptKEGG數(shù)據(jù)庫存儲的RDM模式35精選ppt下面以人類編碼葡萄糖磷酸變位酶的基因“PGM1”為例:首先進入KEGG首頁,在首頁頂端的輸入框中輸入人類葡萄糖磷酸變位酶基因名稱“PGM1”KEGG數(shù)據(jù)庫的注釋與檢索

36精選pptKEGG查詢首頁37精選ppt點擊搜索按鈕“GO”進入查詢結(jié)果頁面,該頁面會列出針對基因“PGM1”在KEGG數(shù)據(jù)庫中的搜索結(jié)果,除人類外,包含“PGM1”基因的物種條目也會被列出。38精選ppt查詢結(jié)果39精選ppt其中排在第一位的是人類基因“PGM1”的相關(guān)信息,點擊該條目進入到詳細信息頁面。該頁面以表格的形式列出了該基因有關(guān)的詳細信息,包括基因編號,基因的詳細定義,所編碼的酶的編號,基因所在通路,以及序列的編碼信息。同時,在頁面的右側(cè)還提供了該基因在其他分子生物學數(shù)據(jù)庫的鏈接,如OMIM、NCBI、GenBank等。40精選ppt詳細信息頁面41精選ppt通過點擊相應的鏈接,我們可以進入該基因相應信息的頁面。在pathway這一欄中列出了該基因所在的生物學通路,點擊編號為hsa00010(糖酵解/糖異生通路)的通路,進入到該通路的相應頁面。該編號為hsa00010的通路頁面以簡單的幾何圖形顯示出了糖酵解/糖異生相關(guān)生物過程。圖中紅色的方框即為基因“PGM1”所編碼的酶,以此就可以通過該酶所在位置以及通路的拓撲結(jié)構(gòu)來綜合分析基因。42精選ppt通路圖43精選ppt此外,可以通過頁面頂部的下拉列表框來選擇該通路在其他物種中的信息,也可以通過該列表框的選擇來查看相關(guān)的基因、酶、反應、化合物等相關(guān)通路信息。44精選pptKEGGPATHWAY還存儲了一些人類疾病通路數(shù)據(jù),這些疾病通路被分為六個子類:癌癥、免疫系統(tǒng)疾病、神經(jīng)退行性疾病、循環(huán)系統(tǒng)疾病、代謝障礙、傳染病循環(huán)系統(tǒng)疾病。KEGG數(shù)據(jù)庫的改進與更新

45精選pptKEGGDRUG數(shù)據(jù)庫也在不斷地完善,其中的藥物數(shù)據(jù)幾乎涵蓋了日本的所有非處方藥和美國的大部分處方藥品。DRUG是一個以存儲結(jié)構(gòu)為基礎(chǔ)的數(shù)據(jù)庫,每條記錄都包含唯一的化學結(jié)構(gòu)以及該藥物的標準名稱,以及藥物的藥效、靶點信息、類別信息等。46精選ppt藥物的靶點通過KEGGPATHWAY查詢,藥物的分類信息是KEGGBRITE數(shù)據(jù)庫的一部分,通過藥物的標準名稱可以找到該藥物的商品名,還可以找到藥物銷售的標簽信息。此外,DRUG還包括一些天然的藥物和中藥的信息,有些藥物被日本藥典所收錄。47精選ppt為了滿足日益增長的科學研究需求,KEGG數(shù)據(jù)庫在最近幾年里不斷擴充,新增加的50多個通路使KEGGPATHWAY數(shù)據(jù)庫更加完善。這50多個新增加的通路包括信號傳導通路、細胞生物過程通路和人類疾病通路等。48精選pptKEGG對通路數(shù)據(jù)新增了兩個補充內(nèi)容:第一個補充是一張全局通路圖,這張全局通路圖是通過手工拼接KEGG的120多個現(xiàn)存通路圖生成的,存儲為SVG文件。另一個補充內(nèi)容是KEGGMODULE數(shù)據(jù)庫,這是一個收集了通路模塊以及其他一些功能單元的新型數(shù)據(jù)庫,功能模塊是在KEGG子通路中被定義為一些小的片段,通常包括幾個連續(xù)的反應步驟、操縱子、調(diào)控單元,以及通過基因組比對得到的系統(tǒng)發(fā)生單元和分子的復合物等。49精選ppt第三節(jié)

基因集功能富集分析GeneSetEnrichmentAnalysis50精選ppt一組基因直接注釋的結(jié)果是得到大量的功能結(jié)點。這些功能具有概念上的交疊現(xiàn)象,導致分析結(jié)果冗余,不利于進一步的精細分析,所以研究人員希望對得到的功能結(jié)點加以過濾和篩選,以便獲得更有意義的功能信息。進行基因集功能富集分析的原因51精選ppt富集分析方法通常是分析一組基因在某個功能結(jié)點上是否過出現(xiàn)(over-presentation)。這個原理可以由單個基因的注釋分析發(fā)展到大基因集合的成組分析。由于分析的結(jié)論是基于一組相關(guān)的基因,而不是根據(jù)單個基因,所以富集分析方法增加了研究的可靠性,同時也能夠識別出與生物現(xiàn)象最相關(guān)的生物過程。一、富集分析算法

52精選ppt富集分析中常用的統(tǒng)計方法有累計超幾何分布、Fisher精確檢驗等。累計超幾何分布:53精選pptFisher精確檢驗:54精選ppt基于不同的算法原理,可以將目前的常用富集分析工具分為三類:單一富集分析(singularenrichmentanalysis),基因集富集分析(genesetenrichmentanalysis),模塊富集分析(modularenrichmentanalysis)。二、常用富集分析軟件

55精選ppt56精選ppt這里以目前應用較為廣泛的DAVID為例對基因集進行具體分析。DAVID是一個綜合工具,不但提供基因富集分析,還提供基因間ID的轉(zhuǎn)換、基因功能的分類等。三、富集應用分析實例

57精選pptDAVID應用工具首頁58精選ppt點擊“FunctionalAnnotation”后,第一步為提交基因集,選擇基因標識名和基因集類型;第二步得到注釋結(jié)果摘要,包括多種注釋數(shù)據(jù);然后選擇感興趣的注釋內(nèi)容得到富集分析結(jié)果。59精選pptDAVID富集分析注釋結(jié)果摘要60精選ppt這里以KEGG通路的富集分析為例。提交之后的結(jié)果如圖,可以看到,對提交的基因集做富集分析,找到5個具有顯著性的通路。這里的“P-Value”是通過Fisher精確檢驗得到的P值,“Benjamini”指的是本杰明假陽性率校正方法。61精選pptDAVID在KEGG上富集結(jié)果實例62精選ppt第四節(jié)

基因功能預測GeneFunctionPrediction63精選ppt近來已經(jīng)發(fā)展了很多基于GO數(shù)據(jù)庫或KEGG數(shù)據(jù)庫的方法,利用高通量的基因表達和蛋白質(zhì)互作數(shù)據(jù)進行功能預測,其中一些新開發(fā)的方法試圖整合多種數(shù)據(jù)類型,通過構(gòu)建功能相關(guān)網(wǎng)絡的方式預測基因功能。基因功能預測算法64精選ppt首先,從總體上宏觀地概括抽取信息,如不同樣本間、不同時間點間全部差異基因;其次,通過GO或KEGG分析,即從GO分類結(jié)果找到實驗涉及的顯著功能類別或?qū)⒉町惢蛴成涞酵分校鶕?jù)基因在通路中的位置及表達水平的變化算出受影響顯著的通路,從而預測未知的基因功能等。當前基于GO或KEGG的基因功能預測策略65精選ppt整合蛋白質(zhì)互作數(shù)據(jù)、表達譜和序列數(shù)據(jù)的功能預測66精選ppt1.對差異表達基因進行功能預測在基因芯片的數(shù)據(jù)分析中,研究者可以找出哪些差異表達基因?qū)儆谝粋€共同的GO功能分支,并用統(tǒng)計學方法檢驗結(jié)果是否具有統(tǒng)計學意義,從而得出差異表達基因主要參與了哪些生物功能。一、基于GO的基因功能預測67精選ppt2.蛋白質(zhì)互作網(wǎng)絡用于基因功能預測目前,利用相互作用網(wǎng)絡進行功能注釋主要有兩種方法,即直接注釋方法(directannotationschemes)和基于模塊的方法(moduleassistedschemes)。68精選ppt3.利用GO體系結(jié)構(gòu)比較基因功能通常認為如果兩個基因產(chǎn)物的功能相似,那么它們的表達也就相近,同時它們在GO中注解的結(jié)點就相似,所以只要能找出GO中結(jié)點對的相似度,就可以近似估計兩基因表達的相似度,從而判斷兩基因產(chǎn)物的功能的相似度。69精選ppt二、基于KEGG通路分析的基因功能預測通路分析是現(xiàn)在經(jīng)常被使用的芯片數(shù)據(jù)基因功能分析法。與GO分類法(應用單個基因的GO分類信息)不同,通路分析法利用的資源是許多已經(jīng)研究清楚的基因之間的相互作用,即生物學通路。研究者可以把表達發(fā)生變化的基因集導入通路分析軟件中,進而得到變化的基因都存在于哪些已知通路中,并通過統(tǒng)計學方法計算哪些通路與基因表達的變化最為相關(guān)。70精選ppt通過表達譜數(shù)據(jù)進行通路定位71精選ppt三、常用基因功能預測軟件用GO分類法進行芯片功能分析的網(wǎng)絡平臺72精選ppt73精選ppt利用Onto-Express預測基因功能Onto-Express是WayneStateUniversity開發(fā)的Onto-Tools軟件包中的一個表達譜數(shù)據(jù)分析工具,利用GeneOntology中的數(shù)據(jù)信息對基因的功能進行分析,可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論