生物信息學(xué)中的kegg數(shù)據(jù)庫(kù)_第1頁(yè)
生物信息學(xué)中的kegg數(shù)據(jù)庫(kù)_第2頁(yè)
生物信息學(xué)中的kegg數(shù)據(jù)庫(kù)_第3頁(yè)
生物信息學(xué)中的kegg數(shù)據(jù)庫(kù)_第4頁(yè)
生物信息學(xué)中的kegg數(shù)據(jù)庫(kù)_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

生物信息學(xué)中的kegg數(shù)據(jù)庫(kù)

由于大規(guī)模分子數(shù)據(jù)集是由非標(biāo)準(zhǔn)序列和高流量實(shí)驗(yàn)技術(shù)創(chuàng)造的,因此將生命周期視為分子系統(tǒng)是可能的。同時(shí)也為開發(fā)醫(yī)藥或者環(huán)境科學(xué)方面的程序提供了基礎(chǔ)。這就需要一個(gè)綜合性的代謝網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。KEGG的Pathwaymaps、Brite和Modules將細(xì)胞以及組織的系統(tǒng)功能數(shù)據(jù)以分子網(wǎng)絡(luò)的形式展現(xiàn),KEGGOrthology用于聯(lián)系基因組同分子網(wǎng)絡(luò)中的節(jié)點(diǎn)。在過去的16年里,KEGG已經(jīng)在重要科研項(xiàng)目中得到廣泛應(yīng)用和發(fā)展,最近幾年中,他們主要致力于疾病以及藥物方面的分子網(wǎng)絡(luò)數(shù)據(jù)的完善。將KEGG的疾病和藥物資源用于臨床實(shí)踐有更廣泛的社會(huì)用途。KEGG支持科學(xué)家們翻譯他們的研究成果到醫(yī)藥及工業(yè)創(chuàng)新里,并能讓醫(yī)生、藥劑師、病人以及消費(fèi)者在疾病以及藥物相關(guān)分子網(wǎng)絡(luò)中應(yīng)用這些知識(shí)。1kegg數(shù)據(jù)庫(kù)KEGG(KyotoEncyclopediaofGenesandGenomes)即京都基因和基因組百科全書,始于1955年,最初作為日本基因組計(jì)劃的一部分,將基因、基因組信息以及更高層次的功能信息結(jié)合起來,通過對(duì)細(xì)胞內(nèi)已知生物學(xué)過程的計(jì)算機(jī)化和將現(xiàn)有的基因功能信息解釋標(biāo)準(zhǔn)化,對(duì)基因的功能進(jìn)行系統(tǒng)化分析。KEGG工程的主要目標(biāo)之一是揭開細(xì)胞和生物的基因組和分子水平功能的更高層次系統(tǒng)功能。KEGG數(shù)據(jù)庫(kù)綜合了15個(gè)主要的數(shù)據(jù)庫(kù),表1列出了KEGG數(shù)據(jù)庫(kù)中15個(gè)主要數(shù)據(jù)庫(kù)的組成及表示方式。這些數(shù)據(jù)庫(kù)可以分為3大類:(ⅰ)系統(tǒng)信息,是KEGG數(shù)據(jù)庫(kù)獨(dú)有的;(ⅱ)基因組信息;(ⅲ)化合物信息,每個(gè)數(shù)據(jù)庫(kù)條目在KEGG中唯一的標(biāo)示符格式為“db:entry”,“db”是數(shù)據(jù)庫(kù)的名稱,“entry”是條目名稱。其中有13個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)均是人工收錄的,是由相關(guān)數(shù)據(jù)庫(kù)的前綴加上5位數(shù)字構(gòu)成的,在整個(gè)數(shù)據(jù)庫(kù)里是唯一的,因此“db”部分省略。剩余的2個(gè)數(shù)據(jù)庫(kù):KEGGGENES的數(shù)據(jù)來源于RefSeq,KEGGENZYME的數(shù)據(jù)來源于ExplorEnz,同樣也有KEGG專屬的注釋。1.1物種數(shù)據(jù)庫(kù)athwKEGGGENES的數(shù)據(jù)主要是從RefSeq中得到的,包括目前完整測(cè)序和部分測(cè)序的基因組信息。KEGGGENES與ENZYME,PATHWAY以及KO數(shù)據(jù)庫(kù)聯(lián)系緊密。物種的3個(gè)字母縮寫作為數(shù)據(jù)庫(kù)名稱及基因標(biāo)示符,如人類為hsa。物種縮寫還作為前綴用在物種特異性的KEGG路徑圖,BRITE等級(jí)目錄以及KEGGmodules里。在基因組信息里,還有計(jì)算生成的輔助數(shù)據(jù)庫(kù):KEGGDGENES是草圖基因組,KEGGEGENES是EST標(biāo)簽,KEGGMGENES是宏基因組,KEGGSSDB是KEGGGENES的序列相似性關(guān)系。1.2kegg的通路KEGG路徑圖用圖表來表示物種代謝的反應(yīng)/相互作用網(wǎng)絡(luò)、遺傳信息處理、環(huán)境信息處理和其他細(xì)胞過程、人類疾病的反應(yīng)/相互作用網(wǎng)絡(luò)、藥物開發(fā)的關(guān)系網(wǎng)絡(luò)(化學(xué)結(jié)構(gòu)轉(zhuǎn)型的網(wǎng)絡(luò)),不僅提供生化物質(zhì)相互轉(zhuǎn)化所有可能的代謝途徑,還包含對(duì)催化各步反應(yīng)的酶的全面注解。通過KegSketch軟件人工繪制,通路圖中的分子網(wǎng)絡(luò)是一張包括節(jié)點(diǎn)(同源基因,蛋白質(zhì),小分子)以及邊(反應(yīng),相互作用,關(guān)系)的圖,KEGG中給出了不針對(duì)特異物種的一致性參考通路(consensuspathway)。即在每個(gè)參考通路的圖中包括所有已知物種的酶及其反應(yīng),在特異的物種通路中,再?gòu)?qiáng)調(diào)性地標(biāo)出該物種中的預(yù)測(cè)酶,用綠框表示出來,因此KEGG的通路很大。參考通路圖是用‘map’開頭,包括3種,分別以‘ko’,‘ec’,‘rn’做前綴。圖1(a)為糖酵解的參考通路圖的局部。方框內(nèi)是酶號(hào),圓點(diǎn)為化合物,箭頭代表反應(yīng)方向,鼠標(biāo)放到相應(yīng)位置均可以超鏈接到對(duì)應(yīng)的內(nèi)容。1.3其他數(shù)據(jù)庫(kù)鏈接BRITE等級(jí)目錄是表示了已知基因和蛋白,疾病和藥物,化合物和反應(yīng)以及物種和細(xì)胞的功能目錄。表示的是不同層次之間的關(guān)系,便于信息的查詢定位,并能和其他數(shù)據(jù)庫(kù)鏈接。是用KegHierEditor軟件來人工建立的,它使用‘A’,‘B’,‘C’等在第一欄指示相應(yīng)的層數(shù)并包含多制表符分割的欄。BRITE里有兩種分類:以‘ko’為前綴的標(biāo)示符是用KO組(K值)來進(jìn)行基因和蛋白質(zhì)分類。以‘br’為前綴是其他分類,例如疾病(H值)藥物(D值)和化合物(C值)。BRITE目錄可以直接在頁(yè)面下載,格式為htext。可以用KEGG的工具KegHier來閱讀,該軟件在Windows的JAVA平臺(tái)運(yùn)行。1.4KEGGMODULESKEGGMODULES最初是定義比KEGG通路更緊密的結(jié)構(gòu)單元的,KEGG中的通路信息按照大小分為3種:全局圖(globalmaps),普通圖(regularmaps),模塊(modules)。modules其相當(dāng)于普通通路數(shù)據(jù)庫(kù)里的核心保守部分?,F(xiàn)在,KEGGMODULES的范圍擴(kuò)展了,KEGGMODULES有4種類型:①:pathwaymodules,②:structuralcomplexes,③functionalset,④signaturemodules。簡(jiǎn)單的表達(dá)了分子系統(tǒng)的成員。例如圖2中Modules中所表示的酶、化合物和反應(yīng),對(duì)應(yīng)在圖1的Pathway圖中的大方框內(nèi)部分,即核心保守部分。MODULES中是用KO來表示的代謝途徑,而PATHWAY用的是酶表示。更好的表示了直系同源基因在代謝中的關(guān)系。1.5基于genus的基因序列KEGGOrthology(KO)是一個(gè)直系同源的分類系統(tǒng),即把序列高度相似,并且在同一條通路上有相似功能的蛋白質(zhì)歸為一組,將GENES與PATHWAY結(jié)合起來,彌補(bǔ)了酶命名的局限。在物種特異性的KEGG通路圖中,BRITE分層條目和KEGGmodules中將與該物種相關(guān)的KO用綠色表示。KEGGOrtholog圖中可以找到不同生物體的直系同源基因。一旦基因分配到相應(yīng)的K值里,K值將在KEGG通路圖譜中和BRITE功能分層中標(biāo)出出,突出所有存在的亞系統(tǒng),使基因組的更高層次解讀成為可行。2g中kegg的解碼是KEGG的自動(dòng)注釋服務(wù)。用戶可以提交一段蛋白質(zhì)序列或者基因序列(fasta格式),它自動(dòng)在內(nèi)部進(jìn)行相似性比對(duì),找到最相似的基因,并確定檢索基因的KO分類,然后給出這些基因所在的代謝通路并以以不同的顏色標(biāo)示這些基因。最近的兩年,通過新開發(fā)的工具KOALA即KEGG直向和鏈接注釋,同源基因注釋的速度已顯著提高了。KEGG中有兩種類型的注解:①基于基因組的注釋:在給定的基因組里分配給每個(gè)基因相應(yīng)的K值;②基于KO的注釋:在所有的生物體中將給定的K值分配給基因,以應(yīng)對(duì)數(shù)量越來越多的完整基因組。KEGG程序注解如下:(1)全部基因組的基因信息都由RefSeq或者其他公共資源中得出,并儲(chǔ)存在KEGG基因數(shù)據(jù)庫(kù)。(2)通過使用SSEARCH進(jìn)行成對(duì)基因組對(duì)比,從KEGGGENES中計(jì)算產(chǎn)生序列相似性打分和最好命中關(guān)系(best-hitrelations),并儲(chǔ)存在KEGGSSDB數(shù)據(jù)庫(kù)中。(3)基于基因組的自動(dòng)注釋,基于SSDB計(jì)算結(jié)果和KOALA工具的標(biāo)準(zhǔn),執(zhí)行K值的限制集。對(duì)于每一個(gè)基因組GFIT(基因的功能鑒定工具)創(chuàng)建顯示在其他基因組中相關(guān)最佳同功能基因,包括旁系基因。(4)使用KOALA和GFIT對(duì)其他K值進(jìn)行跨物種手工注解。這個(gè)步驟可能涉及增加或修訂同源基因組,K值的數(shù)量增加。還可以通過KOALA和GFIT工具進(jìn)入KO和GENES來檢驗(yàn)KEGG同源注解的質(zhì)量。該同源列表工具顯示給定K值集的KO狀態(tài),這對(duì)檢查一個(gè)途徑或一個(gè)集合體的完整性狀態(tài)非常有用。3kagg生物信息的應(yīng)用3.1基因組織分析接口KEGG通路圖,BRITE分層條目和KEGGmodules構(gòu)成了KEGG參考信息。用KEGGmapper來標(biāo)記通路,就可以對(duì)代謝通路中需要的化合物或酶著色顯示,有利于代謝途徑的分析。另外,還可以對(duì)基因芯片數(shù)據(jù)進(jìn)行分析,例如在KEGGExpression數(shù)據(jù)庫(kù)中分析基因芯片數(shù)據(jù)時(shí),可以使用KegArray將不同顏色表示通路中各基因表達(dá)的變化,紅色表示上調(diào),綠色表示下調(diào)。KEGGMapper是KEGGmapping的使用接口。它由表2所示的7個(gè)工具構(gòu)成,3個(gè)基本工具(SearchPathway,SearchBrite和SearchModule)可以對(duì)基因,蛋白質(zhì),小分子等進(jìn)行標(biāo)記,更方便定位及關(guān)聯(lián)所需要的信息。4個(gè)高級(jí)工具(Search&Colorpathway,Search&ColorBrite,ColorPathway和JoinBrite)可以用不同顏色標(biāo)記不同所需信息,方便闡明目標(biāo)物在代謝網(wǎng)絡(luò)中的關(guān)系。3.2其他高通量數(shù)據(jù)集20年前,人類基因組計(jì)劃的重點(diǎn)在揭示人類疾病遺傳因素以及建立診斷,治療,預(yù)防的新策略。人類基因組測(cè)序的成功之后的工作如HapMap計(jì)劃、全基因組關(guān)聯(lián)研究、癌癥基因組計(jì)劃促進(jìn)了許多疾病相關(guān)基因的發(fā)現(xiàn)。目前,大多數(shù)由于遺傳和環(huán)境因素共同造成的多因子疾病的分子機(jī)制我們的了解依舊還很不完整,把涉及發(fā)病的因素作為特征加入分子網(wǎng)絡(luò),通過這種網(wǎng)絡(luò)-疾病的結(jié)合分析,可以更好地闡明疾病的分子機(jī)制以及幫助開發(fā)新藥和治療方法。實(shí)驗(yàn)測(cè)序和其他高通量實(shí)驗(yàn)技術(shù)產(chǎn)生的大型數(shù)據(jù)集是信息來源。有很多疾病數(shù)據(jù)庫(kù)對(duì)疾病機(jī)理的描述只能靠人來閱讀理解,而KEGG里疾病信息是以可計(jì)算形式體現(xiàn)的:路徑圖,基因/分子列表。很多疾病都是復(fù)雜多因素疾病,由遺傳和環(huán)境因素造成。疾病被視為擾亂分子系統(tǒng),藥物被視為防止分子系統(tǒng)被擾。而KEGG路徑圖包括正常和病理的分子系統(tǒng)的路徑圖。KEGGDISEASE里的每個(gè)疾病網(wǎng)絡(luò)都包含:已知疾病基因,環(huán)境因素,診斷標(biāo)志物,治療藥物,這些都可以反映潛在的分子系統(tǒng)。PATHWAY數(shù)據(jù)庫(kù)的人類疾病列表包含癌癥,免疫系統(tǒng)疾病,神經(jīng)退行性疾病,循環(huán)系統(tǒng)疾病,代謝紊亂和傳染病的路徑圖.DRUG數(shù)據(jù)庫(kù)包含兩類分子網(wǎng)絡(luò)的信息。一類網(wǎng)絡(luò)是在通路圖中藥物代謝酶,藥物轉(zhuǎn)運(yùn)和其他藥物(尤其指不良反應(yīng))的聯(lián)系。另一類網(wǎng)絡(luò)是化學(xué)結(jié)構(gòu)在分子中的代謝變化網(wǎng)絡(luò),包括一系列的化學(xué)修飾,可用藥的天然產(chǎn)物的生物合成次生代謝途徑和藥物代謝。KEGGMapping整合疾病和藥物信息廣泛用于相關(guān)研究中。收集在KEGGDIEASE的所有已知疾病基因以及收集在KEGGDRUG的所有藥物靶點(diǎn)都合并在KEGGPATHWAY和BRITE數(shù)據(jù)庫(kù)中,可以使用KEGGMapping在代謝圖中用不同顏色標(biāo)出對(duì)應(yīng)基因。在疾病的代謝路徑圖里的疾病/藥物圖中,粉色框里是與疾病有關(guān)基因,亮藍(lán)色框里是藥物靶點(diǎn)。3.3人類代謝的路徑在KEGGGENOME頁(yè)面可用Mapping比較不同物種的代謝能力,例如將人與大腸桿菌的比較,就會(huì)將人類的代謝路徑顯示為綠色,大腸桿菌的顯示為粉色,共有的路徑為粉色綠色各一半。通過路徑的分析可以看出兩者有一部分的代謝通路是一致的。還可以來檢查人-病原體以及人-微生物代謝關(guān)系互補(bǔ)性,檢查物種之間的共同特征??梢允褂肒EGGMapper的K值分配和顏色特異性加工來區(qū)分需比較對(duì)象。3.4構(gòu)建細(xì)胞代謝數(shù)據(jù)庫(kù)從LIGAND數(shù)據(jù)庫(kù)中能夠獲取重建目標(biāo)物種的代謝網(wǎng)絡(luò)中的所有基因-酶以及酶-反應(yīng)列表,其中,酶在連接基因和相應(yīng)代謝反應(yīng)中起到關(guān)鍵作用,由于酶的EC號(hào)是唯一的,可以據(jù)此建立一個(gè)包含參與細(xì)胞新陳代謝的所有代謝組分及其代謝反應(yīng)的列表。再通過其他數(shù)據(jù)庫(kù)的信息輔助參考優(yōu)化,就可以構(gòu)建出該目標(biāo)物種全部酶及反應(yīng)數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論