序列相似性工具Enzyme Similarity Tool_第1頁(yè)
序列相似性工具Enzyme Similarity Tool_第2頁(yè)
序列相似性工具Enzyme Similarity Tool_第3頁(yè)
序列相似性工具Enzyme Similarity Tool_第4頁(yè)
序列相似性工具Enzyme Similarity Tool_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、序列相似性工具引言1985年人類基因組計(jì)劃首先被美國(guó)科學(xué)家提出,并在1990年正 式啟動(dòng)。此后,隨著技術(shù)的飛速發(fā)展,現(xiàn)在基因的測(cè)序已經(jīng)不再是需 要舉世界科研之力去完成的事了,測(cè)序的方法、通量不斷更新,測(cè)序 成本愈加低廉,基因組的測(cè)序也已經(jīng)成了日常工作。隨之而來的結(jié)果 是,數(shù)據(jù)庫(kù)中全基因組的測(cè)序情況在近幾年呈指數(shù)式增長(zhǎng),其蛋白序 列當(dāng)然也是如此。數(shù)據(jù)資源的日益豐富對(duì)我們科研工作的益處不言而喻,然而一些 問題也逐漸暴露出來。編碼蛋白質(zhì)的序列在指數(shù)式增長(zhǎng),但對(duì)經(jīng)過挖 掘、表征、解析功能的酶的增長(zhǎng)速度卻遠(yuǎn)遠(yuǎn)不如前者,比如截止2014 年十月29 B,TrEMBL數(shù)據(jù)庫(kù)中自動(dòng)注釋的序列高達(dá)86,536,

2、393條, 而SwissProt數(shù)據(jù)庫(kù)中手動(dòng)注解的序列只有546,790條。在數(shù)據(jù)庫(kù)中 或一些工具可以實(shí)現(xiàn)對(duì)酶的自動(dòng)標(biāo)注,但是保守估計(jì)基因組計(jì)劃中發(fā) 現(xiàn)的蛋白僅約有50%的蛋白的功能的注釋是可靠的。其他的蛋白序列 的功能是未知的,或者其功能注釋是不正確的(1)。隨著一系列基因組計(jì)劃的進(jìn)行,越來越多不同生物體的基因組的 大量測(cè)序,如何尋找一種更好的未知蛋白的功能解析方法或手段越來 越引起人們的重視。最近,由Enzyme Function Initiative (EFI) (2)提 供的一種酶相似性工具(Enzyme Similarity Tool, EST) (3)來幫助解 決這一問題,已經(jīng)成功

3、應(yīng)用在了很多具有新功能的酶的發(fā)現(xiàn)。1.酶相似性工具(Enzyme Similarity Tool, EST)這個(gè)工具是以網(wǎng)頁(yè)的形式,最核心的內(nèi)容就是生成的Sequence similarity networks (SSNs),,也就是這個(gè)網(wǎng)絡(luò)工具可以生成一種蛋白序列相似性網(wǎng)絡(luò),可以可視化地去分析整個(gè)蛋白家族中的序列關(guān)系, 最常見的應(yīng)用是將整個(gè)蛋白家族分成單一功能的蛋白簇,以便解析更 多的功能或代謝途徑。1.1. SSNs的基本組成與特點(diǎn)在SSNs(見圖1)中,最基本的元素有兩個(gè),一個(gè)是節(jié)點(diǎn),一個(gè) 是邊。節(jié)點(diǎn)是一種代表蛋白序列的符號(hào),可以是代表一條序列,也可 以是多個(gè)蛋白序列的代表,因?yàn)閿?shù)據(jù)庫(kù)中

4、蛋白超家族中的序列動(dòng)輒成 千上萬,一般計(jì)算機(jī)的計(jì)算能力需要簡(jiǎn)化序列相似性網(wǎng)絡(luò)。當(dāng)其序列 相似性高于用戶設(shè)置的參數(shù)后,兩個(gè)節(jié)點(diǎn)所連的線,另一個(gè)元素邊即 是兩個(gè)節(jié)點(diǎn)所連的線。圖1 SSNs的基本形式Fig. 1 The basic form of SSNs其實(shí)與SSNs比較類似的、比較常見的工具是系統(tǒng)進(jìn)化樹,但是SSNs與系統(tǒng)進(jìn)化樹又不一樣,有著各自的特點(diǎn)和作用。其中系統(tǒng)進(jìn) 化樹這種工具的使用和構(gòu)建需要先進(jìn)行精確的序列比對(duì),這已要求使 得他很難應(yīng)用于大規(guī)模的的數(shù)據(jù)庫(kù),但是現(xiàn)在數(shù)據(jù)庫(kù)中數(shù)據(jù)的爆炸性 增長(zhǎng)使得常規(guī)的這些工具在進(jìn)行一些全面整體的分析上面臨困難。而 SSNs相比前者來說,在計(jì)算機(jī)資源方面更

5、加容易的實(shí)現(xiàn)去評(píng)估酶家 族中的序列關(guān)系。在可視化和操作方面,SSNs比系統(tǒng)進(jìn)化樹等工具 做的更好,更易于操作,可視化效果更好。1.2. SSNs的應(yīng)用很多研究者在最新的研究中都將SSNs作為一種重要的研究工具 用于課題研究中,尤其是各種解析未知酶功能的假說中。在2013年,Hao Fan(4)等學(xué)者對(duì)酰胺水解酶家族中一個(gè)未知功能 的蛋白進(jìn)行解析,主要運(yùn)用同源建模和對(duì)接手段成功解析到了它的蝶 吟脫氨酶活性。酰胺水解酶超家族(AH)是一個(gè)以功能多樣性為特 點(diǎn)的一類超家族,是常用的解析功能方法構(gòu)建的一個(gè)檢測(cè)模板。AH 超家族大約包括25000個(gè)蛋白,主要的反應(yīng)包括磷酸酯、酯和酰胺的 水解,據(jù)估計(jì),這

6、個(gè)超家族催化的反應(yīng)超過100多種。如此眾多的蛋 白序列和催化反應(yīng)類型,不可能用實(shí)驗(yàn)的手段去解析全面,即使運(yùn)用 建模對(duì)接等技術(shù)也存在一定障礙。所以作者首先運(yùn)用EST得到酰胺 水解酶家族中cog0402的SSNs(見圖2),并對(duì)其進(jìn)行分析,選擇了一 個(gè)單獨(dú)成簇的小蛋白簇中的來自 Agrobacterium radiobacter K84的 Arad3529,并克隆對(duì)其進(jìn)行研究,解析到了一個(gè)新的未知蛋白的功能。圖2 cog0402的序列相似性網(wǎng)絡(luò)Fig. 2 Sequence similarity network for cog0402.萜類化合物是一類結(jié)構(gòu)非常多樣的天然化合物,在宿主中承擔(dān)著 一系

7、列的功能,但是這也給在大量基因組信息中準(zhǔn)確精確解析萜類合 成酶的功能帶來了來挑戰(zhàn)。2015年,Poulter(5)的團(tuán)隊(duì)闡述了一種新的 預(yù)測(cè)萜類合成酶功能的策略。這種策略主要是一種基于同源結(jié)構(gòu)的一 種算法。而這種算法最開始的工作,就是建立了萜類合成酶2子群的 序列相似性網(wǎng)絡(luò)來進(jìn)行前期的分析工作(見圖3)見圖。從圖中可以 看出,在e-value為10-50時(shí)萜類合成酶2子群的序列相似性網(wǎng)絡(luò)主要 分為14個(gè)簇,每個(gè)簇最少含有10個(gè)成員。一些簇很明顯的主要是一 種萜類合成酶,如簇7為2-甲基異茨醇合成酶,但是同時(shí)一些簇像簇 3卻含有多個(gè)功能的合成酶。對(duì)簇三在e-value為10-75生成序列相似 性

8、網(wǎng)絡(luò),兩個(gè)不同功能的合成酶被分成了不同的簇。作者最后選擇了 簇3中一個(gè)假定的pentalenene合成酶進(jìn)行研究,運(yùn)用算法對(duì)其進(jìn)行 功能解析,并用實(shí)驗(yàn)驗(yàn)證,結(jié)果發(fā)現(xiàn)了一類新的萜類合成酶。Tv口巳 isnqanismFungiP1?nb$FunctionPentalenerveAvfiirfiibifil lynflhe LjnslBCiliNefiNtdd1syrrlhawB5GLM7D5SLIJ6Other known function圖3萜類合成酶2子群的序列相似性網(wǎng)絡(luò)Fig. 3 Sequence similarity network of terpene synthase-like 2

9、 subgroup注:A:e-value 為 10-50 B:e-value 為 10-75Gerlt的團(tuán)隊(duì)(6)在烯醇酶超家族中發(fā)現(xiàn)了一個(gè)獨(dú)特的順式3-羥基 -L-脯氨酸脫氫酶。Labrenzia aggrega的!基因組中編碼了一個(gè)烯醇酶 超家族中MLE子群的一個(gè)未知蛋白A0NXQ8。烯醇酶超家族的特點(diǎn) 便是功能多樣,可以催化很多不同的反應(yīng)。為了了解該酶超家族復(fù)雜 的序列-功能關(guān)系,作者建立了該超家族MLE子群的一個(gè)SSNs(見圖 4)。當(dāng)SSNs的參數(shù)設(shè)置在e-value為10-50時(shí),可以觀察到很多簇, 這些簇中,標(biāo)記為“Roseo”的簇包含該文獻(xiàn)所研究的未知功能的酶 (UniProt

10、 ID A0NXQ8)。在作者之前發(fā)表的文獻(xiàn)中所表征過的一個(gè) 酶Uniprot ID Q0FPQ4 (PDB 2PMQ)也在這個(gè)標(biāo)記為“Roseo”的簇中, 當(dāng)SSNs的參數(shù)設(shè)置在e-value為10-80時(shí),更高分辨率下,A0NXQ8 和Q0FPQ4被分到了兩個(gè)不同的簇中,所以根據(jù)SSNs所展示的該家 族的序列-功能關(guān)系,作者便以A0NXQ8為研究重點(diǎn)。圖4 MLE子群的序列相似性網(wǎng)絡(luò)Fig. 4 SSN of the MLE subgroup注:A:e-value 為 10-50 B:e-value 為 10-802.結(jié)語(yǔ)基因組計(jì)劃是一個(gè)生物學(xué)發(fā)展中的一個(gè)重要里程碑,后基因組時(shí) 代的開始同

11、樣對(duì)生物學(xué)乃至整個(gè)科學(xué)的發(fā)展都具有重要意義?;蚪M 計(jì)劃后的這幾年,相關(guān)學(xué)科及技術(shù)迅猛發(fā)展,大量基因序列、蛋白質(zhì) 序列等數(shù)據(jù)庫(kù)如雨后春筍般迅猛增長(zhǎng),非常明顯的改變了學(xué)者在科研 中的一些實(shí)驗(yàn)思路和實(shí)驗(yàn)手段,從基礎(chǔ)上大大推動(dòng)了科研的發(fā)展。然 而,后基因時(shí)代面臨的問題依然嚴(yán)峻,海量序列的注釋、未知基因或 蛋白功能的解析的相關(guān)技術(shù)的滯后導(dǎo)致一些問題的發(fā)生和大量的數(shù) 據(jù)無用武之地甚至給科研工作者帶來誤導(dǎo),所以解析未知蛋白的功能 方法和策略的探索是現(xiàn)在國(guó)際學(xué)者研究的熱點(diǎn),在蛋白質(zhì)工程、代謝 工程和生物信息學(xué)中都具有重要的意義在眾多技術(shù)、工具與策略中,以蛋白空間結(jié)構(gòu)、分子對(duì)接為主的 生物信息學(xué)技術(shù)仍然是解決

12、問題的主流方式,而序列相似性工具是一 個(gè)操作簡(jiǎn)單,用途廣泛的工具,給研究者們一個(gè)新的視角分析現(xiàn)有數(shù) 據(jù)庫(kù)中大量的生物信息,是一個(gè)良好的輔助工具,這個(gè)工具可以利用 現(xiàn)代計(jì)算機(jī)的優(yōu)勢(shì),大大減少實(shí)驗(yàn)的盲目性和科研資源的浪費(fèi)。參考文獻(xiàn)Schnoes AM, Brown SD, Dodevski I, Babbitt PC. 2009. AnnotationError in Public Databases: Misannotation of Molecular Function inEnzyme Superfamilies. PLOS Computational Biology 5:e1000605.

13、Gerlt JA, Allen KN, Almo SC, Armstrong RN, Babbitt PC, Cronan JE, Dunaway-Mariano D, Imker HJ, Jacobson MP, Minor W.2011. The Enzyme Function Initiative. Biochemistry 50:9950-9962.Atkinson HJ, Morris JH, Ferrin TE, Babbitt PC. 2009. UsingSequence Similarity Networks for Visualization of Relationship

14、s Across Diverse Protein Superfamilies. PLOS ONE 4:e4345.Fan H, Hitchcock DS, Seidel RD, Hillerich B, Lin H, Almo SC, Sali A,Shoichet BK, Raushel FM. 2013. Assignment of Pterin DeaminaseActivity to an Enzyme of Unknown Function Guided by HomologyModeling and Docking, Journal of the American Chemical Society135:795-803.Chow J-Y, Tian B-X, Ramamoorthy G, Hillerich BS, Seidel RD, AlmoSC, Jacobson MP, Poulter CD. 2015. Computational-guided discovery and characterization of a sesquiterpene synthase from Streptomyces clavuligerus. Proceedings of the National Aca

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論