蛋白質(zhì)序列分析_第1頁(yè)
蛋白質(zhì)序列分析_第2頁(yè)
蛋白質(zhì)序列分析_第3頁(yè)
蛋白質(zhì)序列分析_第4頁(yè)
蛋白質(zhì)序列分析_第5頁(yè)
已閱讀5頁(yè),還剩43頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、7.1 引言17.2 功能描述27.2.1 基因本體37.2.2 利用GO術(shù)語(yǔ)的功能注釋77.3 基于序列相似性的功能預(yù)測(cè)87.3.1 基本預(yù)測(cè)方法107.3.2 分析與討論147.3.3 蛋白質(zhì)家族與序列的相似性聚類157.4 基于蛋白質(zhì)信號(hào)的功能預(yù)測(cè)177.4.1 蛋白質(zhì)信號(hào)177.4.2 信號(hào)的描述227.4.3 蛋白質(zhì)模體、結(jié)構(gòu)域和家族數(shù)據(jù)庫(kù)287.4.4 分析與討論347.5 基于蛋白質(zhì)序列特征的功能預(yù)測(cè)357.5.1 序列的理化性質(zhì)357.5.2 跨膜與卷曲螺旋分析377.5.3 蛋白質(zhì)翻譯后修飾分析407.5.4 亞細(xì)胞定位預(yù)測(cè)427.5.5 基于序列特征的蛋白質(zhì)分子功能預(yù)測(cè)44

2、7.6 功能預(yù)測(cè)的其他思路45參考書目477蛋白質(zhì)序列分析與功能預(yù)測(cè)DNA經(jīng)常被比喻為構(gòu)筑生命的藍(lán)圖,相應(yīng)地,蛋白質(zhì)就是構(gòu)筑生命體最主要的材料。蛋白質(zhì)在生命過(guò)程中發(fā)揮著巨大的作用,它們執(zhí)行著大部分生物功能。這些功能包括結(jié)構(gòu)功能(如細(xì)胞骨架中的肌動(dòng)蛋白)、酶功能(很多蛋白質(zhì)可以催化生物反應(yīng),常見(jiàn)的蛋白質(zhì)催化功能是使生物反應(yīng)加速一定數(shù)量級(jí)),以及在細(xì)胞內(nèi)或細(xì)胞間轉(zhuǎn)運(yùn)物質(zhì)的功能。大量序列被測(cè)定帶給了生物信息學(xué)家一個(gè)挑戰(zhàn),那就是如何從這些序列中找到基因,然后給基因加上注釋,即給這些基因提供關(guān)于它們性質(zhì)或功能的簡(jiǎn)單描述。7.1 引言繼基因組結(jié)構(gòu)注釋(genome structural annotatio

3、n)完成后,闡明基因組所表達(dá)的全部蛋白質(zhì)的表達(dá)規(guī)律和生物功能,稱為功能注釋(functional annotation),成為研究的熱點(diǎn),是基因組注釋(genome annotation)的重要組成部分。據(jù)FriedbergI稱,2006年時(shí),GeneBack中約有40%的序列被標(biāo)注為“unknown function”。由于蛋白質(zhì)是生命活動(dòng)的最終執(zhí)行者,并且蛋白質(zhì)功能的闡明將有助于疾病機(jī)理的研究并最終幫助人類進(jìn)行藥物設(shè)計(jì)與疾病治療。因此,對(duì)基因產(chǎn)物蛋白質(zhì)的功能預(yù)測(cè)(protein functional prediction)是后基因組時(shí)代的一項(xiàng)重要任務(wù)。盡管新的實(shí)驗(yàn)技術(shù)例如DNA芯片、酵母雙

4、雜交系統(tǒng)、RNA干擾以及大范圍地、系統(tǒng)地缺失突變(knock-out)取得了巨大的進(jìn)展,但這些方法都需要各種特定的設(shè)備,且價(jià)格昂貴、操作繁瑣,成本高、周期長(zhǎng)。由于實(shí)驗(yàn)同時(shí)會(huì)受到一些不可預(yù)知的環(huán)境以及人為因素的影響,其所得結(jié)果的可信度也需加以考慮。種種這些因素制約了蛋白質(zhì)大規(guī)模分析的開展。目前,實(shí)驗(yàn)方法闡明蛋白質(zhì)功能尚遠(yuǎn)遠(yuǎn)落后于序列的測(cè)定。面對(duì)呈指數(shù)增長(zhǎng)的蛋白質(zhì)序列數(shù)據(jù),采用生物信息學(xué)的方法和手段來(lái)闡明大批量蛋白質(zhì)序列的生物學(xué)功能具有非常重大的意義??刹捎蒙镄畔W(xué)方法對(duì)蛋白質(zhì)序列的功能進(jìn)行預(yù)測(cè)的本質(zhì)在于,承擔(dān)核心生物功能的相當(dāng)一部分基因被所有生物物種共享,從而可以利用某些特定物種中基因所編碼的

5、少量蛋白質(zhì)序列(目前占已知蛋白質(zhì)序列總數(shù)的5%)的已知生物功能信息(知識(shí))對(duì)其他物種的大量蛋白質(zhì)序列進(jìn)行功能注釋。Hawkins T于2006年在“Protein Science”上發(fā)表文章,將蛋白質(zhì)序列分析和功能預(yù)測(cè)方法大致分為四類:(1)基于序列或結(jié)構(gòu)的分析方法(sequence and structure based methods),又稱進(jìn)化方法(evolutionary methods),這類方法基于全局或局部序列的保守性,或者結(jié)構(gòu)上的保守性來(lái)預(yù)測(cè)蛋白質(zhì)功能;(2)基于基因組上下文的方法(genomic context methods),又稱比較基因組方法(comparative g

6、enomics methods),分別基于結(jié)構(gòu)域融合事件(domain fusion events)、系統(tǒng)進(jìn)化特征譜(phylogenetic profiling)、保守的基因順序(conserved gene order),表達(dá)譜(expression profiling)以及共調(diào)控(common regulatory)等預(yù)測(cè)蛋白質(zhì)功能;(3)基于相互作用的方法(interaction-based methods),又稱細(xì)胞方法(cellular methods),使用蛋白質(zhì)相互作用數(shù)據(jù)預(yù)測(cè)功能;(4)基于過(guò)程的方法(process based methods),又稱代謝方法(metabol

7、ic methods),利用生物化學(xué)路徑(biochemical pathways)的結(jié)構(gòu)化網(wǎng)絡(luò)(structured networks)來(lái)匹配蛋白質(zhì)的非典型反應(yīng)(uncharacterized reaction)。其中方法(1)最為成熟,本章主要圍繞該方法講述。功能描述理論上,蛋白質(zhì)功能指“所有在蛋白質(zhì)上或是經(jīng)由蛋白質(zhì)發(fā)生的事情”,是一個(gè)非常復(fù)雜的概念。完全理解蛋白質(zhì)的功能需要回答一系列的問(wèn)題,如產(chǎn)生了什么樣的蛋白質(zhì)?其三維結(jié)構(gòu)如何?會(huì)出現(xiàn)在生物體的什么組織中?會(huì)參與哪些細(xì)胞功能?會(huì)和哪些蛋白質(zhì)發(fā)生相互作用?在細(xì)胞的后翻譯(post- translationally)過(guò)程中會(huì)得到修飾產(chǎn)生變化

8、嗎?會(huì)與哪些蛋白質(zhì)綁定?會(huì)催化哪些反應(yīng)?會(huì)參與哪些代謝路徑?等等。完整的蛋白質(zhì)功能注釋需要從生化、細(xì)胞、組織、發(fā)育進(jìn)化、生理等各方面進(jìn)行描述。為支持基于生物信息學(xué)方法的功能分析,各數(shù)據(jù)庫(kù)與注釋系統(tǒng)普遍采用了功能術(shù)語(yǔ)集的方法。比如,SwissProt蛋白質(zhì)序列數(shù)據(jù)庫(kù)定義了10類八百多個(gè)功能描述關(guān)鍵字(SwissProt KeyWords),不同的蛋白質(zhì)選用不同(個(gè)數(shù))的KeyWords來(lái)概要定義其功能。這類方法存在的主要問(wèn)題是容易產(chǎn)生術(shù)語(yǔ)不一致或術(shù)語(yǔ)描述模糊等現(xiàn)象。有時(shí),功能根據(jù)生物化學(xué)的機(jī)制來(lái)定義(例如“腺苷酸激酶”);有時(shí)則根據(jù)所處的代謝通路或在細(xì)胞中的總體作用來(lái)定義(例如“糖酵解”或者“細(xì)

9、胞代謝”);有時(shí)會(huì)根據(jù)生物體的表型來(lái)定義(例如“引起癌癥”)。各數(shù)據(jù)庫(kù)都有自己的功能術(shù)語(yǔ)集。比如,除SwissProt KeyWords外,GeneQuiz使用14類功能術(shù)語(yǔ),PEDANT使用FunCat的15類功能術(shù)語(yǔ)等。這些給基于生物信息學(xué)方法的功能注釋帶來(lái)困難,更阻礙進(jìn)一步的數(shù)據(jù)分析理解。有學(xué)者提出可以分不同的層次和級(jí)別(multilevel and hierarchical)對(duì)蛋白質(zhì)功能進(jìn)行描述。例如,Brok P于1998年給出可以從如圖7.1所示的三個(gè)層次來(lái)描述蛋白質(zhì)功能:最細(xì)致的一層給出蛋白質(zhì)的特殊綁定位點(diǎn)、催化活性和構(gòu)象變化等分子功能(molecular function);進(jìn)

10、而給出描述一定細(xì)胞環(huán)境下代謝途徑、信號(hào)級(jí)聯(lián)的參與情況等的細(xì)胞功能(cellular function);最上層給出其在生物體內(nèi)的表型(phonotype)情況,如是否患有某種疾病及其疾病病理等。此時(shí),功能預(yù)測(cè)的根本目標(biāo)是建立基因型(genotype)與表型(phenotype)以及與環(huán)境間的相互作用與聯(lián)系。這類復(fù)雜關(guān)系的建立將為致病基因篩選、藥物靶標(biāo)篩選、基因表達(dá)譜數(shù)據(jù)分析、建立調(diào)控網(wǎng)絡(luò)等提供關(guān)鍵信息。比如,通過(guò)建立基因型與表型間的關(guān)系可以找出特定疾病表型的致病基因,找出可成為最佳藥物靶標(biāo)的重要代謝途徑上的某些蛋白質(zhì),以及通過(guò)改變哪些基因可實(shí)現(xiàn)特定的表型等。然而,目前掌握的信息與知識(shí)還不足以大

11、規(guī)模地解決生物體表型的功能預(yù)測(cè)問(wèn)題,對(duì)蛋白質(zhì)分子功能和細(xì)胞功能也還只能做到部分定性的描述。在此背景下,Gene Ontology Consortium于1998年提出用一整套標(biāo)準(zhǔn)的結(jié)構(gòu)化控制詞匯(controlledvocabulary),來(lái)描述真核生物的基因或蛋白質(zhì)在細(xì)胞內(nèi)所扮演的角色及生物醫(yī)學(xué)方面的知識(shí)。目前,基因本體得到了廣泛的認(rèn)可,成為事實(shí)上的標(biāo)準(zhǔn)功能術(shù)語(yǔ)集,為基于生物信息學(xué)的蛋白質(zhì)功能預(yù)測(cè)帶來(lái)便利?;虮倔w基因本體是一套具有動(dòng)態(tài)(dynamic)形式的結(jié)構(gòu)化控制詞匯??梢詮倪@樣幾個(gè)方面來(lái)理解基因本體的概念。首先,從“詞匯性”方面理解。每個(gè)本體具有統(tǒng)一的標(biāo)準(zhǔn)名稱(GO術(shù)語(yǔ),GO ter

12、m)和編號(hào)(GO id)。其次,從“結(jié)構(gòu)化”方面理解,一組本體可通過(guò)“is a”或“part of”的關(guān)系關(guān)聯(lián)起來(lái)形成一個(gè)具有層次結(jié)構(gòu)的有向無(wú)環(huán)圖(DirectedAcyclic Graphs,DAG)。比如,“核膜”(nuclear membrane)本體與“核”(nucleus)本體可以通過(guò)“part of”的關(guān)系關(guān)聯(lián)起來(lái)。DAG圖可以展現(xiàn)為樹狀層次結(jié)構(gòu),如其原網(wǎng)站上給出的圖()所示。DAG圖與標(biāo)準(zhǔn)的樹狀層次結(jié)構(gòu)圖的區(qū)別在于允許每一個(gè)本體有一個(gè)或多個(gè)父親。在DAG中,本體的結(jié)構(gòu)層次越淺,功能描述越籠統(tǒng);層次越深,功能描述越特異。再次,從“控制性”方面理解,最上層的本體名稱可代指整個(gè)DAG圖

13、及其包含的所有本體。比如,通常說(shuō)GO有三大獨(dú)立的基因本體:生物過(guò)程(biological process,BP)、分子功能(molecular function,MF)和細(xì)胞組分(cellular component,CC),如圖7.2所示,分別用于描述蛋白質(zhì)的分子和細(xì)胞功能。最后,從“動(dòng)態(tài)性”方面理解,隨著生命科學(xué)的發(fā)展,GO本體的術(shù)語(yǔ)及其相互間的關(guān)系由專家一直在不斷地手工累積與更新。截至到2009-3-12日為止已經(jīng)積累了26933個(gè)GO術(shù)語(yǔ)。圖7.1 從分子功能、細(xì)胞功能、表型等三個(gè)層次來(lái)描述蛋白質(zhì)功能圖7.2 GO的三大獨(dú)立本體及DAG圖示意GO已經(jīng)成為生物信息領(lǐng)域中一個(gè)極為重要的工具

14、,并逐步改變著對(duì)生物學(xué)數(shù)據(jù)的組織和理解方式,它的存在已經(jīng)大大加快了對(duì)所擁有的生物學(xué)數(shù)據(jù)的整合和利用。比如,在采用GO術(shù)語(yǔ)對(duì)基因或蛋白質(zhì)的功能進(jìn)行標(biāo)注后,依據(jù)GO提供的層次性組織結(jié)構(gòu)就可以從生物學(xué)功能上將基因或蛋白質(zhì)分成不同的層次結(jié)構(gòu)組。為更進(jìn)一步說(shuō)明GO本體及其間的層次結(jié)構(gòu)關(guān)系,下面引用Gene Ontology Consortium于2000年在Nature Genetic上發(fā)表的論文“Gene ontology: tool for the unification of biology.”中給出的三個(gè)例子,分別從生物過(guò)程BP、分子功能MF和細(xì)胞組分CC三個(gè)方面來(lái)說(shuō)明GO本體。生物過(guò)程指基因或

15、基因產(chǎn)物促成的生物學(xué)目的(biological objective)。一個(gè)過(guò)程通常經(jīng)由一個(gè)或多個(gè)按順序整合的分子功能完成。寬泛或稱高層的生物過(guò)程術(shù)語(yǔ)的例子是“細(xì)胞生長(zhǎng)和維持”(cell growth and maintenance)或者“信號(hào)轉(zhuǎn)導(dǎo)”(signaltransduction)。較為特異或稱底層的過(guò)程術(shù)語(yǔ)是“翻譯”(translation)、“嘧啶代謝”(pyrimidine metabolism)或“cAMP生物學(xué)合成”(cAMP biosynthesis)。圖7.3給出了“DNA代謝”術(shù)語(yǔ)(本體)及其利用DAG圖關(guān)聯(lián)起來(lái)的部分相關(guān)本體。圖7.3 “DNA代謝”本體及其利用DAG圖

16、關(guān)聯(lián)起來(lái)的部分相關(guān)本體以及相應(yīng)的被注釋的基因產(chǎn)物分子功能被定義為單個(gè)基因產(chǎn)物分子的生物化學(xué)活性(包括針對(duì)配體或結(jié)構(gòu)的特殊綁定)。注意,這個(gè)定義同樣可用于描述潛在的基因產(chǎn)物或基因產(chǎn)物聯(lián)合體(gene product complex)的功能。不過(guò)它僅用來(lái)描述發(fā)生了什么而不特指在哪里或何時(shí)該事件實(shí)際發(fā)生。寬泛的分子功能術(shù)語(yǔ)是“酶”(enzyme)、“運(yùn)輸”(transporter)或“配體”(ligand)。較為特異的功能術(shù)語(yǔ)是“將轉(zhuǎn)換成腺苷酸的環(huán)化酶”(adenylate cyclase)或“Toll受體配體”(Toll receptor ligand)。圖7.4給出了分子功能中核酸綁定以及酶等術(shù)

17、語(yǔ)(本體)及其利用DAG圖關(guān)聯(lián)起來(lái)的部分相關(guān)本體。細(xì)胞組分指的是基因產(chǎn)物能具活性的細(xì)胞位置。注意,術(shù)語(yǔ)集包含了所有的術(shù)語(yǔ),然而并非所有的術(shù)語(yǔ)都被應(yīng)用于所有的物種。細(xì)胞組分包含了“核糖體”(ribosome)、“蛋白酶體”(proteasome)等包含了多個(gè)基因產(chǎn)物的特定細(xì)胞組分術(shù)語(yǔ)。同時(shí)也包含了“核膜”(nuclear membrane)、“高爾基體”(Golgi apparatus)等術(shù)語(yǔ)。圖7.5給出了細(xì)胞、細(xì)胞質(zhì)和核子等細(xì)胞組分本體及其利用DAG圖關(guān)聯(lián)起來(lái)的部分相關(guān)本體。圖7.4 分子功能中核酸綁定以及酶等本體及其利用DAG圖關(guān)聯(lián)起來(lái)的部分相關(guān)本體以及相應(yīng)被注釋的基因產(chǎn)物圖7.5 細(xì)胞、

18、細(xì)胞質(zhì)和核子等細(xì)胞組分本體及其利用DAG圖關(guān)聯(lián)起來(lái)的部分相關(guān)本體以及相應(yīng)被注釋的基因產(chǎn)物利用GO術(shù)語(yǔ)的功能注釋Gene Ontology使用結(jié)構(gòu)化的控制詞匯規(guī)范化地定義了蛋白質(zhì)(基因產(chǎn)物)的功能以及功能間的關(guān)系,在功能預(yù)測(cè)(注釋)中得到了廣泛地使用。2001年,UniProt組織成為GO Consortium的成員,并發(fā)起了GOA工程,基于文獻(xiàn)以及多個(gè)數(shù)據(jù)庫(kù)資源信息,利用GO術(shù)語(yǔ)對(duì)蛋白質(zhì)(基因產(chǎn)物)進(jìn)行功能注釋。特別地,目前對(duì)人類基因組上的蛋白質(zhì)序列也采用了GO術(shù)語(yǔ)進(jìn)行功能注釋,這體現(xiàn)在了Ensembl、UCSC和NCBI等提供的基因組注釋系統(tǒng)中。GO術(shù)語(yǔ)注釋涵蓋了一條默認(rèn)規(guī)則:如果一個(gè)基因產(chǎn)

19、物被注釋為一個(gè)較為底層的本體,那么同時(shí)也被該本體的祖先注釋。從圖7.3中給出的被注釋的基因產(chǎn)物及其相關(guān)本體和本體間關(guān)系的示意圖中可以明顯地看到這條規(guī)則,比如Pcna被注釋為“DNA鏈伸長(zhǎng)率”(DNA strand elongation),那么同時(shí)也默認(rèn)地被注釋為“DNA獨(dú)立”(DNA-dependent)、“DNA復(fù)制”(DNA replication)、“DNA代謝”(DNA metabolism)等一系列“祖先”本體。類似的注釋情況可以從圖7.4、7.5中觀察到。利用GO術(shù)語(yǔ),一個(gè)基因或蛋白質(zhì)可從三個(gè)層面來(lái)注解,首先是構(gòu)成在細(xì)胞內(nèi)的特定組分(cellularcomponent),其次是此組

20、分在分子功能上所扮演的角色(molecularfunction),最后生物學(xué)家一定想知道這個(gè)基因或蛋白質(zhì)到底參與哪些生物過(guò)程(biological processKCNQ1(KcsAK+)為例,從細(xì)胞組分的角度看,該基因產(chǎn)物可以被本體“GO:0008076Voltage-gated potassium channel complex”“GO:0005251 delayed rectifier potassium channel activity”;從參與的生物過(guò)程看,該基因產(chǎn)物可被注釋為多條本體,包含“GO:0006936 muscle contraction”、“GO:0006813pota

21、ssium ion transport”、“GO:0008016regulation of heart contraction”和“GO:0007605sensory perception of sound”等?!皌raceable author statement”(通常簡(jiǎn)寫為TAS)是GO提供的對(duì)注釋可信度的提示,稱為證據(jù)碼(evidence code)。除了TAS證據(jù)碼外,GO網(wǎng)站還給出了多個(gè)證據(jù)碼及其注釋可信度說(shuō)明()。對(duì)于人類RBP4基因,編碼的蛋白質(zhì)為RET4_HUMAN(P02753),其GO的注釋是“retinol binding”(分子功能)和“GO0005615extrac

22、ellular space”、“GO0005634 nucleus”、“GO0005730 nucleolus”、“GO0005576 extracellular region”(細(xì)胞組分),與生物過(guò)程相關(guān)的注釋較多,有“GO0050896 response to stimulus”、“GO0006810 transport”、“GO0006810 transport”、“GO0007601 visual perception”、“GO0006094 gluconeogenesis”等。7.3 基于序列相似性的功能預(yù)測(cè)利用序列相似性預(yù)測(cè)蛋白質(zhì)功能幾乎是最早也是最直接的功能預(yù)測(cè)方法。其理論依據(jù)是

23、當(dāng)若干生物大分子由共同的祖先分子進(jìn)化而來(lái)時(shí),它們往往在序列、結(jié)構(gòu)和生物學(xué)功能上具有相似性。預(yù)測(cè)的基本步驟是,將未知功能的蛋白質(zhì)序列作為查詢序列,利用序列比對(duì)算法,例如BLAST、PSI-BLAST、FASTA等,搜索已注釋的蛋白質(zhì)序列數(shù)據(jù)庫(kù)(如UniProt/SwissProt等),找出與查詢序列相似的序列,進(jìn)而從相似序列的功能特性分析外推查詢序列的功能信息等。(a) 三維結(jié)構(gòu)圖(從PDB中獲?。?b) 鉀離子通道功能示意圖圖7.6 鉀離子通道蛋白質(zhì)KcsAK+的三維結(jié)構(gòu)與功能示意圖圖7.7UniProtKB/SwissProt給出的KCNQ1(P51787)的GO注釋情況基本預(yù)測(cè)方法序列的相

24、似性搜索涉及兩類資源,一是相似性搜索和比對(duì)軟件工具,二是序列數(shù)據(jù)庫(kù)資源。依據(jù)序列長(zhǎng)度和類型的不同,可以選擇不同的序列比對(duì)工具,比如,MPsrch、BLAST/ PSI-BLAST以及FASTA等。而已注釋的蛋白質(zhì)序列數(shù)據(jù)庫(kù)有很多,如SwissProt、TrEMBL、NRDB(nr)、GenPept、PIR-PSD、PIR-NREF、NRL-3D和EXProt等等。國(guó)際著名雜志“核酸研究”(Nucleic Acids Research,NAR)的網(wǎng)站上專門有“general sequence database”的報(bào)道,較為全面地列出了目前國(guó)際上重要的蛋白質(zhì)序列數(shù)據(jù)庫(kù),其中大多提供相應(yīng)的序列比對(duì)搜

25、索工具。由于EBI(歐洲生物信息學(xué)研究所,European bioinformatics institute)、SIB(瑞士生物信息學(xué)研究所,Swiss Institute of Bioinformatics)和PIR(蛋白質(zhì)信息中心,Protein Information Resource)的努力,目前UniProt(Universal Protein Resource)蛋白質(zhì)序列數(shù)據(jù)庫(kù)得到了廣泛的認(rèn)可。針對(duì)不同的用戶,UniProt分三個(gè)層次構(gòu)成,一是UniProt Knowledgebase(UniProtKB),包含UniProtKB/SwissProt和UniProtKB/TrEMB

26、L,它涵蓋大量人工注釋的蛋白質(zhì)信息,包括功能、分類以及數(shù)據(jù)庫(kù)的交叉索引等;二是UniProt Archive(UniParc),力圖收集最完整、最全面的蛋白質(zhì)序列數(shù)據(jù);三是UniProt Reference Clusters(UniRef),其涵蓋的數(shù)據(jù)庫(kù)是將UniParc中的序列數(shù)據(jù)依據(jù)不同的參數(shù)條件去除冗余后得到的結(jié)果。后兩者對(duì)蛋白質(zhì)序列都沒(méi)有加以注釋,只給出了序列數(shù)據(jù)的來(lái)源和相關(guān)鏈接。UniProtKB/SwissProt,由于其注釋信息的全面性和可靠性,被稱為是注釋的蛋白質(zhì)序列數(shù)據(jù)的“黃金標(biāo)準(zhǔn)”(golden standard)。而UniProtKB/TrEMBL是為了在不降低Swis

27、sProt高水平注釋質(zhì)量的同時(shí),又能使經(jīng)由測(cè)序獲取的蛋白質(zhì)序列數(shù)據(jù)得以盡快地發(fā)布,作為SwissProt數(shù)據(jù)庫(kù)的補(bǔ)充,而于1996年數(shù)據(jù)庫(kù)得以誕生的。盡管其注釋信息的質(zhì)量難以與SwissProt相比,TrEMBL仍然采用多種措施盡可能地豐富注釋內(nèi)容、提高數(shù)據(jù)質(zhì)量。NCBI提供的RefSeq由于整合了基因組DNA序列、轉(zhuǎn)錄本以及基因產(chǎn)物(蛋白質(zhì))等,為基因結(jié)構(gòu)辨識(shí)(gene identification and characterization)、突變分析(mutation analysis)、表達(dá)研究(expression studies)、多態(tài)性發(fā)現(xiàn)(polymorphism discove

28、ry)和比對(duì)分析(comparative analyses)等提供了從基因組序列到蛋白質(zhì)序列的全面的序列信息,因而也被廣泛使用。相關(guān)內(nèi)容在第2章中已有介紹,此處不再贅述。下面分別以三個(gè)例子說(shuō)明針對(duì)UniProtKB/SwissProt進(jìn)行相似性搜索提供蛋白質(zhì)功能預(yù)測(cè)的情況。例7-1利用相似性分析進(jìn)行蛋白質(zhì)功能預(yù)測(cè)的成功案例。假定在基因結(jié)構(gòu)預(yù)測(cè)中,利用基因結(jié)構(gòu)預(yù)測(cè)工具(比如GenScan)得到了一條序列Protein_GenScan_HUMAN,序列內(nèi)容如表7.1所示,利用蛋白質(zhì)專家分析系統(tǒng)Expasy提供的blast工具進(jìn)行序列相似性搜索,搜索數(shù)據(jù)庫(kù)限定為SwissProt,其他參數(shù)選用默認(rèn)值

29、,得到相似性比對(duì)結(jié)果(部分結(jié)果內(nèi)容如表7.2所示)。從結(jié)果中可以得知該蛋白質(zhì)與視黃醇結(jié)合蛋白(retinol-binding protein, RET4)有很高的相似性,基本可以判定序列屬于lipocalin家族。此時(shí)可以根據(jù)與提交序列具有非常高的相似性的蛋白質(zhì)序列(比如RET4_PANTR、RET4_HUMAN、RET4_HORSE、RET4_PIG等)以及l(fā)ipocalin家族成員所共有的功能注釋情況對(duì)本序列進(jìn)行功能預(yù)測(cè)。表7.1 采用GenScan得到的一條蛋白質(zhì)序列Protein_GenScan_HUMAN>Protein_GenScan_HUMANMNYSKIPAQVDLRRQ

30、TERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL表7.2利用Expasy的blast工具針對(duì)Protein_GenScan_HUMAN進(jìn)行序列相似性搜索得到的部分結(jié)果Db AC Description Score E-valuesp P61641 RET4_PANTR Retin

31、ol-binding protein 4 precursor (Plasma. 385 e-107sp P02753 RET4_HUMAN Retinol-binding protein 4 precursor (Plasma. 385 e-107sp Q28369 RET4_HORSE Retinol-binding protein 4 precursor (Plasma. 370 e-102sp P27485 RET4_PIG Retinol-binding protein 4 precursor (Plasma r. 367 e-101sp P18902 RET4_BOVIN Retin

32、ol-binding protein 4 (Plasma retinol-b. 363 e-100sp P06912 RET4_RABIT Retinol-binding protein 4 precursor (Plasma. 362 e-100sp P04916 RET4_RAT Retinol-binding protein 4 precursor (Plasma r. 341 2e-93sp Q00724 RET4_MOUSE Retinol-binding protein 4 precursor (Plasma. 341 2e-93sp P41263 RET4_CHICK Retin

33、ol-binding protein 4 precursor (Plasma. 333 5e-91sp P24774 RETB1_ONCMY Plasma retinol-binding protein 1 (PRBP-I) . 258 2e-68sp P24775 RETB2_ONCMY Plasma retinol-binding protein 2 (PRBP-II). 256 5e-68sp P06172 RETBP_XENLA Plasma retinol-binding protein precursor (. 256 6e-68圖7.8利用Expasy的blast工具針對(duì)Prot

34、ein_GenScan_HUMAN進(jìn)行序列相似性搜索得到的部分圖示結(jié)果例7-1是相似性比對(duì)得到的非常好的結(jié)果的情形之一。實(shí)際上,利用相似性比對(duì)有時(shí)無(wú)法得到可以進(jìn)行分析推理的結(jié)果,比如例7-2給出的情形。有時(shí),給出了相關(guān)結(jié)果,但是也仍然無(wú)法進(jìn)行較為準(zhǔn)確的判斷,比如例7-3給出的情形。例7-2利用相似性分析進(jìn)行蛋白質(zhì)功能預(yù)測(cè)的不成功案例。假定在基因結(jié)構(gòu)預(yù)測(cè)中,利用基因結(jié)構(gòu)預(yù)測(cè)工具(比如GenScan)得到了一條序列Protein_GenScan_PICST,如表7.3所示,同樣利用Expasy提供的blast工具進(jìn)行序列相似性搜索,搜索數(shù)據(jù)庫(kù)也限定為SwissProt,得到相似性比對(duì)結(jié)果,如表7.

35、4所示。比對(duì)結(jié)果的e-value值太高,不具備統(tǒng)計(jì)顯著性,因而可以說(shuō)不能由本相似性比對(duì)方法獲取有價(jià)值的功能注釋線索。表7.3 采用GenScan得到的一條蛋白質(zhì)序列Protein_GenScan_PICST>Protein_GenScan_PICSTMAAPHGESRPGLASIPNLQHPSSTNNSDLISITNSNINSTSITSNSNDGSTSKKVRASWYNSRDNNKGKDQDNNDSSSDEDDEDHHNKTPSPKRRFDLDLVGASTPLHVLQGRAANDSISFLSPMNKLNNLHLESDVIEESFQLPEATKDYYTEDEEDEHEDDFSLGDKTIT

36、NDTDSDIEFHEIDGIDNDHPGLESSSFASPKFISHRKRLHIDSPSDMVITPNHSDSMRASSFRNSHTHDSNDMSICTNSSLKLGFSSSDSTPCPTQPKRKKLKFKRSSGENAPSVTKTLRNKPMLNLSHSVKTTVSDIAANAVQPPVSSLDESDEFSSSPPRVVFTSSAPGQNNNSTPISQSTPSNSRASTPPCLYQEFGESVNGYKFVKPVGKPQQFSYETPVNNNRTTTVNKLRESYNRREFTPMEVQVEQGTYEIIGEFPMASAGVMDESEPEIHIGDKRINDPYLTTPSATGSDSV

37、KDYRPKRDYRSEYFNQLRLPLPPPNFDNQESLAKEQLQVLVNDKEKVLEFLNLISLEGEDIKELVKNERIRWHPDRWASRFKNNHERVFFDRDIVGNVCQVMNSIIEELFS表7.4利用Expasy的blast工具針對(duì)Protein_GenScan_PICST進(jìn)行序列相似性搜索得到的結(jié)果Db AC Description Score E-valuesp Q9JKV9 IL20_MOUSE Interleukin-20 precursor (IL-20) (Four alph. sp Q59QL0 ERFB_CANAL Palmitoyltrans

38、ferase ERF2 (EC sp P53882 YNR6_YEAST Uncharacterized protein YNL176C YNL176Csp Q95Q95 TOR_CAEEL Target of rapamycin homolog (EC 例7-3利用相似性分析進(jìn)行蛋白質(zhì)功能預(yù)測(cè)的不確定案例。假定在基因結(jié)構(gòu)預(yù)測(cè)中,利用基因結(jié)構(gòu)預(yù)測(cè)工具(比如GenScan)得到了一條序列Protein_GenScan_DANRE,如表7.5所示,同樣利用Expasy提供的blast工具進(jìn)行序列相似性搜索,搜索數(shù)據(jù)庫(kù)也限定為SwissProt,得到相似性比對(duì)結(jié)果,部分結(jié)果如表7.6和圖7.9所示。

39、從結(jié)果中盡管基本可以判定序列屬于lipocalin家族,但究竟屬于RETB1、RETB2、RET4、RETBP的哪一個(gè)子家族中的成員還是無(wú)法確定,因此可以得到的注釋信息有限。表7.5 采用GenScan得到的一條蛋白質(zhì)序列Protein_GenScan_DANRE>Protein_GenScan_DANREMLRLCIAVCVLATCWAQDCQVSNFAVQQDFNRTRYQGTWYAVAKKDPVGLFLLDNIVANFKVEEDGTMTATAIGRVIILNNWEMCANMFGTFEDTEDPAKFKMKYWGAAAYLQTGYDDHWIIDTDYDNYAIHYSCRELDEDGT

40、CLDGYSFIFSRHPDGLRPEDQAIVTQKKQDICFLGKYRRVAHTGFCEAA表7.6利用Expasy的blast工具針對(duì)Protein_GenScan_DANRE進(jìn)行序列相似性搜索得到的部分結(jié)果Db AC Description Score E-valuesp P24774 RETB1_ONCMY Plasma retinol-binding protein 1 (PRBP-I) . 318 9e-87sp P24775 RETB2_ONCMY Plasma retinol-binding protein 2 (PRBP-II). 315 1e-85sp P41263 R

41、ET4_CHICK Retinol-binding protein 4 precursor (Plasma. 261 2e-69sp P61641 RET4_PANTR Retinol-binding protein 4 precursor (Plasma. 253 6e-67sp P02753 RET4_HUMAN Retinol-binding protein 4 precursor (Plasma. 253 6e-67sp P06912 RET4_RABIT Retinol-binding protein 4 precursor (Plasma. 248 2e-65sp Q28369 R

42、ET4_HORSE Retinol-binding protein 4 precursor (Plasma. 248 2e-65sp P27485 RET4_PIG Retinol-binding protein 4 precursor (Plasma r. 247 3e-65sp P18902 RET4_BOVIN Retinol-binding protein 4 (Plasma retinol-b. 246 5e-65sp P04916 RET4_RAT Retinol-binding protein 4 precursor (Plasma r. 243 5e-64sp Q00724 R

43、ET4_MOUSE Retinol-binding protein 4 precursor (Plasma. 243 5e-64sp P06172 RETBP_XENLA Plasma retinol-binding protein precursor (. 234 3e-61sp P08938 PURP_CHICK Purpurin precursor Gallus gallus (Chicken) 200 4e-51圖7.9 利用Expasy的blast工具針對(duì)Protein_GenScan_DANRE進(jìn)行序列相似性搜索得到的部分圖示結(jié)果基于序列相似性比對(duì)的GO功能預(yù)測(cè)方法不僅在人工注釋過(guò)

44、程中得到廣泛應(yīng)用,該方法同時(shí)也被用于搭建蛋白質(zhì)GO功能自動(dòng)注釋平臺(tái)。比如,在GO本體術(shù)語(yǔ)集公開發(fā)布不久,在國(guó)際著名雜志“核酸研究”和“生物信息學(xué)(Bioinformatics)”上就相繼發(fā)表了多個(gè)基于序列相似性搜索的蛋白質(zhì)GO功能預(yù)測(cè)工具GoFigure,GOblet,OntoBlast,Blast2GO等。它們通過(guò)檢索蛋白質(zhì)序列數(shù)據(jù)庫(kù)中的相似蛋白質(zhì),然后利用相似蛋白質(zhì)的GO功能推測(cè)未知蛋白的功能。分析與討論序列相似性搜索普遍地用于預(yù)測(cè)基因或蛋白質(zhì)功能。然而,利用序列相似性進(jìn)行蛋白質(zhì)功能預(yù)測(cè)仍然存在困難。首先,基于序列相似性搜索的蛋白質(zhì)功能預(yù)測(cè)受限于數(shù)據(jù)庫(kù)內(nèi)容。比如,當(dāng)數(shù)據(jù)庫(kù)對(duì)未注釋序列有偏好

45、(biased towards unannotated sequences)時(shí),對(duì)新序列進(jìn)行相似性搜索往往不能獲得相應(yīng)的功能注釋信息。其次,受到比對(duì)工具的探測(cè)遠(yuǎn)緣同源性(distant homologs)能力的影響。目前還無(wú)法明確序列相似性判斷的“閾值”,即對(duì)于序列究竟相似到何種程度才能夠進(jìn)行GO功能預(yù)測(cè)這一問(wèn)題,無(wú)法給出量化的評(píng)價(jià)指標(biāo),只能依據(jù)專家的經(jīng)驗(yàn)來(lái)區(qū)分序列的相似程度是強(qiáng)還是弱。其根本原因在于,生物學(xué)上,通常,由一個(gè)共同祖先進(jìn)化來(lái)的直系同源物會(huì)執(zhí)行相同或相似的功能,而通過(guò)基因復(fù)制產(chǎn)生的旁系同源物將自由地進(jìn)化出新的功能。而直系同源、旁系同源,甚至一些根本無(wú)關(guān)的蛋白質(zhì),在序列上都有可能表現(xiàn)

46、出一定的相似性。常用的相似性比對(duì)搜索軟件只能找出相似序列,并不能判斷它們是直系還是旁系同源。特別是當(dāng)相似性比對(duì)的一致性分值低于20%時(shí),就難以確定或者根本無(wú)法確定這種相似性究竟是直系還是旁系同源結(jié)果。這大概也是序列數(shù)據(jù)庫(kù)中存在眾多不正確的基于生物信息學(xué)注釋的原因??梢杂袔追N解決問(wèn)題的思路,一是在選擇搜索數(shù)據(jù)庫(kù)時(shí),應(yīng)盡可能地選取具有可靠注釋信息的蛋白質(zhì)序列數(shù)據(jù)庫(kù)。二是仔細(xì)檢查獲取的相似序列。仔細(xì)檢查獲取的候選蛋白質(zhì)序列是一個(gè)非常耗時(shí)的過(guò)程,然而它有助于盡可能地確保每條序列的完整性和正確性,增加結(jié)果的正確度。三是盡可能地排除干擾。比如由于非特異性序列相似會(huì)降低比對(duì)搜索結(jié)果的質(zhì)量。通常在執(zhí)行比對(duì)搜索

47、前要去除查詢序列中與非特異性有關(guān)的片段。有幾種程序,如SEG和COILS可以執(zhí)行此功能。SEG可以找到低復(fù)雜度區(qū),COILS可以預(yù)測(cè)蛋白質(zhì)中潛在的卷曲螺旋結(jié)構(gòu)。最后一個(gè)較好的想法是檢查相似序列的同一家族中的所有成員,再由多序列比對(duì)工具,比如ClustalW、T-Coffee和MUSCLE等,對(duì)所有序列進(jìn)行比對(duì)分析,找出序列間的相同或相異之處及其發(fā)生的原因。如果一個(gè)殘基或一段短肽在一個(gè)家族所有序列中都是保守的而在其它蛋白質(zhì)序列中完全不同,則意味著這些區(qū)域通常會(huì)對(duì)應(yīng)蛋白質(zhì)分子中重要的結(jié)構(gòu)或功能區(qū)域。此時(shí),引入蛋白質(zhì)家族(protein family)的概念。蛋白質(zhì)家族與序列的相似性聚類一個(gè)蛋白質(zhì)家

48、族由一組進(jìn)化相關(guān)的蛋白質(zhì)序列(evolutionarily related proteins)所定義。通常基于序列相似性劃分蛋白質(zhì)家族。依據(jù)序列相似性程度的不同,還可以得到蛋白質(zhì)的超家族(superfamily)、家族(family)和子家族(sub-family)。一條蛋白質(zhì)可能在子家族層(sub-family level)與另一個(gè)特定的蛋白質(zhì)相關(guān),也可能在家族層與一些具有較多相異特性的蛋白質(zhì)相關(guān),還可能在超家族層與一些更為相異的蛋白質(zhì)相關(guān)。各個(gè)不同層次蛋白質(zhì)集合所具備的共有功能特性(common functional properties)是隨著超家族到子家族逐層遞增的。建立了蛋白質(zhì)家族的

49、概念后,對(duì)蛋白質(zhì)進(jìn)行功能預(yù)測(cè)在某種程度上就意味著將蛋白質(zhì)歸類到某家族??梢圆捎没谛蛄邢嗨菩运阉鞯男蛄芯垲悾╯equence clustering)方法來(lái)進(jìn)行蛋白質(zhì)家族的歸類。序列聚類方法通常是全自動(dòng)的(即非手工),并假定蛋白質(zhì)家族的成員都將基于序列的相似性聚集在一起。采用序列聚類方法歸類蛋白質(zhì)家族成員的典型實(shí)例是ProDom數(shù)據(jù)庫(kù)系統(tǒng)。ProDom的基本假設(shè)是蛋白質(zhì)家族可以通過(guò)采用序列比較的方法對(duì)現(xiàn)有的序列進(jìn)行洗牌式操作來(lái)識(shí)別。具體方法從UniProtKB蛋白質(zhì)序列數(shù)據(jù)庫(kù)開始,在去除片斷(segment)數(shù)據(jù)后,確定數(shù)據(jù)庫(kù)中最短的序列,然后針對(duì)該序列利用PSI-BLAST工具搜索數(shù)據(jù)庫(kù)中的剩

50、余部分。所有匹配序列被移出并用來(lái)生成一個(gè)新的ProDom家族。剩下的序列又再次依據(jù)其長(zhǎng)短排序以確定最短序列,重復(fù)該過(guò)程直至所有的UniProtKB序列被歸類到它們所屬的家族?;谒捎玫姆椒?,ProDom對(duì)蛋白質(zhì)序列空間具有最高的覆蓋性,不過(guò)在其150,000個(gè)家族中仍然存在一些少量的、潛在的、無(wú)生物學(xué)意義的聚類(clusters)。利用ProDom進(jìn)行蛋白質(zhì)家族成員歸類檢索時(shí),與blast的使用類似,用戶以提交未知蛋白質(zhì)序列的方式對(duì)ProDom數(shù)據(jù)庫(kù)進(jìn)行搜索,返回結(jié)果給出了未知蛋白序列中與已知蛋白質(zhì)家族保守區(qū)域(稱為結(jié)構(gòu)域)的匹配情形。通過(guò)這些保守區(qū)域,可以將未知蛋白質(zhì)序列與已知蛋白質(zhì)家族成

51、員的相關(guān)功能注釋信息關(guān)聯(lián)起來(lái),進(jìn)行功能預(yù)測(cè)。例7-4Protein_GenScan_HUMAN提交給ProDom(),搜索得到結(jié)構(gòu)域PDA1G9Z3、PD093265、PD912633、PDA24519,進(jìn)而可以得到由結(jié)構(gòu)域關(guān)聯(lián)起來(lái)的蛋白質(zhì)家族各成員與提交蛋白質(zhì)序列的多序列比對(duì)情況,如圖7.10所示。從中也可以分析得到,與前面blast預(yù)測(cè)得到的結(jié)果雷同,該序列屬于lipocalin家族。圖7.10 利用ProDom的搜索工具針對(duì)Protein_GenScan_HUMAN進(jìn)行功能預(yù)測(cè)得到的由PD093265關(guān)聯(lián)的蛋白質(zhì)序列與提交序列的多序列比對(duì)圖示結(jié)果Protein_GenScan_PICST

52、提交給ProDomProtein_GenScan_DANRE提交給ProDom得到的結(jié)果與采用前述方法得到的結(jié)果雷同,無(wú)法明確子家族的歸屬。其根本原因仍然在于序列聚類還是基于序列的相似性進(jìn)行搜索,因而探測(cè)蛋白質(zhì)家族中遠(yuǎn)緣成員的能力有限。另一種重要缺陷是自動(dòng)分析方法無(wú)法將生物學(xué)知識(shí)考慮進(jìn)來(lái)。7.4基于蛋白質(zhì)信號(hào)的功能預(yù)測(cè)如前所述,同一蛋白質(zhì)家族的多序列比對(duì)結(jié)果可以用來(lái)推斷結(jié)構(gòu)、功能和家族中關(guān)鍵的氨基酸殘基等重要信息。一些研究提出可以利用多序列比對(duì)結(jié)果來(lái)預(yù)測(cè)蛋白質(zhì)功能?;痉椒ㄊ?,通過(guò)比對(duì)同一家族的多條蛋白質(zhì)序列獲取相應(yīng)的比對(duì)結(jié)果并予以保存。在對(duì)未知蛋白質(zhì)序列進(jìn)行功能預(yù)測(cè)時(shí),利用相應(yīng)的工具搜索該未

53、知序列中是否與保存的多序列比對(duì)結(jié)果匹配,據(jù)此可以把未知序列歸類到某蛋白質(zhì)家族,從而推斷其功能。將蛋白質(zhì)歸類到某家族有兩類方法:序列聚類方法和基于蛋白質(zhì)信號(hào)(protein signatures)的方法。前者即是中介紹的基于序列相似性聚類的方法。后一種方法基于蛋白質(zhì)信號(hào)將蛋白質(zhì)歸類到某家族,這類方法首先挖掘家族成員間的已知相似性,采用一定的數(shù)學(xué)模式來(lái)描述,并將這種描述方式用于識(shí)別新的家族成員。通常,描述方式有多種,各有其優(yōu)勢(shì)和弱點(diǎn),可以整合在一起使用以補(bǔ)充各自的不足。 蛋白質(zhì)信號(hào)Jacob在1977年曾經(jīng)指出,不管具體過(guò)程如何,“自然”像一個(gè)高明的裁縫,他把各式各樣的補(bǔ)丁搜集起來(lái),縫制成一件百衲

54、衣(“Nature is a tinkerer and not an inventor”)。實(shí)際也正是如此,進(jìn)化過(guò)程并不都是從頭開始,而是利用現(xiàn)有材料,通過(guò)改造,使其產(chǎn)生新的功能,或者是把幾種不同的系統(tǒng)整合到一起,形成更好的新系統(tǒng)。而這些現(xiàn)有材料,就是蛋白質(zhì)序列中的“信號(hào)”。大量證據(jù)表明,蛋白質(zhì)序列中包含一些相對(duì)獨(dú)立的單元,包括功能位點(diǎn)(functional sites)、保守殘基(conserved residues)、殘基模式(residue patterns)、模體(motifs)、指紋(fingerprints)、結(jié)構(gòu)域(domians)等(具體描述見(jiàn)下文),這里統(tǒng)稱為蛋白質(zhì)信號(hào)(pr

55、otein signature)。它們往往在一個(gè)蛋白質(zhì)家族的所有成員中都是保守的而在其它蛋白質(zhì)序列中完全不同,這意味著該信號(hào)可能對(duì)該蛋白質(zhì)家族來(lái)說(shuō),起著維持其結(jié)構(gòu)的關(guān)鍵或承擔(dān)著實(shí)現(xiàn)重要生物功能的作用,可以用來(lái)推斷結(jié)構(gòu)、功能和家族中關(guān)鍵的氨基酸殘基等重要信息。下面以結(jié)構(gòu)域和模體為例進(jìn)行蛋白質(zhì)信號(hào)的簡(jiǎn)單介紹。1. 蛋白質(zhì)結(jié)構(gòu)域強(qiáng)調(diào)蛋白質(zhì)的模塊化結(jié)構(gòu)需要強(qiáng)調(diào)一個(gè)概念就是蛋白質(zhì)的結(jié)構(gòu)域。結(jié)構(gòu)域?qū)τ谠S多蛋白質(zhì)家族來(lái)說(shuō)很為常見(jiàn)。比如,Src-同源體(SH2和SH3)結(jié)構(gòu)域會(huì)出現(xiàn)在許多與信號(hào)有關(guān)的蛋白質(zhì)中,pleckstrin同源體(PH)結(jié)構(gòu)域會(huì)出現(xiàn)在許多結(jié)合磷脂的蛋白質(zhì)中。這些模塊化結(jié)構(gòu)很可能反映了蛋白

56、質(zhì)的進(jìn)化方式。遺傳事件可以導(dǎo)致結(jié)構(gòu)域互換、結(jié)構(gòu)域復(fù)制、結(jié)構(gòu)域丟失和獲得等。得到有特定功能的新結(jié)構(gòu)域可以使蛋白質(zhì)非常迅速地獲得更加復(fù)雜的新功能。例如,酶可能得到與調(diào)節(jié)它的活動(dòng)相關(guān)的新結(jié)構(gòu)域,產(chǎn)生一種特定性更強(qiáng)的情況下有活性的蛋白質(zhì)。許多蛋白質(zhì)由不止一個(gè)結(jié)構(gòu)域構(gòu)成。這里并沒(méi)有嚴(yán)格定義什么是蛋白質(zhì)結(jié)構(gòu)域,這是因?yàn)楹茈y確立這樣一個(gè)定義。結(jié)構(gòu)域可以被定義為具有單一明確功能(例如結(jié)合一種特定的配體)的部分蛋白質(zhì)序列,它們也可以是獨(dú)立于序列其他部分之外,能夠獨(dú)立折疊成三維結(jié)構(gòu)的部分序列。它們還可以被定義為蛋白質(zhì)三級(jí)結(jié)構(gòu)中幾何結(jié)構(gòu)不同的部分??梢悦鞔_結(jié)構(gòu)域的一個(gè)重要特性,那就是結(jié)構(gòu)域必須是一個(gè)獨(dú)立的單元,它能

57、存在于許多不相關(guān)的蛋白質(zhì)序列中。2. 蛋白質(zhì)共享結(jié)構(gòu)域的方式蛋白質(zhì)之間共享一個(gè)結(jié)構(gòu)域的方式可以有多種。在Pevsner J的“生物信息學(xué)與功能基因組學(xué)”一書中圖示(圖7.11)了其中主要的三種方式1(a)),如lipocalin結(jié)構(gòu)域。還有很多其他小的球蛋白也是由單個(gè)結(jié)構(gòu)域構(gòu)成的。圖7.11 蛋白質(zhì)共享結(jié)構(gòu)域的三種主要方式另一種更為常見(jiàn)的情況是,蛋白質(zhì)由多個(gè)結(jié)構(gòu)域構(gòu)成,1(b)所示。一個(gè)例子就是甲基結(jié)合結(jié)構(gòu)域(methy-binding domain2中的7個(gè)蛋白質(zhì)都具有結(jié)合甲基化的DNA的能力,但這7個(gè)蛋白質(zhì)中的同一個(gè)結(jié)構(gòu)域分別位于序列的不同區(qū)域上。甲基-CpG-結(jié)合蛋白2(Mecp2)就是

58、這7個(gè)蛋白質(zhì)中的一個(gè)。它是一個(gè)轉(zhuǎn)錄抑制因子,可以結(jié)合在很多基因的上游調(diào)控區(qū)(MECP2基因的突變會(huì)導(dǎo)致Rett綜合癥或女孩的神經(jīng)邏輯錯(cuò)亂,它還是女性智力障礙的幾個(gè)常見(jiàn)原因之一)。可以用blastp軟件搜索與Mecp2蛋白有顯著相似性的序列(部分搜索結(jié)果如圖7.13所示)3(a)顯示了MeCP2這個(gè)蛋白質(zhì)包含的結(jié)構(gòu)域MBD是一個(gè)保守結(jié)構(gòu)域,并據(jù)此構(gòu)成了一個(gè)蛋白質(zhì)超家族(MBD superfamily)。BLAST的搜索結(jié)果顯示Mecp2蛋白只有一部分與其它4個(gè)MBD3(b))。進(jìn)一步分析MeCP/MBD家族的這5個(gè)蛋白,會(huì)發(fā)現(xiàn)這5個(gè)蛋白大小相差很大,只有MBD結(jié)構(gòu)域相互匹配,其他部分并不匹配。也就是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論