蛋白質分析和蛋白質組學_第1頁
蛋白質分析和蛋白質組學_第2頁
蛋白質分析和蛋白質組學_第3頁
蛋白質分析和蛋白質組學_第4頁
蛋白質分析和蛋白質組學_第5頁
已閱讀5頁,還剩108頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

蛋白質分析和蛋白質組學proteinRNADNA1protein[4]Proteinfunction[3]ProteinlocalizationGeneontology(GO):--cellularcomponent--biologicalprocess--molecularfunction[1]Molecularbiology[2]Proteinfamilies2視角3和4的介紹:

GeneOntology(GO)Consortium3GeneOntology成立的背景Year19822005Numberofrecords60244,202,133GenBankEMBLDDBJPubMed:over15millioncitations4What’sinaname?GlucosesynthesisGlucosebiosynthesisGlucoseformationGlucoseanabolismGluconeogenesisAllrefertotheprocessofmakingglucosefromsimplercomponents5What’sinaname?ThesamenamecanbeusedtodescribedifferentconceptsAconceptcanbedescribedusingdifferentnames

Comparisonisdifficult–inparticularacrossspeciesoracrossdatabases6本體(ontology)計算機科學對自然世界認知的形式化的表示,既是可被計算機表示,解釋和利用的知識的形式化的研究—即本體。本體是結構化的領域知識,并可以被計算機解釋和利用。實現(xiàn)對生命世界中這些概念理解上的共享,包括從不同的視角,不同的術語分類,不同的主體(人和機器)共享概念--概念化的規(guī)范GeneOntology(GO)協(xié)會致力于這樣一項工程:編輯一組動態(tài)的而又可控的詞匯來描述基因和基因產物(主要是蛋白質)不同方面的性質。7Ontologiescanberepresentedasgraphs,wherethenodesareconnectedbyedges

Nodes=conceptsintheontologyEdges=relationshipsbetweentheconceptsnodenodenodeedgeOntologyStructure8所有這些蛋白質能做什么?“功能”太有局限性。生物學家想知道:每個蛋白質能做什么,屬于哪條細胞回路或者為什么細胞需要這個功能,以及在什么地方發(fā)生了這樣的過程。9GeneOntology的發(fā)起芽殖酵母基因組數(shù)據(jù)庫(SGD)果蠅基因組數(shù)據(jù)庫(drosophilagenomedatabase,簡稱FlyBase)小鼠基因組信息數(shù)據(jù)庫;(mousegenomeinformationdatabase,簡稱MGD/GXD)

GO數(shù)據(jù)庫不是以其自身為中心而是依靠外部數(shù)據(jù)庫,這些外部數(shù)據(jù)庫中收錄的基因及其產物都將用GO定義的詞匯進行注釋。因此GO是與時俱進與相互合作的代表,它致力于統(tǒng)一基因及其產物注釋的方式。YoucanvisitGOat.10GO(GeneOntology)structureGOisn’tjustaflatlistofbiologicaltermstermsarerelatedwithinahierarchy11Hierarchicalstructure層次性:

isa:上一個概念包括下一個概念,下一個概念是上一個概念的實例。partof:下一個概念是上一個概念的一部分

樹松樹葉子PartofIsa12TruePathRuleTruePathRule:如果下一代的術語可以用于描述此基因產物,其上一代術語也可以適用。已糖代謝和單糖合成己糖合成活性13DAG有向無環(huán)(DAG)Simplehierarchies

(Trees)DirectedAcyclicGraphsOneormoreparentsSingleparent14HowdoesGOwork?Whatdoesthegeneproductdo?Whereandwhendoesitact?Whydoesitperformtheseactivities?Whatinformationmightwewanttocaptureaboutageneproduct?15GO:ThreeontologiesWheredoesitact?Whatprocessesisitinvolvedin?Whatdoesitdo?MolecularFunctionCellularComponentBiologicalProcessgeneproduct16MolecularFunction分子功能描述在分子生物學上的活性,如催化活性或結合活性。Setsoffunctionsmakeupabiologicalprocess.insulinbindinginsulinreceptoractivity17CellularComponentwhereageneproductacts(細胞中的位置指基因產物位于何種細胞器或基因產物組中(如糙面內質網,核或核糖體,蛋白酶體等))18BiologicalProcess生物學途徑是由分子功能有序地組成的,具有多個步驟的一個過程。(細胞生長和維持、信號傳導、嘧啶代謝或α-配糖基的運輸)。celldivisiongluconeogenesis19BiologicalProcess20lipocalin21以樹狀圖形式顯示的GO詞匯之間的關系22Perspective3:Proteinlocalization23proteinPerspective3:Proteinlocalization24ProteinlocalizationProteinsmaybelocalizedtointracellularcompartments,cytosol,theplasmamembrane,ortheymaybesecreted.Manyproteinsshuttlebetweenmultiplecompartments.Avarietyofalgorithmspredictlocalization,butthisisessentiallyacellbiologicalquestion.很多蛋白質不能被單一地確定存在于細胞一個固定位置上。例如膜聯(lián)蛋白和小G蛋白家族就轉移于胞質和膜之間(有時在胞質內,有時在膜上)。這種轉移運動取決于是否有特定的細胞信號存在,例如鈣離子。25http://psort.nibb.ac.jp26/software/TMPRED.form.html2728Localizationof2,900yeastproteinsMichaelSnyderandcolleaguesincorporatedepitopetagsintothousandsofS.cerevisiaecDNAs,andsystematicallylocalizedproteins(Kumaretal.,2002).Seeforadatabaseincluding2,900fluorescencemicrographs.29Perspective4:

ProteinfunctionFunctionreferstotheroleofaproteininthecell.Wecanconsiderproteinfunctionfromavarietyofperspectives.301.Biochemicalfunction(molecularfunction)RBPbindsretinol,couldbeacarrier例子:酶結構蛋白轉運蛋白細胞中不存在沒有任何功能的蛋白。312.FunctionalassignmentbasedonhomologyRBPcouldbeacarriertooOthercarrierproteins增味劑結合蛋白是lipocalins的一個成員,也被認為是一個載體蛋白323.FunctionbasedonstructureRBPformsacalyxX射線晶體衍射顯示RBP形成一個類似茶杯的結構,有一圈疏水氨基酸組成,充當一個配體結合位點334.FunctionbasedonligandbindingspecificityRBPbindsvitaminA345.FunctionbasedoncellularprocessDNARNARBPisabundant,soluble,secreted356.FunctionbasedonbiologicalprocessRBPisessentialforvision367.Functionbasedon“proteomics”orhighthroughput“functionalgenomics”Highthroughputanalysesshow...RBPlevelselevatedinrenalfailureRBPlevelsdecreasedinliverdisease37Functionalassignmentofenzymes:

theEC(EnzymeCommission)systemEC號類別描述酶的數(shù)目子類的例子1.-.-.-氧化還原酶10031.1.-.-——作用于CH-OH基團1.2.-.-——作用于醛類或氧絡集團2.-.-.-轉移酶10762.1.-.-——轉移—碳基團3.-.-.-水解酶11254.-.-.-裂解酶3565.-.-.-異構酶1566.-.-.-連接酶12638Functionalassignmentofproteins:ClustersofOrthologousGroups(COGs)39Proteomics:HighthroughputproteinanalysisProteomicsisthestudyoftheentirecollectionofproteinsencodedbyagenome“Proteomics”referstoalltheproteinsinacelland/oralltheproteinsinanorganism Large-scaleproteinanalysis 2Dproteingels Yeasttwo-hybrid RosettaStoneapproach……40ClassicalbiochemicalapproachIdentifyanactivityDevelopabioassayPerformabiochemicalpurification Strategies:size,charge,hydrophobicityPurifyproteintohomogeneityClonecDNA,expressrecombinantproteinGrowcrystals,solvestructure4142Two-dimensionalproteingelsFirstdimension:isoelectricfocusing

Seconddimension:SDS434445464748Evaluationof2Dgels(IEF/SDS)Advantages: Visualizehundredstothousandsofproteins ImprovedidentificationofproteinspotsDisadvantages: Limitednumberofsamplescanbeprocessed Mostlyabundantproteinsvisualized Technicallydifficult49Affinitychromatography/massspecBaitproteinGST50Affinitychromatography/massspecBaitproteinGSTAddyeastextractProteincomplexesbindMostproteinsdonotbind51Affinitychromatography/massspecBaitproteinGSTEluteRungelMALDI-TOFIdentifycomplexes52Affinitychromatography/massspecDataoncomplexesdepositedindatabaseshttp://www.bind.ca535455Theyeasttwo-hybridsystemReportergeneBaitproteinDNABindingPreyproteinDNAactivationIsolateandsequencethecDNAofthebindingpartneryouhavefoundWewilllearnaboutitlaterwhenwestudyproteininteractionnetworks56red=cellularrole&subcellularlocalizationofinteractingproteinsareidentical;blue=localiationsareidentical;green=cellularrolesareidentical57TheRosettaStoneapproachMarcotteetal.(1999)andothergroupshypothesizedthatsomepairsofinteractingproteinsareencodedbytwogenesinmanygenomes,butoccasionallytheyarefusedintoasinglegene.Byscanningmanygenomesforexamplesof“fusedgenes,”severalthousandprotein-proteinpredictionshavebeenmade.58YeasttopoisomeraseIIE.coligyraseBE.coligyraseATheRosettaStoneapproach59羅賽塔石碑60GeneFusion(Rosettastonemethod)G1:G2:E.coliYeasttrpAtrpBTryptophansynthasesubunitsAandB,fusedinyeast.Itisbasedontheobservationthatsomeinteractingproteins/domainshavehomologsinothergenomesthatarefusedintooneproteinchain,aso-calledRosettaStoneprotein.61Howmany“genefusions”?3genomes88genefusions179genomes?fusionsMarcotteE.coli:6809Yeast:4550262protein[1]Molecularbiology[4]Proteinfunction[2]Proteinfamilies[3]ProteinlocalizationGeneontology(GO):--cellularcomponent--biologicalprocess--molecularfunction63Perspective2:

Proteinfamily,domainsandmotifs為什么關注蛋白質家族?64基因重復65蛋白質同源序列和家族在目前所有已知的數(shù)據(jù)庫中均沒有發(fā)現(xiàn)同源序列的蛋白質。

它的其他性質(如跨膜區(qū)結構域、磷酸化位點、預測出的二級結構等)也會給我們了解該蛋白質的結構或功能提供一些線索。

有直系同源序列或旁系同源序列的蛋白質。

這種蛋白質至少能找到一條同源序列,且兩條序列存在具有顯著相似性或顯著特征的區(qū)域。這些有顯著序列相似性或顯著結構特征的區(qū)域有很多名稱,如簽名(signature)、結構域(domain)、模塊(module)、模塊元件(modularelement)、折疊子(fold)、模體(motif)、模式(pattern)或重復(repeat)。66DefinitionsSignature:aproteincategorysuchasadomainormotifDomain:aregionofaproteinthatcanadopta3Dstructureafoldafamilyisagroupofproteinsthatshareadomainexamples: zincfingerdomain immunoglobulindomainMotif(orfingerprint):ashort,conservedregionofaproteintypically10to20contiguousaminoacidresidues67簽名(signature)簽名(signatures)的概念很寬廣,它確定一個蛋白質分類,可能指結構域(domain)、家族(family)或模體(motif)。僅考慮單獨的一個蛋白質時,我們僅能得到很少一部分關于其結構和功能的信息;但是將它與相關序列比對找到保守部分后,從保守序列中可以推測出很多信息。簽名主要可以分為兩類,每一類簽名都可以用各自的方法確定。結構域(domain)是蛋白質中能折疊成特定三維結構的一段區(qū)域。結構域也能被稱為模塊。一組擁有相同結構域的蛋白被稱為一個蛋白質家族。模體(motif,或稱指紋,fingerprint)是蛋白質序列中較短的保守區(qū)域。模體的長度一般是10—20個氨基酸殘基,盡管實際中的模體有可能更長或更短。一些簡單而常見的模體在一組蛋白質中發(fā)現(xiàn)并不意味著這組蛋白質是同源的,例如形成跨膜區(qū)結構域或保守磷酸化位點的模體。而另一些情況中,小的模體則是一個蛋白質家族的標志(如prosite)。68InterPro對相關術語的定義

家族:InterPro定義一組進化上相關的共享一個或多個結構域的蛋白質為一個家族結構域:InterPro數(shù)據(jù)庫中的結構域是指一個獨立的結構單元,他們可能單獨存在也可能與其他結構域相連。結構域也是進化上相關的序列。69SMART對相關術語的定義

結構域:保守的結構單元,包含獨特的二級結構組合和疏水內核。具有相同功能的同源結構域往往具有序列上的相似性。模體:序列模體是指短的保守的多肽段。含有相同模體的蛋白質并不一定是同源的。70結構域和motif血清蛋白(581氨基酸):3個類似結構域,每個約180個氨基酸膠原蛋白中存在著幾十個有GXY三肽組成的重復片段RNA聚合酶最大亞基C端結構域中有52個重復的六肽片段:[T/S]PTSP[N/T].PrP(瘋牛病):有四個連續(xù)對八肽:PHGG[G/S]WGQ許多細胞內信號轉導的蛋白質含有SH2肽段(與磷酸化絲氨酸/蘇氨酸結合的肽段)71DefinitionofamotifAmotif(orfingerprint)isashort,conservedregionofaprotein.Itssizeisoften10to20aminoacids.Simplemotifsincludetransmembranedomainsandphosphorylationsites.Thesedonotimplyhomologywhenfoundinagroupofproteins.PROSITE(/prosite)isadictionaryofmotifs.InPROSITE,apatternisaqualitativemotifdescription(aproteineithermatchesapattern,ornot).Incontrast,aprofileisaquantitativemotifdescription.WewillencounterprofilesinPfam,ProDom,SMART,andotherdatabases.72蛋白質motif~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTMlipocalin1LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTFodorant-bindingprotein2aTKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHRprogestagen-assoc.endo.VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTVapolipoproteinDVKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTFretinol-bindingproteinLQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLFneutrophilgelatinase-ass.VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFLprostaglandinD2synthaseVQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRWalpha-1-microglobulinPKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD...complementcomponent873例子在HIV-1pol蛋白的天冬氨酸蛋白酶(aspartylproteases)結構域中,天冬氨酸殘基(asp)對酶的催化活性至關重要。天冬氨酸蛋白酶模體由12個氨基酸殘基構成:

[LIVMFGAC]-[LIVMTADN]-[LIVFSA]-D-[ST]-G-[STAV]-[STAPDENQ]-x-[LIVMFSTNC]-x-[LIVMFGTA]。幾乎所有的lipocalins中都可以找到一個短的模體GxW。PROSITE數(shù)據(jù)庫定義的lipocalins的保守氨基酸模體是:

[DENG]-x-[DENQGSTARK]-x(0,2)-[DENQARK]-[LIVFY]-{CP}-G-{C}-W-[FYWLRH]-x-[LIVMTA]。74模體氨基酸殘基修飾的模體蛋白質細胞定位的模體與活性有關的模體其他模體75氨基酸殘基修飾的模體糖蛋白中被N糖基化的天冬酰胺(N)一定是處于N{P}[S/T]中的。在一些與凝血過程相關的蛋白質中,被羥化的天冬氨酸或天冬酰胺處于CX[D/N]X4@XCXC的模體中。@為芳香性氨基酸,X4為任意氨基酸構成的四肽。被磷酸化的絲氨酸和蘇氨酸在不同蛋白質中處于不同的模體中。組蛋白中為SP##(#為帶正電的氨基酸)。蛋白激酶PKA或PKG中的模體是##X[S/T]。76當C端的4個氨基酸序列為KDEL或HDEL時,蛋白質就被局限在細胞的內質網中能進入細胞核的肽鏈都有特定的序列模體。1.PKKKRKVorKRX10KKKK;2.蛋白激酶中,KRX21RXKXKXK;3.#RX10#XX。蛋白質細胞定位的模體77Motif與細胞定位78與活性有關的模體在許多蛋白水解酶中,與催化有關的活性中心由D/E-H-S組成。在ATP和GTP結合蛋白質中存在著一種序列為GXXXXGK[T/S]的模體:

Rho家族GDGAXGKTATP合成酶GGAGVGKTV

肌球蛋白重鏈GESGSGKT

胸苷激酶GXXGXGKTT

胸苷酸激酶GXPGXGKGT這個模體可以形成一個特定的結構,與核苷酸結合。79其他模體含有半胱氨酸的模體。在一些蛋白質中存在著特定的序列模體,其中半胱氨酸的位置是相對固定的(鋅指)。未知功能的模體。如一些細胞因子受體的膜外側接近膜處有WKS和WSKWS序列模體,但其功能還不清楚。80模體的意義總結:模體(

motiforfingerprint)

是蛋白質序列中較短的保守區(qū)域,是按照一定的模式排列的氨基酸殘基,長度一般在10~20殘基之間。一些簡單而常見的模體在一組蛋白質中發(fā)現(xiàn)并不意味著這組蛋白質是同源的(跨膜區(qū)結構域或磷酸化位點)。在另一些情況下,模體可以成為一個蛋白質家族的標志,反映了這個家族的親緣關系??梢岳眠@個族徽尋找宗親。(載脂蛋白超家族)1986年至今,國際生物化學學會主編的《TrendsinBiochemicalScience》一直有專欄刊登不同類型的的序列模體(也同時刊登結構域、模塊等)。81結構域和模體:蛋白質的模塊性質82結構域的由來從球狀蛋白到晶體衍射實驗。(溶菌酶)免疫球蛋白的例子蛋白質的折疊過程20世紀60~70年代,提出結構域(domain)的概念。從水解實驗,可以看出結構域能組成一個結構單元。結構域常由不同的外顯子編碼。83DefinitionofadomainAccordingtoInterProatEBI(http://www.ebi.ac.uk/interpro/):Adomainisanindependentstructuralunit,foundaloneorinconjunctionwithotherdomainsorrepeats.Domainsareevolutionarilyrelated.AccordingtoSMART(http://smart.embl-heidelberg.de):Adomainisaconservedstructuralentitywithdistinctivesecondarystructurecontentandahydrophobiccore.Homologousdomainswithcommonfunctionsusuallyshowsequencesimilarities.84總結結構域的概念:從最初的一級結構中較長的重復片段,上升為有特征的立體結構,而且他們有一定生物功能,并且對應著基因中的某些外顯子,為它們編碼、形成肽鏈后,還能自行折疊成穩(wěn)定的結構。總之,結構域可看作是一個“entity”。一般來說,如果兩個蛋白質擁有一個相同的結構域,那么這兩個蛋白質有相關的功能。序列模體是一個序列上經概括后“求同存異”的“框架”,是在一段肽段中關鍵位置上氨基酸殘基的組合模式。二者的區(qū)別在于結構域有“結構”的含義。85人類中15個最常見的結構域86蛋白質共享一個結構域ExtendingalongthelengthofaproteinOccupyingasubsetofaproteinsequenceOccurringoneormoretimeslipocalin免疫球蛋白結構域纖連蛋白重復區(qū)

與甲基化的DNA結合的轉錄因子家族87Exampleofaproteinwithdomains:MethylCpGbindingprotein2(MeCP2)MBDTRDTheproteinincludesamethylatedDNAbindingdomain(MBD)andatranscriptionalrepressiondomain(TRD).MeCP2isatranscriptionalrepressor.MutationsinthegeneencodingMeCP2causeRettSyndrome,aneurologicaldisorderaffectinggirlsprimarily.88ResultofanMeCP2blastpsearch:Amethyl-bindingdomainsharedbyseveralproteins89這些蛋白質的大小差別很大,并且結合甲基化DNA的結構域也出現(xiàn)在蛋白質的不同位置上。從BLAST的匹配結果看,這些蛋白質除了甲基化DNA結構域以外沒有其他序列上有顯著相似性的區(qū)域了

90多個拷貝的結構域Occurringoneormoretimes很多結構域在蛋白質中有多個拷貝,兩個最常見的例子就是免疫球蛋白結構域和纖連蛋白重復區(qū)。這些結構域在蛋白質的胞外區(qū)極其常見91Areproteinsthatshareonlyadomainhomologous?蛋白質家族是怎么定義的呢?是否一組僅共有一個結構域的同源蛋白質就可以被稱為一個蛋白質家族呢?上面的例子中,5個蛋白中的MBD結構域顯然是同源的(來自于同一祖先);雖然它們除了MBD結構域外沒有顯著相似的區(qū)域,但是這組蛋白仍舊構成一個蛋白質家族。

92蛋白質家族蛋白質家族是根據(jù)蛋白質的同源性來定義的;同一個家族內的蛋白質就是一組進化上相關的蛋白質,這些蛋白質共享一個或多個結構域。什么邏輯?1.在一級結構比較的基礎上,發(fā)現(xiàn)很多蛋白質存在同源性;2.(相似性往往是區(qū)域性的)一些同源性可以簡單的用結構域加以表征;3.為了(計算機分類)方便,由結構域將相關的蛋白質歸屬為一個蛋白質家族。在蛋白質家族分類的過程中,有時向下細分為亞家族(subfamily),有時又向上歸并為超家族(superfamily)93Challengesfor“家族分類”并系同源蛋白:

類視紫紅質受體超家族:視覺、聽覺、嗅覺、激素、神經傳導的受體

脊椎動物進化過程早期分化而得到的不同視覺受體對不同的波長敏感人類視覺系統(tǒng)受體包括對紅光和綠光等長波敏感的各種蛋白質分子,它們之間區(qū)別不大,其序列相似性程度為95%左右。這些視覺系統(tǒng)長波受體分子與藍光等短波受體分子以及視紫紅質等非色彩受體分子卻相差很遠,序列平均相似性為43%。可見,由種類繁多的并系同源蛋白和直系同源蛋白所產生的序列復雜性,對蛋白質家族分類研究是一個巨大的挑戰(zhàn)。

94兩個“家族”牛胰核糖核酸酶家族。絲氨酸蛋白抑制劑家族。95Exampleofamultidomainprotein:HIV-1pol1003aminoacidslongcleavedintothreeproteinswithdistinctactivities:--aspartylprotease(天冬氨酸蛋白酶

)--reversetranscriptase(反轉錄酶

)--integrase(整合酶

)WewillexploreHIV-1polandotherproteinsattheExpertProteinAnalysisSystem(ExPASy)server.Visit/HIV-1的pol(polymerase,聚合酶)969798SwissProtentryforHIV-1pollinkstomanydatabases99ProDomentryforHIV-1polshowsmanyrelatedpro

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論