質(zhì)譜數(shù)據(jù)分析_第1頁
質(zhì)譜數(shù)據(jù)分析_第2頁
質(zhì)譜數(shù)據(jù)分析_第3頁
質(zhì)譜數(shù)據(jù)分析_第4頁
質(zhì)譜數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩121頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、蛋白質(zhì)組學(xué)的數(shù)據(jù)分析1復(fù)習(xí)蛋白質(zhì)組的定義,蛋白質(zhì)組學(xué)和基因組學(xué)的區(qū)別?由一個基因組,或一個細(xì)胞、組織表達(dá)的所有蛋白質(zhì)。蛋白質(zhì)組的概念與基因組的概念有許多差別,它隨著組織、甚至環(huán)境狀態(tài)的不同而改變。 在轉(zhuǎn)錄時,一個基因可以多種mRNA形式剪接,一個蛋白質(zhì)組不是一個基因組的直接產(chǎn)物,蛋白質(zhì)組中蛋白質(zhì)的數(shù)目有時可以超過基因組的數(shù)目。2Key advantage of proteomics Researchers work on the level of gene products and deal with genes that are really expressed to give a dete

2、ctable PRODUCT and are not just expressed“ which only says they produce a detectable mRNA but it is not clear whether there is a gene product or not.Key limitation of proteomicsUsually, only a fraction of the proteins synthesized can be detected in a proteomics experiment, whereas the expression of

3、ALL genes can be monitored in a whole-genome array experiment.Key prerequisite of proteomicsA genome sequence for the investigated organism or at least a collection of many cDNA sequences is required.From Yogita Mantri & Arvind Gopus presentation in 2003 3蛋白質(zhì)組學(xué)研究的目標(biāo)蛋白質(zhì)鑒定蛋白質(zhì)特性-如翻譯后修飾蛋白質(zhì)定量-相對定量、絕對定量樣品

4、間比較定性-不同樣品間含有的蛋白類型的差異定量-不同樣品間含有的蛋白濃度/含量的差異翻譯后修飾-不同樣品間是否存在不同的翻譯后修飾形式蛋白質(zhì)功能4把單個蛋白/多肽從復(fù)雜樣品中分離出來非常困難,在“組學(xué)”實(shí)驗(yàn)中一般達(dá)不到這個效果56Ionization methodsElectrospray mass spectrometry (ESI-MS)Liquid containing analyte is forced through a steel capillary at high voltage to electrostatically disperse analyte. Charge impa

5、rted from rapidly evaporating liquid. Matrix-assisted laser desorption ionization (MALDI)Analyte (protein) is mixed with large excess of matrix (small organic molecule)Irradiated with short pulse of laser light. Wavelength of laser is the same as absorbance max of matrix.78MALDI m/z spectrum of a pe

6、ptide mixture9The QuadrupoleThe quadrupole consists of four parallel metal rods. Ions travel down the quadropole in between the rods. Only ions of a certain m/q will reach the detector for a given ratio of voltages: other ions have unstable trajectories and will collide with the rods.This allows sel

7、ection of a particular ion, or scanning by varying the voltages. sourcedetectorVoltageFilters out all m/z values except the ones it is set to passObtains a mass spectrum by sweeping across the entire mass range1011Collects and store ions in order to perform MS-MS analyses on them.Ion Trap Mass Analy

8、zerTrapped ionsIons inIons outThe trap consists of a top and a bottom electrode and a ring electrode around the middle.Ions are ejected on the basis of their m/z values.To monitor the ions coming from the source, the trap continuoulsy repeats a cylcle of filling the trap with ions and scanning the i

9、ons according to their m/z values.Separates the mass analysis and ion isolation events in time (using a single mass analyzer)Ionizationion transfer/trappingparent ion isolation/ fragmentationdaughter ion detection12A mass analyzer for determining the mass-to-charge ratio (m/z) of ions based on the c

10、yclotron frequency of the ions in a fixed magnetic field.All ions are detected simultaneously over some given period of timeIons are injected into a magnetic field , that causes them to travel in circular paths. Excitation with oscillating electrical field increases the radius and enables a frequenc

11、y measurement Fourier Transform MS Fourier transform ion cyclotron resonance mass spectrometry, FTICMSICR can be used with different ionization methods, ESI, MALDIA short sweep of frequencies is used to excite all ions.The complex spectrum of intensity/time is analyzed with Fourier Transform to extr

12、act the m/z componetsHigh resolutionHigh accuracyVery sensitive (the minimal quantity for detection is in order of several hundered ionsNon destructive the ions dont hit the detection plate so they can be selected for further fragmentation13Orbitrap靜電軌道阱質(zhì)譜傅里葉變換原理 Mass Spectrometry Reviews,Volume 27,

13、 Issue 614蛋白質(zhì)組學(xué)研究的目標(biāo)蛋白質(zhì)鑒定Top-down策略(質(zhì)量紋方法,MS譜圖)Bottom-up策略(de novo測序和數(shù)據(jù)庫檢索,MS/MS譜圖)蛋白質(zhì)修飾蛋白質(zhì)定量-相對定量、絕對定量樣品間比較蛋白質(zhì)功能15Top-down proteomics16一級質(zhì)譜圖指紋數(shù)據(jù)庫17多肽質(zhì)量紋鑒定多肽質(zhì)量紋(Peptide Mass Fingerprinting,PMF)是從一級質(zhì)譜(MS)中鑒定多肽的主要方法。多肽質(zhì)量紋一般都用于分析2DE-MS的結(jié)果,不適宜分析多個蛋白質(zhì)的混合物。18多肽質(zhì)量紋鑒定蛋白質(zhì)經(jīng)過酶解后,送入質(zhì)譜儀,得到一級質(zhì)譜,即多肽離子的m/z。從一級質(zhì)譜鑒定蛋

14、白質(zhì)的算法主要用在MALDI-TOF產(chǎn)生的質(zhì)譜圖上。目前來說,由MALDI-TOF質(zhì)譜儀產(chǎn)生的質(zhì)譜圖精度較高。另一個問題是,ESI產(chǎn)生的質(zhì)譜圖中的離子通常帶有很多電荷,而MALDI質(zhì)譜圖中的離子一般只帶一個電荷,比較容易計(jì)算。19蛋白序列數(shù)據(jù)庫質(zhì)量紋算法的核心是將實(shí)驗(yàn)獲得的蛋白指紋與數(shù)據(jù)庫中的蛋白指紋進(jìn)行匹配,為此,必須首先找到一個合適的蛋白質(zhì)序列數(shù)據(jù)庫在網(wǎng)上可以查詢到最新的蛋白序列數(shù)據(jù)庫,如NCBI,UniProt, SwissProt等等下載FASTA格式20Protein sequence database21Uniprot(包含Swissprot和Tremble)22Integr823

15、FASTA格式的數(shù)據(jù)庫FASTA格式包含蛋白的名稱和氨基酸序列。24虛擬酶解有了蛋白序列的信息,我們就可以進(jìn)行鑒定。對應(yīng)于送進(jìn)質(zhì)譜儀的樣品,首先找到數(shù)據(jù)庫里的序列的酶切位點(diǎn)。25質(zhì)量排列這樣可以產(chǎn)生一系列的多肽,我們可以計(jì)算每個多肽的分子量。最后一個R的質(zhì)量多加了18,這是因?yàn)槲覀儗懺谙旅娴氖菤埢姆肿恿俊?6肽和肽鍵27質(zhì)量排列把所有多肽的分子量排序。28質(zhì)量紋如此,質(zhì)譜圖上的質(zhì)量就可以與多肽上的質(zhì)量相匹配。29質(zhì)量紋這就是多肽質(zhì)量紋(PMF)的最基礎(chǔ)的思路。質(zhì)量紋算法成立的基礎(chǔ),在于酶切的特異性以及多肽離子質(zhì)量的精確測定問題?30PMF中的問題第一個問題:質(zhì)量相近的多肽怎么處理?在現(xiàn)實(shí)的蛋

16、白數(shù)據(jù)庫中,多肽的數(shù)量是很龐大的。這里面難保不會有質(zhì)量非常相近的多肽。這樣,就造成了質(zhì)譜圖上的一個峰可能匹配不止一個多肽,于是我們就難以知曉這張質(zhì)譜圖究竟代表哪個蛋白。31質(zhì)量相近的多肽多肽M+H+DGAPLESSSR1019.0490REGESTPSR1019.0520DFPIANGER1019.0940DPLASSSWR1019.0940YVPLKDQR1019.1800HLQLPAPSR1019.1830VLFLNGIDK1019.2200Peak m/z: 1019.0832解決方案第一個解決的辦法是限制用來搜索的數(shù)據(jù)庫。比如,你如果做的試驗(yàn)用的是小鼠的組織,那么你可以只在小鼠的數(shù)據(jù)庫

17、中搜索,這樣就可以減低出現(xiàn)這種情況的可能性。第二個解決的辦法是要求必須有多個多肽和數(shù)據(jù)庫相匹配,才做出最后的蛋白質(zhì)鑒定。33多匹配DFPIANGER 1019.09EPISVSSQQMLK 1347.56VLDALDSIK 974.13Carbonic anhydrase II SHHWGYGKHBGPZHWHKDFPIANGERQSPVNIDTKAVVQDPALKPLALVYGEATSRRMVNNGHSFNVEYDDSQDKAVLKDGPLTGTYRLVQFHFHWGSSBBQGSEHTVDRKKYAAELHLVHWNTKYGDFGTAAQQPDGLAVVGVFLKVGDANPALQKVLD

18、ALDSIKTKGKSTDFPNFDPGSLLPNVLDYWTYPGSLTTPPLLESVTWIVLKEPISVSSQQMLKFRTLNFNAEGEPELLMLANWRPAQPLKNRQVRGFPK多匹配可以大大降低隨機(jī)匹配的概率,從而增加結(jié)果的可信度34長蛋白和短蛋白第二個問題:長蛋白可能會更容易的被匹配。因?yàn)殚L蛋白里的多肽數(shù)目較多,以概率來算,匹配上的幾率也會比較大。質(zhì)量紋算法必須考慮這個問題,給短蛋白一定的補(bǔ)償。35多個蛋白的情況第三個問題就是在一張質(zhì)譜圖中可能有多個蛋白存在。通常,MALDI-TOF是與雙向電泳連接使用。雙向電泳的一個電泳點(diǎn)上可能有2-3個蛋白,這樣就增加了鑒定的難度。

19、由于無法預(yù)知一個電泳點(diǎn)上有多少蛋白質(zhì),PMF的效果可能會受到很大的影響。36多肽質(zhì)量紋:小結(jié)質(zhì)量紋算法是用一級質(zhì)譜鑒定蛋白質(zhì)的經(jīng)典方法。質(zhì)量紋算法的效果受到很多方面的限制,首先是儀器精度的限制,其次是樣品中可能有多個蛋白的限制。這使得質(zhì)量紋算法不是理想的分析復(fù)雜混合物中蛋白成分的方法。37蛋白質(zhì)組學(xué)研究的目標(biāo)蛋白質(zhì)鑒定Top-down策略(質(zhì)量紋方法,MS譜圖)Bottom-up策略(de novo測序和數(shù)據(jù)庫檢索,MS/MS譜圖)蛋白質(zhì)修飾蛋白質(zhì)定量-相對定量、絕對定量樣品間比較蛋白質(zhì)功能38利用二級質(zhì)譜圖我們剛才談到了,多肽質(zhì)量紋有其先天的不足。其中,最糟糕的是它不能處理多個蛋白的混合物。

20、如果我們能夠處理混合物,就可以減少很多用于純化上的時間和精力。那么,怎么才能從混合物中鑒定蛋白呢?這就要用到二級質(zhì)譜。39From Nesvizhskiis lecture at ISB40Mol Cell Proteomics. 2011 Nov;10(11):R111.009522.41From Jimmy Engs lecture at ISB 42利用二級質(zhì)譜圖在一級質(zhì)譜圖中,選擇其中的一個峰(母離子),再把這個離子打碎(CID,ECD),檢測碎片離子的m/z,就得到一張二級質(zhì)譜圖。這里的假設(shè)是一級質(zhì)譜中的一個峰就對應(yīng)了一個多肽。對于一張一級質(zhì)譜圖,可以選擇多個峰進(jìn)行二級質(zhì)譜的操作。這

21、樣就可以適應(yīng)樣品里有多個蛋白的情況。43典型二級質(zhì)譜圖44轉(zhuǎn)換成MGF文件譜圖名稱母離子電荷多肽質(zhì)量左列:子離子m/z右列:子離子峰強(qiáng)度45母離子的碎裂過程CID,即Collision-induced Dissociation,是通過撞擊使得多肽的肽鍵斷裂的過程。在做二級質(zhì)譜的試驗(yàn)時,質(zhì)譜儀選擇一級質(zhì)譜中的一個峰,也就是對應(yīng)質(zhì)荷比的這些離子,讓這些離子高速撞擊質(zhì)譜儀中的惰性氣體,使其肽鍵斷裂,這就是CID?,F(xiàn)在逐漸被HCD (High-energy C-trap Dissociation)所取代。HCD的碎裂規(guī)律與CID相似,但碎裂的能量更高。46From Jimmy Engs lecture

22、 at ISB a,b,y系列離子最常見47b1b2b3y1y2y3LFGKRelative Intensitym/zFLGK+FLGK+FLGK+CIDFLGK+FLGK+FLGK+b1b2b3y3y2y1FLGK+FLGK+Theoretical CID of a Tryptic PeptideKGLFMS/MSSpectrumParentions(464.29)Daughter ionsNon-dissociatedParent ions48如何計(jì)算子離子的m/z當(dāng)子離子電荷為z時,b離子=(氨基酸殘基分子量+H*z)/zY離子=(氨基酸殘基+H2O+H*z)/zbi+yn-i=多肽分子

23、量(M)+2*z*H49小練習(xí)給定多肽序列FDTK,畫出其理論二級質(zhì)譜圖,包括+1電荷的b/y離子和+1電荷的母離子,假設(shè)所有離子的強(qiáng)度相等氨基酸殘基的分子量為F 147, D 115, T 101,K 12850答案M+H=510148263364147248363Relative Intensitym/z51051一些常見的其它離子Neutral loss: 某些酸性氨基酸可能會在CID中丟失一個水分子(H2O),而堿性氨基酸會在CID中丟失一個氨分子(NH3)。148263364147248363Relative Intensitym/z508FDTK,D是酸性氨基酸,有可能b2,b3,

24、y3發(fā)生中性丟失,假設(shè)是b3其它氨基酸也可能發(fā)生中性丟失34652Immonium ions: 氨基酸在CID過程中可能產(chǎn)生形如H2N=CHR+的Immonium ions(亞胺離子)。根據(jù)immonium ions可以判斷哪些氨基酸在多肽中存在。53From Jimmy Engs lecture at ISB a,b,y系列離子最常見54Neutral Loss和Immonium Ions表Amino AcidNeutral LossImmonium IonsA44G30S1860P70V72T1874C3476L/I86N1787D1888Q17101K17101E18102M48104H

25、110F120R17129Y136W159Amino AcidNeutral LossImmonium Ions55148263364147248363Relative Intensitym/z508FDTK,假設(shè)產(chǎn)生了T的亞胺離子3467456多肽的修飾有時,二級質(zhì)譜中需要考慮某些氨基酸可能被修飾(磷酸化、糖基化等),這些修飾可能改變殘基的分子量。質(zhì)譜儀并不能直接鑒定修飾基團(tuán),只能檢測到氨基酸殘基分子量的變化,再與已知的修飾相對照57Unimod58小練習(xí)2給定多肽序列FDTK,畫出其理論二級質(zhì)譜圖,包括+1電荷的b/y離子和+1電荷的母離子,假設(shè)所有離子的強(qiáng)度相等,其中氨基酸殘基T上有磷酸

26、化修飾(質(zhì)量加80)。氨基酸殘基的分子量為F 147, D 115, T 101,K 12859答案M+H=510+8060其它可能的離子a離子,CID和HCD譜圖中也很常見 a ion=b ion-CO 中間片段 (internal fragments), 多肽骨架同時進(jìn)行了b和y類型的碎裂的產(chǎn)物,最多可達(dá)5個氨基酸殘基側(cè)鏈碎裂產(chǎn)物,可用來區(qū)分亮氨酸和異亮氨酸另外,子離子可能帶不只一個電荷,如母離子為+3電荷,子離子有可能為+1,+2,+3電61理論質(zhì)譜圖與實(shí)驗(yàn)質(zhì)譜圖實(shí)驗(yàn)譜圖遠(yuǎn)遠(yuǎn)比理論質(zhì)譜圖復(fù)雜,給多肽鑒定帶來了很大的難度。即使是b/y離子,也不一定能全部被檢測到(y離子更容易被鑒定)存在噪

27、聲峰和質(zhì)量誤差罕見、未知的碎裂離子類型,很難被識別62通過de novo方法手工鑒定以下二級質(zhì)譜圖代表的多肽序列M+2H = 1295.0 Da質(zhì)量誤差0.5Da63九步鑒定法1。尋找immonium ions。2。尋找b2 ion。3。尋找y1 ion。記住bn+yn-1=多肽分子量(M)+2H4。尋找yn-1 ion。先找y,后找b5。順著yn-1, yn-2, 的順序繼續(xù)尋找y系列的離子。6。順著b2, b3, 的順序繼續(xù)尋找b系列的離子。64九步鑒定法7。計(jì)算多肽的分子量。8。檢查鑒定的結(jié)果。9。試著解釋更多的峰。65氨基酸質(zhì)量速查表注意我們給出的是殘基的分子量CodeResidue

28、MassG57A71S87P97V99T101C103L/I113N114D115K/Q128E129M131H137F147R156Y163W186CodeResidue Mass66b2離子的m/z表GASPVTCL/INDQ/KEMHFRYWG115A129143S145159175P155169185195V157171187197199T159173189199201203C161175191201203205207L/I171185201211213215217227N172186202212214216218228229D17318720321321521721922923023

29、1QK186200216226228230232242243244257E187201217227229231233243244245258259M189203219229231233235245246247260261263H195209225235237239241251252253266267269275F205219235245247249251260262263276277279285295R214228244254256258260270271272285286288294304313Y221235251261263265267277278279292293295301311320

30、324W24425827428428628829030030130231531631832433434334737367手工鑒定二級質(zhì)譜圖1。尋找Immonium ions:沒有找到。2。尋找b2 ion:261.8。由于有234.0的a2 ion和1033.3的yn-2 ion,故肯定b2 ion為261.8。3。尋找y1 ion:由于已知多肽是由胰酶(Trypsin)酶解,故而C末端只能是K或R,所以雖然找不到y(tǒng)1 ion,但是可以在1148.8處找到對應(yīng)于K的bn-1 ion。CID68鑒定4。尋找yn-1 ion:已經(jīng)找到了。5。繼續(xù)尋找y系列的離子:從1033開始,可以分別找到934

31、,748,633,532和461作為y系列的離子,把它們寫出來:69鑒定6。繼續(xù)尋找b系列的離子:從834.9開始,似乎只有1019.7一個離子沒有鑒定了,它與1148.8之間形成一個氨基酸E,但與834.9之間相差185Da??梢酝ㄟ^b2離子的m/z表查到對應(yīng)的氨基酸序列:有AN, NA, QG, GQ四種序列都滿足185Da的條件(這樣用的時候注意要減1)。70鑒定7。計(jì)算多肽的分子量:經(jīng)計(jì)算,多肽的分子量約為1294.6Da,接近測得的分子量1295.0Da。8。檢查鑒定的結(jié)果:由于沒有觀測到immonium ions,我們暫時沒有輔助信息來幫助我們檢查這一鑒定結(jié)果。9。試著解釋更多的峰

32、:發(fā)現(xiàn)817位置的峰是834位置的峰的neutral loss。71De novo Sequencing這種僅通過二級質(zhì)譜圖來鑒定多肽的方法又稱為De novo Sequencing??梢杂糜?jì)算機(jī)程序使得鑒定問題自動化,計(jì)算機(jī)程序的鑒定流程與上面的九步鑒定法略有區(qū)別。當(dāng)我們擁有近乎完美的二級質(zhì)譜圖時,我們可以采用這種De novo Sequencing的辦法。但是,實(shí)際情況中,我們并沒有完美的二級質(zhì)譜圖。我們已經(jīng)從例子中看到,單從質(zhì)譜圖不一定能得到全序列。72鑒定多肽的流程多肽混合物酶解分離質(zhì)譜儀一級質(zhì)譜質(zhì)量紋選擇高峰鑒定多肽質(zhì)譜儀二級質(zhì)譜手工鑒定數(shù)據(jù)庫搜索鑒定多肽73二級質(zhì)譜圖的數(shù)據(jù)庫檢索算

33、法實(shí)際情況中,單從質(zhì)譜圖不一定能得到全序列。 但是,幸運(yùn)的是,我們還有蛋白序列數(shù)據(jù)庫。所以我們可以從數(shù)據(jù)庫里搜索最好的匹配質(zhì)譜圖的多肽,這樣就有了二級質(zhì)譜的數(shù)據(jù)庫搜索算法。74數(shù)據(jù)庫搜索的思路數(shù)據(jù)庫搜索的基礎(chǔ)很簡單,就是理論質(zhì)譜圖和實(shí)驗(yàn)質(zhì)譜圖之間的一個比對。數(shù)據(jù)庫檢索的思路與指紋圖譜方法相似,在這里,每個多肽的“指紋”就是它們通過CID等裂解過程得到的特征子離子列表。75數(shù)據(jù)庫搜索的流程在一個蛋白序列數(shù)據(jù)庫中,可以找出來的,落在質(zhì)譜儀檢測范圍以內(nèi)的多肽,多達(dá)數(shù)百至數(shù)千萬,如果每個多肽都拿來和實(shí)驗(yàn)質(zhì)譜圖做比對的話,需要花費(fèi)的時間是難以接受的。提高搜索速度的關(guān)鍵就是減少搜索的對象數(shù)。76數(shù)據(jù)庫搜索

34、的流程所以,基本上,所有的數(shù)據(jù)庫搜索算法都包括兩個步驟。第一個步驟是篩選數(shù)據(jù)庫里的多肽,根據(jù)其分子量找出所有有可能與質(zhì)譜圖匹配的多肽。第二個步驟就是拿這些選出來的多肽去和質(zhì)譜圖進(jìn)行比對,進(jìn)行打分輸出最高分值的多肽作為一個PSM(Peptide-Spectral Match)7778這張譜圖質(zhì)量如何?79還不錯的匹配?80同一張質(zhì)譜圖,不同的PSM81評價標(biāo)準(zhǔn)理論子離子匹配的數(shù)量、比例高強(qiáng)度的峰是否被匹配y離子連續(xù)性82隨機(jī)匹配即使是一些看起來還不錯的實(shí)驗(yàn)和理論譜圖的匹配,也可能只是隨機(jī)現(xiàn)象而已。隨機(jī)匹配的現(xiàn)象在數(shù)據(jù)庫檢索的過程中非常常見。做一個扔硬幣的游戲,有多大的概率連續(xù)扔出10次硬幣的正面

35、? 這取決于扔硬幣的次數(shù)。10次還是10000次? 實(shí)驗(yàn)和理論譜圖的匹配,與后一種情況更相似83MASCOT scoreMASCOT軟件計(jì)算多肽與譜圖隨機(jī)匹配的概率,并根據(jù)這個概率給出打分-10log10(P)隨機(jī)匹配的概率P,取決于候選多肽的數(shù)量和匹配上的子離子的比例等。質(zhì)譜儀的質(zhì)量誤差越小,隨機(jī)匹配的可能性越低。MASCOT對質(zhì)量紋法的蛋白匹配采取了類似的打分方法84如何理解MASCOT score對一張質(zhì)譜圖,得分最高的多肽匹配并不一定就是正確的匹配,嚴(yán)謹(jǐn)?shù)恼f法是在所有數(shù)據(jù)庫收錄的多肽中,這個匹配是隨機(jī)匹配的概率最低。有可能這張譜圖所代表的肽未被收錄在數(shù)據(jù)庫中。除非已知樣品里有哪些蛋白,

36、不然我們無法得知哪些匹配是正確的。所以需要給定一個分?jǐn)?shù)的閾值,只留下得分在這個閾值之上的匹配85如何理解MASCOT scoremascot打分僅僅對匹配是否是隨機(jī)現(xiàn)象打分,并不評價譜圖質(zhì)量,即使匹配的質(zhì)量很好,仍然有可能是隨機(jī)匹配86其它的打分方式除了MASCOT軟件采用隨機(jī)匹配的概率區(qū)分正確和錯誤的匹配以外,其它軟件采用其它的打分方式打分方程是數(shù)據(jù)庫搜索算法的核心,不同的軟件采取的打分方法不同,相互之間沒有可比性。87SEQUESTXcorr實(shí)驗(yàn)譜圖和理論譜圖比對的交互相關(guān)性(cross-correlation)打分DeltaCn每張實(shí)驗(yàn)譜圖匹配的最好的前兩名多肽的Xcorr差距88匹配的

37、假陽性率如果我們的目的是評價單張或少數(shù)幾張譜圖,那么任務(wù)就已經(jīng)完成了。但在蛋白質(zhì)組學(xué)的實(shí)驗(yàn)中,往往要同時鑒定成千上萬張譜圖,這里引入假陽性率(False Discover Rate)的概念。FDR,指在所有高于給定閾值的多肽-譜圖匹配(PSM)中,隨機(jī)匹配所占的比例。89發(fā)表蛋白質(zhì)組學(xué)數(shù)據(jù)必須報告FDR90為什么FDR如此重要?組學(xué)的特有的“總體”概念假設(shè)共鑒定到100個PSM,每個PSM是隨機(jī)匹配的概率僅為0.01,則這100個PSM中至少有一個隨機(jī)匹配的概率為1使通過不同軟件、檢索條件、閾值設(shè)定等獲得的鑒定結(jié)果具有可比性91采用反相數(shù)據(jù)庫法估計(jì)FDR構(gòu)建反相數(shù)據(jù)庫 (decoy datab

38、ase) 將原數(shù)據(jù)庫(target database)中的所有蛋白序列逐條反轉(zhuǎn),或隨機(jī)打亂順序。 反相數(shù)據(jù)庫中的蛋白數(shù)目,長度,酶切后獲得的多肽的數(shù)目,氨基酸組成均與原數(shù)據(jù)庫相同。 不同的是,這些多肽序列是虛構(gòu)的,不可能在樣品中存在92采用反相數(shù)據(jù)庫法估計(jì)FDR檢索反相數(shù)據(jù)庫 采用相同的條件檢索反相數(shù)據(jù)庫,或者將兩個數(shù)據(jù)庫合并檢索,用來模擬隨機(jī)匹配的過程。FDR估計(jì) FDR=decoy/target or FDR=2*decoy/(target+decoy) 通常要求結(jié)果的FDR在1%以內(nèi)。93數(shù)據(jù)庫搜索:小結(jié)數(shù)據(jù)庫搜索算法的目標(biāo)是在數(shù)據(jù)庫中尋找與二級質(zhì)譜圖最好匹配的多肽 (兩個步驟)。但是實(shí)

39、際的二級質(zhì)譜并不是那么完美的,存在很多隨機(jī)匹配的可能 (打分)估計(jì)FDR是鑒定多肽過程中非常重要的一步通過數(shù)據(jù)庫檢索進(jìn)行多肽鑒定后,還要根據(jù)多肽序列進(jìn)行蛋白鑒定94小練習(xí)3一次實(shí)驗(yàn)共鑒定到了13個多肽,蛋白A-J包含這些多肽序列,請問樣品中包含哪些蛋白95Molecular & Cellular Proteomics 4:1419-1440, 2005 96Protein inference problem in shotgun proteomics97Protein isoforms are usually not distinguishable98奧卡姆剃刀原理如果你有兩個理論,它們都能解

40、釋觀測到的事實(shí),那么你應(yīng)該使用簡單的那個,直到發(fā)現(xiàn)有直接的證據(jù)支持更為復(fù)雜的那個理論。找到最少的一組蛋白,包含鑒定到的全部多肽序列事實(shí)是,樣品中的蛋白介于可推斷出的最少和最多的兩個蛋白list之間99100Usually,proteins are reported in groups and families101蛋白鑒定的可信度擁有更多高可信度多肽的蛋白的可信度最高選擇至少有兩個肽的蛋白,或者保留單肽鑒定的蛋白,但要求這個肽具有極高的可信度可用反相數(shù)據(jù)庫方法估計(jì)Protein FDR,也可用其它基于概率的方法,Protein FDR通常大于peptide FDR102蛋白質(zhì)鑒定:小結(jié)目的:高

41、可信地鑒定出樣品中存在的蛋白/多肽,并估計(jì)其FDR對未知的蛋白質(zhì)樣品,沒有標(biāo)準(zhǔn)答案不同軟件給出的結(jié)果差別很大,F(xiàn)DR是一個客觀的標(biāo)準(zhǔn)103不同搜索引擎的比較Molecular & Cellular Proteomics,12,2383-2393. 104合并多個軟件的結(jié)果可獲得更多的鑒定105蛋白質(zhì)組學(xué)研究的目標(biāo)蛋白質(zhì)鑒定Top-down策略(質(zhì)量紋方法,MS譜圖)Bottom-up策略(de novo測序和數(shù)據(jù)庫檢索,MS/MS譜圖)蛋白質(zhì)修飾蛋白質(zhì)定量-相對定量、絕對定量樣品間比較蛋白質(zhì)功能106多肽的修飾有生物學(xué)的意義修飾,如磷酸化實(shí)驗(yàn)過程引入的修飾 解釋更多的譜圖,提高鑒定率定量蛋白質(zhì)組學(xué)采

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論