




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
Negativeimpactofnoiseontheprincipalcomponentanalysis
ofNMRdata
對核磁共振數(shù)據(jù)進行主成分分析時噪音的負(fù)面影響
報告人:孫寶發(fā)Negativeimpactofnoiseonth1ChallengesofMetabonomics
SampleComplexityandDataHandlingEachsamplehas..,
awiderangeofcompoundclasses
awidevariationinmetaboliteconcentrationsalargenumberofpotentialcomponentsEachgroupofsampleshas…,
manysampleanalysesarerequiredforstatisticalrelevance acomplexrawdatasetthatneedstobeprocessed differencesbetweensamplegroupswhichneedtobehighlightedChallengesofMetabonomics
Sam2Thestrategyforlargescalemetabonomicsresearch
Thestrategyforlargescalem3核磁共振(NMR)主要技術(shù)能對樣品實現(xiàn)非破壞性,非選擇性的分析1H-NMR對含氫化合物均有響應(yīng),能完成代謝產(chǎn)物中大多數(shù)化合物的檢測,滿足代謝組學(xué)中的對盡可能多的化合物進行檢測的目標(biāo).不足:其對每個分子的化學(xué)和物理環(huán)境敏感,樣品制備的要求很高,且數(shù)據(jù)處理比較復(fù)雜.NMR的動態(tài)范圍有限,很難同時測定生物體系中共存的濃度相差較大的代謝產(chǎn)物硬件投資較大核磁共振(NMR)主要技術(shù)4
一、主成分分析
主要原理基本思想幾何意義數(shù)學(xué)模型軟件應(yīng)用圖形解釋一、主成分分析5主成份分析的主要原理在多數(shù)實際問題中,不同指標(biāo)之間是有一定相關(guān)性。由于指標(biāo)較多及指標(biāo)間有一定的相關(guān)性,勢必增加分析問題的復(fù)雜性。主成分分析就是設(shè)法將原來指標(biāo)重新組合成一組新的互相無關(guān)的幾個綜合指標(biāo)來代替原來指標(biāo)。同時根據(jù)實際需要從中可取幾個較少的綜合指標(biāo)盡可能多地反映原來的指標(biāo)的信息。從數(shù)學(xué)角度來看,這是一種降維處理技術(shù)。很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。Negativeimpactofnoiseonthe-生物化學(xué)與分子生物學(xué)課件6主成分分析的基本思想將原來眾多具有一定相關(guān)性的指標(biāo)重新組合成一組新的相互無關(guān)的綜合指標(biāo)來代替原來指標(biāo)。以兩個指標(biāo)為例,信息總量以總方差表示:主成分分析的基本思想將原來眾多具有一定相關(guān)性的指標(biāo)重新組合成7其中y1、y2分別都是x1、x2的線性組合,并且信息盡可能地集中在y1上。在以后的分析中舍去y2,只用主成分y1來分析問題,起到了降維的作用。主成分分析就是通過適當(dāng)?shù)淖兞刻鎿Q,使新變量成為原變量的線性組合,并尋求主成分來分析事物的一種方法。其中y1、y2分別都是x1、x2的線性組合,并且信息盡可能地8主成分分析的幾何意義為了方便,我們在二維空間中討論主成分的幾何意義。設(shè)有n個樣品,每個樣品有兩個觀測變量xl和x2,在由變量xl和x2所確定的二維平面中,如果n個樣本點形成一個橢圓形狀的點陣(這在變量的二維正態(tài)的假定下是可能的)但是,坐標(biāo)軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。那么這個橢圓有一個長軸和一個短軸。在短軸方向上,數(shù)據(jù)變化很少;橢圓的長短軸相差得越大,降維越有道理。在極端的情況,短軸如果退化成一點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就自然完成了。主成分分析的幾何意義為了方便,我們在二維空間中討論主成分的幾9?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸??????????????????????????????10????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸???????????????????????????????11數(shù)學(xué)模型
定義:記x1,x2,…,xP為原變量指標(biāo),z1,z2,…,zm(m≤p)為新變量指標(biāo)(3.5.2)
各主成分的得分?jǐn)?shù)學(xué)模型
定義:記x1,x2,…,xP為原變量指標(biāo),z1,z12基本步驟(1)對原變量的樣本數(shù)據(jù)矩陣進行標(biāo)準(zhǔn)化變換(2)求標(biāo)準(zhǔn)化數(shù)據(jù)矩陣的相關(guān)系數(shù)矩陣R(3)求R的特征根及相應(yīng)的特征向量和貢獻率等(4)確定主成分的個數(shù)(5)解釋主成分的實際意義和作用基本步驟13具體步驟(1)、將所獲得的P個指標(biāo)(每一指標(biāo)有n個樣品)的一批數(shù)據(jù)寫成一個(P×n)維數(shù)據(jù)矩陣具體步驟14(2)為了消除各個變量量綱之間的差異,對數(shù)據(jù)矩陣Y作標(biāo)準(zhǔn)化處理,即對每一個指標(biāo)分量作標(biāo)準(zhǔn)化變換,變換公式為:其中:樣本均值樣本標(biāo)準(zhǔn)差得標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣(2)為了消除各個變量量綱之間的差異,對數(shù)據(jù)矩陣Y作標(biāo)準(zhǔn)化處15(3)、計算樣本相關(guān)系數(shù)矩陣R其中:(4)、由下列特征方程式(I為單位矩陣)可求出R的特征值再根據(jù)求出的特征向量(3)、計算樣本相關(guān)系數(shù)矩陣R其中:(4)、由下列特征方程式16(5)、把標(biāo)準(zhǔn)化后數(shù)據(jù)矩陣X的行向量的線性組合稱為主成份,稱F1是第一主成份,F(xiàn)2是第二主成份,F(xiàn)i是第I主成份。注:求各主成份的關(guān)鍵是求特征根()及其相應(yīng)的特征向量()。又稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。(5)、把標(biāo)準(zhǔn)化后數(shù)據(jù)矩陣X的行向量17(6)主成份分析的方差貢獻率要說明主成份的方差貢獻率先要說明特征值的意義是樣本點在其第i個主成份方向上的方差(分散程度),如果的值很小,說明樣本間在坐標(biāo)的方向上分散程度很小,這個主成份在分析樣本數(shù)據(jù)時所起作用不大,可以忽略不計。那么小到什么程度才認(rèn)為無足輕重,可以忽略呢?為此引入方差貢獻率。稱比值為第k個主成分的方差貢獻率。(6)主成份分析的方差貢獻率要說明主成份的方差貢獻率先要說明18為前m個主成分的累計方差貢獻率。由于,所以p個主成分的方差貢獻率是依次遞減的,這樣對應(yīng)的第一主成分F1起的作用最大,其次是第二主成分F2…。通常要求作為主成份的特征值要大于1,各個主成分按累計方差貢獻率要達到85%。其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。為前m個主成分的累計方19軟件應(yīng)用
成績數(shù)據(jù)(student.sav)100個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?。軟件?yīng)用
成績數(shù)據(jù)(student.s20SPSS數(shù)據(jù)形式SPSS數(shù)據(jù)形式21主成分分析實例1-不旋轉(zhuǎn)使用默認(rèn)值進行最簡單的主成分分析(默認(rèn)為主成分分析法:Principalcomponents)菜單:Analyze-DataReduction-Factor(主成分分析法Principalcomponents,選取特征值>1,不旋轉(zhuǎn))這里的InitialEigenvalues就是這里的六個主軸長度,即特征值。主成分分析實例1-不旋轉(zhuǎn)使用默認(rèn)值進行最簡單的主成分分析(默22怎么解釋這兩個主成分。主成分是原始六個變量的線性組合。這由下表給出。
這里每一列代表一個主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分為數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語這六個變量的線性組合,系數(shù)(比例)為-0.806,-0.674,-0.675,0.893,0.825,0.836。
怎么解釋這兩個主成分。主成分是原始六個變量的線性組合。這由下23如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分為這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)??梢园训谝缓偷诙鞒煞值妮d荷點出一個二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉淼淖兞康?。這個圖叫做載荷圖。如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量24PCA實例2
不同嫌疑人頭發(fā)中元素的含量(μg/g)
樣品 Cu Mn Cl Br I1 9.2 0.30 1730 12.0 3.62 12.4 0.39 930 50.0 2.33 7.2 0.32 2750 65.3 3.44 10.2 0.36 1500 3.4 5.35 10.1 0.50 1040 39.2 1.96 6.5 0.20 2490 90.0 4.67 5.6 0.29 2940 88.0 5.68 11.8 0.42 867 43.1 1.59 8.5 0.25 1620 5.2 6.2原始數(shù)據(jù)X(9×5)autoscaling計算相關(guān)矩陣計算特征值PCA實例2不同嫌疑人頭發(fā)中元素的含量(μg/g)原25模式識別與分類得分圖主成分圖形解釋PCA實例23個聚類
分屬三人t1對t2作圖經(jīng)過聚類分析后結(jié)果如圖所示模式識別與分類得分圖主成分圖形解釋PCA實例23個聚類
分屬26Negativeimpactofnoiseonthe-生物化學(xué)與分子生物學(xué)課件27模式識別與分類主成分圖形解釋PCA實例2載荷圖l1對l2作圖載荷大小是重要性的度量
位于原點的載荷不重要
可用于進行生物標(biāo)記物的篩選模式識別與分類主成分圖形解釋PCA實例2載荷圖l1對l2作圖28
PCAisusedtosimplifytheexaminationofcomplexmetabolitemixturesobtainedfrombiologicalsamplesthatmaybecomposedofhundredsorthousandsofchemicalcomponents.AcommonconcernwithPCAofNMRdataisthepotentialoveremphasisofsmallchangesinhighconcentrationmetabolitesthatwouldover-shadowsignificantandlargechangesinlow-concentrationcomponentsthatmayleadtoaskewedorirrelevantclusteringoftheNMRdata.Wehaveidentifiedanadditionalconcern,verysmallandrandomfluctuationswithinthenoiseoftheNMRspectrumcanalsoresultinlargeandirrelevantvariationsinthePCAclustering.AlleviationofthisproblemisobtainedbysimplyexcludingthenoiseregionfromthePCAbyajudiciouschoiceofathresholdabovethespectralnoise.
29ThesuccessoftheapplicationofPCAintheanalysisofNMRmetabolomicdataisintrinsicallydependentontheconsistencyofsampleanddatahandling.數(shù)據(jù)輸出的最終目的是將代謝組數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)化和統(tǒng)一的格式。分析儀器直接導(dǎo)出的元數(shù)據(jù),由于原始譜圖的信號量大、噪音復(fù)雜、格式各樣、尺度迥異、基線漂移和測試重現(xiàn)性等問題,不能直接用于模式識別分析,此前須經(jīng)過原始數(shù)據(jù)的預(yù)處理,如采用多種方法進行原始圖譜的分段積分、濾噪、峰匹配、標(biāo)準(zhǔn)化和歸一化等處理,最后提取出二維數(shù)據(jù)表形式,即行代表樣品或試驗數(shù)目;列表示相應(yīng)的單個測定指標(biāo)(通常為信號強度等).AnyobservedvariationsintheNMRdatashouldberelatedtothestateofthecellandorganism,asopposedtosubtlechangesinchemicalshifts,line-widths,baselineorartifactsfromprocessing.Tominimizetheseaffectsandtosimplifydatahandling,NMRspectraldataareusuallydividedintobucketswithwidthsof0.01–0.04ppm.Thistendstosmoothouterrorsfromfluctuationsinchemicalshiftsandline-shapebetweenNMRspectracausedbysamplehandlingorpreparation.Anothersimilarconcernistheimpactofchangesinabundantmetabolitesrelativetochangesinthemajorityoflow-concentrationchemicals.Tominimizethisissue,atransformationoftheoriginaldataisperformedthatenhancestheintensityofweakpeaksrelativetostrongpeaksandgeneratesaconstantvarianceinthedata.Thesuccessoftheapplication30Inthisarticle,wedescribetheobservationofanotherpotentialsourceoferrorinPCAofNMRmetabolomicdatathatresultedinpoorclusteringof‘‘ideal’’NMRdatawithhighsimilarity.Extremelysmallvariationswithinthenoiseofhighsignal-to-noiseNMRspectrahadasignificantlyandsurprisinglynegativeimpactinthequalityoftheclusteringinPCAscoresplot.
TheNMRmetabolomicstestdatasetsconsistedofthreeindividualsamplescomposedofeither500mMor1mMofATP,(ii)glucose,and(iii)ATPandglucose.TheNMRdatawereFouriertransformed,phasedandbaselinecorrected.Negativeimpactofnoiseonthe-生物化學(xué)與分子生物學(xué)課件31Tooursurprise,weobservedarelativelylargescatteringalongPC2,equivalentinmagnitudetotheseparationinPC1,butevenmoretroublingwastheobservationthatoneoftheATPspectrum(#2)felloutsidethe95%confidencelevelinthePCAplot.
Tooursurprise,weobserveda32ThesuccessofPCAofNMRmetabolomicsdataisintrinsicallytiedtotheconsistencyinthehandling,preparation,collection,andprocessingoftheNMRdata.Problemsinphasing(相位調(diào)整),baselinecorrection(基線矯正),zerofilling(零填充)orinstrumentstability(設(shè)備穩(wěn)定性)wouldeasilyleadtotheobservedscatterandtheoutlierseenalongPC2.But,ifanyoftheseproblemswerepresentitwouldalsoresultinasimilarscatteralongPC1.Thisisclearlynotthecase.ItisalsoapparentthattheseprocessingoracquisitionproblemsarenotpresentbyvisuallyinspectingtheNMRspectra.Fig.2comparestheoutlierATPspectrum(#2)againsttheATPspectrum(#9),whichhasaminimalvariationalongPC2.ThesuccessofPCAofNMRmeta33ThereisnovisualdifferencebetweenthesetwospectrathatwouldeasilyjustifythelargedifferencealongPC2.Thereisnovisualdifference34(化學(xué)位移)
(化學(xué)位移)35Negativeimpactofnoiseonthe-生物化學(xué)與分子生物學(xué)課件36Negativeimpactofnoiseonthe-生物化學(xué)與分子生物學(xué)課件37PCAincludingtheglucoseNMRdatawithandwithoutanoisethresholdPCAincludingtheglucoseNMR38Conclusion
AfundamentalbenefitofP
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年發(fā)酵合成控制系統(tǒng)合作協(xié)議書
- 企業(yè)用酒合同范例
- 廠區(qū)用地拆除合同范本
- 手寫的借款合同范本
- 化糞池改造工程合同范本
- 縣城酒吧轉(zhuǎn)讓合同范例
- 吊柜出售轉(zhuǎn)讓合同范本
- 瓦片勞務(wù)合同范本
- 樹木移植合同范本
- 義齒公司員工合同范本
- 高一英語完形填空專項訓(xùn)練100(附答案)及解析
- 機房基礎(chǔ)設(shè)施運行維護管理標(biāo)準(zhǔn)規(guī)范
- 老年心房顫動診治中國專家共識(2024)解讀
- 部編版八年級上冊歷史期中復(fù)習(xí)重點總結(jié)
- 2024年揚州市職業(yè)大學(xué)單招職業(yè)適應(yīng)性測試題庫1套
- 消防安全技術(shù)綜合能力要點概述
- DL-T 5148-2021水工建筑物水泥灌漿施工技術(shù)條件-PDF解密
- 道路施工安全隱患及防范措施
- 新生兒魚鱗病個案護理
- 軟包裝工藝流程
- 生物質(zhì)燃料的資源開發(fā)與利用
評論
0/150
提交評論