計算藥物分析(藥學(xué)與生物信息學(xué))第六章課件_第1頁
計算藥物分析(藥學(xué)與生物信息學(xué))第六章課件_第2頁
計算藥物分析(藥學(xué)與生物信息學(xué))第六章課件_第3頁
計算藥物分析(藥學(xué)與生物信息學(xué))第六章課件_第4頁
計算藥物分析(藥學(xué)與生物信息學(xué))第六章課件_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第6章 藥學(xué)研究中的模式識別技術(shù)China Pharmaceutical UniversityContents引言1模式識別的基本概念2聚類分析3有監(jiān)督模式識別4China Pharmaceutical University分類俗語說,物以類聚、人以群分。但什么是分類的根據(jù)呢?比如,要想把中國的縣分成若干類,就有很多種分類法;可以按照自然條件來分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo); 既可以用某一項(xiàng)來分類,也可以同時考慮多項(xiàng)指標(biāo)來分類。 China Pharmaceutical University6.1 基本概念分析化學(xué)已擴(kuò)展到多維空間

2、;越來越多的智能型分析儀器采集到多維多變量數(shù)據(jù);化學(xué)模式識別技術(shù)是多變量數(shù)據(jù)分析在化學(xué)領(lǐng)域的重要應(yīng)用。HPLC中,二極管陣列檢測器色譜光譜圖每個組分多個波長的吸收度;復(fù)雜體系的分離分析(中藥分析、生物大分子分析、人類基因組學(xué))如:China Pharmaceutical University模式識別的基本概念(Pattern Recognition) 模式:模式識別:供模仿用的完美無缺的樣本;具有某種共同性質(zhì)的一類現(xiàn)象的集合。認(rèn)識出某個樣本與哪一種供模仿用的樣本相同體相似。是鑒別數(shù)據(jù)陣提供的信息,用數(shù)學(xué)方法識別具有一定模式的樣品和變量,其功能是對樣本進(jìn)行分類或識別。例如: 中醫(yī)憑舌苔和脈搏進(jìn)行

3、診斷;公安人員根據(jù) 指紋查證罪犯。China Pharmaceutical UniversityChina Pharmaceutical University羧酸、酮類在熔點(diǎn)和沸點(diǎn)二維平面上的分布圖China Pharmaceutical University無監(jiān)督模式識別(unsupervised learning):模式識別的基本概念聚類分析不依賴訓(xùn)練集,直接在特征空間中尋找點(diǎn)群或其它可以識別的數(shù)據(jù)結(jié)構(gòu)。有監(jiān)督模式識別(supervised learning):數(shù)據(jù)中有一部分是已知模式的樣本,通過對處理過的數(shù)據(jù)進(jìn)行試驗(yàn),識別未知類別的樣本屬于不同的類別。訓(xùn)練集和預(yù)測集有監(jiān)督模式識別:利用訓(xùn)

4、練集(Training set)通過訓(xùn)練或?qū)W習(xí)來獲得識別準(zhǔn)規(guī)(或判別函數(shù)),然后用這些識別好的規(guī)則來判決未知模式所屬類別,并利用預(yù)測集,對訓(xùn)練集中獲得的識別準(zhǔn)則加以檢測,來考察識別準(zhǔn)則的可靠性與正確性。未包括在訓(xùn)練集中的已知類別的樣本已知各個模式的所屬類別分類:China Pharmaceutical University6.2. 數(shù)據(jù)預(yù)處理6.2.1 遺漏的數(shù)據(jù)、中心化與比例調(diào)整 遺漏數(shù)據(jù):不宜用零替代,而用行或列的平均來替代,或者使用隨機(jī)數(shù)來替代。China Pharmaceutical University消除數(shù)據(jù)量綱不同或分布范圍過大造成的常數(shù)偏移量,可以對坐標(biāo)原點(diǎn)做變換,一般的步驟是

5、均值中心化。 China Pharmaceutical University原始數(shù)據(jù)矩陣的預(yù)處理n個樣本,每個樣本數(shù)據(jù)為一個m維矢量中心化處理:對數(shù)變換:范圍調(diào)整正規(guī)標(biāo)準(zhǔn)化處理:正規(guī)標(biāo)準(zhǔn)化處理(均值為零 ,方差為1)MATLAB 命令:zscore(X)China Pharmaceutical University6.2.2 協(xié)方差矩陣與相關(guān)矩陣數(shù)據(jù)預(yù)處理的常用方法 將原始數(shù)據(jù)變換坐標(biāo)系,用于后面介紹的各種 模式識別方法。變換的思路 根據(jù)原始數(shù)據(jù)矩陣得到一個可以反映原始數(shù)據(jù) 中各數(shù)據(jù)點(diǎn)之間關(guān)系的數(shù)據(jù)矩陣; 即方差協(xié)方差矩陣或相關(guān)矩陣。China Pharmaceutical Universit

6、y方差協(xié)方差矩陣MATLAB 命令: cov(X)China Pharmaceutical University相關(guān)矩陣 China Pharmaceutical University6.2.3 距離與相似性度量通過樣本間的相似性來對樣本進(jìn)行分類的??捎镁嚯x來描述樣本間的相似程度;距離越小兩個樣本越接近,相似性大,分在 同一類的可能性就越大,距離大則相反。 China Pharmaceutical University距離越小兩樣本越接近,分在同一類的可能性就越大絕對距離歐氏距離 明氏距離:與各變量的量綱有關(guān)沒考慮變量間的相關(guān)性馬氏距離:距離數(shù)據(jù)矩陣的協(xié)方差矩陣原始數(shù)據(jù)矩陣的預(yù)處理China

7、Pharmaceutical University6.3 聚類分析聚類分析的一般概念將一批樣品或變量按照它們性質(zhì)上親疏遠(yuǎn)近的程度分類基本思路n個樣本各自成一類,按一定方法逐步并類,使類由多變少,直至最后合并為一類。類:設(shè)T為取定的閾值,若對任意的樣本 則稱G為一類。樣本間的距離描述樣本(或變量)間親疏程度的統(tǒng)計量: 相似系數(shù)或距離性質(zhì)越接近的樣本間的相似系數(shù)越接近1或-1China Pharmaceutical University6.3.2 系統(tǒng)(譜系) 聚類法基本思想:先把n個樣本各自看成一類,選擇距離最小的兩類合并成一個新類并計算該類和其它類的距離,再將距離最近的兩類合并,這樣每次減少一

8、類,直至所有樣本都成為一類。算法:設(shè)初始模式樣品共n個,每個樣本看成一類計算各類之間的距離,可得維的距離矩陣 從距離矩陣找出距離最小的元素(如i,j)合并成類計算合并后的新類別之間的距離矩陣轉(zhuǎn)向第二步,直至所有樣品都聚為一類China Pharmaceutical University譜系聚類法平均距離法如何定義兩類的距離P、Q兩類相距最近,合并為K類,則K類和其它相關(guān)類H的距離DHP:例:對于5種隕石樣品分別測試4種金屬的含量,原始數(shù)據(jù)如下:解:按計算其距離矩陣如下:China Pharmaceutical UniversityD和E相距最近,合并為D*,B和C合并為B*,A和B*合并為A*

9、,China Pharmaceutical University聚類分析譜系圖 距離ABCDEA*B*D*(a)平均距離法China Pharmaceutical UniversityMATLAB 命令 pdist: 計算距離矩陣 linkage: 生成譜系數(shù)據(jù)dendrogram: 繪制譜系圖 cluster: 聚類分析 China Pharmaceutical University最短距離法如何定義兩類的距離H,K為兩類,K類是P和Q類兩類合并而成的,例講:平均距離法對于5種隕石樣品分別測試4種金屬的含量。China Pharmaceutical University將每個樣本各自看成一類

10、x2x3x4x5x1GA(0)GB(0)GC(0)GD(0)GE(0)計算距離(歐氏距離),D,E最近解:合并得China Pharmaceutical University計算新類與其它類之間的距離,再合并由上表知最小,合并B,C;China Pharmaceutical University6.3.3 動態(tài)聚類分析譜系聚類分析的缺點(diǎn):樣本一旦劃分到某個類后就不變了;聚類過程需多次合并,計算量大?;舅枷耄涸O(shè)定類別的數(shù)目,選擇若干樣本作為聚類中心;按聚類準(zhǔn)則使所有樣本向各自聚類中心聚集,從而得到初始分類;判斷初始分類是否合理,如不合理就修改分類,直至合理為止。最短距離法 特點(diǎn): 計算過程中各

11、類重心和類別都可能變化China Pharmaceutical University動態(tài)聚類法算法算法的步驟選n個初始聚類中心:逐個將需要的樣品按最小距離分配給K個聚類中心的 某一個Z1(1),形成初始分類計算初始類的新的向量值(重心),合理,打印若如果不等,返回第二步。China Pharmaceutical University選擇凝聚點(diǎn)初始分類最終分類修改分類分類是否合理NY動態(tài)聚類法示意圖例:7樣本2變量China Pharmaceutical University對A和D,其中心點(diǎn)*1坐標(biāo)為: x1=(45+64)/2=54.5 x2=(24+52)/2=38對B、C、E、F、G的中

12、心點(diǎn)*2坐標(biāo)為: x1=(24+14+36+56+20)/5=30 x2=(42+23+121+140+148)/5=95下一步再計算各點(diǎn)離*1和*2的距離確定下一輪的類別。 結(jié)果為(A、B、C、D); (E、F、G),顯然這一輪已經(jīng)得到了正確的結(jié)果。繼續(xù)計算新的中心點(diǎn)*3和*4,得到的結(jié)果仍為(A、B、C、D); (E、F、G) 動態(tài)聚類的結(jié)果為(A、B、C、D)和(E、F、G)。China Pharmaceutical University動態(tài)聚類分析China Pharmaceutical University最小生成樹法基本思想:對n個樣本,要找到連通n個頂點(diǎn)的n-1條邊的加和為最小的

13、生成樹。計算方法:從最短距離的兩點(diǎn)開始,每加一條邊都不和已經(jīng)生成樹的構(gòu)成回路循環(huán)。例:x17樣本2變量的聚類分析CABDEGFx2China Pharmaceutical University最小生成樹法 計算各點(diǎn)間的距離得下表:解:據(jù)上表,按兩點(diǎn)距離小到大排列得如下順序BCABEFEGACADCDDECABDEGFx1x2將最長的邊DE剪斷,將7個樣本分為兩類China Pharmaceutical University6.3.4 模糊聚類法China Pharmaceutical UniversityChina Pharmaceutical University6.4 降維和顯示技術(shù)處理多

14、變量數(shù)據(jù)時,當(dāng)變量數(shù)為或時,我們可以通過繪圖或計算機(jī)屏幕顯示的方式直觀地觀察圖形并識別其特征。當(dāng)變量數(shù)超過時,這種直接顯示則不再可能,這就涉及降維問題。如何將多維的數(shù)據(jù)在二維或三維空間中顯示出其最大多數(shù)的信息,是降維和顯示技術(shù)要解決的主要問題。降維和顯示技術(shù)有多種方法,因子分析技術(shù)是多數(shù)方法的算法基礎(chǔ),因子分析是通過對數(shù)據(jù)矩陣進(jìn)行特征分析,旋轉(zhuǎn)變換等處理獲得信息的方法。因子分析在模式識別中的重要應(yīng)用是降維和顯示技術(shù)。數(shù)據(jù)的投影主要有主成分分析、因子分析等。China Pharmaceutical University 需要與可能:在各個領(lǐng)域的科學(xué)研究中,往往需要對反映事物的多個變量進(jìn)行大量的觀

15、測,收集大量數(shù)據(jù)以便進(jìn)行分析尋找規(guī)律。多變量大樣本無疑會為科學(xué)研究提供豐富的信息,但也在一定程度上增加了數(shù)據(jù)采集的工作量,更重要的是在大多數(shù)情況下,許多變量之間可能存在相關(guān)性而增加了問題分析的復(fù)雜性,同時對分析帶來不便。如果分別分析每個指標(biāo),分析又可能是孤立的,而不是綜合的。盲目減少指標(biāo)會損失很多信息,容易產(chǎn)生錯誤的結(jié)論。China Pharmaceutical University 因此需要找到一個合理的方法,減少分析指標(biāo)的同時,盡量減少原指標(biāo)包含信息的損失,對所收集的資料作全面的分析。由于各變量間存在一定的相關(guān)關(guān)系,因此有可能用較少的綜合指標(biāo)分別綜合存在于各變量中的各類信息。主成分分析與因

16、子分析就是這樣一種降維的方法。 主成分分析與因子分析是將多個實(shí)測變量轉(zhuǎn)換為少數(shù)幾個不相關(guān)的綜合指標(biāo)的多元統(tǒng)計分析方法 直線綜合指標(biāo)往往是不能直接觀測到的,但它更能反映事物的本質(zhì)。因此在醫(yī)學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等科學(xué)領(lǐng)域以及社會化生產(chǎn)中得到廣泛的應(yīng)用。China Pharmaceutical UniversityPCA 算法簡介China Pharmaceutical UniversityChina Pharmaceutical UniversityChina Pharmaceutical University主成分?jǐn)?shù)的估計China Pharmaceutical UniversityChina P

17、harmaceutical University特征值 1 分析法: 1 視為主成分 ( 2 個主成分)China Pharmaceutical UniversityChina Pharmaceutical UniversityPCA法的MATLAB命令PCACOV Principal Component Analysis using the covariance matrix.PC, LATENT, EXPLAINED = PCACOV(X) takes a the covariance matrix, X, and returns the principal components in P

18、C, the eigenvalues of the covariance matrix of X in LATENT, and the percentage of the total variance in the observations explained by each eigenvector in EXPLAINED.China Pharmaceutical University164頁習(xí)題5程序% 以協(xié)方差矩陣進(jìn)行主成分分析 x=5 18 18 22 8 8 18 21 28 27; 1 41 58 52 56 39 75 11 26 36; 6 26 28 32 16 14 30

19、26 36 36; 4 54 72 68 64 46 90 24 44 54; 13 60 66 74 40 34 72 57 80 81;pc,latent,explained=pcacov(cov(x)China Pharmaceutical University運(yùn)行結(jié)果如下:pc =Columns 1 through 9 -0.0199 0.1361 0.0006 -0.0983 0.0456 0.0304 -0.0117 0.0848 -0.2164 -0.2983 0.0844 0.6591 0.6219 0.2248 0.0856 0.1132 -0.0593 -0.0906 -0

20、.4012 -0.0999 0.0433 0.0752 -0.3812 -0.3530 -0.7146 -0.1924 0.0244 -0.3760 0.0827 -0.0759 -0.3922 0.7002 0.1299 -0.2349 -0.2493 -0.2260 -0.3614 -0.3721 0.3883 -0.4524 -0.1564 0.3146 0.0623 0.4034 0.2910 -0.2584 -0.1878 -0.0705 -0.0897 -0.4269 0.2514 0.3924 -0.5479 -0.4301 -0.5042 -0.2842 -0.5498 0.3

21、338 0.1760 -0.1602 0.2943 0.1283 0.2792 -0.1248 0.4979 0.1041 -0.1917 -0.0657 -0.0765 0.2096 -0.4442 0.6535 -0.2351 0.5410 -0.2868 0.1793 -0.2310 0.5943 -0.1980 0.2803 -0.0415 -0.2929 0.4031 0.0824 -0.2258 -0.1285 -0.5508 0.3059 0.3673 -0.3418 Column 10 -0.9562 -0.0180 -0.0568 0.1294 -0.0270 0.0194

22、-0.1167 -0.1022 0.1079 0.1693pc: the principal componentsChina Pharmaceutical Universitythe eigenvalues of the covariance matrix of X in LATENT, latent = 1.0e+003 * 3.5091 0.9884 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000China Pharmaceutical Universityexplained = 78.0226 21.9774 0.0000

23、0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000China Pharmaceutical Universitypc,latent,explained=pcacov(cov(x)由貢獻(xiàn)率explained可知:78.0226+21.9774=10085,所以只取兩個主成分即可,它們?yōu)椋簓1=-0.0199*x1-0.2983*x2-0.4012*x3-0.3760*x4-0.3614*x5-0.2584*x6-0.5042*x7-0.1248*x8-0.2351*x9-0.2929*x10;y2=0.1361*x1+0.0844*x2-0.0999

24、*x3+0.0827*x4-0.3721*x5-0.1878*x6-0.2842*x7+0.4974*x8+0.5410*x9+0.4031*x10China Pharmaceutical University6.4.2 圖形分類法圖形分類法是以多維特征樣本的簡潔表達(dá)為基礎(chǔ)的分類方法。使用星(star)圖、太陽光線(sun-ray)圖和Chernoff 臉譜(Chernoff faces)等方法對多變量數(shù)據(jù)進(jìn)行表示。使用這些方法的先決條件是將特征描述值標(biāo)準(zhǔn)化或變換為正值。China Pharmaceutical UniversityChina Pharmaceutical University

25、圖6-10 用圖形方法表示表6-3中頭發(fā)樣本數(shù)據(jù)的分類(a,b和c的歸屬見表6-5)上:星型圖;中:太陽光線圖;下:Chernoff臉譜圖China Pharmaceutical University圖6-11 基于血清樣本的20次臨床分析數(shù)據(jù)區(qū)分患者和健康人的Chernoff臉譜圖China Pharmaceutical University非監(jiān)督模式識別的局限性不確定性沒有已知類別的樣本集,甚至不知道類別數(shù),可以利用的信息量少。 在實(shí)際應(yīng)用中,應(yīng)該設(shè)法有效應(yīng)用領(lǐng)域的專門知識,以彌補(bǔ)信息的不足。China Pharmaceutical UniversityChina Pharmaceutic

26、al University6.5 有監(jiān)督模式識別方法有監(jiān)督學(xué)習(xí)方法需要運(yùn)用一組已知其類別的樣本,這些樣本集在特征空間中構(gòu)成的點(diǎn)集稱為訓(xùn)練集(training Set)有監(jiān)督模式識別就是利用訓(xùn)練集通過訓(xùn)練獲得判別準(zhǔn)則(或判別函數(shù)),然后再利用識別準(zhǔn)則來判決未知模式所屬的類別。為了檢驗(yàn)從訓(xùn)練集中得到的識別準(zhǔn)則的可靠程度。常利用一組未包含在訓(xùn)練集中的已知類別的樣本構(gòu)成預(yù)示集(prediction set),利用從訓(xùn)練集中獲得的識別準(zhǔn)則對預(yù)示集中的各模式進(jìn)行識別,以檢驗(yàn)其識別的可靠性。常見的有監(jiān)督學(xué)習(xí)方法包括貝葉斯線性判別法、Fisher線性判別分析、線性學(xué)習(xí)機(jī)、最近鄰域判決法、SIMCA分類法等。C

27、hina Pharmaceutical University 貝葉斯線性判別法Fisher線性判別分析線性學(xué)習(xí)機(jī) LDA (LINAER DISCRIMINANT ANALYSIS)(線性判別式分析)對已知類別的樣本數(shù)據(jù)建立一定的數(shù)學(xué)模型, 如概率 密度函數(shù)對未知樣本的類別歸屬進(jìn)行判斷China Pharmaceutical UniversityK-最近鄰域判決法(K-NN法)基本思想:一組已知類別的樣本集每個樣品n維向量,且每個樣本分別屬于類中的某一類,不知每一類中的樣品個數(shù)比較到哪一樣品的距離最小,取前k個距離最小者缺點(diǎn):存貯量和計算量大(k為奇數(shù)),然后再看在哪一類中較多,就判為哪一類。

28、對于一未知模式計算出到的有已知模式間的 dChina Pharmaceutical University圖6-16 時將樣本分為兩類的分類邊界線China Pharmaceutical University6.5.5 SIMCA (Soft independent modeling class analogies)法 SIMCA:簇類的獨(dú)立軟模式對訓(xùn)練集中同一類樣本的數(shù)據(jù)集分別進(jìn)行主成分分析,建立能表述類別特征的局部軟模式;以各類模型來對未知樣品進(jìn)行分析,根據(jù)殘差比較, 確定其屬于哪一類,或不屬于哪一類。China Pharmaceutical University圖 不同顯著主成分個數(shù)時的SIMCA模型圖6-16 不同顯著主成分個數(shù)時的SIMCA 模型China Pharmaceutical University6.6 模式識別

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論