計(jì)算藥物分析(藥學(xué)與生物信息學(xué))第六章課件

上傳人：仔*** IP屬地：江蘇上傳時(shí)間：2022-10-05 格式：PPT 頁數(shù)：67 大?。?.23MB 積分：40 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩62頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第6章藥學(xué)研究中的模式識(shí)別技術(shù)China Pharmaceutical UniversityContents引言1模式識(shí)別的基本概念2聚類分析3有監(jiān)督模式識(shí)別4China Pharmaceutical University分類俗語說，物以類聚、人以群分。但什么是分類的根據(jù)呢？比如，要想把中國的縣分成若干類，就有很多種分類法；可以按照自然條件來分，比如考慮降水、土地、日照、濕度等各方面；也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo)；既可以用某一項(xiàng)來分類，也可以同時(shí)考慮多項(xiàng)指標(biāo)來分類。 China Pharmaceutical University6.1 基本概念分析化學(xué)已擴(kuò)展到多維空間

2、;越來越多的智能型分析儀器采集到多維多變量數(shù)據(jù);化學(xué)模式識(shí)別技術(shù)是多變量數(shù)據(jù)分析在化學(xué)領(lǐng)域的重要應(yīng)用。HPLC中，二極管陣列檢測器色譜光譜圖每個(gè)組分多個(gè)波長的吸收度；復(fù)雜體系的分離分析（中藥分析、生物大分子分析、人類基因組學(xué)）如：China Pharmaceutical University模式識(shí)別的基本概念（Pattern Recognition）模式：模式識(shí)別：供模仿用的完美無缺的樣本；具有某種共同性質(zhì)的一類現(xiàn)象的集合。認(rèn)識(shí)出某個(gè)樣本與哪一種供模仿用的樣本相同體相似。是鑒別數(shù)據(jù)陣提供的信息，用數(shù)學(xué)方法識(shí)別具有一定模式的樣品和變量，其功能是對(duì)樣本進(jìn)行分類或識(shí)別。例如：中醫(yī)憑舌苔和脈搏進(jìn)行

3、診斷；公安人員根據(jù) 指紋查證罪犯。China Pharmaceutical UniversityChina Pharmaceutical University羧酸、酮類在熔點(diǎn)和沸點(diǎn)二維平面上的分布圖China Pharmaceutical University無監(jiān)督模式識(shí)別（unsupervised learning）：模式識(shí)別的基本概念聚類分析不依賴訓(xùn)練集，直接在特征空間中尋找點(diǎn)群或其它可以識(shí)別的數(shù)據(jù)結(jié)構(gòu)。有監(jiān)督模式識(shí)別（supervised learning）：數(shù)據(jù)中有一部分是已知模式的樣本，通過對(duì)處理過的數(shù)據(jù)進(jìn)行試驗(yàn)，識(shí)別未知類別的樣本屬于不同的類別。訓(xùn)練集和預(yù)測集有監(jiān)督模式識(shí)別：利用訓(xùn)

4、練集（Training set）通過訓(xùn)練或?qū)W習(xí)來獲得識(shí)別準(zhǔn)規(guī)（或判別函數(shù)），然后用這些識(shí)別好的規(guī)則來判決未知模式所屬類別，并利用預(yù)測集，對(duì)訓(xùn)練集中獲得的識(shí)別準(zhǔn)則加以檢測，來考察識(shí)別準(zhǔn)則的可靠性與正確性。未包括在訓(xùn)練集中的已知類別的樣本已知各個(gè)模式的所屬類別分類：China Pharmaceutical University6.2. 數(shù)據(jù)預(yù)處理6.2.1 遺漏的數(shù)據(jù)、中心化與比例調(diào)整遺漏數(shù)據(jù)：不宜用零替代，而用行或列的平均來替代，或者使用隨機(jī)數(shù)來替代。China Pharmaceutical University消除數(shù)據(jù)量綱不同或分布范圍過大造成的常數(shù)偏移量，可以對(duì)坐標(biāo)原點(diǎn)做變換，一般的步驟是

5、均值中心化。 China Pharmaceutical University原始數(shù)據(jù)矩陣的預(yù)處理n個(gè)樣本，每個(gè)樣本數(shù)據(jù)為一個(gè)m維矢量中心化處理：對(duì)數(shù)變換：范圍調(diào)整正規(guī)標(biāo)準(zhǔn)化處理：正規(guī)標(biāo)準(zhǔn)化處理（均值為零，方差為1）MATLAB 命令：zscore(X)China Pharmaceutical University6.2.2 協(xié)方差矩陣與相關(guān)矩陣數(shù)據(jù)預(yù)處理的常用方法將原始數(shù)據(jù)變換坐標(biāo)系，用于后面介紹的各種模式識(shí)別方法。變換的思路根據(jù)原始數(shù)據(jù)矩陣得到一個(gè)可以反映原始數(shù)據(jù) 中各數(shù)據(jù)點(diǎn)之間關(guān)系的數(shù)據(jù)矩陣；即方差協(xié)方差矩陣或相關(guān)矩陣。China Pharmaceutical Universit

6、y方差協(xié)方差矩陣MATLAB 命令： cov(X)China Pharmaceutical University相關(guān)矩陣 China Pharmaceutical University6.2.3 距離與相似性度量通過樣本間的相似性來對(duì)樣本進(jìn)行分類的。可用距離來描述樣本間的相似程度；距離越小兩個(gè)樣本越接近，相似性大，分在同一類的可能性就越大，距離大則相反。 China Pharmaceutical University距離越小兩樣本越接近，分在同一類的可能性就越大絕對(duì)距離歐氏距離明氏距離：與各變量的量綱有關(guān)沒考慮變量間的相關(guān)性馬氏距離：距離數(shù)據(jù)矩陣的協(xié)方差矩陣原始數(shù)據(jù)矩陣的預(yù)處理China

7、Pharmaceutical University6.3 聚類分析聚類分析的一般概念將一批樣品或變量按照它們性質(zhì)上親疏遠(yuǎn)近的程度分類基本思路n個(gè)樣本各自成一類，按一定方法逐步并類，使類由多變少，直至最后合并為一類。類：設(shè)T為取定的閾值，若對(duì)任意的樣本則稱G為一類。樣本間的距離描述樣本（或變量）間親疏程度的統(tǒng)計(jì)量：相似系數(shù)或距離性質(zhì)越接近的樣本間的相似系數(shù)越接近1或-1China Pharmaceutical University6.3.2 系統(tǒng)（譜系）聚類法基本思想：先把n個(gè)樣本各自看成一類，選擇距離最小的兩類合并成一個(gè)新類并計(jì)算該類和其它類的距離，再將距離最近的兩類合并，這樣每次減少一

8、類，直至所有樣本都成為一類。算法：設(shè)初始模式樣品共n個(gè)，每個(gè)樣本看成一類計(jì)算各類之間的距離，可得維的距離矩陣從距離矩陣找出距離最小的元素（如i,j）合并成類計(jì)算合并后的新類別之間的距離矩陣轉(zhuǎn)向第二步，直至所有樣品都聚為一類China Pharmaceutical University譜系聚類法平均距離法如何定義兩類的距離P、Q兩類相距最近，合并為K類，則K類和其它相關(guān)類H的距離DHP：例：對(duì)于5種隕石樣品分別測試4種金屬的含量，原始數(shù)據(jù)如下：解：按計(jì)算其距離矩陣如下：China Pharmaceutical UniversityD和E相距最近，合并為D*，B和C合并為B*，A和B*合并為A*

9、，China Pharmaceutical University聚類分析譜系圖距離ABCDEA*B*D*（a）平均距離法China Pharmaceutical UniversityMATLAB 命令 pdist: 計(jì)算距離矩陣 linkage: 生成譜系數(shù)據(jù)dendrogram: 繪制譜系圖 cluster: 聚類分析 China Pharmaceutical University最短距離法如何定義兩類的距離H，K為兩類，K類是P和Q類兩類合并而成的，例講：平均距離法對(duì)于5種隕石樣品分別測試4種金屬的含量。China Pharmaceutical University將每個(gè)樣本各自看成一類

10、x2x3x4x5x1GA（0）GB（0）GC（0）GD（0）GE（0）計(jì)算距離（歐氏距離），D，E最近解：合并得China Pharmaceutical University計(jì)算新類與其它類之間的距離，再合并由上表知最小，合并B，C；China Pharmaceutical University6.3.3 動(dòng)態(tài)聚類分析譜系聚類分析的缺點(diǎn)：樣本一旦劃分到某個(gè)類后就不變了；聚類過程需多次合并，計(jì)算量大?；舅枷耄涸O(shè)定類別的數(shù)目，選擇若干樣本作為聚類中心；按聚類準(zhǔn)則使所有樣本向各自聚類中心聚集，從而得到初始分類；判斷初始分類是否合理，如不合理就修改分類，直至合理為止。最短距離法特點(diǎn)：計(jì)算過程中各

11、類重心和類別都可能變化China Pharmaceutical University動(dòng)態(tài)聚類法算法算法的步驟選n個(gè)初始聚類中心：逐個(gè)將需要的樣品按最小距離分配給K個(gè)聚類中心的某一個(gè)Z1（1），形成初始分類計(jì)算初始類的新的向量值（重心），合理，打印若如果不等，返回第二步。China Pharmaceutical University選擇凝聚點(diǎn)初始分類最終分類修改分類分類是否合理NY動(dòng)態(tài)聚類法示意圖例：7樣本2變量China Pharmaceutical University對(duì)A和D，其中心點(diǎn)*1坐標(biāo)為： x1=(45+64)/2=54.5 x2=(24+52)/2=38對(duì)B、C、E、F、G的中

12、心點(diǎn)*2坐標(biāo)為: x1=(24+14+36+56+20)/5=30 x2=(42+23+121+140+148)/5=95下一步再計(jì)算各點(diǎn)離*1和*2的距離確定下一輪的類別。結(jié)果為(A、B、C、D)； (E、F、G)，顯然這一輪已經(jīng)得到了正確的結(jié)果。繼續(xù)計(jì)算新的中心點(diǎn)*3和*4，得到的結(jié)果仍為(A、B、C、D)； (E、F、G) 動(dòng)態(tài)聚類的結(jié)果為(A、B、C、D)和(E、F、G)。China Pharmaceutical University動(dòng)態(tài)聚類分析China Pharmaceutical University最小生成樹法基本思想：對(duì)n個(gè)樣本，要找到連通n個(gè)頂點(diǎn)的n-1條邊的加和為最小的

13、生成樹。計(jì)算方法：從最短距離的兩點(diǎn)開始，每加一條邊都不和已經(jīng)生成樹的構(gòu)成回路循環(huán)。例：x17樣本2變量的聚類分析CABDEGFx2China Pharmaceutical University最小生成樹法計(jì)算各點(diǎn)間的距離得下表：解：據(jù)上表，按兩點(diǎn)距離小到大排列得如下順序BCABEFEGACADCDDECABDEGFx1x2將最長的邊DE剪斷，將7個(gè)樣本分為兩類China Pharmaceutical University6.3.4 模糊聚類法China Pharmaceutical UniversityChina Pharmaceutical University6.4 降維和顯示技術(shù)處理多

14、變量數(shù)據(jù)時(shí)，當(dāng)變量數(shù)為或時(shí)，我們可以通過繪圖或計(jì)算機(jī)屏幕顯示的方式直觀地觀察圖形并識(shí)別其特征。當(dāng)變量數(shù)超過時(shí)，這種直接顯示則不再可能，這就涉及降維問題。如何將多維的數(shù)據(jù)在二維或三維空間中顯示出其最大多數(shù)的信息，是降維和顯示技術(shù)要解決的主要問題。降維和顯示技術(shù)有多種方法，因子分析技術(shù)是多數(shù)方法的算法基礎(chǔ)，因子分析是通過對(duì)數(shù)據(jù)矩陣進(jìn)行特征分析，旋轉(zhuǎn)變換等處理獲得信息的方法。因子分析在模式識(shí)別中的重要應(yīng)用是降維和顯示技術(shù)。數(shù)據(jù)的投影主要有主成分分析、因子分析等。China Pharmaceutical University 需要與可能：在各個(gè)領(lǐng)域的科學(xué)研究中，往往需要對(duì)反映事物的多個(gè)變量進(jìn)行大量的觀

15、測，收集大量數(shù)據(jù)以便進(jìn)行分析尋找規(guī)律。多變量大樣本無疑會(huì)為科學(xué)研究提供豐富的信息，但也在一定程度上增加了數(shù)據(jù)采集的工作量，更重要的是在大多數(shù)情況下，許多變量之間可能存在相關(guān)性而增加了問題分析的復(fù)雜性，同時(shí)對(duì)分析帶來不便。如果分別分析每個(gè)指標(biāo)，分析又可能是孤立的，而不是綜合的。盲目減少指標(biāo)會(huì)損失很多信息，容易產(chǎn)生錯(cuò)誤的結(jié)論。China Pharmaceutical University 因此需要找到一個(gè)合理的方法，減少分析指標(biāo)的同時(shí)，盡量減少原指標(biāo)包含信息的損失，對(duì)所收集的資料作全面的分析。由于各變量間存在一定的相關(guān)關(guān)系，因此有可能用較少的綜合指標(biāo)分別綜合存在于各變量中的各類信息。主成分分析與因

16、子分析就是這樣一種降維的方法。主成分分析與因子分析是將多個(gè)實(shí)測變量轉(zhuǎn)換為少數(shù)幾個(gè)不相關(guān)的綜合指標(biāo)的多元統(tǒng)計(jì)分析方法直線綜合指標(biāo)往往是不能直接觀測到的，但它更能反映事物的本質(zhì)。因此在醫(yī)學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等科學(xué)領(lǐng)域以及社會(huì)化生產(chǎn)中得到廣泛的應(yīng)用。China Pharmaceutical UniversityPCA 算法簡介China Pharmaceutical UniversityChina Pharmaceutical UniversityChina Pharmaceutical University主成分?jǐn)?shù)的估計(jì)China Pharmaceutical UniversityChina P

17、harmaceutical University特征值 1 分析法： 1 視為主成分 ( 2 個(gè)主成分)China Pharmaceutical UniversityChina Pharmaceutical UniversityPCA法的MATLAB命令PCACOV Principal Component Analysis using the covariance matrix.PC, LATENT, EXPLAINED = PCACOV(X) takes a the covariance matrix, X, and returns the principal components in P

18、C, the eigenvalues of the covariance matrix of X in LATENT, and the percentage of the total variance in the observations explained by each eigenvector in EXPLAINED.China Pharmaceutical University164頁習(xí)題5程序% 以協(xié)方差矩陣進(jìn)行主成分分析 x=5 18 18 22 8 8 18 21 28 27; 1 41 58 52 56 39 75 11 26 36; 6 26 28 32 16 14 30

19、26 36 36; 4 54 72 68 64 46 90 24 44 54; 13 60 66 74 40 34 72 57 80 81;pc,latent,explained=pcacov(cov(x)China Pharmaceutical University運(yùn)行結(jié)果如下：pc =Columns 1 through 9 -0.0199 0.1361 0.0006 -0.0983 0.0456 0.0304 -0.0117 0.0848 -0.2164 -0.2983 0.0844 0.6591 0.6219 0.2248 0.0856 0.1132 -0.0593 -0.0906 -0

20、.4012 -0.0999 0.0433 0.0752 -0.3812 -0.3530 -0.7146 -0.1924 0.0244 -0.3760 0.0827 -0.0759 -0.3922 0.7002 0.1299 -0.2349 -0.2493 -0.2260 -0.3614 -0.3721 0.3883 -0.4524 -0.1564 0.3146 0.0623 0.4034 0.2910 -0.2584 -0.1878 -0.0705 -0.0897 -0.4269 0.2514 0.3924 -0.5479 -0.4301 -0.5042 -0.2842 -0.5498 0.3

21、338 0.1760 -0.1602 0.2943 0.1283 0.2792 -0.1248 0.4979 0.1041 -0.1917 -0.0657 -0.0765 0.2096 -0.4442 0.6535 -0.2351 0.5410 -0.2868 0.1793 -0.2310 0.5943 -0.1980 0.2803 -0.0415 -0.2929 0.4031 0.0824 -0.2258 -0.1285 -0.5508 0.3059 0.3673 -0.3418 Column 10 -0.9562 -0.0180 -0.0568 0.1294 -0.0270 0.0194

22、-0.1167 -0.1022 0.1079 0.1693pc: the principal componentsChina Pharmaceutical Universitythe eigenvalues of the covariance matrix of X in LATENT, latent = 1.0e+003 * 3.5091 0.9884 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000China Pharmaceutical Universityexplained = 78.0226 21.9774 0.0000

23、0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000China Pharmaceutical Universitypc,latent,explained=pcacov(cov(x)由貢獻(xiàn)率explained可知：78.0226+21.9774=10085，所以只取兩個(gè)主成分即可，它們?yōu)椋簓1=-0.0199*x1-0.2983*x2-0.4012*x3-0.3760*x4-0.3614*x5-0.2584*x6-0.5042*x7-0.1248*x8-0.2351*x9-0.2929*x10;y2=0.1361*x1+0.0844*x2-0.0999

24、*x3+0.0827*x4-0.3721*x5-0.1878*x6-0.2842*x7+0.4974*x8+0.5410*x9+0.4031*x10China Pharmaceutical University6.4.2 圖形分類法圖形分類法是以多維特征樣本的簡潔表達(dá)為基礎(chǔ)的分類方法。使用星（star）圖、太陽光線（sun-ray）圖和Chernoff 臉譜（Chernoff faces）等方法對(duì)多變量數(shù)據(jù)進(jìn)行表示。使用這些方法的先決條件是將特征描述值標(biāo)準(zhǔn)化或變換為正值。China Pharmaceutical UniversityChina Pharmaceutical University

25、圖6-10 用圖形方法表示表6-3中頭發(fā)樣本數(shù)據(jù)的分類（a，b和c的歸屬見表6-5）上：星型圖；中：太陽光線圖；下：Chernoff臉譜圖China Pharmaceutical University圖6-11 基于血清樣本的20次臨床分析數(shù)據(jù)區(qū)分患者和健康人的Chernoff臉譜圖China Pharmaceutical University非監(jiān)督模式識(shí)別的局限性不確定性沒有已知類別的樣本集，甚至不知道類別數(shù)，可以利用的信息量少。在實(shí)際應(yīng)用中，應(yīng)該設(shè)法有效應(yīng)用領(lǐng)域的專門知識(shí)，以彌補(bǔ)信息的不足。China Pharmaceutical UniversityChina Pharmaceutic

26、al University6.5 有監(jiān)督模式識(shí)別方法有監(jiān)督學(xué)習(xí)方法需要運(yùn)用一組已知其類別的樣本，這些樣本集在特征空間中構(gòu)成的點(diǎn)集稱為訓(xùn)練集(training Set)有監(jiān)督模式識(shí)別就是利用訓(xùn)練集通過訓(xùn)練獲得判別準(zhǔn)則（或判別函數(shù)），然后再利用識(shí)別準(zhǔn)則來判決未知模式所屬的類別。為了檢驗(yàn)從訓(xùn)練集中得到的識(shí)別準(zhǔn)則的可靠程度。常利用一組未包含在訓(xùn)練集中的已知類別的樣本構(gòu)成預(yù)示集(prediction set)，利用從訓(xùn)練集中獲得的識(shí)別準(zhǔn)則對(duì)預(yù)示集中的各模式進(jìn)行識(shí)別，以檢驗(yàn)其識(shí)別的可靠性。常見的有監(jiān)督學(xué)習(xí)方法包括貝葉斯線性判別法、Fisher線性判別分析、線性學(xué)習(xí)機(jī)、最近鄰域判決法、SIMCA分類法等。C

27、hina Pharmaceutical University 貝葉斯線性判別法Fisher線性判別分析線性學(xué)習(xí)機(jī) LDA (LINAER DISCRIMINANT ANALYSIS)（線性判別式分析）對(duì)已知類別的樣本數(shù)據(jù)建立一定的數(shù)學(xué)模型, 如概率密度函數(shù)對(duì)未知樣本的類別歸屬進(jìn)行判斷China Pharmaceutical UniversityK-最近鄰域判決法（K-NN法）基本思想：一組已知類別的樣本集每個(gè)樣品n維向量，且每個(gè)樣本分別屬于類中的某一類，不知每一類中的樣品個(gè)數(shù)比較到哪一樣品的距離最小，取前k個(gè)距離最小者缺點(diǎn)：存貯量和計(jì)算量大（k為奇數(shù)），然后再看在哪一類中較多，就判為哪一類。

28、對(duì)于一未知模式計(jì)算出到的有已知模式間的 dChina Pharmaceutical University圖6-16 時(shí)將樣本分為兩類的分類邊界線China Pharmaceutical University6.5.5 SIMCA (Soft independent modeling class analogies)法 SIMCA：簇類的獨(dú)立軟模式對(duì)訓(xùn)練集中同一類樣本的數(shù)據(jù)集分別進(jìn)行主成分分析，建立能表述類別特征的局部軟模式;以各類模型來對(duì)未知樣品進(jìn)行分析，根據(jù)殘差比較, 確定其屬于哪一類，或不屬于哪一類。China Pharmaceutical University圖不同顯著主成分個(gè)數(shù)時(shí)的SIMCA模型圖6-16 不同顯著主成分個(gè)數(shù)時(shí)的SIMCA 模型China Pharmaceutical University6.6 模式識(shí)別

人人文庫> 全部分類> 行業(yè)資料 > 醫(yī)學(xué)制藥

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

計(jì)算藥物分析(藥學(xué)與生物信息學(xué))第六章課件

文檔簡介

溫馨提示

最新文檔

評(píng)論

計(jì)算藥物分析(藥學(xué)與生物信息學(xué))第六章課件

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔