




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第八講
安全數(shù)據(jù)的聚類分析和判別分析1聚類分析和判別分析概述2安全數(shù)據(jù)的聚類分析3安全數(shù)據(jù)的判別分析提綱8.1.1聚類分析概述
Anintelligentbeingcannottreateveryobjectitseesasauniqueentityunlikeanythingelseintheuniverse.Ithastoputobjectsincategoriessothatitmayapplyitshard-wonknowledgeaboutsimilarobjectsinthepasttotheobjectathand.智者觀物,固非以一物視之,別之以類,格而致知,推而及其他者也。觀察個體的特征將群體中的個體歸為不同的群/簇(cluster)1.聚類分析的直觀理解8.1.1聚類分析概述
123在市場營銷中,基于消費者的歷史交易信息、消費者背景等對消費者進行劃分,從而對不同類型的消費者實施不同的營銷策略——精準(zhǔn)營銷。在金融領(lǐng)域,為獲得較為平衡的投資組合,需要首先基于一系列金融表現(xiàn)變量(如回報率、波動率、市場資本等)對投資產(chǎn)品(如股票)進行歸類。這種歸類思想也可以應(yīng)用于天文學(xué)、考古學(xué)、醫(yī)學(xué)、化學(xué)、教育學(xué)、心理學(xué)、語言學(xué)和社會學(xué)等。市場營銷其他科學(xué)領(lǐng)域金融市場營銷2.聚類分析應(yīng)用場景8.1.1聚類分析概述聚類分析是根據(jù)“物以類聚”的原理,對樣品或指標(biāo)進行分類的一種多元統(tǒng)計分析方法,將安全統(tǒng)計對象的集合分成多個類的分析過程。通常聚類分析可分為Q型聚類和R型聚類,Q型聚類是對樣品進行分類處理,R型聚類是對變量進行分類處理。3.聚類分析的含義8.1.1聚類分析概述
判別分析是在已將安全現(xiàn)象分成若干類、并已經(jīng)取得各種類型的一批已知安全統(tǒng)計樣品的觀測數(shù)據(jù)的基礎(chǔ)上,根據(jù)某些準(zhǔn)則來建立判別模型,然后對未知類型的安全統(tǒng)計樣品判別其歸屬問題的一種多變量統(tǒng)計分析方法。核心思想是根據(jù)已知的訓(xùn)練數(shù)據(jù)(包含輸入特征及其類別標(biāo)簽)來推測出一條或多條判別規(guī)則,從而對新的、未標(biāo)記的樣本進行分類。這種分類過程通常依賴于數(shù)學(xué)模型,目標(biāo)是最大化類別之間的差異,同時盡量減少類別內(nèi)的差異。8.1.2判別分析概述
8.1.2判別分析概述
在安全統(tǒng)計學(xué)領(lǐng)域,判別分析能夠有效地對數(shù)據(jù)進行分類,從而幫助識別潛在的安全威脅和異常行為:風(fēng)險預(yù)測與防范:分析大量歷史安全數(shù)據(jù),識別潛在的安全威脅或風(fēng)險。安全決策與政策制定:幫助不同領(lǐng)域之間進行跨界整合,對政策的效果進行分類和評估。公共安全與應(yīng)急響應(yīng):快速識別事件的性質(zhì),合理安排救援資源和優(yōu)先級。提綱1聚類分析和判別分析概述2安全數(shù)據(jù)的聚類分析3安全數(shù)據(jù)的判別分析8.2.1聚類與分類的區(qū)別
分類在分類分析中,個體的類別標(biāo)簽固有存在,只是對于新觀測個體暫時未知,分類過程旨在根據(jù)其特征預(yù)測類別,后續(xù)可知是否預(yù)測準(zhǔn)確,故屬于有監(jiān)督學(xué)習(xí)。(supervisedlearning)聚類在聚類分析中,類別的個數(shù)及個體標(biāo)簽本身并不存在,只是根據(jù)個體特征的相似性形成“合理”的聚集,并無“正確答案”參考,故其屬于無監(jiān)督學(xué)習(xí)。(unsupervisedlearning)分類是有指導(dǎo)的學(xué)習(xí),聚類是一種無指導(dǎo)的學(xué)習(xí)。通過一定的方法在逐步分類過程中將沒有類標(biāo)志的安全統(tǒng)計數(shù)據(jù)聚集成有意義的類。名稱公式歐氏距離(EuclideanDistance)馬氏距離(MahalanobisDistance)切比雪夫距離(ChebyshevDistance)閔可夫斯基距離(MinkowskiDistance)8.1.3樣品相似性的度量
1.樣品相似度的度量——距離2.變量間相似系數(shù)的計算方法
8.2.2樣品相似性的度量名稱計算公式夾角余弦Pearson相關(guān)系數(shù)變量點的距離不同的距離公式的側(cè)重點和實際意義有所不同,因此在進行聚類分析時,應(yīng)根據(jù)實際情況選擇合適的距離公式。在選擇距離公式時,應(yīng)遵循以下三個基本原則:1要考慮所選擇的距離公式在實際應(yīng)用中所具有的意義2要綜合考慮對安全統(tǒng)計樣本觀測數(shù)據(jù)的預(yù)處理與將要采用的聚類分析方法3要考慮安全現(xiàn)象的特點與計算的工作量3.距離選擇的原則8.2.2樣品相似性的度量1.系統(tǒng)聚類法
系統(tǒng)聚類又稱為層次聚類。在給出安全統(tǒng)計樣品之間、類與類之間的距離定義的基礎(chǔ)上,首先將每個安全統(tǒng)計樣品各當(dāng)作一類,計算出各個類(即各個安全統(tǒng)計樣品)之間的距離;然后再將最近的兩類合并,距離較遠的安全統(tǒng)計樣品后聚成類,過程一直進行下去,每個安全統(tǒng)計樣品總能聚到合適的類中。簡單描述為:第一步:假設(shè)一個安全統(tǒng)計總體內(nèi)有n個安全統(tǒng)計樣品,將每個樣品獨自
聚成一類,共有n類;第二步:根據(jù)所確定的樣品“距離”公式,把距離較近的兩個樣品聚成
為一類,其他的樣品仍各自聚成一類,共聚成n-1類;第三步:將“距離”最近的兩個類聚成一類,共聚成n-2類,……,一直
進行下去后,最終將所有的樣品聚成一類。8.2.3
聚類分析的方法2.分解法
分解法的基本思想與系統(tǒng)聚類法恰好相反,先將全部安全統(tǒng)計樣品當(dāng)成一類,然后是將其分為兩類,再分為三類,……,直到最后將距離相近的樣品聚成一類。分解法與系統(tǒng)聚類法的計算量較大,需要大量的工作時間,通常適用于樣本量不大的樣品群使用。動態(tài)法是樣本量較大時的最佳使用方法,因此又稱為快速聚類法。其基本思想是:先確定若干個中心,然后將安全統(tǒng)計樣品逐個輸入,觀察樣品到底歸屬為哪類,如果可以歸屬到已有的某個類,則視為同類,并對該中心稍作調(diào)整,否則需要建立新類,并調(diào)整原有的歸屬類以及重新計算各新類的中心,如此進行下去,直到每個樣品皆有歸屬為止。3.動態(tài)法
8.2.3
聚類分析的方法8.2.3系統(tǒng)聚類法類別
完全連接法:以兩組中最遠個體之間的距離來定義族群之間的距離。質(zhì)心連接法:兩族群的距離定義為兩族群各自的質(zhì)心,即樣本均值向量,之間的歐式距離。平均連接法:兩族群之間的距離定義為nA個A集合點和nB個B集合點產(chǎn)生的所有nAnB個距離數(shù)值的平均。簡單連接法:定義族群間的距離為兩族群中間隔最近的兩個體間的距離。1.連接法
8.2.4系統(tǒng)聚類法通過最小化群體之間的平方差來確定樣本間相似性。每次合并時計算合并后的簇的內(nèi)部方差,并選擇使該方差增加最小的兩個簇進行合并。定義其距離為:2.Ward法
8.2.4系統(tǒng)聚類法式中:|Ci|和|Cj|分別是簇Ci和Cj中的樣本數(shù),μi和μj是它們的均值向量,
||μi-μj||是兩個簇中心之間的距離平方。8.2.5K-means聚類分析法
K-means聚類是建立在系統(tǒng)聚類的基礎(chǔ)上,又避免了系統(tǒng)聚類的缺點,是一種計算量相對較小、效率較高的聚類法,是動態(tài)法的一種,又稱快速聚類。具體步驟如下:第一步:確定要分類的數(shù)目K。第二步:確定K個類別的初始聚類中心。第三步:根據(jù)確定的K個初始聚類中心,依次計算每個安全統(tǒng)計樣本到K個
聚類中心的歐式距離,根據(jù)距離最近原則將所有的安全統(tǒng)計樣本
分派到事先確定的K個類中;第四步:根據(jù)已經(jīng)分成的K個類,計算出各類中所有變量的均值,并以均
值點作為K個新類的中心。第五步:重復(fù)第四步的內(nèi)容,直到滿足終止聚類的條件為止。直觀理解——K-means聚類法8.2.6DBSCAN聚類分析法
DBSCAN是一種基于密度的空間聚類算法,它通過考察數(shù)據(jù)點在空間中的密度來識別簇和噪聲點。與K-means模型不同,DBSCAN不需要預(yù)先指定簇的數(shù)量,并且能夠發(fā)現(xiàn)任意形狀的簇,尤其適用于處理具有噪聲和不規(guī)則形狀的復(fù)雜數(shù)據(jù)。DBSCAN的主要思想是通過數(shù)據(jù)點的密度來定義簇:1.核心點:如果某個點的鄰域內(nèi)有足夠多的點(即在半徑ε內(nèi)至少有
MinPts個),則該點被認為是核心點。2.邊界點:如果某個點的鄰域內(nèi)點數(shù)不足MinPts,但它在某個核心點的
鄰域內(nèi),則它被稱為邊界點。3.噪聲點:如果某個點既不是核心點,也不是邊界點,則被視為噪聲點。8.2.6DBSCAN聚類分析法1.確定參數(shù)
確定鄰域半徑ε和最小點數(shù)(MinPts)這兩個關(guān)鍵參數(shù)。如果兩點之間的距離
小于ε,則它們是鄰居。MinPts
一般設(shè)置為數(shù)據(jù)維度加1。2.標(biāo)記核心點
計算數(shù)據(jù)集中每個點的鄰域內(nèi)的點數(shù),如果一個點的鄰域內(nèi)點數(shù)不少于
MinPts,就將這個點標(biāo)記為核心點。3.擴展聚類
從任意一個未被訪問的核心點開始,找到其鄰域內(nèi)的所有點,這些點和初
始核心點構(gòu)成一個聚類。4.識別邊界點和噪聲點5.重復(fù)步驟3和步驟4方法名稱優(yōu)點缺點適用范圍系統(tǒng)聚類法1.不需要預(yù)先指定簇數(shù)K2.對于非球形簇結(jié)構(gòu)效果較好3.對于噪聲和離群點不敏感1.計算復(fù)雜度高2.合并過程中可能出現(xiàn)錯誤合并現(xiàn)象3.無法處理高維數(shù)據(jù)4.缺乏全局最優(yōu)解適用于數(shù)據(jù)規(guī)模較小、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、需要探索不同層次聚類結(jié)果的情況。例如圖像分割。K-means法1.簡單易懂,易于實現(xiàn)2.計算速度快3.對于密集型數(shù)據(jù)集效果較好4.可擴展性強,能夠處理大量數(shù)據(jù)1.需要預(yù)先指定簇數(shù)K2.非球形簇結(jié)構(gòu)效果不佳3.對于噪聲和離群點敏感4.對初始值敏感5.局部最優(yōu)而非全局最優(yōu)適用于數(shù)據(jù)集較大、簇結(jié)構(gòu)較簡單、數(shù)據(jù)分布較密集的情況。例如:對于客戶消費行為的聚類分析、網(wǎng)絡(luò)流量監(jiān)測。DBSCAN法1.不需要預(yù)先指定簇數(shù)K2.能夠識別任意形狀的簇3.能夠識別并處理噪聲和異常值1.對參數(shù)敏感(鄰域半徑、最小點數(shù))2.高維數(shù)據(jù)表現(xiàn)不佳3.計算資源消耗大,計算復(fù)雜度較高適用于數(shù)據(jù)分布不均勻、存在不規(guī)則形狀聚類情況,應(yīng)用于地理信息系統(tǒng)、數(shù)據(jù)處理、異常檢測。8.2.7方法總結(jié)與對比
提綱1聚類分析和判別分析概述2安全數(shù)據(jù)的聚類分析3安全數(shù)據(jù)的判別分析距離判別法是根據(jù)所觀測到的安全統(tǒng)計樣品的數(shù)量特征來對新的樣本進行識別,并判別新樣品歸屬類型的一種統(tǒng)計分析方法。
可以據(jù)此推廣到k個總體,若樣品x距k個總體中的Gi馬氏距離最近,則其歸屬于Gi。8.3.1距離判別法1、貝葉斯(Bayes)判別法的基本思想8.3.2貝葉斯(Bayes)判別法貝葉斯判別法是根據(jù)最大似然比與貝葉斯準(zhǔn)則來進行判別分析的一種多元統(tǒng)計分析法。抽樣前有一定的認識用先驗分布來描述這種認識據(jù)安全統(tǒng)計樣本修正認識基于后驗分布進行統(tǒng)計推斷得到后驗分布2、多元正態(tài)的貝葉斯(Bayes)判別法8.3.2貝葉斯(Bayes)判別法根據(jù)相關(guān)數(shù)學(xué)理論,可以證明:在各統(tǒng)計總體服從“等協(xié)方差陣”多元正態(tài)分布假設(shè)下,判別關(guān)系可成立:
在均值向量與協(xié)方差矩陣取值未知的情況下,都可以通過樣本估計。1、基本思想8.3.3Fisher判別法通過將k組多元安全統(tǒng)計數(shù)據(jù)投影到某一個方向上(或某一低維空間中),使投影后的組與組之間盡可能地分開,借助一元方差分析的思想來構(gòu)造一個線性判別函數(shù),其系數(shù)是根據(jù)類與類之間距離最大、類內(nèi)部距離最小的原則來確定,再根據(jù)所建立的線性判別函數(shù)結(jié)合相應(yīng)的判別規(guī)則來判斷待判樣品的類別。高維向低維投影根據(jù)距離判別2、重要概念8.3.3Fisher判別法類內(nèi)散度矩陣:衡量同類內(nèi)樣本之間的分散程度,反映了每個類內(nèi)部樣本的離散性。其中:xi是第k類中的樣本,μk是第k類的均值,(xi-μk)(xi-μk)T是每個樣本與該類均值的偏差的外積。類間散度矩陣:衡量不同類之間的分散程度,它反映了不同類之間的“可分性”。其中:Nk是第k類的樣本數(shù),μk是第k類的均值,μ是所有數(shù)據(jù)點的全局均值(即所有類樣本的加權(quán)平均),(μk-μ)(μk-μ)T是類k均值與全局均值之間的偏差的外積。2、重要概念8.3.3Fisher判別法Fisher判別法通過計算類內(nèi)散度矩陣和類間散度矩陣來優(yōu)化投影方向。最優(yōu)投影方向?qū)?yīng)于以下目標(biāo)函數(shù)(稱為判別準(zhǔn)則)的最大化:式中:w為投影向量,SB、SW分別為類間散度矩陣和類內(nèi)散度矩陣。計算類內(nèi)散度矩陣Fisher判別法基本步驟計算類間散度矩陣計算散度矩陣的特征值和特征向量選擇特征值最大的特征向量8.3.4方法總結(jié)與對比方法優(yōu)點缺點適用范圍距離判別法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位分房合同協(xié)議書
- 2025汽車買賣合同書范本
- 合同股份扺押協(xié)議書
- 工程法規(guī)職能劃分試題及答案
- 合伙運營合同協(xié)議書
- 2025年會計實務(wù)課堂試題及答案評估
- 2025年能源與資源行業(yè):水電開發(fā)與水資源保護研究報告
- 水利水電工程整治方案制定試題及答案
- 農(nóng)業(yè)綠色發(fā)展政策背景下2025年生態(tài)農(nóng)業(yè)項目規(guī)劃與實施報告
- 2025至2030年中國電加熱褲腰蒸汽壓平機市場分析及競爭策略研究報告
- 急性胃腸炎的健康宣教
- 室外消防鋼絲網(wǎng)骨架塑料復(fù)合PE管施工方案
- 2025年工會知識競賽題庫200題及答案(完整版)
- 藥房考試試題及答案
- 2025年廣東省廣州南沙經(jīng)濟技術(shù)開發(fā)區(qū)商務(wù)局招聘編外1人歷年自考難、易點模擬試卷(共500題附帶答案詳解)
- 2025起重工(技師)技能鑒定精練考試指導(dǎo)題庫及答案(濃縮300題)
- 申請法定監(jiān)護人的申請書
- GB 19081-2025飼料加工系統(tǒng)粉塵防爆安全規(guī)范
- 新版人教版七年級下冊地理課件 第九章 東半球其他的地區(qū)和國家 綜合復(fù)習(xí)
- 2025年中考物理壓軸題專項練習(xí):創(chuàng)新性題型 (含解析)
- 手語日常會話課件
評論
0/150
提交評論