![第18章RapidMiner異常檢測_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/13/bdae7c1f-57f4-4803-a48e-a22f8704c38c/bdae7c1f-57f4-4803-a48e-a22f8704c38c1.gif)
![第18章RapidMiner異常檢測_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/13/bdae7c1f-57f4-4803-a48e-a22f8704c38c/bdae7c1f-57f4-4803-a48e-a22f8704c38c2.gif)
![第18章RapidMiner異常檢測_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/13/bdae7c1f-57f4-4803-a48e-a22f8704c38c/bdae7c1f-57f4-4803-a48e-a22f8704c38c3.gif)
![第18章RapidMiner異常檢測_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/13/bdae7c1f-57f4-4803-a48e-a22f8704c38c/bdae7c1f-57f4-4803-a48e-a22f8704c38c4.gif)
![第18章RapidMiner異常檢測_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/13/bdae7c1f-57f4-4803-a48e-a22f8704c38c/bdae7c1f-57f4-4803-a48e-a22f8704c38c5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、RapidMiner數據分析與挖掘實戰(zhàn)第 18章1RapidMiner數據分析與挖掘實戰(zhàn)第 18章第18章異常檢測1.1離群點檢測就餐飲企業(yè)而言,經常會碰到這樣的問題:1)如何根據客戶的消費記錄檢測是否為異常刷卡消費?2)如何檢測是否有異常訂單?這一類異常問題可以通過離群點檢測解決。離群點檢測是數據挖掘中重要的一部分,它的任務是發(fā)現與大部分其他對象顯著不同的對象。大部分數據挖掘方法都將這種差異信息視為噪聲而丟棄,然而在一些應用中, 罕見的數據可能蘊含著更大的研究價值。在數據的散布圖中,如圖 18-1離群點遠離其它數據點。因為離群點的屬性值明顯偏離 期望的或常見的屬性值,所以離群點檢測也稱偏差檢
2、測。圖18-1離群點檢測示意圖離群點檢測已經被廣泛應用于電信和信用卡的詐騙檢測、貸款審批、電子商務中、網絡入侵、天氣預報等領域,如可以利用離群點檢測分析運動員的統(tǒng)計數據,以發(fā)現異常的運動員。(1)離群點的成因離群點的主要成因有:數據來源于不同的類、自然變異、數據測量和收集誤差。(2)離群點的類型對離群點的大致分類見表18-1 :表18-1離群點的大致分類分類標準分類名稱分類描述從數據范圍全局離群點和局部離群點從整體來看,某些對象沒有離群特征,但是從局部來看,卻顯示了一定的離群性。:如圖18-1 : C是全局離群點,D是局部離群 點。從數據類型數值型離群點和分類型離群點這是以數據集的屬性類型進行
3、劃分的。屬性的個數一維離群點和多維離群點一個對象可能有一個或多個屬性。DB圖18-1全局離群點和局部離群點1.1.1離群點檢測方法常用離群點檢測方法見表 18-2。表18-2常用離群點檢測方法離群點檢測方法方法描述方法評估大部分的基于統(tǒng)計的離群點檢基于統(tǒng)計模型的離群點檢測方法基于統(tǒng)計測方法是構建一個概率分布模型,的前提是必須知道數據集服從什么分并計算對象符合該模型的概率,把布;對于高維數據,檢驗效果可能很差。具有低概率的對象視為離群點。基于鄰近度通??梢栽跀祿ο笾g定義 鄰近性度量,把遠離大部分點的對 象視為離群點。簡單,二維或二維的數據可以做散 點圖觀察;大數據集不適用;對參數選擇敏感;具
4、有全局閾值,不能處理具有 不同密度區(qū)域的數據集?;诿芏瓤紤]數據集可能存在不同密度 區(qū)域這一事實,從基于密度的觀點 分析,離群點是在低密度區(qū)域中的 對象。一個對象的離群點得分是該 對象周圍密度的逆。給出了對象是離群點的定量度量, 并且即使數據具有不同的區(qū)域也能夠 很好的處理;大數據集不適用;參數選 擇是困難的?;诰垲愐环N是利用聚類檢測離群點的 方法是丟棄遠離其他簇的小簇;另 一種更系統(tǒng)的方法,首先聚類所有 對象,然后評估對象屬于簇的程度(離群點得分)?;诰垲惣夹g來發(fā)現離群點可能是高度有效的;聚類算法產生的簇的質量對該算法產生的離群點的質量影響非常大?;诮y(tǒng)計模型的離群點檢測方法需要滿足統(tǒng)計
5、學原理,如果分布已知,則檢驗可能非常有效?;卩徑鹊碾x群點檢測方法比統(tǒng)計學方法更一般、更容易使用,因為確定數據集有意義的鄰近度量比確定它的統(tǒng)計分布更容易?;诿芏鹊碾x群點檢測與基于鄰近度的離群點檢測密切相關,因為密度常用鄰近度定義:一種是定義密度為到K個最鄰近的平均距離的倒數,如果該距離小,則密度高;另一種是使用DBSCAN聚類算法,一個對象周圍的密度等于該對象指定距離 d內對象的個數。本節(jié)重點介紹基于統(tǒng)計模型和聚類的離群點檢測方法。1.1.2基于模型的離群點檢測方法通過估計概率分布的參數來建立一個數據模型,如果一個數據對象不能很好地跟該模型擬合,即如果它很可能不服從該分布,則它是一個離群點
6、。(1)一元正態(tài)分布中的的離群點檢測正態(tài)分布是統(tǒng)計學中最常用的分布之一。若隨機變量 錯誤!未找到引用源。 的密度函數x i=. J e 2- x R,則稱x從 正態(tài)分布,簡稱x服從正態(tài)分布 N二,其中參數和二分別為均值和標準差。圖18-3顯示N 0,1的密度函數:圖18-3 N 0,1的概率密度函數N 0,1的數據對象出現在該分布的兩邊尾部的機會很小,因此可以用它作為檢測數據 對象是否是離群點的基礎。數據對象落在三倍標準差中心區(qū)域之外的概率僅有0.0027。(2)混合模型的離群點檢測這里首先介紹下混合模型。混合是一種特殊的統(tǒng)計模型,它使用若干統(tǒng)計分布對數據建模。每一個分布對應一個簇, 而每個分
7、布的參數提供對應簇的描述,通常用中心和發(fā)散描述?;旌夏P蛯祿醋鲝牟煌母怕史植嫉玫降挠^測值的集合。概率分布可以是任何分布,但是通常是多元正態(tài)的,因為這種類型的分布不難理解,容易從數學上進行處理,并且已經證明在許多情況下都能產生好的結果。這種類型的分布可以對橢圓簇建模。總的講,混合模型數據產生過程為:給定幾個類型相同但參數不同的分布,隨機地選取一個分布并由它產生一個對象。重復該過程m次,其中m是對象的個數。具體地講,假定有 K個分布和m個對象 =,x2,| |l ,xm。設第j個分布的參數為3 ,并設厶是所有參數的集合,即二二12,川,亠。則P xl是第i個對象來自 第j個分布的概率。選取第
8、 j個分布產生一個對象的概率由權值 Wj 1 - j - K給定,其中K權值(概率)受限于其和為 1的約束,即V Wj =1。于是,對象x的概率由以下公式給出:j 4KP x|2 八 WjPj x|j( 18-1)j4如果對象以獨立的方式產生,則整個對象集的概率是每個個體對象xi的概率的乘積,公式如下:mm KP I:八 P XilWjPj x|: j( 18-2)7i4 j4對于混合模型,每個分布描述一個不同的組, 即一個不同的簇。通過使用統(tǒng)計方法,可 以由數據估計這些分布的參數, 從而描述這些分布(簇)。也可以識別哪個對象屬于哪個簇。 然而,混合模型只是給出具體對象屬于特定簇的概率。聚類時
9、,混合模型方法假定數據來自混合概率分布,并且每個簇可以用這些分布之一識別。同樣,對于離群點檢測,數據用兩個分布的混合模型建模,一個分布為正常數據,而另 一個為離群點。聚類和離群點檢測的目標都是估計分布的參數,以最大化數據的總似然。這里提供一種離群點檢測常用的簡單的方法: 先將所有數據對象放入正常數據集, 這時 離群點集為空集;再用一個迭代過程將數據對象從正常數據集轉移到離群點集,只要該轉移能提高數據的總似然。具體操作如下:假設數據集U包含來自兩個概率分布的數據對象:M是大多數(正常)數據對象的分布,而N是離群點對象的分布。數據的總概率分布可以記作:U xj:xjfN x 其中,x是一個數據對象
10、;'二三【0,1丨,給出離群點的期望比例。分布 M由數據估計得到,而分布 N通常取均勻分布。設 Mt和Nt分別為時刻t正常數據和離群點對象的集合。初始t = 0,M0 =D,而N0定呂K根據混合模型中公式 P(x|A) = :Z WjP(x|Gj )推導,在整個數據集的似然和對數似j#然可分別由下面兩式給出:Lt(U) = PU(Xi)=1(1 丸nPMi(X)MN"rPNi(Xi)(18-3)X 卻Ixi 田 i;、XiNi丿ln Lt(U)= Mt ln(1巧+瓦 In Pm: (X )+|叫卩n+ 遲 In R/xj ( 18-4)Xi 刖 iXi m i其中PD、PM
11、t、PNt分別是D、Mt、Nt的概率分布函數。因為正常數據對象的數量比離群點對象的數量大的很多,因此當一個數據對象移動到離群點集后,正常數據對象的分布變化不大。在這種情況下,每個正常數據對象的正常數據對象的總似然的貢獻保持不變。此外,如果假定離群點服從均勻分布,則移動到離群點集的每一個數據對象對離群點的似然貢獻一個固定的量。這樣,當一個數據對象移動到離群點集時,數據總似然的改變粗略地等于該數據對象在均勻分布下的概率(用入加權)減去該數據對象在正常數據點的分布下的概率(用1-%加權)。從而,離群點由這樣一些數據對象組成,這樣數據對象在均勻分布下的概率比正常數據對象分布下的概率高。在某些情況下是很
12、難建立模型的。如:因為數據的統(tǒng)計分布未知或沒有訓練數據可用。在這種情況下,可以考慮另外其他不需要建立模型的檢測方法。1.1.3基于聚類的離群點檢測方法聚類分析用于發(fā)現局部強相關的對象組, 而異常檢測用來發(fā)現不與其他對象強相關的對 象。因此聚類分析非常自然地可以用于離群點檢測。本節(jié)主要介紹兩種基于聚類的離群點檢測方法。(1)丟棄遠離其他簇的小簇一種利用聚類檢測離群點的方法是丟棄遠離其他簇的小簇。通常,該過程可以簡化為丟棄小于某個最小閾值的所有簇。這個方法可以和其他任何聚類技術一起使用, 但是需要最小簇大小和小簇與其他簇之間 距離的閾值。而且這種方案對簇個數的選擇高度敏感, 使用這個方案很難將離群
13、點得分附加 到對象上。圖18-中,聚類簇數K=2,可以直觀地看出其中一個包含5個對象的小簇遠離大部分對象,可以視為離群點。圖18-4 K-Means算法的聚類圖(2)基于原型的聚類另一種更系統(tǒng)的方法,首先聚類所有對象,然后評估對象屬于簇的程度(離群點得分)。 在這種方法中,可以用對象到它的簇中心的距離來度量屬于簇的程度。特別地,如果刪除一個對象導致該目標的顯著改進,則可將該對象視為離群點。例如,在K均值算法中,刪除遠離其相關簇中心的對象能夠顯著地改進該簇的誤差平方和(SSE)。對于基于原型的聚類,評估對象屬于簇的程度(離群點得分)主要有兩種方法:一是度量對象到簇原型的距離,并用它作為該對象的離
14、群點得分;二是考慮到簇具有不同的密度, 可以度量簇到原型的相對距離,相對距離是點到質心的距離與簇中所有點到質心的距離的中位數之比。如圖18-5,如果選擇聚類簇數 K=3,則對象A、B、C應分別屬于距離它們最近的簇,但相對于簇內的其他對象,這三個點又分別遠離各自的簇,所以有理由懷疑對象A、B、C是離群點。 C圖18-5基于距離的離群點檢測診斷步驟如下:1)進行聚類。選擇聚類算法(如 K-Means算法),將樣本集聚為 K簇,并找到各簇的質心。2)計算各對象到它的最近質心的距離。3)計算各對象到它的最近質心的相對距離。4)與給定的閾值作比較。如果某對象距離大于該閾值,就認為該對象是離群點?;诰垲?/p>
15、的離群點檢測的改進:1)離群點對初始聚類的影響:通過聚類檢測離群點時,離群點會影響聚類結果。為了處理該問題,可以使用如下方法:對象聚類,刪除離群點,對象再次聚類(這個不能保證產生最優(yōu)結果)。2)還有一種更復雜的方法:取一組不能很好的擬合任何簇的特殊對象,這組對象代表潛在的離群點。隨著聚類過程的進展,簇在變化。不再強屬于任何簇的對象被添加到潛在的離群點集合;而當前在該集合中的對象被測試,如果它現在強屬于一個簇, 就可以將它從潛在的離群點集合中移除。聚類過程結束時還留在該集合中的點被分類為離群點(這種方法也不能保證產生最優(yōu)解,甚至不比前面的簡單算法好,在使 用相對距離計算離群點得分時,這個問題特別
16、嚴重)。對象是否被認為是離群點可能依賴于簇的個數(如k很大時的噪聲簇)。該問題也沒有簡單的答案。一種策略是對于不同的簇個數重復該分析。另一種方法是找出大量小簇, 其想 法是:1) 較小的簇傾向于更加凝聚;2) 如果存在大量小簇時一個對象是離群點,則它多半是一個真正的離群點。不利的一面是一組離群點可能形成小簇從而逃避檢測。"Detect Outlier(Distances) ”基于距離的離群點檢測,參數設置中可設定要檢測的離群點的個數,如圖18.5ProcessRoot 卜uOOtGenerate DataDetect Outlier 就也.res圖18.5 RapidMiner自帶的
17、離群點檢測流程第三方離群點檢測插件帶有功能更強的離群點檢測功能,例如“One-Class LIBSVM AnomalyScore”為半監(jiān)督的離群點檢測操作符。1.2離群點檢測實例下面,我們自己生成一個數據,來看看離群點檢測的功能。第一步:生成隨機數據調用"Gen erate Data”生成數據操作符,能幫助我們自動創(chuàng)建一些測試數據,創(chuàng)建參數設置如圖18.6屋 GeneratA Datalarg&tfijnctiDngaussian mixtura cluislers*numbEr examples1000number of attributes2atlribLJles low
18、er bound-10.0atlribules upper bound1D.0蟲& local random seedlocal random seed3587datamanagem&nt18.6生成隨機數據參數設置調用“ Map”映射操作符,設置參數如圖18.7,將所有的數據類型都轉換為normal類型。Parameters睡Mapattribute filter typesingleaattributelabelTainvert selectio nG include special attributesGvalue map pi ngs"2 Edit List
19、(0).areplace what*areplace bynormala4 consider regtiiar expressionsaadd default mappinga圖18.7映射操作符參數設置再次調用“ Gen erate Data ”生成數據操作符,參數設置如圖18.8,添加離群點Paramere rs5 Qeneraie Data (2 (Qeneraie Datatarget ftjndiDfirandom dote classification10number of attributes2|attribules lower bound-10.0attributes uppe
20、r bound10.0number examples13RapidMiner數據分析與挖掘實戰(zhàn)第 18章#RapidMiner數據分析與挖掘實戰(zhàn)第 18章use local random seeddoublie_arT3¥datamanagement圖18.8添加離群點參數設置同樣,添加Map操作符,參數設置如圖18.9#RapidMiner數據分析與挖掘實戰(zhàn)第 18章#RapidMiner數據分析與挖掘實戰(zhàn)第 18章ParametersMap (2) (Map)attribule filter typeattribute#RapidMiner數據分析與挖掘實戰(zhàn)第 18章#RapidMiner數據分析與挖掘實戰(zhàn)第 18章invert selectioninclude special attributeswIue mappingsreplace wr atrep
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年可調節(jié)吧臺椅行業(yè)跨境出海戰(zhàn)略研究報告
- 2025-2030年新能源汽車保險服務行業(yè)跨境出海戰(zhàn)略研究報告
- 2025-2030年復古銅質餐具行業(yè)跨境出海戰(zhàn)略研究報告
- 2025-2030年手持式電動磨光機企業(yè)制定與實施新質生產力戰(zhàn)略研究報告
- 2025-2030年堅果涂膜機企業(yè)制定與實施新質生產力戰(zhàn)略研究報告
- 基于馬赫-曾德結構的硅光子器件設計
- 側柏人工林生產力及水分利用效率對氣候變化的響應
- 河西走廊草地嚙齒動物生態(tài)地理區(qū)劃及優(yōu)勢種生境特征研究
- 2025年度體育培訓機構教練員聘任合同
- 2025年度國際郵輪運輸合同年度執(zhí)行版
- 中國節(jié)能協(xié)會團體標準草案模板
- 招投標現場項目經理答辯(完整版)資料
- 運動競賽學課件
- 重大事故隱患整改臺賬
- 2022年上海市初中畢業(yè)數學課程終結性評價指南
- DB15T 2058-2021 分梳綿羊毛標準
- 高考作文備考-議論文對比論證 課件14張
- 新華師大版七年級下冊初中數學 7.4 實踐與探索課時練(課后作業(yè)設計)
- 山東省萊陽市望嵐口礦區(qū)頁巖礦
- 《普通生物學教案》word版
- 安全生產應知應會培訓課件
評論
0/150
提交評論