Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 10 章 離群點(diǎn)檢測_第1頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 10 章 離群點(diǎn)檢測_第2頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 10 章 離群點(diǎn)檢測_第3頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 10 章 離群點(diǎn)檢測_第4頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 第 10 章 離群點(diǎn)檢測_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第10章離群點(diǎn)檢測第10章離群點(diǎn)檢測本章內(nèi)容離群點(diǎn)概述離群點(diǎn)檢測sklearn中的異常值檢測方法10十一月202421離群點(diǎn)概述3數(shù)據(jù)庫中的數(shù)據(jù)由于各種原因常常會包含一些異常記錄,對這些異常記錄的檢測和解釋有很重要的意義。異常檢測目前在入侵檢測、工業(yè)損毀檢測、金融欺詐、股票分析、醫(yī)療處理等領(lǐng)域都有著比較好的實(shí)際應(yīng)用效果。異常檢測的實(shí)質(zhì)是尋找觀測值和參照值之間有意義的偏差。離群點(diǎn)檢測是異常檢測中最常用的方法之一,是為了檢測出那些與正常數(shù)據(jù)行為或特征屬性差別較大的異常數(shù)據(jù)或行為。1離群點(diǎn)概述4離群點(diǎn)的概念離群點(diǎn)(Outlier)是指顯著偏離一般水平的觀測對象。離群點(diǎn)檢測(或稱異常檢測)是找出不同于預(yù)期對象行為的過程。離群點(diǎn)的本質(zhì)仍然是數(shù)據(jù)對象,但它與其他對象又顯著差異,又被稱為異常值。1離群點(diǎn)概述5離群點(diǎn)不同于噪聲數(shù)據(jù)。噪聲是指被觀測數(shù)據(jù)的隨機(jī)誤差或方差,觀測值是真實(shí)數(shù)據(jù)與噪聲的混合。而離群點(diǎn)屬于觀測值,既可能是真實(shí)數(shù)據(jù)產(chǎn)生,也有可能由噪聲帶來。離群點(diǎn)的產(chǎn)生主要有以下原因:1.第一類離群值是總體固有變異性的極端表現(xiàn),這類離群值與樣本中其余觀測值屬于同一總體。2.第二類離群值是由于試驗(yàn)條件和試驗(yàn)方法的偶然偏離所產(chǎn)生的結(jié)果,或產(chǎn)生于觀測、記錄、計算中的失誤,這類離群值與樣本中其余觀測值不屬于同一總體。1離群點(diǎn)概述6離群點(diǎn)的類型:全局離群點(diǎn)、條件離群點(diǎn)和集體離群點(diǎn)。1.全局離群點(diǎn)當(dāng)一個數(shù)據(jù)對象明顯地偏離了數(shù)據(jù)集中絕大多數(shù)對象時,該數(shù)據(jù)對象就是全局離群點(diǎn)(GlobalOutlier)。全局離群點(diǎn)有時也稱為點(diǎn)異常,是最簡單的一類離群點(diǎn)。如圖10-1中區(qū)域R中的點(diǎn),它們顯著偏離數(shù)據(jù)集的絕大多數(shù)的數(shù)據(jù)對象,因此屬于全局離群點(diǎn)。1離群點(diǎn)概述7離群點(diǎn)的類型:全局離群點(diǎn)、條件離群點(diǎn)和集體離群點(diǎn)。2.條件離群點(diǎn)與全局離群點(diǎn)不同,當(dāng)且僅當(dāng)在某種特定情境下,一個數(shù)據(jù)對象顯著地偏離數(shù)據(jù)集中的其他對象時,該數(shù)據(jù)對象被稱為條件離群點(diǎn)(ContextualOutlier)。一般地,在情境離群點(diǎn)檢測中所考慮對象的屬性劃分為條件屬性和行為屬性。條件屬性是指數(shù)據(jù)對象的定義中定義情境的屬性。行為屬性指數(shù)據(jù)對象中定義對象特征的屬性。1離群點(diǎn)概述8離群點(diǎn)的類型:全局離群點(diǎn)、條件離群點(diǎn)和集體離群點(diǎn)。3.集體離群點(diǎn)當(dāng)數(shù)據(jù)集中的一些數(shù)據(jù)對象顯著地偏離整個數(shù)據(jù)集時,該集合形成集體離群點(diǎn)(CollectionOutlier)。不同于全局或條件離群點(diǎn),在集體離群點(diǎn)檢測中,除了考慮個體對象的行為,還要考慮集體的行為。1離群點(diǎn)概述9離群點(diǎn)檢測的挑戰(zhàn):1.正常對象和離群點(diǎn)的有效建模2.針對應(yīng)用的離群點(diǎn)檢測3.在離群點(diǎn)檢測中處理噪聲4.可理解性2離群點(diǎn)的檢測離群點(diǎn)的檢測方法很多,每種方法在檢測時都會對正常數(shù)據(jù)對象或離群點(diǎn)作出假設(shè),從所做假設(shè)的角度,離群點(diǎn)檢測方法可以分為基于統(tǒng)計學(xué)的離群點(diǎn)檢測、基于近鄰的離群點(diǎn)檢測、基于聚類以及基于分類的離群點(diǎn)檢測。10十一月2024102離群點(diǎn)的檢測基于統(tǒng)計學(xué)的離群點(diǎn)檢測在基于統(tǒng)計學(xué)的離群點(diǎn)檢測方法中,假設(shè)數(shù)據(jù)集中的正常數(shù)據(jù)對象由一個統(tǒng)計模型產(chǎn)生,如果某數(shù)據(jù)不符合該統(tǒng)計模型,則該數(shù)據(jù)對象是離群點(diǎn)。在基于統(tǒng)計的離群點(diǎn)檢測過程中,一般先設(shè)定數(shù)據(jù)集的分布模型,如正態(tài)分布、泊松分布和二項式分布等,然后根據(jù)模型進(jìn)行不和諧檢驗(yàn)以發(fā)現(xiàn)離群點(diǎn)。不和諧檢驗(yàn)中需要樣本空間數(shù)據(jù)集的參數(shù)知識、分布的參數(shù)知識以及期望的離群點(diǎn)數(shù)目。10十一月2024112離群點(diǎn)的檢測基于統(tǒng)計學(xué)的離群點(diǎn)檢測【例10-1】假設(shè)某類數(shù)據(jù)總體服從正態(tài)分布,現(xiàn)有部分?jǐn)?shù)據(jù){6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12},基于統(tǒng)計方法檢測離群點(diǎn)。10十一月2024122離群點(diǎn)的檢測2基于鄰近性的離群點(diǎn)檢測給定特征空間中的數(shù)據(jù)對象集,可以使用距離度量對象之間的相似性。直觀地,遠(yuǎn)離其他大多數(shù)對象的數(shù)據(jù)對象被視為離群點(diǎn)?;卩徑缘姆椒俣x群點(diǎn)對象與它最近鄰的鄰近性顯著偏離數(shù)據(jù)集中其他對象與其近鄰之間的鄰近性?;卩徑偷碾x群點(diǎn)檢測方法有基于距離的和基于密度的方法。10十一月2024132離群點(diǎn)的檢測

基于鄰近性的離群點(diǎn)檢測(1)

基于距離的離群點(diǎn)檢測方法在基于距離的離群點(diǎn)檢測方法中,離群點(diǎn)就是遠(yuǎn)離大部分對象的點(diǎn),即與數(shù)據(jù)集中的大多數(shù)對象的距離都大于某個給定閾值的點(diǎn)?;诰嚯x的檢測方法考慮的是對象給定半徑的鄰域。如果在某個對象的鄰域內(nèi)沒有足夠的其他的點(diǎn),則稱此對象為離群點(diǎn)?;诰嚯x的離群點(diǎn)方法有嵌套-循環(huán)算法、基于索引的算法和基于單元的算法。10十一月2024142離群點(diǎn)的檢測

基于鄰近性的離群點(diǎn)檢測(1)

基于距離的離群點(diǎn)檢測方法基于距離的離群點(diǎn)方法有嵌套-循環(huán)算法、基于索引的算法和基于單元的算法。下面簡要介紹嵌套-循環(huán)算法。10十一月2024152離群點(diǎn)的檢測

基于鄰近性的離群點(diǎn)檢測(2)

基于密度的離群點(diǎn)檢測方法基于密度的離群點(diǎn)檢測方法考慮的是對象與它近鄰的密度。如果一個對象的密度相對于它的近鄰低得多,則被視為離群點(diǎn)。最有代表性的基于密度的離群點(diǎn)檢測方法是基于局部離群點(diǎn)離群因子的離群點(diǎn)檢測方法。局部離群因子(LocalOutlierFactor,LOF)會給數(shù)據(jù)集中的每個點(diǎn)計算一個離群因子LOF,通過判斷LOF是否接近于1來判定是否是離群因子。10十一月2024162離群點(diǎn)的檢測

基于鄰近性的離群點(diǎn)檢測(2)

基于密度的離群點(diǎn)檢測方法局部離群因子(LocalOutlierFactor,LOF)會給數(shù)據(jù)集中的每個點(diǎn)計算一個離群因子LOF,通過判斷LOF是否接近于1來判定是否是離群因子。若LOF遠(yuǎn)大于1,則認(rèn)為是離群因子,接近于1,則是正常點(diǎn)。對于任何給定的數(shù)據(jù)點(diǎn),局部離群因子算法計算的離群度等于數(shù)據(jù)點(diǎn)p的k近鄰集合的平均局部數(shù)據(jù)密度與數(shù)據(jù)點(diǎn)自身局部數(shù)據(jù)密度的比值。10十一月2024172離群點(diǎn)的檢測3基于聚類的離群點(diǎn)檢測離群點(diǎn)與簇的概念高度相關(guān),因此,可以通過考察對象與簇之間的關(guān)系檢測離群點(diǎn)。直觀地,離群點(diǎn)是一個屬于小的偏遠(yuǎn)簇或者不屬于任何簇的數(shù)據(jù)對象?;诰垲惖碾x群點(diǎn)檢測方法分為兩個階段,首先對數(shù)據(jù)進(jìn)行聚類,然后計算對象或簇的離群因子,將離群因子大的對象或稀疏簇中的對象判定為離群點(diǎn)。對于基于原型的聚類,可以用對象到其簇中心的距離度量對象屬于簇的程度。10十一月2024182離群點(diǎn)的檢測4基于分類的離群點(diǎn)檢測如果訓(xùn)練數(shù)據(jù)中有類標(biāo)號,則可以將其視為分類問題。該問題的解決思路是訓(xùn)練一個可以區(qū)分正常數(shù)據(jù)和離群點(diǎn)的分類模型。構(gòu)造分類器時,訓(xùn)練數(shù)據(jù)的分布可能極不均衡,相對正常數(shù)據(jù),離群點(diǎn)的數(shù)目極少,這樣會造成在構(gòu)建分類器時精度收到很大影響。為了解決兩類數(shù)據(jù)的不均衡問題,可以使用一類模型(One-classModel)進(jìn)行檢測。10十一月2024193sklearn中的異常值檢測方法sklearn中關(guān)于異常檢測的方法主要有兩種:(1)noveltydetection:當(dāng)訓(xùn)練數(shù)據(jù)中沒有離群點(diǎn),我們的目標(biāo)是用訓(xùn)練好的模型去檢測另外新發(fā)現(xiàn)的樣本;(2)outlierdetection:當(dāng)訓(xùn)練數(shù)據(jù)中包含離群點(diǎn),模型訓(xùn)練時要匹配訓(xùn)練數(shù)據(jù)的中心樣本,忽視訓(xùn)練樣本中的其他異常點(diǎn);10十一月2024203sklearn中的異常值檢測方法sklearn提供了一些機(jī)器學(xué)習(xí)方法,可用于奇異(Novelty)點(diǎn)或異常(Outlier)點(diǎn)檢測,包括OneClassSVM、IsolationForest、LocalOutlierFactor(LOF)等。其中OneClassSVM可用于NoveltyDetection,而后兩者可用于OutlierDetection。10十一月202421本章小結(jié)離群點(diǎn)(Outlier)是指顯著偏離一般水平的觀測對象。離群點(diǎn)不同于噪聲數(shù)據(jù)。離群點(diǎn)一般分為全局離群點(diǎn)、條件離群點(diǎn)和集體離群點(diǎn)。離群點(diǎn)檢測方法可以分為基于統(tǒng)計學(xué)的離群

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論