




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
從重采樣到數(shù)據(jù)合成:如何處理機(jī)器學(xué)習(xí)中的不平衡分類如果你研究過一點(diǎn)機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué),你肯定遇到過不平衡的類分布(imbalancedclassdistribution)。這種情況是指:屬于某一類別的觀測樣本的數(shù)量顯著少于其它類別。這個問題在異常檢測是至關(guān)重要的的場景中很明顯,例如電力盜竊、銀行的欺詐交易、罕見疾病識別等。在這種情況下,利用傳統(tǒng)機(jī)器學(xué)習(xí)算法開發(fā)出的預(yù)測模型可能會存在偏差和不準(zhǔn)確。發(fā)生這種情況的原因是機(jī)器學(xué)習(xí)算法通常被設(shè)計(jì)成通過減少誤差來提高準(zhǔn)確率。所以它們并沒有考慮類別的分布/比例或者是類別的平衡。這篇指南描述了使用多種采樣技術(shù)來解決這種類別不平衡問題的各種方法。本文還比較了每種技術(shù)的優(yōu)缺點(diǎn)。最后,本文作者還向我們展示了一種讓你可以創(chuàng)建一個平衡的類分布的方法,讓你可以應(yīng)用專門為此設(shè)計(jì)的集成學(xué)習(xí)技術(shù)(ensemblelearningtechnique)。目錄.不平衡數(shù)據(jù)集面臨的挑戰(zhàn).處理不平衡數(shù)據(jù)集的方法.例證.結(jié)論一、不平衡數(shù)據(jù)集面臨的挑戰(zhàn)當(dāng)今公用事業(yè)行業(yè)面臨的主要挑戰(zhàn)之一就是電力盜竊。電力盜竊是全球第三大盜竊形式。越來越多的公用事業(yè)公司傾向于使用高級的數(shù)據(jù)分析技術(shù)和機(jī)器學(xué)習(xí)算法來識別代表盜竊的消耗模式。然而,最大的障礙之一就是海量的數(shù)據(jù)及其分布。欺詐性交易的數(shù)量要遠(yuǎn)低于正常和健康的交易,也就是說,它只占到了總觀測量的大約1-2%。這里的問題是提高識別罕見的少數(shù)類別的準(zhǔn)確率,而不是實(shí)現(xiàn)更高的總體準(zhǔn)確率。當(dāng)面臨不平衡的數(shù)據(jù)集的時候,機(jī)器學(xué)習(xí)算法傾向于產(chǎn)生不太令人滿意的分類器。對于任何一個不平衡的數(shù)據(jù)集,如果要預(yù)測的事件屬于少數(shù)類別,并且事件比例小于5%,那就通常將其稱為罕見事件(rareevent)。.不平衡類別的實(shí)例讓我們借助一個實(shí)例來理解不平衡類別。例子:在一個公用事業(yè)欺詐檢測數(shù)據(jù)集中,你有以下數(shù)據(jù):總觀測=1000欺詐觀測=20非欺詐觀測=980罕見事件比例=2%這個案例的數(shù)據(jù)分析中面臨的主要問題是:對于這些先天就是小概率的異常事件,如何通過獲取合適數(shù)量的樣本來得到一個平衡的數(shù)據(jù)集?.使用標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)技術(shù)時面臨的挑戰(zhàn)面臨不平衡數(shù)據(jù)集的時候,傳統(tǒng)的機(jī)器學(xué)習(xí)模型的評價方法不能精確地衡量模型的性能。諸如決策樹和Logistic回歸這些標(biāo)準(zhǔn)的分類算法會偏向于數(shù)量多的類別。它們往往會僅預(yù)測占數(shù)據(jù)大多數(shù)的類別。在總量中占少數(shù)的類別的特征就會被視為噪聲,并且通常會被忽略。因此,與多數(shù)類別相比,少數(shù)類別存在比較高的誤判率。對分類算法的表現(xiàn)的評估是用一個包含關(guān)于實(shí)際類別和預(yù)測類別信息的混淆矩陣(ConfusionMatrix)來衡量的。ActualPredictedPositiveClassNegativeClassPositiveClassTruePositive(TP)False(FN)NegativeNegativeClassFalsePositive(FP)Tine(TN)Negative如上表所示,模型的準(zhǔn)確率=(TP+TN)/(TP+FN+FP+TP)然而,在不平衡領(lǐng)域時,準(zhǔn)確率并不是一個用來衡量模型性能的合適指標(biāo)。例如:一個分類器,在包含2%的罕見事件時,如果它將所有屬于大部分類別的實(shí)例都正確分類,實(shí)現(xiàn)了98%的準(zhǔn)確率;而把占2%的少數(shù)觀測數(shù)據(jù)視為噪聲并消除了。.不平衡類別的實(shí)例因此,總結(jié)一下,在嘗試?yán)貌黄胶鈹?shù)據(jù)集解決特定業(yè)務(wù)的挑戰(zhàn)時,由標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)算法生成的分類器可能無法給出準(zhǔn)確的結(jié)果。除了欺詐性交易,存在不平衡數(shù)據(jù)集問題的常見業(yè)務(wù)問題還有:識別客戶流失率的數(shù)據(jù)集,其中絕大多數(shù)顧客都會繼續(xù)使用該項(xiàng)服務(wù)。具體來說,電信公司中,客戶流失率低于2%。醫(yī)療診斷中識別罕見疾病的數(shù)據(jù)集自然災(zāi)害,例如地震.使用的數(shù)據(jù)集這篇文章中,我們會展示多種在高度不平衡數(shù)據(jù)集上訓(xùn)練一個性能良好的模型的技術(shù)。并且用下面的欺詐檢測數(shù)據(jù)集來精確地預(yù)測罕見事件:總觀測=1000欺詐觀測=20非欺詐性觀測=980事件比例=2%欺詐類別標(biāo)志=0(非欺詐實(shí)例)欺詐類別標(biāo)志=1(欺詐實(shí)例)二、處理不平衡數(shù)據(jù)集的方法1.數(shù)據(jù)層面的方法:重采樣技術(shù)處理不平衡數(shù)據(jù)集需要在往機(jī)器學(xué)習(xí)算法輸入數(shù)據(jù)之前,制定諸如提升分類算法或平衡訓(xùn)練數(shù)據(jù)的類(數(shù)據(jù)預(yù)處理)的策略。后者因?yàn)閼?yīng)用范圍廣泛而更常使用。平衡分類的主要目標(biāo)不是增加少數(shù)類的的頻率就是降低多數(shù)類的頻率。這樣做是為了獲得大概相同數(shù)量的兩個類的實(shí)例。讓我們一起看看幾個重采樣(resampling)技術(shù):(1)隨機(jī)欠采樣(RandomUnder-Sampling)隨機(jī)欠采樣的目標(biāo)是通過隨機(jī)地消除占多數(shù)的類的樣本來平衡類分布;直到多數(shù)類和少數(shù)類的實(shí)例實(shí)現(xiàn)平衡,目標(biāo)才算達(dá)成。總觀測=1000欺詐性觀察=20非欺詐性觀察=980事件發(fā)生率=2%這種情況下我們不重復(fù)地從非欺詐實(shí)例中取10%的樣本,并將其與欺詐性實(shí)例相結(jié)合。隨機(jī)欠采樣之后的非欺詐性觀察=980x10%=98結(jié)合欺詐性與非欺詐性觀察之后的全體觀察=20+98=118欠采樣之后新數(shù)據(jù)集的事件發(fā)生率=20/118=17%優(yōu)點(diǎn)它可以提升運(yùn)行時間;并且當(dāng)訓(xùn)練數(shù)據(jù)集很大時,可以通過減少樣本數(shù)量來解決存儲問題。缺點(diǎn)它會丟棄對構(gòu)建規(guī)則分類器很重要的有價值的潛在信息。被隨機(jī)欠采樣選取的樣本可能具有偏差。它不能準(zhǔn)確代表大多數(shù)。從而在實(shí)際的測試數(shù)據(jù)集上得到不精確的結(jié)果。(2)隨機(jī)過采樣(RandomOver-Sampling)過采樣(Over-Sampling)通過隨機(jī)復(fù)制少數(shù)類來增加其中的實(shí)例數(shù)量,從而可增加樣本中少數(shù)類的代表性??傆^測=1000欺詐性觀察=20非欺詐性觀察=980事件發(fā)生率=2%這種情況下我們復(fù)制20個欺詐性觀察20次。非欺詐性觀察=980復(fù)制少數(shù)類觀察之后的欺詐性觀察=400過采樣之后新數(shù)據(jù)集中的總體觀察=1380欠采樣之后新數(shù)據(jù)集的事件發(fā)生率=400/1380=29%優(yōu)點(diǎn)與欠采樣不同,這種方法不會帶來信息損失。表現(xiàn)優(yōu)于欠采樣。缺點(diǎn)由于復(fù)制少數(shù)類事件,它加大了過擬合的可能性。(3)基于聚類的過采樣(Cluster-BasedOverSampling)在這種情況下,K-均值聚類算法獨(dú)立地被用于少數(shù)和多數(shù)類實(shí)例。這是為了識別數(shù)據(jù)集中的聚類。隨后,每一個聚類都被過采樣以至于相同類的所有聚類有著同樣的實(shí)例數(shù)量,且所有的類有著相同的大小??傆^測=1000欺詐性觀察=20非欺詐性觀察=980事件發(fā)生率=2%多數(shù)類聚類1.聚類1: 150
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)學(xué)-福建省莆田市2025屆高中畢業(yè)班第二次教學(xué)質(zhì)量檢測試卷(莆田二檢)試題和答案
- 2025年中考道德與法治二輪復(fù)習(xí):熱點(diǎn)時政專題練習(xí)題(含答案)
- 2025年中考道德與法治二輪復(fù)習(xí):七~九年級高頻考點(diǎn)提綱
- 刀片刺網(wǎng)施工方案
- 輕鋼平頂施工方案
- 苗木養(yǎng)護(hù)施工方案
- 2025年中考物理二輪復(fù)習(xí):簡單機(jī)械、功和機(jī)械能 尖子生測試卷(含答案解析)
- 四川省金堂縣2025屆中考考前最后一卷生物試卷含解析
- 山西省朔州市朔城區(qū)重點(diǎn)名校2025屆中考生物模擬試卷含解析
- 別墅房建合同范例
- 礦泉水購銷合同范本2025年
- PLC培訓(xùn)課件教學(xué)課件
- 南京財(cái)經(jīng)大學(xué)C語言期末(共六卷)含答案解析
- 課題申報(bào)書:極端雨雪天氣下城市交通多層動態(tài)網(wǎng)絡(luò)韌性建模及優(yōu)化研究
- 2024北京東城初一(上)期末語文試卷及答案
- 2025年煤礦從業(yè)人員安全培訓(xùn)考試題庫
- 四年級數(shù)學(xué)(四則混合運(yùn)算帶括號)計(jì)算題專項(xiàng)練習(xí)與答案
- 壓鑄車間生產(chǎn)管理制度(4篇)
- 《商務(wù)溝通-策略、方法與案例》課件 第七章 自我溝通
- 2024解析:第十二章機(jī)械效率-基礎(chǔ)練(解析版)
- 2024年度5G基站建設(shè)材料采購合同3篇
評論
0/150
提交評論