版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
緒論研究背景及意義在日常生活中,銀行欺詐性交易和罕見疾病的數(shù)量要遠(yuǎn)低于正常和健康的交易、疾病。而諸如此類的現(xiàn)象普遍存在。利用傳統(tǒng)機(jī)器學(xué)習(xí)算法開發(fā)出的預(yù)測模型可能會存在偏差和不準(zhǔn)確。發(fā)生這種情況的原因是機(jī)器學(xué)習(xí)算法通常被設(shè)計(jì)成通過減少誤差來提高準(zhǔn)確率,并沒有考慮類別的比例或者是類別的平衡,為了實(shí)現(xiàn)更高的總體準(zhǔn)確率而不是提高識別罕見的少數(shù)類別的準(zhǔn)確率。當(dāng)面臨不平衡的數(shù)據(jù)集的時候,機(jī)器學(xué)習(xí)算法傾向于產(chǎn)生不太令人滿意的分類器。因此,在實(shí)際應(yīng)用中研究少數(shù)類樣本的分類準(zhǔn)確性尤為重要。在研究數(shù)據(jù)預(yù)處理層面中最有代表性的不平衡分類方法是重采樣方法。基于重采樣的數(shù)據(jù)分類方法主要分為類:欠采樣和過采樣[1],欠采樣方法通過減少多數(shù)類樣本的數(shù)量來提高少數(shù)類的分類準(zhǔn)確率,與欠采樣方法相反,過采樣不對多數(shù)類樣本進(jìn)行任何處理,而是增加少數(shù)類樣本的數(shù)量來提高少數(shù)類的分類性能。對于這些數(shù)據(jù)進(jìn)行處理分析有助于把握不平衡數(shù)據(jù)分類問題的最新研究進(jìn)展和發(fā)展趨勢,并且在處理信用卡欺詐和醫(yī)學(xué)上不平衡數(shù)據(jù)分類等實(shí)際問題上具有重要的價值和意義。1.2國內(nèi)外研究現(xiàn)狀在國外GarcíaV[2]等針對不平衡數(shù)據(jù)處理的各種采樣方法展開了綜述,GalarM[3]對基于集成學(xué)習(xí)的不平衡數(shù)據(jù)處理方法進(jìn)行了深入的討論。在國內(nèi)趙楠[4]等表示經(jīng)典的數(shù)據(jù)分類算法未考慮數(shù)據(jù)類別的不平衡性,認(rèn)為類別之間的誤分類代價相同,導(dǎo)致不平衡數(shù)據(jù)分類的效果不理想。針對數(shù)據(jù)分類的各個步驟,相繼提出了不同的不平衡數(shù)據(jù)分類處理方法。對多年來的相關(guān)研究成果進(jìn)行歸類分析,從特征選擇、數(shù)據(jù)分布調(diào)整、分類算法、分類結(jié)果評估等幾個方面系統(tǒng)地介紹了相關(guān)方法,并探討了進(jìn)一步的探索方向。吳藝凡[5]在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域中,分類是重要的研究內(nèi)容之一,其目的是構(gòu)造一個分類模型,將數(shù)據(jù)集中的數(shù)據(jù)劃分到給定類別中的某一個。由于傳統(tǒng)的分類算法沒有考慮數(shù)據(jù)的非平衡性,使得其在處理非平衡數(shù)據(jù)分類問題上面臨著巨大的挑戰(zhàn)。例如在醫(yī)療診斷、欺詐電話檢測等問題中,關(guān)注的事件在所有數(shù)據(jù)記錄中占比都極小,但是將其錯誤分類卻會帶來無法估量的代價。在非平衡數(shù)據(jù)中對少數(shù)類的正確分類往往比多數(shù)類更重要,如何對非平衡數(shù)據(jù)集進(jìn)行正確分類,提高少數(shù)類的分類準(zhǔn)確率成為分類問題中研究的重點(diǎn)。林釗[6]表明在互聯(lián)網(wǎng)技術(shù)方便人們生活的同時,也有一些人利用互聯(lián)網(wǎng)技術(shù)方便快捷的特點(diǎn)來謀取私利。于是,網(wǎng)絡(luò)環(huán)境中出現(xiàn)了大量具有欺騙性質(zhì),傳播不良信息的欺詐網(wǎng)站。欺詐網(wǎng)頁傳播有害信息,降低搜索引擎的服務(wù)質(zhì)量,嚴(yán)重威脅網(wǎng)絡(luò)安全。李軍[7]首先闡述不平衡數(shù)據(jù)學(xué)習(xí)的研究背景、現(xiàn)狀和相關(guān)工作,以及模型評估與模型選擇相關(guān)工作等。然后,圍繞不平衡數(shù)據(jù)學(xué)習(xí)的解決策略,開展一系列研究工作,從不同角度探討與不平衡數(shù)據(jù)學(xué)習(xí)相關(guān)的問題[7]。王璐林[8]從數(shù)據(jù)層面提出了一種區(qū)域有差別的過采樣方法DSMOTE算,然后與Boosting算法相結(jié)合得到不平衡數(shù)據(jù)分類算法DSMOTE-Boost。隨著機(jī)器學(xué)習(xí)、人工智能的升溫以及新問題、新技術(shù)的不斷出現(xiàn),不平衡數(shù)據(jù)學(xué)習(xí)方法也在不斷發(fā)展,對這些工作進(jìn)行梳理和總結(jié)會有助于把握不平衡數(shù)據(jù)分類問題的最新研究進(jìn)展和發(fā)展趨勢。因此,針對現(xiàn)在國內(nèi)外現(xiàn)狀進(jìn)行高度不平衡數(shù)據(jù)分類研究是非常有必要的,也是切實(shí)可行的。1.3本文的主要工作論文總共分為四個章節(jié),第一章是論文的緒論,詳細(xì)的介紹了本文的研究意義和背景,說明論文完成的意義是為了解決現(xiàn)實(shí)生活中高度不平衡分類中實(shí)際問題及提供方法,如:信用卡詐騙、癌癥診斷等出現(xiàn)的少數(shù)類樣本占有重大作用甚至?xí)P(guān)乎到個人的生命安全,本研究有助于最大程度避免此類情況的發(fā)生。第二章是有關(guān)重采樣和集成學(xué)習(xí)方法的相關(guān)理論概述,用流程圖描述了算法的實(shí)現(xiàn)過程,采用相關(guān)公式對算法進(jìn)行了更詳細(xì)的論述。第三章是利用SMOTE、Borderline_SMOTE、ADASYN的過采樣方法和TomekLink、NCL的欠采樣方法分別結(jié)合集成方法Bagging、AdaBoost,單分類器C4.5,KNN算法進(jìn)行相關(guān)實(shí)驗(yàn),列出了實(shí)驗(yàn)過程和實(shí)驗(yàn)結(jié)果,并對實(shí)驗(yàn)數(shù)據(jù)結(jié)果進(jìn)行統(tǒng)計(jì),分析了評價指標(biāo)和評價結(jié)果,即SMOTE方法預(yù)處理效果最理想的。第四章是對實(shí)驗(yàn)過程和論文表述的總結(jié)和對未來的展望,提出了論文的不足之處和對未來確定有效重采樣方法采樣率的準(zhǔn)確性以及預(yù)處理性能期望。第2章重采樣方法理論概述本章將首先重采樣方法的相關(guān)理論知識,分別重采樣方法和過采樣方法進(jìn)行詳細(xì)的解釋,為后期實(shí)驗(yàn)部分提供理論依據(jù)。2.1重采樣方法概述高度不平衡數(shù)據(jù)的一個重要的特征就是樣本的分布不平衡。在一個高度不平衡數(shù)據(jù)集中,多數(shù)類樣本占比遠(yuǎn)遠(yuǎn)大于少數(shù)類樣本,造成了少數(shù)類的樣本的重要信息不能正常表現(xiàn)出來。而傳統(tǒng)的分類算法在處理不平衡數(shù)據(jù)問題沒有有效的數(shù)據(jù)分布特征,致使分類結(jié)果并不能夠達(dá)到很好的效果。目前緩解數(shù)據(jù)不平衡分布的最主要的方法之一就是重采樣,該方法的主要思想是通過增加或減少訓(xùn)練集樣本使得整個訓(xùn)練集中樣本分布相對均勻平衡[9]。重采樣方法主要分為兩類:過采樣和欠采樣。過采樣方法是對少數(shù)類樣本來講的,主要是通過增加少數(shù)類樣本來改善樣本類別分布。欠采樣方法是對多數(shù)類樣本來講的,主要是通過刪減多數(shù)類樣本中部分樣的方法來平衡訓(xùn)練集。2.2過采樣算法理論概述2.2.1SMOTE算法理論概述通過隨機(jī)復(fù)制少數(shù)類樣本,使高度不平衡數(shù)據(jù)達(dá)到平衡是最為簡單的過采樣方法,這種方法雖然實(shí)現(xiàn)簡單,但是通過的反復(fù)的對少數(shù)類樣本進(jìn)行復(fù)制就會增加分類算法過擬合的可能性。Chawla[10]提出了經(jīng)典的SMOTE過采樣算法--少類樣本合成過采樣技術(shù)(Syntheticminorityoversamplingtechnique,SMOTE)。以下為SMOTE算法的主要步驟[11]:1)首先根據(jù)提前預(yù)設(shè)的過采樣倍率N,給每個少數(shù)類樣本找出K個同類的最近鄰樣本,然后在其中隨機(jī)選出N個樣本。2)每個少數(shù)類樣本分別選出的N個少數(shù)類近鄰樣本按照公式2-1的方式合成N個新的少數(shù)類樣本。公式(2-1)將新生成的樣本合并到原訓(xùn)練數(shù)據(jù)集,組成新的平衡后的訓(xùn)練集。SMOTE方法的過程示意圖如下所示:過程一:正樣本(多)正樣本(多)負(fù)樣本(少)圖2-1SMOTE方法過程示意圖過程二XXi2Xi3Xi1XiXi5Xi4R3R1R5R4R2正樣本(多)負(fù)樣本(少)圖2-2SMOTE方法過程示意圖2.2.2Borderline-SMOTE算法理論概述SMOTE算法會從樣本中隨機(jī)選取少數(shù)類樣本來合成新的樣本,但是不會考慮周邊樣本的情況,這樣會造成兩個問題:1)如果選的少數(shù)類樣本附近都是少數(shù)類樣本,那么剛剛新合成的樣本給我們提供信息價值不是特別大。2)如果所選的少數(shù)類樣本周圍都是多數(shù)類樣本,那么這類樣本很有可能是噪音,則新合成的樣本會與附近的多數(shù)類樣本產(chǎn)生很多重疊,在分類時會造成困難。為了使新合成的少數(shù)類樣本位于兩類分界面附近,以能提供更多的信息用來對樣本進(jìn)行分類。學(xué)者們發(fā)現(xiàn)對分類面起到重要作用的通常都是分布在兩類的邊界區(qū)的樣例,于是Borderline-SMOTE算法被提出。Borderline-SMOTE算法將少數(shù)類樣本分為三類不相交的樣本:1)安全樣本(safe),所有的最近鄰樣本都來自于同一個類;2)邊界樣本(danger),至少一半的最近鄰樣本來自于同一類;3)噪聲樣本(noise),該少數(shù)類的所有最近鄰樣本都來自于不同于樣本a的其他類別。再對邊界樣本運(yùn)用Borderline-SMOTE算法。Borderline-SMOTE算法分為兩種,分別是BOS1和BSO2。BSO1算法只利用主樣本的同類近鄰信息生成新的樣本,或者說它僅僅在兩個近鄰的少數(shù)類樣本之間產(chǎn)生新的樣本。BSO2算法充分的利用全部數(shù)據(jù)的近鄰樣本信息,或者說在多數(shù)類和少數(shù)類樣本之中產(chǎn)生近鄰數(shù)據(jù)。因而Borderline-SMOTE方法能夠有效地避免了原始噪聲信息在新樣本集上的傳播。2.2.3ADASYN-I算法論概述ADASYN[12](adaptivesyntheticsampling)自適應(yīng)合成抽樣,與BorderlineSMOTE相似,對不同的少數(shù)類樣本賦予不同的權(quán)重,從而生成不同數(shù)量的樣本。具體流程如下:步驟1:計(jì)算需要合成的樣本數(shù)量步驟2:計(jì)算K近鄰中多數(shù)類占比,公式如下:公式(2-2)其中,為K近鄰中多數(shù)類樣本數(shù),i=1,2,3,……,步驟3:對標(biāo)準(zhǔn)化,公式如下:公式(2-3)步驟4:根據(jù)樣本權(quán)重,計(jì)算每個少數(shù)類樣本需生成新樣本的數(shù)目,公式如下:公式(2-4)步驟5:根據(jù)計(jì)算每個少數(shù)樣本需生成的數(shù)目,根據(jù)SMOTE算法生成樣本,公式如下:公式(2-5)其中,為合成樣本,是少數(shù)類樣本中第個樣本,是的K近鄰中隨機(jī)選取一個少數(shù)類樣本∈[0,1]的隨機(jī)數(shù)。2.3欠采樣方法理論概述2.3.1TomekLink算法理論概述簡單隨機(jī)欠采樣(Randomunder-sample,RUS)算法處理不平衡數(shù)據(jù)集的方法主要是隨機(jī)的刪除多數(shù)類樣本的數(shù)量,對于少數(shù)類的樣本不做改變,從而使兩類數(shù)據(jù)集中的數(shù)量達(dá)到平衡。簡單隨機(jī)欠采樣方法是最簡單的欠采樣方法,其具有隨機(jī)性和偶然性,因而在對多數(shù)類樣本刪除過程中造成重要信息的丟失,進(jìn)而影響分類的性能。通過改進(jìn)的的欠采樣方法是有選擇的刪除距離分類邊界較遠(yuǎn)或者能夠造成樣本數(shù)據(jù)重疊的多數(shù)類樣本,即會刪除對分類的影響效果不大的多數(shù)類樣本,來達(dá)到理想的分類效果。Tomeklink是Tomek提出的一種清除噪音和邊界樣本的欠采樣算法[13]。它基本思想是:給定分別來自不同的類別的兩個樣本xi,xj,兩者的距離用d(xi,xj)來表示。如果不存在另外一個樣本x滿足d(xi,x)<d(xi,xj)或者d(xj,x)<d(xi,xj),那么將樣本(xi,xj)構(gòu)成一個Tomeklink,因而某一個樣本為噪聲,或兩個樣本都在兩類的邊界上。因此借助這個性質(zhì),先找到不平衡數(shù)據(jù)集中所有的Tomeklink,再對僅刪除構(gòu)成Tomeklinks的多數(shù)類樣本。這樣就可以刪除多數(shù)類中的噪聲樣本和邊界樣本。2.3.2鄰域清理(NCL)算法理論概述鄰域清理(NeighborhoodCLeaningRule,NCL)[14]方法利用Wilson改進(jìn)的最近鄰規(guī)則(EditedNearestNeighbor,ENN)對多數(shù)類進(jìn)行向欠采樣[15]。ENN的基本思想是:尋找某一個樣本的3個最近鄰樣本,如果這個樣本的類別和3個最近鄰樣本中多于2個以上樣本的類別不同,那么移除這個樣本。ENN可以用于對不均衡數(shù)據(jù)集中對多數(shù)類欠采樣。但是,多數(shù)類樣本的近鄰樣本大多數(shù)都是多數(shù)類,所以ENN所刪除的的樣本是有限的。NCL方法對ENN方法作了改進(jìn),為了刪除比之前更多的多數(shù)類樣本。NCL的算法是:對每一個樣本x找出距離該樣本最近的3個樣本。如果x屬于多數(shù)類,并且在3個最近鄰的樣本中有2個以上為少數(shù)類,那么移除x;如果x為少數(shù)類,并且3個最近鄰樣本中有2個以上為多數(shù)類,那么移除3個最近鄰樣本中的多數(shù)類樣本。這樣就能更多的刪除多數(shù)類樣本,并盡可能的保留少數(shù)類信息。第3章實(shí)驗(yàn)環(huán)境與過程3.1KEEL軟件簡介KEEL(基于進(jìn)化學(xué)習(xí)的知識提?。┦擒浖﨡ava套件,可以讓用戶讓解決各種數(shù)據(jù)挖掘問題:回歸,分類,聚類,模式挖掘等等。KEEL的主要特征是:它包含大量的進(jìn)化算法,用于預(yù)測模型,預(yù)處理方法(進(jìn)化特征和實(shí)例選擇等)和后處理過程。它還針對數(shù)據(jù)挖掘的不同領(lǐng)域提供了許多最新方法,例如決策樹,基于模糊規(guī)則的系統(tǒng)或明晰規(guī)則學(xué)習(xí)。它包括專業(yè)文獻(xiàn)中提出的大約100種數(shù)據(jù)預(yù)處理算法:數(shù)據(jù)轉(zhuǎn)換,離散化,實(shí)例和特征選擇,噪聲過濾等。用于分析結(jié)果的適用性以及在算法之間進(jìn)行參數(shù)和非參數(shù)比較。提供了一個用戶友好的界面,面向算法分析。實(shí)驗(yàn)是從用戶界面獨(dú)立地腳本生成的,以在支持Java虛擬機(jī)的任何計(jì)算機(jī)中進(jìn)行脫機(jī)運(yùn)行。當(dāng)前版本的KEEL包含以下功能塊如下圖所示:圖3-1KEEL功能塊界面DataManagement:該部分將與數(shù)據(jù)挖掘過程中使用的數(shù)據(jù)集相關(guān)的所有操作匯總在一起。允許通過圖形界面修改數(shù)據(jù)集,還包括用于可視化工具集的工具。最后,在本節(jié)中添加了為數(shù)據(jù)集創(chuàng)建分區(qū)的過程。這些分區(qū)將用于“實(shí)驗(yàn)”部分,以一種簡單的方式創(chuàng)建k倍交叉驗(yàn)證實(shí)驗(yàn)。Experiment:該部分旨在幫助用戶使用圖形界面創(chuàng)建數(shù)據(jù)挖掘?qū)嶒?yàn)。本部分是該工具中功能最強(qiáng)大的部分,因?yàn)樗褂脩艨梢詫?00多種算法的實(shí)現(xiàn)應(yīng)用于任何給定的數(shù)據(jù)集并完成數(shù)據(jù)挖掘?qū)嶒?yàn)。此過程使用戶可以輕松創(chuàng)建方法的所有配置文件(這些文件由KEEL軟件套件自動創(chuàng)建),還可使用戶能夠與大量數(shù)據(jù)集,大量算法行比較。Educational:該部分是主要KEEL研究套件的簡化版本。用戶可以獲得算法進(jìn)度的視覺反饋,并且可以從用于設(shè)計(jì)實(shí)驗(yàn)的同一界面訪問最終結(jié)果。Modules:該部分包括新模塊,這些模塊擴(kuò)展了KEEL軟件包的功能,以實(shí)現(xiàn)與數(shù)據(jù)挖掘過程相關(guān)的特定任務(wù),其中包括ImbalancedLearning專門對不平衡數(shù)據(jù)進(jìn)行相關(guān)實(shí)驗(yàn)。本實(shí)驗(yàn)過程在此模塊中進(jìn)行。3.2實(shí)驗(yàn)過程首先打開ImbalancedLearning的界面,本實(shí)驗(yàn)從KEEL所提供的數(shù)據(jù)集中選取10組具有不同高度不平衡的數(shù)據(jù)集(IR>9),表3-1展示實(shí)驗(yàn)數(shù)據(jù)集的具體信息,包括數(shù)據(jù)編號、數(shù)據(jù)名集名稱和不平衡比。表3-1高度不平衡數(shù)據(jù)集No.數(shù)據(jù)集IR1blocks-1-3_vs_415.862abalone9-1816.403glass522.784yeast-2_vs_823.105yeast428.106yeast-1-2-8-9_vs_730.577yeast532.788 ecoli-0-1-3-7_vs_2-639.149yeast641.4010abalone19129.44實(shí)驗(yàn)工具是數(shù)據(jù)挖掘軟件KEEL3.0和Windows1064位操作系統(tǒng)以及java運(yùn)行環(huán)境,為能夠通過實(shí)驗(yàn)將各個重采樣方法進(jìn)行比較,本實(shí)驗(yàn)分為兩部分:第一部分:分別使用SMOTE、Borderline_SMOTE、ADASYN過采樣方法對不平衡數(shù)據(jù)集進(jìn)行處理,再分別采用集成學(xué)習(xí)方法中的AdaBoost算法、Bagging算法,單分類器C4.5以及KNN算法作為分類算法對不平衡數(shù)據(jù)集進(jìn)行分類,最后進(jìn)行數(shù)據(jù)測試,取得的最終結(jié)果。第二部分:分別使用NCL和TL欠采樣方法對不平衡數(shù)據(jù)集進(jìn)行處理,再分別采用集成學(xué)習(xí)方法中的AdaBoost算法、Bagging算法,單分類器C4.5以及KNN算法作為分類算法對不平衡數(shù)據(jù)集進(jìn)行分類,最后進(jìn)行數(shù)據(jù)測試,取得的最終結(jié)果。最后通過將實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)分析,得出分類效果最好的重采樣方法。先雙擊KEEL文件包里的dist文件夾,雙擊GraphInterKeel.jar文件,打開KEEL。然后單擊Modules選擇第一個ImbalancedLearning選項(xiàng)。圖3-2ImbalancedLearning界面由圖3-2所示,在ImbalancedLearning界面,KEEL提供了可選擇各種IR值的不平衡數(shù)據(jù)集,包括本實(shí)驗(yàn)與要用到的數(shù)據(jù)集,以及相應(yīng)的算法和輸出結(jié)果。過采樣方法具體實(shí)驗(yàn)過程如下:1)選擇本實(shí)驗(yàn)所用十個數(shù)據(jù)集,選擇完畢之后,單機(jī)右側(cè)空白處,會出現(xiàn)一個灰色的data包,這個包就是剛才十個高度不平衡數(shù)據(jù)集的組合,然后最左側(cè)豎著的任務(wù)欄也出現(xiàn)了相應(yīng)的顏色。2)點(diǎn)擊最左側(cè)第二個選項(xiàng),選擇預(yù)處理階段所需三個SMOTE、Borderline_SMOTE、ADASYN-I過采樣3個算法,依次選中,單擊左側(cè)放置空白處。3)點(diǎn)擊左側(cè)第三個選項(xiàng),選擇不平衡分類算法所需的AdaBoost算法,單擊左側(cè)放置空白處。當(dāng)用Bagging、NCL、TL作為算法進(jìn)行分類時,需在此步驟將Bagging,C4.5,KNN分類算法替換AdaBoost分類算法。4)選擇倒數(shù)第二個選項(xiàng),選擇其中的Vis-Imb-Tabular放置到有方空白處作為輸出,依次將三個Vis-Imb-Tabular放在不平衡算法之后。之所以選擇此選項(xiàng)是因?yàn)門abular將這些結(jié)果作為輸入,并生成輸出文件,其中包含從中計(jì)算出的若干性能指標(biāo)[16],例如每個方法的混淆矩陣、每個方法、折疊和類的精度和錯誤百分比,以及結(jié)果的最終摘要。選擇最后一個選項(xiàng),將數(shù)據(jù)集、算法、輸出結(jié)果連接取來。圖3-3AdaBoost分類算法下過采樣方法流程圖圖3-4Bagging分類算法下過采樣方法流程圖圖3-5C4.5分類算法下過采樣方法流程圖圖3-6KNN分類算法下過采樣方法流程圖欠采樣方法具體實(shí)驗(yàn)過程:與過采樣方法步驟相同,但需在第2步在預(yù)處理層面選擇重采樣方法時將過采樣方法替換為兩個TL、NCL欠采樣方法。圖3-7AdaBoost-I分類算法下欠采樣算法流程圖圖3-6Bagging-I分類算法下欠采樣實(shí)驗(yàn)流程圖圖3-7C4.5分類算法下欠采樣實(shí)驗(yàn)流程圖圖3-8KNN分類算法下欠采樣實(shí)驗(yàn)流程圖實(shí)驗(yàn)到此完成第一階段,連接完成后點(diǎn)擊上方工具欄中的zip按鈕生成.zip壓縮包,壓縮成功后,找到剛生成的zip文件位置,解壓,進(jìn)入scripts文件夾,shift+右鍵,選擇在此路徑下打開cmd窗口,輸入java-jar.\RunKeel.jar執(zhí)行jar文件,運(yùn)行的結(jié)果會保存在文件夾的results路徑內(nèi),則實(shí)驗(yàn)流程全部結(jié)束。3.3實(shí)驗(yàn)結(jié)果分析3.3.1性能評價指標(biāo)說明AUC(AreaUnderCurve)被定義為接收者操作特征曲線(Receiveroperatingcharacteristic,ROC))下與坐標(biāo)軸圍成的面積,這個面積的數(shù)值不會大于1。又因?yàn)镽OC曲線通常都處于y=x這條直線的上方,因此AUC的取值范圍在0.5到1之間。AUC越接近1.0,檢測方法真實(shí)性越高;等于0.5時,則真實(shí)性最低,無應(yīng)用價值。AUC就是衡量學(xué)習(xí)器優(yōu)劣的一種性能指標(biāo)。由于本實(shí)驗(yàn)選用Vis-Imb-Tabular為輸出,其最直觀、最綜合的評價指標(biāo)便是該文件夾下的Summary_s0.stat文件。每個算法都有對應(yīng)的Summary_s0.stat文件,文件內(nèi)包含該算法的TRAIN集和TEST集,兩者都包含Average(AreaUndertheROCCurve)和Variance(AreaUndertheROCCurve),前者表示AUC值的均值,后者表示AUC值的方差。TRAIN是訓(xùn)練集,作用是訓(xùn)練算法,TEST就是訓(xùn)練模型結(jié)束后,用于評價模型結(jié)果的測試集。本實(shí)驗(yàn)選擇TEST集中的Average(AreaUndertheROCCurve)作為評價指標(biāo)。3.3.2實(shí)驗(yàn)結(jié)果根據(jù)以上理論,把每個算法對應(yīng)的數(shù)據(jù)集的Average值進(jìn)行統(tǒng)計(jì)可得到圖3-7和圖3-8圖3-9AdaBoost-I算法下Average折線圖圖3-10Bagging算法下Average折線圖圖3-11C4.5算法下Average折線圖圖3-12KNN算法下Average折線圖在AdaBoost-I算法下Average折線圖可以看出,在IR=15.86的不平衡數(shù)據(jù)集中,5個重采樣方法的與處理效果與其他不平衡數(shù)據(jù)集相比都是最好的,也說明在IR=15.86的不平衡數(shù)據(jù)集中所有的重采樣方法都可以達(dá)到理想的預(yù)處理結(jié)果。從總體可以看出SMOTE預(yù)處理的結(jié)果要好于其他4種重采樣方法,而Borderline_SMOTE的預(yù)處理結(jié)果略遜于其他重采樣方法。在Bagging算法下Average折線圖可以看出,在IR=15.86的不平衡數(shù)據(jù)中,SMOTE的預(yù)處理效果在Bagging分類算法下達(dá)到最優(yōu),AUC結(jié)果為0.983120531。而在IR=129.44不平衡數(shù)據(jù)集下TL和NCL預(yù)處理效果最不理想,實(shí)驗(yàn)結(jié)果均為0.5。從總體可以看出SMOTE預(yù)處理的結(jié)果要好于其他4種重采樣方法。在C4.5分類算法下Average折線圖可以直觀看出,SMOTE方法的預(yù)處理效果明顯優(yōu)于其它4種方法,而TL方法的預(yù)處理效果明顯遜于其他4種方法。通過對比折線圖可以看出,KNN分類算法對不平衡數(shù)據(jù)集的分類效果最好,其次是集成方法的Adaboost、Bagging,最后是單分類器C4.5。因而,可以得出集成方法的分類性能要高于單分類器。為了方便觀察,綜合所有的AUC值得到更直觀準(zhǔn)確的實(shí)驗(yàn)結(jié)果,制成如表3-2、表3-3、表3-4、表3-5。比較5個算法。表3-2AdaBoost-I算法下重采樣方法綜合評價重采樣方法十個數(shù)據(jù)集的平均AUC值SMOTE0.79815071Borderline_SMOTE0.757942571ADASYN0.765421313NCL0.759850805TL0.759601369表3-3Bagging算法下重采樣方法綜合評價重采樣方法十個數(shù)據(jù)集的平均AUC值SMOTE0.803464823 Borderline_SMOTE0.776273489ADASYN0.762834684NCL0.734641236TL0.73218418表3-4C4.5算法下重采樣方法綜合評價重采樣方法十個數(shù)據(jù)集的平均AUC值SMOTE0.794313951Borderline_SMOTE0.768100799 ADASYN0.75106031NCL0.754604291TL0.727614308表3-5KNN算法下重采樣方法綜合評價重采樣方法十個數(shù)據(jù)集的平均AUC值SMOTE0.792463037Borderline_SMOTE0.773023721ADASYN0.794320381NCL0.78278605TL0.76494012在AdaBoost算法下Average折線圖可以看出,在AdaBoost算法下SMOTE方法預(yù)處理效果最好,結(jié)果為0.79815071。而NCL方法與處理效果略遜于其他4種重采樣方法,結(jié)果為0.759850805。在Bagging算法下Average折線圖可以看出,在Bagging算法下SMOTE方法預(yù)處理效果最好,結(jié)果為0.803464823。而TL方法與處理效果略遜于其他4種重采樣方法,結(jié)果為0.73218418。在C4.5算法下Average折線圖可以看出,在C4.5分類器下SMOTE方法預(yù)處理效果最好,結(jié)果為0.803464823。而TL方法與處理效果略遜于其他4種重采樣方法,結(jié)果為0.727614308。在KNN算法下Average折線圖可以看出,在KNN算法下ADASYN的預(yù)處理效果最好,結(jié)果為0.794320381。而TL預(yù)處理效果略遜于其他4種算法,結(jié)果為0.76494012。由折線圖和表格可以看出,在4種分類方法對不平衡數(shù)據(jù)集進(jìn)行分類的結(jié)果中,SMOTE方法在Adaboost、Bagging、C4.5這三種分類算法中均是分類效果最好的。在第4個KNN算法下SMOTE方法與最優(yōu)方法ADASYN的預(yù)處理效果幾乎相同,AUC值僅低0.00185735。因而,SMOTE方法整體的預(yù)處理效果是最優(yōu)的。3.4本章小結(jié)本章主要是介紹了實(shí)驗(yàn)的具體流程,首先對實(shí)驗(yàn)工具——KEEL介紹,又利四種不同的分類算法對預(yù)處理層面上的重采樣方法進(jìn)行實(shí)驗(yàn),然后對實(shí)驗(yàn)結(jié)果進(jìn)行了對比評價,在評價過程中先列出評價指標(biāo),又根據(jù)指標(biāo)評價每種算法,最后得出SMOTE方法預(yù)處理效果最優(yōu)的結(jié)論。結(jié)語傳統(tǒng)的分類方法在類別分布平衡的數(shù)據(jù)上雖然可以表現(xiàn)出令人滿意的效果,不過在現(xiàn)實(shí)問題中,采集到的數(shù)據(jù)集往往會出現(xiàn)類別間樣本數(shù)不平衡的情況,這會使得傳統(tǒng)分類器的性能出現(xiàn)嚴(yán)重下滑,甚至造成分類器的失效。高度不平衡數(shù)據(jù)少數(shù)類所蘊(yùn)藏的信息顯得更加尤為重要。因此,研究高度不平衡數(shù)據(jù)的預(yù)處理在整個過程中但又很大的比重,會對現(xiàn)在和未來有著重要的意義和實(shí)用價值。不平衡問題是機(jī)器學(xué)習(xí)中熱門領(lǐng)域,解決不平衡問題主要有預(yù)處理、特征層面和分類器三個層面去解決。本文主要針對數(shù)據(jù)預(yù)處理層面運(yùn)用重采樣方法展開一系列研究。以下為的主要成果:針對高度不平衡問題,從KEEL工具中選取10個高度不平衡數(shù)據(jù)集(IR>9),本文先分別從從過采樣和欠采樣出發(fā),分別用SMOTE、Borderline_SMOTE、ADASYN、NCL、TL方法進(jìn)行預(yù)處理,用AdaBoost、Bagging、C4.5、KNN分類算法將過采樣得到的數(shù)據(jù)集進(jìn)行處理,最后得到實(shí)驗(yàn)結(jié)果證明SMOTE的預(yù)處理效果最優(yōu)。針對過采樣方法和欠采樣方法有不同的優(yōu)缺點(diǎn),可能在不同的分類算法下得到的分類結(jié)果會有差異,本文又利用NCL、TL方法進(jìn)行預(yù)處理,用C4.5、KNN分類算法進(jìn)行上述實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明SMOTE的預(yù)預(yù)處理效果最優(yōu)。通過對比1)和2)兩個實(shí)驗(yàn)將數(shù)據(jù)統(tǒng)計(jì)、對比、分析得出SMOTE為最優(yōu)重采樣方法,實(shí)驗(yàn)結(jié)果為0.803464823。本文從預(yù)處理層面上采用5種重采樣的方法分別在不同的分類方法下進(jìn)行實(shí)驗(yàn),經(jīng)過統(tǒng)計(jì)分析得SMOTE的預(yù)處理效果最好。參考文獻(xiàn)[1]李艷霞,柴毅,胡友強(qiáng),尹宏鵬.不平衡數(shù)據(jù)分類方法綜述[J].控制與決策,2019,34(04):673-688.[2]GarcíaV,SanchezJS,MollinedaRA.Ontheeffffectivenessofpreprocessingmethodswhendealingwithdifffferentlevelsofclassimbalance[J].Knowledge-BasedSystems,2011,25(1):13-21.[3]GalarM,F(xiàn)ernandezA,BarrenecheaE,etal.Areviewonensemblesfortheclassimbalanceproblem:Bagging-,Boosting-,andHybrid-basedapproaches[J].IEEETransonSystems,Man,andCybernetics-PartC,2012,42(4):463-484.[4]趙楠,張小芳,張利軍.不平衡數(shù)據(jù)分類研究綜述[J].計(jì)算機(jī)科學(xué),2018,45(S1):22-27+57.[1]趙楠,張小芳,張利軍.不平衡數(shù)據(jù)分類研究綜述[J].計(jì)算機(jī)科學(xué),2018,45(S1):22-27+57.[5]吳藝凡.基于混合采樣的非平衡數(shù)據(jù)分類算法研究[D].山西大學(xué),2019.[6]林釗.針對欺詐網(wǎng)頁高度數(shù)據(jù)不平衡問題的分類檢測方法研究[D].西南交通大學(xué),2018.[7]李軍.不平衡數(shù)據(jù)學(xué)習(xí)的研究[D].吉林大學(xué),2011.[8]王璐林.面向不平衡樣本的Boosting分類算法研究[D].哈爾濱工業(yè)大學(xué),2013.[9]魚化龍.類別不平衡學(xué)習(xí):理論與算法[M].北京:清華大學(xué)出版社,2017.[10]ChawlaNV,BowyerKW,HallLO,etal.SMOTE:Syntheticminorityover-samplingtechnique[J].JofArtifificialIntelligenceResearch,2002,16(1):321-357.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年鐵路貨物運(yùn)輸與專用線運(yùn)營合同
- 2025年度建筑勞務(wù)分包合同標(biāo)的工程進(jìn)度與質(zhì)量監(jiān)管條款3篇
- 2024年贈與股份合同:父子權(quán)益的傳遞與確認(rèn)
- 2024庭院園藝景觀設(shè)計(jì)與生態(tài)修復(fù)工程包工合同范本6篇
- 2024年電子商務(wù)平臺送貨員聘用合同
- 2024年航空航天產(chǎn)業(yè)投資合作意向書(國家戰(zhàn)略版)3篇
- 2024年社交媒體品牌建設(shè)與維護(hù)服務(wù)條款3篇
- 2024年版權(quán)許可合同違約責(zé)任認(rèn)定
- 2024年資產(chǎn)重組合同范本
- 2024物業(yè)管理實(shí)務(wù)客戶關(guān)系管理與滿意度調(diào)查合同3篇
- 2023年機(jī)械員之機(jī)械員專業(yè)管理實(shí)務(wù)題庫及參考答案(a卷)
- 班組安全培訓(xùn)試題含完整答案(各地真題)
- 《論語》中的人生智慧與自我管理學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 2022版義務(wù)教育物理課程標(biāo)準(zhǔn)
- 期末測試-2024-2025學(xué)年語文四年級上冊統(tǒng)編版
- 全國國家版圖知識競賽題庫及答案(中小學(xué)組)
- 初中語文《國學(xué)經(jīng)典》校本教材
- 江西省外經(jīng)貿(mào)融資擔(dān)保有限公司招聘筆試題庫2024
- 2024年國家公務(wù)員考試行政職業(yè)能力測驗(yàn)真題及答案
- 2024年便攜式儲能行業(yè)分析報告
- 2024-2025學(xué)年廣東省廣州市廣州大附中初三3月教學(xué)質(zhì)量監(jiān)測考試數(shù)學(xué)試題(理甲卷)版含解析
評論
0/150
提交評論