代價敏感決策樹_第1頁
代價敏感決策樹_第2頁
代價敏感決策樹_第3頁
代價敏感決策樹_第4頁
代價敏感決策樹_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、用于欺詐檢測的一種代價敏感決策樹方法Yusuf Sahin a, Serol Bulkan b, Ekrem Duman ca Department of Electrical & Electronics Engineering, Marmara University, Kadikoy, 34722 Istanbul, Turkey b Department of Industrial Engineering, Marmara University, Kadikoy, 34722 Istanbul, Turkey c Department of Industrial Engineering,

2、Ozyegin, Cekmekoy, 34794 Istanbul, Turkey關鍵詞:代價敏感建模 信用卡欺詐檢測 決策樹 分類 可變誤分類代價摘要:隨著信息技術的發(fā)展,欺詐行為遍布世界各地,這導致了巨大的經(jīng)濟損失。雖然諸如CHIP&PIN等欺詐預防機制已經(jīng)被開發(fā)應用于信用卡系統(tǒng),但這些機制并不能阻止一些最常見的欺詐類型,比如在虛擬POS機上的信用卡欺詐使用,或者是所謂的在線信用卡欺詐郵購。所以,欺詐檢測成為了一種必不可少的工具,并且可能是阻止此類欺詐類型的最佳方法。在此次研究中,提出了一種全新的代價敏感決策樹方法,它將在每個非葉節(jié)點選擇分裂屬性時最小化誤分類代價之和,其在現(xiàn)實世界信用卡數(shù)

3、據(jù)集上的性能可以與那些眾所周知的傳統(tǒng)分類模型相比較。在這種分類方法中,誤分類代價將取不同的值。結果表明,在給定的問題集上使用已知的性能指標,比如準確度和真陽性率,此代價敏感決策樹算法勝過現(xiàn)有公知的方法,而且針對特定的信用卡欺詐檢測領域,還新定義了一種代價敏感指標。因此,通過在欺詐檢測系統(tǒng)中實施該方法,可以更好的減少由于欺詐交易造成的金融損失。1. 引言欺詐可以被定義為為了取得財務或個人利益的非法或刑事欺騙。兩種避免由于詐騙活動導致欺詐和損失的機制是欺詐預防以及欺詐檢測系統(tǒng)。欺詐預防是以防止欺詐行為發(fā)生為目標的主動機制。欺詐檢測系統(tǒng)在詐騙者越過欺詐預防系統(tǒng)并且開始一個欺詐交易時發(fā)揮作用。有關欺詐

4、領域以及檢測技術的綜述可以在Bolton and Hand (2002), Kou, Lu, Sirwongwattana, and Huang (2004), Phua, Lee, Smith, and Gayler (2005), Sahin and Duman (2010)的研究中找到。其中最知名的欺詐領域是信用卡系統(tǒng)。可以通過許多方法進行信用卡欺詐,如簡單盜竊,申請欺詐,偽造卡片,從未達卡問題(NRI)以及在線詐騙(在持卡人不存在的情況下)。在網(wǎng)絡詐騙中,交易是通過遠程完成的,并且只需要信用卡信息。由于網(wǎng)絡的國際可用性和易用性,用戶可以在互聯(lián)網(wǎng)交易中隱藏自身位置以及身份,所以通過該媒介

5、發(fā)生的欺詐行為正在快速增長。信用卡欺詐檢測有很多以前已經(jīng)完成的研究。關于信用卡系統(tǒng)以及欺詐領域非技術性知識的一般背景可以分別從Hanagandi, Dhar, and Buescher (1996) and Hand and Blunt (2001)學習。在這個領域中,最常用的欺詐檢測方法有規(guī)則歸納技術,決策樹,人工神經(jīng)網(wǎng)絡(ANN),支持向量機(SVM),邏輯回歸以及諸如遺傳算法的啟發(fā)式算法。這些技術可以單獨使用,也可以通過集成以及元學習技術協(xié)同使用來構建分類器。大多數(shù)信用卡欺詐檢測系統(tǒng)在使用監(jiān)督算法,比如神經(jīng)網(wǎng)絡(Brause, Langsdorf, & Hepp, 1999; Dorro

6、nsoro, Ginel, Sanchez, & Cruz, 1997; Juszczak, Adams, Hand, Whitrow, & Weston, 2008; Quah & Sriganesh, 2008; Schindeler, 2006; Shen, Tong, & Deng, 2007; Stolfo, Fan, Lee, Prodromidis, & Chan, 1997; Stolfo, Fan, Lee, Prodromidis, & Chan, 1999; Syeda, Zhang, & Pan, 2002; Prodromidis, Chan, & Stolfo, 2

7、000),ID3、C4.5和C&RT一類的決策樹技術(Chen, Chiu, Huang, & Chen, 2004; Chen, Luo, Liang, & Lee, 2005;Mena, 2003; Wheeler & Aitken, 2000)以及支持向量機(Gartner Reports, 2010; Leonard, 1993)。信用卡欺詐檢測是一個非常困難,但也很受歡迎的亟待解決的問題??偸莾H有有限數(shù)量有關犯罪交易的數(shù)據(jù)。同時,也有可能存在詐騙者進行符合正常(合法)行為模式(Aleskerov, Freisleben, & Rao, 1997)的交易通過的情況。此外,該問題還有很多

8、限制。首先,正常和詐騙行為的表現(xiàn)不斷地改變。其次,新欺詐檢測方法的發(fā)展變得更加困難是由在欺詐檢測中交換思想的事實造成的,尤其是信用卡欺詐檢測因為安全和隱私問題被嚴格限制。第三,數(shù)據(jù)集不一定是可用的,其結果往往是截尾的,這使得它們難以評估。甚至,一些研究使用合成產(chǎn)生的數(shù)據(jù)進行(Brause等, 1999; Dorronsoro等, 1997)。第四,信用卡欺詐數(shù)據(jù)集是高度傾斜集。最后,該數(shù)據(jù)集正在不斷發(fā)展,使得正常和詐騙行為的表現(xiàn)總是在變化(Bolton & Hand, 2002; Kou等, 2004; Phua et al., 2005; Sahin & Duman, 2010)。因此,信用

9、卡欺詐檢測仍然是一個流行的,具有挑戰(zhàn)性以及困難的研究課題。Visa關于歐洲國家的信用卡欺詐報告指出在2008年,大約50%的信用卡欺詐損失是由于在線欺詐(Ghosh & Reilly, 1994)。許多文獻報道了大量不同國家的損失(Bolton & Hand, 2002; Dahl, 2006; Schindeler, 2006)。因此,新方法提高了在這一領域的分類器性能兼有經(jīng)濟意義與研究貢獻?;谶@個領域的特性,定義一個新的代價敏感方法是改善的最佳途徑之一。雖然傳統(tǒng)的機器學習技術在許多分類問題上一般是成功的,但是具有高準確度或最小化誤分類誤差并不總是開發(fā)分類器的目標。在現(xiàn)實世界的機器學習問題

10、領域的應用中,有各種類型的代價參與,Turney定義了其中的九種主要類型(Turney, 2000)。然而,大多數(shù)機器學習文獻并不采取任何這些代價的考慮,僅僅剩下的一小部分考慮了誤分類代價。Turney還指出誤分類誤差的代價在分類中具有獨特的地位(Turney, 2000)。而根據(jù)ML-netll項目(European Network of Excellence in Machine Learning)的技術路線圖,代價敏感學習據(jù)稱是在機器學習研究的未來中一個非常流行的課題(Saitta, 2000; Zhou & Liu, 2006)。因此,通過構建代價敏感分類器來改善分類器在欺詐檢測系統(tǒng)中

11、的性能是一個使大量經(jīng)濟損失恢復的最好辦法。此外,客戶的忠誠度和信任度也將有所增加。并且代價敏感分類器已經(jīng)被證明能夠有效處理類不平衡問題(Thai-Nghe, Gantner, & Schmidt-Thieme, 2010; Zhou & Liu, 2006)。大量過去的研究是在恒定的誤分類代價矩陣或者由一些恒定的合成誤分類代價組成的代價矩陣上進行的;然而,每個假陰性(FN)具有它固有的獨特的誤分類代價。因此,每個假陰性(FN)應當以某種方式排列來顯示誤分類代價的差異。例如,具有較大交易量的或者更大可用額度的欺詐交易應該比具有較小數(shù)量或可用額度的更需要被檢測。恒定代價矩陣或者不變代價矩陣的組合不

12、能描述這個場景。所以,本研究是在可變誤分類代價的分類問題工作中,將這樣的情況納入考慮的開拓者之一。這項研究的目的是填補信用欺詐檢測文獻的一項空白。在此研究中,開發(fā)了一個新的代價敏感決策樹歸納算法,它將在樹的每個非葉節(jié)點選擇分裂屬性時最小化誤分類代價之和,并且分類性能可以與那些無論是代價不敏感還是代價敏感的具有固定誤分類代價率的傳統(tǒng)分類方法相比較,比如傳統(tǒng)決策樹算法,人工神經(jīng)網(wǎng)絡和支持向量機。結果表明,就詐騙交易的辨別和防止可能的損失量而言,這個代價敏感決策樹算法在我們現(xiàn)實世界數(shù)據(jù)集上的表現(xiàn)優(yōu)于現(xiàn)有公知的方法。在信用卡欺詐檢測中,誤分類代價以及欺詐的優(yōu)先序基于個人記錄來區(qū)別不同。其結果是,常見的

13、性能指標,如準確率,真陽性率(TPR)或者甚至曲線下面積(AUC)并不適合評估模型的性能,因為它們接受每個欺詐是具有相同優(yōu)先級,不管欺詐交易量或者當時交易中用卡的可用信用額度是多少。應該使用一個使用有意義的方式按序排列欺詐交易以及檢查模型在最小化總經(jīng)濟損失時性能的全新性能指標。一旦詐騙者得到使用信用卡進行詐騙交易的機會,他們通常消耗完一張信用卡的可用信用額度。因此,一個欺詐交易的經(jīng)濟損失可以假定為交易前卡的可用信用額度,而不是交易的數(shù)量。這樣,模型在測試集上的性能比較可以使用新定義的代價敏感性能指標挽回損失率(SLR),也就是從欺詐交易中信用卡可用額度之和的潛在經(jīng)濟損失中挽回的百分比。為了顯示

14、我們觀點的正確性,在模型性能的比較中,代表模型性能的真陽性率(TPR)的值也會給出。本文的其余部分安排如下:第二章節(jié)給出機器學習中代價敏感方法的回顧;第三章節(jié)給出對于信用卡數(shù)據(jù)的結構的一些見解;第四章節(jié)給出新開發(fā)的代價敏感決策樹算法的細節(jié);第五章節(jié)給出結果以及對結果的簡短討論;第六章節(jié)總結本研究。2. 機器學習中的代價敏感方法有不同方法用于構建將代價敏感性考慮在內(nèi)的分類模型。第一個通過改變過采樣或欠采樣的訓練數(shù)據(jù)分布來建立代價敏感分類模型,使得該集合中數(shù)據(jù)的代價可以表現(xiàn)出例子的形態(tài)。一些研究試圖通過分層來克服誤分類代價問題;以及當數(shù)據(jù)集不平衡時復制或丟棄樣本(Japkowicz, 2000;

15、Kubat & Matwin, 1997)。然而,這些研究人員假設代價矩陣的內(nèi)容是固定的數(shù)字,而不是依賴記錄的值。研究人員如Domingos試圖建立像MetaCost的機制去將代價不敏感分類器轉換為代價敏感分類器(Domingos, 1999; Elkan, 2001)。根據(jù)一些研究報告,過采樣對于不平衡數(shù)據(jù)集的學習是有效的(Japkowicz & Stephen, 2002; Japkowicz et al., 2000; Maloof, 2003)。但是,過采樣增加了訓練的時間,并且因為它創(chuàng)建了不少較小類樣本的拷貝,所以可能會導致過擬合問題(Chawla, Bowyer, & Kegelm

16、eyer, 2002; Drummond & Holte, 2003)。不同于過采樣,欠采樣試圖減少較多類的樣本數(shù)量,以便于實現(xiàn)訓練集數(shù)據(jù)關于類分布的平衡。一些研究表明欠采樣善于處理不平衡數(shù)據(jù)問題(Drummond & Holte, 2003; Japkowicz & Stephen, 2002; Japkowicz et al., 2000; Maloof, 2003)。第二種方法是當建立分類模型時將代價敏感性考慮在內(nèi),調(diào)整廉價類的閾值使得昂貴類樣本的誤分類更加困難以此最小化誤分類代價(Langford & Beygelzimer, 2005; Maloof, 2003; Sheng & L

17、ing, 2006; Zhou & Liu, 2006)。過采樣,欠采樣和調(diào)整閾值不會更改算法,因此可以被用于幾乎所有的算法(Ma, Song, Hung, Su, & Huang, 2012)。然而,前兩者會改變模型算法的輸入,而后者會改變由該算法構建的模型的輸出(Zhou & Liu, 2006)。就如調(diào)整閾值,在學習算法中對昂貴類增加學習速率,如果這樣,可以使模型更多地學習高代價的樣本,而不是低代價的(Kukar & Kononenko, 1998; Wan, Wang, & Ting, 1999)。最后一種考慮代價敏感性的方法是修改代價不敏感學習算法或定義一個新的代價敏感算法。如果該算

18、法是一個基于決策樹的,這可以通過要么使用代價敏感方式分裂或用代價敏感方法剪枝或提供額外的代價調(diào)整函數(shù)來完成。雖然許多研究人員使用不同的啟發(fā)式方法來建立代價敏感決策樹(Breiman, Friedman, Olshen, & Stone, 1984; Brodley, 1995; Draper, Brodley, & Utgoff, 1994),有些人使用不同的技術來剪枝使用誤分類代價按傳統(tǒng)方法建立的決策樹(Bradford, Kunz, Kohavi, Brunk, & Brodley, 1998;Knoll, Nakhaeizadeh, & Tausend, 1994)。3. 信用卡數(shù)據(jù)的結

19、構在這項研究中使用的信用卡數(shù)據(jù)是從一個銀行的信用卡數(shù)據(jù)倉庫中使用所需的權限獲取的。信用卡數(shù)據(jù)倉庫中的以往數(shù)據(jù)被用來形成表示客戶卡使用情況的數(shù)據(jù)集市。數(shù)據(jù)集市中的數(shù)據(jù)被用于形成在建模階段使用的訓練集和測試訓練模型階段使用的測試集。原始數(shù)據(jù)的時間區(qū)間共有12個月,用于形成具有大約22萬條信用卡交易的訓練集。這個數(shù)據(jù)關于正常和欺詐交易的分布是高度傾斜的。這12個月期間,用于建立我們樣本數(shù)據(jù)包括978條詐騙記錄以及大約22萬條正常記錄,這個比例大概是1:22500。所以,為使模型能夠學習這兩類樣本,我們使用分層抽樣去下采樣合法記錄到一個有意義的數(shù)字。我們試著采樣到不同的合法/欺詐比值。此外,所有屬于過

20、去6個月時間段的數(shù)據(jù),包括含有484條欺詐交易的大約11344000條交易記錄直接包含在測試集中。測試集中的所有交易都通過分類方法得分。訓練和測試集的數(shù)據(jù)分布在表1中給出。每一張信用卡的交易數(shù)量都與其它的不同,但是每條交易記錄都是相同的固定長度,并且包含相同的字段。Hand和Blunt給出了一個信用卡數(shù)據(jù)特點的描述(Hand & Blunt, 2001)。雖然一些客戶可能擁有超過一張的信用卡,但是每張卡被視為一個獨特的配置文件,因為擁有超過一張卡的客戶出于不同的目的,通常在不同的客戶配置文件中使用每張卡。每張卡的配置文件中包含了能夠透露用卡行為特征的變量。這些變量可以表示針對位置,時間或者交易

21、發(fā)生地點類型的信用卡交易模式。欺詐檢測系統(tǒng)使用分類模型通過鑒別與給出卡使用的配置文件的顯著偏差去檢測詐騙活動。這些變量不僅從交易本身,而且還從卡過往的交易歷史中派生。我們的內(nèi)容將提及使用的變量類型,但是出于對隱私,保密性和安全性的擔憂,我們是不被允許談論變量的完整列表。這些變量是五個主要變量類型中的一個:所有的交易統(tǒng)計,地區(qū)統(tǒng)計,商戶類型統(tǒng)計,基于時間交易額的統(tǒng)計以及基于時間的交易數(shù)量統(tǒng)計。一些變量可以表述為交易類型,商戶類別碼,POS輸入模式,PIN輸入能力,卡類型,卡域以及卡使用國家。所有交易統(tǒng)計類型中的變量大體上透露了持卡人使用卡的一般信息。區(qū)域統(tǒng)計類型的變量給出有關地理區(qū)域的持卡人消費

22、習慣。屬于商戶類型統(tǒng)計的變量顯示持卡人在不同商戶類別使用卡的情況。基于時間的統(tǒng)計類型變量鑒別出卡關于使用額度或使用頻率與時間范圍關系的使用信息。當評估信用卡的一個新交易時,通過這些變量可以鑒別出其與卡正常使用信息的偏差,從而給出欺詐使用的信號。所以,對于每一張卡的每一筆交易,這些變量每一個都需要計算,并且包含在測試集中。4. 代價敏感決策樹方法對現(xiàn)實世界分類問題進行建模的最大問題之一是數(shù)據(jù)分布不平衡,而且在信用卡欺詐檢測的情況下,識別屬于較少類的記錄比識別屬于較多類的記錄更為重要。解決該問題的一個有效方法是代價敏感建模,使得誤分類較少類記錄的代價比誤分類較多類的記錄更大。在本文中,給出了開發(fā)一

23、個代價敏感決策樹算法去識別信用卡欺詐交易的細節(jié)。在公知的決策樹算法中,分裂條件要不是對代價和類分布不敏感,就是代價固定為恒定比率,如此使得將欺詐交易分類為正常(假陰性,F(xiàn)N)的代價是將正常交易分類為欺詐(假陽性,F(xiàn)P)的N倍。此外,在這些算法中,誤分類的代價僅在剪枝過程中納入考慮,而歸納過程并不考慮。這里有一些以前針對代價敏感樹歸納做的研究,其中誤分類的代價僅僅依賴于類(Drummond & Holte, 2000a; Drummond & Holte, 2000b; Ling, Sheng, & Yang, 2006; Liu, 2009),或者是個別樣本自身(Duman & zelik,

24、2011; Ling, Yang, Wang, & Zhang, 2004)。就我們所知,這是在信用卡欺詐檢測中使用不同的誤分類代價來探索代價敏感決策樹歸納算法特定應用組合的第一項工作。表1 關于類別的數(shù)據(jù)分布集合記錄實際記錄數(shù)量集合中記錄數(shù)量訓練集正常220000008802欺詐978978測試集正常1364400013644000欺詐484484在信用卡交易中,每次欺詐交易會產(chǎn)生一個不同的代價,所以對每一筆欺詐交易使用一個固定的誤分類代價并不適合我們的問題。從而,我們對每筆交易使用一個不同的代價,這是它們自身固有的。除非詐騙者提交的第一筆欺詐交易沒有被檢測到,否則他們在獲得使用卡進行交易的

25、可能后,通常在隨后的交易中花完信用卡里所有可用的信用額度。他們一般設法用平均四到五次交易來實現(xiàn)這個目標(Duman & zelik, 2011)。因此,將欺詐交易鑒定為合法的實際代價就和交易中信用卡使用的可用信用額度一樣大。故而,一筆欺詐記錄的誤分類代價被定義為交易中信用卡使用的可用信用額度,而不是交易量和預先定義的固定的代價值。另外,這個假設在代價和每筆欺詐交易之間做出了區(qū)分。換句話說,檢測出使用有高額可用信用額度的卡進行的欺詐交易比使用有低額可用信用額度的卡進行的欺詐交易能挽救更多的損失。如此,檢測到的第一筆欺詐交易的優(yōu)先級比第二筆高。因此,每個假陰性都有不同的誤分類代價,同時,對于模型性

26、能的,應該使用代價敏感指標評價而不是基于檢測到欺詐數(shù)量的指標,如式(1)中給出的新定義的能夠反映挽回的所有可用信用額度所占百分比的指標SLR。 ,其中k表示被檢測到的欺詐數(shù),f表示欺詐的總數(shù),(CFN)j表示FNj的誤分類代價 (1)經(jīng)典的決策樹模型并不適用于依據(jù)個別交易確定可變誤分類代價的情況。因此,我們開發(fā)了一種新的代價敏感決策樹算法,其決策樹學習算法中的分裂條件受各個誤分類代價改變的影響。我們算法使用的代價指標在表2中給出。對于正常交易的誤分類代價(CFP),我們的算法假定一個固定的誤分類代價是由一些特定的程序和采訪銀行工作人員與領域專家找到的。該算法取交易中所用卡在交易前的可用信用額度

27、作為欺詐交易的誤分類代價(CFN)。這里新定義的代價敏感決策樹學習算法選擇一個節(jié)點分裂變量的方法是如果一個分裂是可能的,那么一定是基于總誤分類代價的減少,而不是雜質的減少。我們假設FP是實際上是正常的交易被錯誤分類為欺詐的,而FN是實際上是欺詐的交易被錯誤分類為合法的。開始時,訓練集中所有的交易都被分配給樹的根節(jié)點。首先,計算該節(jié)點的代價。在決策樹中,一個節(jié)點上的所有交易都可以被分類為要不是欺詐的,那么就是合法的。因此,無論是將節(jié)點上的交易標記為欺詐(CP)的總誤分類代價,還是將交易標記為正常的(CN)總誤分類代價,都需要計算。為了計算法CP和CN,我們使用四種不同的方法:CS直接代價(CS

28、Direct Cost),CS類概率(CS Class Probability),CS-基尼(CS Gini)和CS-信息增益(CS Information Gain)。在CS直接代價方法中,我們在代價計算函數(shù)中不整合任何不純性度量,并且僅通過使用獨立降低總期望分類代價的方法來尋找最佳分裂。這種代價方法是從Ling等 (2004), Zubek and Dietterich (2002), Greiner, Grove, and Roth (2002)處受到的啟發(fā)。這種方法選擇能夠最大程度上減少總誤分類代價的變量來替代使用不純性度量尋找分裂變量。在將交易標記為正常(CN)的情況下,總誤分類代價

29、是該節(jié)點每個欺詐表2 使用的代價指標實際值預測值陽性(欺詐)陰性(合法)陽性(欺詐)真陽性(TP)(誤分類代價=0)假陰性(FN)(誤分類代價=CFN)陰性(合法)假陽性(FP)(誤分類代價=CFP)真陰性(TN)(誤分類代價=0)記錄的可用信用額度(CFN)i)之和。將合法交易標記為欺詐只會造成一個對于每個合法交易相同的觀測代價(CFP)。因此,在該方法中,只有誤分類代價在樹歸納和分類中使用。假設有“f”個欺詐記錄和“n”個正常(合法)記錄,它們落在一個節(jié)點上,那么“N”(N = f + n)給出該節(jié)點記錄總數(shù),CP和CN的計算在下面的式(2)和式(3)中給出: (2) (3)不同于CS直接

30、代價方法不管數(shù)據(jù)的類分布以及節(jié)點的不純性,僅僅使用期望的總誤分類代價去尋找當前節(jié)點的最佳分裂的情況,傳統(tǒng)的決策樹歸納技術使用類分布或者在某些方面使用不純性度量來尋找下一層的分裂。因此,使用下面的方法在代價敏感分裂機制的節(jié)點上添加類分布以及不純性的影響,我們使用從著名的傳統(tǒng)決策樹算法ID3,C5.0和C&RT中得到的啟發(fā),修改尋找分裂的誤分類代價計算。這些傳統(tǒng)的決策樹方法使用不純性度量去選擇分裂屬性和分裂值。ID3(Prodromidis等, 2000)使用熵和信息增益,而之后的C5.0使用增益比,C&RT(Wheeler & Aitken, 2000)則使用基尼用于不純性度量。對于二類問題,期

31、望信息(熵)與基尼的計算方法在下面的式(4)中給出:a.b. 其中pi表示類i的相對頻率 (4)在CS類概率方法中,類的相對頻率(類概率)被集成到代價計算函數(shù)中,用于增加類分布對該節(jié)點代價的影響。由于該節(jié)點上某類的相對頻率增大,那么在該節(jié)點就會有更多的記錄屬于這個類。因此,若使用如ID3和C5.0決策樹方法中的相應不純性度量,該節(jié)點上的記錄將會被分配給此類。又因為我們決定根據(jù)誤分類代價標簽該節(jié)點,所以我們應該將該類的代價與它類的相對頻率相乘,這樣使得我們將更多的降低擁有更高相對頻率類的代價。故而,我們將減少選擇有較高頻率類的代價。順便說一下,我們傾向于在節(jié)點上用更高頻率的類。在CS-類概率方法

32、中,CP和CN的計算方法由下面的式(5)和式(6)給出: (5) (6)在CS基尼方法中,受到C&RT中使用的基尼不純性度量的啟發(fā),類概率的平方被集成到代價計算函數(shù)中,以另外一種方法來增加類分布對于節(jié)點代價的影響。我們將一個類的代價與它類相對頻率的平方相乘,從而比CS類概率方法能更多的降低高相對頻率類的代價。在CS基尼方法中,CP和CN的計算方法由下面的式(7)和式(8)給出: (7) (8)在CS信息增益方法中,受到ID3使用的信息增益不純性度量的啟發(fā),相對類概率的負對數(shù)被集成在代價計算函數(shù)中,以另外一種方式來增加類分布對于節(jié)點代價的影響。因為相對頻率的對數(shù)是非正值,所以我們乘以負1使其變?yōu)?/p>

33、非負。在CS信息增益方法中,CP和CN的計算方法由下面的式(9)和式(10)給出: (9) (10)在每一種情況下計算誤分類代價之后,如式(11)所示,選擇具有最小代價的情況作為該節(jié)點誤分類代價。節(jié)點上的交易被分配給具有最小總期望誤分類代價的類(N=正常,F(xiàn)=欺詐)。由于將欺詐標記為欺詐和將合法標記為合法的誤分類代價為0,所以它們是不會被包括在誤分類代價的計算中。該節(jié)點被標記為具有最小總誤分類代價的標記類,見式(12)。 (11) (12)在找到每個類的誤分類代價之后,被發(fā)現(xiàn)是欺詐的或是正常的類概率如下面的式(13)和式(14)所示。因為分類算法基于誤分類代價,所以當一個類的誤分類代價更大時,

34、成為另一個類的概率越大。因此,這導致誤分類代價越小的類將被選擇作為該節(jié)點的類。在一個節(jié)點,一個類的誤分類代價越大,那么該節(jié)點上的記錄屬于該類的可能性越小。故而,在一個類誤分類代價和該類可能性(P)之間存在某種反比關系。 (13) (14)從根節(jié)點開始,每一個節(jié)點都會檢查在該節(jié)點分裂中最適合使用的變量,如果一個分裂是可能的,那么將會盡可能的減少總誤分類代價。根據(jù)變量類型分裂一個節(jié)點的方法如下:多分裂用于特征,而二元分裂用于數(shù)值(范圍)變量。在發(fā)現(xiàn)上述每個子節(jié)點(CCN)的代價之后,分裂后子層的總代價(CT)就如式(15)所示(假設分裂后有m個子節(jié)點)。相比使用諸如增益率的公式,我們更喜歡在分裂之

35、后直接劃分子節(jié)點的數(shù)目,因為(Liu, 2009; Sheng等, 2006)表示這樣做不僅克服了信息增益的缺點,同時建立了面向增益比的實際問題。 (15) 分裂之后,子節(jié)點代價之和除以子節(jié)點的數(shù)目使得相比導致更少分裂節(jié)點的變量,不會偏向選擇造成更多分裂節(jié)點的變量。如果子層的總代價比父節(jié)點的代價要小,那么就會有誤分類代價的減少,這個分裂就是要使用的候選。針對每個輸入變量,使用每一個可能的分裂在候選分裂中尋找最佳代價降低,并且在子層給出最佳代價降低的分裂將被選為該節(jié)點的分裂。如果沒有能造成代價降低的候選分裂,或者一個節(jié)點上的交易數(shù)目低于允許的最小交易數(shù)目,那么父節(jié)點將會被標記為一個葉節(jié)點。通過節(jié)

36、點的誤分類代價計算,不僅僅是該節(jié)點的類,還有該節(jié)點上的交易是欺詐還是正常的概率也會被發(fā)現(xiàn)。5. 結果和討論在真實世界的例子中,大多數(shù)信用卡操作管理部門只有有限的員工來監(jiān)測欺詐警報。所以,許多欺詐檢測系統(tǒng)應該展示其在一個固定數(shù)量欺詐警報情況下的最佳性能。就我們而言,我們的數(shù)據(jù)供應商銀行僅僅檢查所有交易的8%。因此,我們根據(jù)分類模型給出的記錄欺詐可能性,對記錄在測試集中進行排序,并在測試集前8%的風險交易中比較模型的性能。因為每個欺詐記錄的代價是不同的,所以每一個每一筆欺詐應該根據(jù)其代價進行優(yōu)先排序。從而,檢測一個具有高代價的欺詐應該比檢測一個低代價的欺詐更為重要。于是,應該根據(jù)誤分類代價來評估模

37、型的性能,也就是說比如準確度或精度(或真陽率TPR)一類的常見性能指標并不適合評價像這種情況一樣擁有不同誤分類代價的模型的性能。這就是為什么在測試集上使用挽回損失率(SLR)來比較性能,其表示從欺詐交易用卡的可用信用額度的潛在經(jīng)濟損失中挽回的百分比。為了表明我們觀點的正確性,模型性能的TPR值與SLR值一同給出。表3 ANN模型性能的統(tǒng)計學分析 ModelNMeanStd.dev.Std.error mean Group statistics SLRDynamic1086.892.859860.90437Quick1087.601.320770.41767 TPRDynamic1090.620

38、.833730.26365Quick1090.600.543650.17192Independent samples testLevenes test forequality ofvariancest-test for equality of meansFSig.tdfSig. (2-tailed)Mean differenceStd. error difference95% Confidence interval of the differenceLowerUpper SLREqual variances assumed16.8190.001-0.71318.0000.485-0.71000

39、0.99615-2.802841.38284Equal variances not assumed-0.71312.6720.489-0.710000.99615-2.867731.44773 TPREqual variances assumed4.5470.0470.06418.0000.9500.020000.31475-0.641260.68126Equal variances not assumed0.06415.4820.9500.020000.31475-0.649060.68906在本次研究中,在使用相同方法和不同參數(shù)開發(fā)的模型中,選擇表現(xiàn)出最佳性能的模型,并且將它們的性能與本研

40、究中定義的使用代價敏感決策樹算法建立的模型性能相比較。于是,在SPSS PASW Modeler中使用傳統(tǒng)決策樹方法建立的模型中選擇六種模型。這些模型是使用C5.0,CART,CHAID,帶有固定代價比5:1的CHAID(誤分類一個欺詐記錄的代價是誤分類合法記錄的5倍),Exhaustive CHAID(CHAID一個詳細展現(xiàn)預測變量合并和測試的擴展),以及帶有5:1代價比率的Exhaustive CHAID。在人工神經(jīng)網(wǎng)絡模型中,兩個性能最佳的模型是在SPSS PASW Modeler中使用動態(tài)和快速網(wǎng)絡建立的。在這個快速的方式中,訓練了一個單隱層前饋BP神經(jīng)網(wǎng)絡。默認情況下,該網(wǎng)絡具有一個

41、最多包含(3 * (ni + no) / 20)神經(jīng)元的隱藏層,其中ni表示輸入神經(jīng)元的數(shù)量,no表示輸出神經(jīng)元的數(shù)量。該網(wǎng)絡采用反向傳播方法訓練。在動態(tài)方法中,又訓練了一個單隱層前饋神經(jīng)網(wǎng)絡,然而,網(wǎng)絡的拓撲結構在訓練時發(fā)生了改變,神經(jīng)元不斷加入以提升性能直到該網(wǎng)絡達到期望的準確率。有兩個地方需要動態(tài)訓練:尋找拓撲結構和訓練最終網(wǎng)絡。對于不同的10個測試結果中的每一個,動態(tài)和快速方法在測試集上的性能統(tǒng)計是最好的。在TPR和SLR方面,并沒有發(fā)現(xiàn)這兩種人工神經(jīng)網(wǎng)絡方法的性能有統(tǒng)計學意義上的差別。詳細的分析在表3中給出。同時還在使用SVM方法建造的模型中選擇一個有最佳性能的模型。所有被選擇模型的

42、性能在表4中給出。在使用傳統(tǒng)方法建造的被選擇模型中,人工神經(jīng)網(wǎng)絡模型在欺詐捕獲或TPR方面表現(xiàn)出了最佳性能,并且其中一個在SLR方面有最佳性能。然而,在TPR和SLR方面,三個代價敏感決策樹模型的性能優(yōu)于所有其它模型。我們的CS直接代價方法僅僅使用誤分類代價去建造樹,故表現(xiàn)出最差的性能。盡管以前的研究指出只使用預期誤分類代價的方法性能優(yōu)于許多傳統(tǒng)的代價敏感方法(Ling等, 2004),圖1和圖2給出的我們的結果表示我們不能僅僅使用誤分類代價去分類,而且應該描繪類分布和數(shù)據(jù)不純性在某些方面對我們代價計算的影響。表4 模型性能模型TPTPRSLR動態(tài)-平均43990.686.9動態(tài)-最佳4459

43、1.990.7動態(tài)-最差43389.583.7快速-平均43990.687.6快速-最佳44391.589.6快速-最差43389.586.0C5.043590.085.0C&RT43189.084.7CHAID43589.984.7Exhaustive CHAID43589.984.7SVM(多項式)40283.178.3CS-直接代價(CFP=30)36174.673.3CS-類概率(CFP=50)44692.194.9CS-基尼(CFP=5)44992.895.8CS-信息增益(CFP=25)44892.695.2CFP表示假陽性的代價。圖1和圖2給出了在TPR和SLR這兩方面,使用如此組合構建的代價敏感決策樹模型表現(xiàn)出最佳性能。對于人工神經(jīng)網(wǎng)絡模型和代價敏感決策樹模型,雖然性能TPR

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論