版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)挖掘模型評估2022/11/251數(shù)據(jù)挖掘模型評估2022/9/241一、評估分類法的準確率2022/11/252評估分類法準確率的技術(shù)有保持(holdout)和k-折交叉確認(k-foldcross-validation)方法。另外,還有兩種提供分類法準確率的策略:裝袋(bagging)和推進(boosting)。1、保持和k-折交叉在保持方法中,給定數(shù)據(jù)隨機劃分成兩個獨立的集合:訓練集和測試集。通常,三分之二的數(shù)據(jù)分配到訓練集,其余三分之一分配到訓練集。一、評估分類法的準確率2022/9/242評估分類法準確率的2022/11/253“保持”這種評估方法是保守的,因為只有一部分初始數(shù)據(jù)用于導出的分類法。隨機子選樣是“保持”方法的一種變形,它將“保持”方法重復k次。總體準確率估計取每次迭代準確率的平均值。2022/9/243“保持”這種評估方法是保守的,因為只有一K—折交叉確認在k—折交叉確認(k—foldcross—validation)中,初試數(shù)據(jù)被劃分成k個互不相交的子集或“折”,每個折的大小大致相等。訓練和測試k次。在第i次迭代,第i折用作測試集,其余的子集都用于訓練分類法。準確率估計是k次迭代正確分類數(shù)除以初始數(shù)據(jù)中的樣本總數(shù)。2022/11/254K—折交叉確認在k—折交叉確認(k—foldcross—v2、提高分類法的準確率2022/11/255裝袋2、提高分類法的準確率2022/9/245裝袋2022/11/256推進即使用相同的分類器,各個分類器不是獨立的;使用同一個算法對樣本迭代訓練,后建立的分類器關(guān)注于先前建立的分類器不能更好處理的部分數(shù)據(jù);最終的輸出為各個分類器的加權(quán)投票。
2022/9/246推進即使用相同的分類器,各個分類器不是3、靈敏性和特效性度量假定你已經(jīng)訓練了一個分類法,將醫(yī)療數(shù)據(jù)分類為“cancer”或“non_cancer”。90%的準確率使得該分類法看上去相當準確,但是如果實際只有3—4%的訓練樣本是“cancer”會怎么樣?顯然,90%的準確率是不能接受的——該分類法只能正確的標記“non_cancer”(稱作負樣本)樣本。但我們希望評估該分類能夠識別“cancer”(稱作正樣本)的情況。2022/11/2573、靈敏性和特效性度量假定你已經(jīng)訓練了一個分類法,將醫(yī)療數(shù)據(jù)為此,除用準確率評價分類模型外,還需要使用靈敏性(sensitivity)和特效性(specificity)度量。還可以使用精度(precision)來度量,即評估標記為“cancer”,實際是“cancer”的樣本百分比。2022/11/258為此,除用準確率評價分類模型外,還需要使用靈敏性(sensi其中,t_pos是真正樣本(被正確地按此分類的“cancer”樣本)數(shù),pos是正(“cancer”)樣本數(shù),t_neg是真負樣本(被正確地按此分類的“non_cancer”樣本)數(shù),neg是負(“non_cancer”)樣本數(shù),而f_pos假正樣本(被錯誤地標記為“cancer”的“non_cancer”樣本)數(shù)2022/11/259靈敏性特效性精度其中,t_pos是真正樣本(被正確地按此分類的“cancer2022/11/2510預測值1(實際“cancer”)0(實際no_cancer)1(預測“cancer”)000(預測“no_cancer”)10902022/9/2410預測值1(實際“cancer”)0(實二、數(shù)據(jù)挖掘模型評估的錯誤觀念傳統(tǒng)評估分類預測模型時,通常使用的是“準確度”。它的功能是評估模型分類實物是否正確。準確度越高模型就越好。但事實上,這樣評估出來的模型并不是最好的。2022/11/2511二、數(shù)據(jù)挖掘模型評估的錯誤觀念傳統(tǒng)評估分類預測模型時,通常使例:某家銀行發(fā)行現(xiàn)金卡,風險控管部門主管決定建立DM模型,利用申請人申請當時的所填的資料,建立違約預測模型,來作為核發(fā)現(xiàn)金卡以及給予額度的標準。該銀行邀請兩家DM公司來設計模型,評比的標準是根據(jù)模型的“準確度”。根據(jù)此標準,A公司所建模型的準確度92%,B公司的準確度是68%。銀行和A公司簽約。2022/11/2512例:某家銀行發(fā)行現(xiàn)金卡,風險控管部門主管決定建立DM模型,利利用A公司的模型后,結(jié)果發(fā)現(xiàn)里面只有一條規(guī)則,那就是“所有的人都不會違約”。為什么?A:所有的人都不會違約,因此它錯誤的只有8%的違約分類錯誤(違約誤判為不違約),因此準確率是92%。B:在根據(jù)評分由高至低篩選出來前40%的名單中,可以將所有的違約戶都找出來。即有32%的非違約戶被誤判為違約戶,因此準確率只有68%。哪一家的模型更好呢?由上可以發(fā)現(xiàn),不能使用準確率來評判模型的優(yōu)劣。2022/11/2513利用A公司的模型后,結(jié)果發(fā)現(xiàn)里面只有一條規(guī)則,那就是“所有的為什么會出現(xiàn)這樣的結(jié)果?原因在于兩類錯誤,忽略了“錯誤不等價”。如果把一個“會違約的人判斷成不會違約”,這家銀行損失20~30萬元的現(xiàn)金卡卡金,但是如果將一個“不會違約的人錯判成違約”,只是劃分了一些審查成本以及可能因為保守給予額度而造成的機會成本損失。因此兩種誤判所造成的效益影響是不等價的。2022/11/2514為什么會出現(xiàn)這樣的結(jié)果?原因在于兩類錯誤,忽略了“錯誤不等價所謂小概率事件是發(fā)生概率小,而且一定是能夠為企業(yè)界帶來高度獲利或嚴重損失的事件。由于小概率事件發(fā)生概率很小,如果針對所有客戶采取行動,就會形成浪費,因此,需要利用預測的技術(shù)將小概率事件找出來。那么,只針對預測的小概率事件采取行動就會避免浪費。DM的價值就在于能夠利用歷史資料找出“小概率事件”。2022/11/2515小概率事件:所謂小概率事件是發(fā)生概率小,而且一定是能夠為企業(yè)界帶來高度獲因此,評估數(shù)據(jù)挖掘模型的第一步就必須從錯誤狀態(tài)的分類入手。這需要建立分類矩陣,通過分類矩陣來查看所有錯誤的分布。2022/11/2516因此,評估數(shù)據(jù)挖掘模型的第一步就必須從錯誤狀態(tài)的分類入手。這H0
為真H0
為假真實情況所作判斷接受H0拒絕H0正確正確棄真錯誤取偽錯誤兩類錯誤犯第一類錯誤是棄真錯誤;犯第二類錯誤是取偽錯誤
。2022/11/2517三、分類矩陣H0為真H0為假真實情況所作判斷接受H0拒絕H0正確正確對于DM來說,通常第二類錯誤的損失或收益要比第一類高。因此,我們需要確定哪一個狀況是我們所關(guān)心的小概率事件。把對這個事件的誤判會造成極大損失的情況,作為第二類錯誤。例,把一個好賬的人當作呆賬是第一類錯誤,把一個呆賬的人當作好賬是第二類錯誤。2022/11/2518對于DM來說,通常第二類錯誤的損失或收益要比第一類高。202預測值1(實際“會違約”)0(實際“不會違約”)1662801857212022/11/2519表中,預測為會違約且實際也會違約的有66人,預測不會違約且實際沒有違約的有721人,這些是分類正確者。表中,預測為會違約且實際沒有違約的有28人,預測不會違約且實際違約的有185人,這些是預測模型判斷錯誤的部分。其中,后者還會造成比較嚴重的損失,是值得關(guān)注的部分。預測值1(實際“會違約”)0(實際“不會違約”)166280該如何使用分類矩陣的信息呢?2022/11/2520主要看三個指標,即回應率、反查率以及間距縮減。該如何使用分類矩陣的信息呢?2022/9/2420主要看三個Responserate=預測會違約且實際會違約/所有預測會違約=66/(66+28)=70.21%預測模型回應率的高低須和總體回應率比較:總體responserate=總體實際會違約/總體=(66+185)/(66+185+28+721)=25.1%2022/11/2521預測值1(實際“會違約”)0(實際“不會違約”)166280185721回應率(responserate):在預測的名單中找出有多少小概率事件(在預測違約的名單中,真正違約的所占比例是多少)。Responserate2022/9/2421預測值1(實可以發(fā)現(xiàn),原始回應率為25.1%,運用數(shù)據(jù)挖掘模型提升為70.21%,因此回應率提升了2.8倍?;貞手v究的是模型“寧缺勿濫”的能力。回應率高并不代表一定是好模型,因為如果利用數(shù)據(jù)挖掘模型從一萬人中挑出10個最有可能會買產(chǎn)品的顧客,結(jié)果回應率是100%,但是卻漏掉了大多數(shù)會買產(chǎn)品的顧客,因此,還得參考“反查率”這個指標。2022/11/2522可以發(fā)現(xiàn),原始回應率為25.1%,運用數(shù)據(jù)挖掘模型提升為70Recall=預測會違約且實際違約/所有實際會違約=66/(66+185)=26.29%它的意義在于:預測出來會違約的人占了總體會違約的客戶多少百分比。反查率越高,表明犯第二類錯誤的可能性越小,那么模型越好。2022/11/2523預測值1(實際“會違約”)0(實際“不會違約”)166280185721反查(recall):預測出來的小概率事件占總體小概率事件的比例是多少。Recall2022/9/2423預測值1(實際“會違約”)完美的預測模型反查率是100%,但是反查率與回應率是互相矛盾的。recall=67/(67+184)>66/(66+185)Responserate=67/(67+38)<66/(66+28)2022/11/2524預測值1(實際“會違約”)0(實際“不會違約”)167380184711預測值1(實際值)0(實際值)166280185721完美的預測模型反查率是100%,但是反查率與回應率是互相矛盾Rangereduce=預測會違約/總體=(66+28)/(66+28+721+185)=9.4%間距縮減代表的是根據(jù)模型執(zhí)行活動時的成本,當如果名單量沒有有效縮減時,執(zhí)行的總成本會很高,因此間距縮減越低越好。2022/11/2525預測值1(實際值)0(實際值)166280185721間距縮減(rangereduce):通過DM模型來找出小概率事件時,名單縮小了多少。Rangereduce2022/9/2425預測值1(實際從上述三個指標來看,這個預測模型可以讓名單縮減至原來的9.4%,但是卻只包含了總體26.29%會違約的人(反查率),讓回應率提升了原先的2.8倍。2022/11/2526從上述三個指標來看,這個預測模型可以讓名單縮減至原來的9.4注意:很少有模型同時能夠滿足上述三個指標的要求,當回應率很高時,一定是篩選高概率族群,因此名單間距縮減一定會變低,但是會遺漏掉低概率族群必定會造成反查降低,所以若只看分類矩陣,找不出最好的模型。分類矩陣是根據(jù)一個概率閥值將顧客分作兩種情況,過度簡化了實際的結(jié)果。因為所有的演算法除了預測結(jié)果之外,同時還會提供概率值作為排序的基準。2022/11/2527注意:很少有模型同時能夠滿足上述三個指標的要求,當回應率很高四、增益圖(靈敏性分析)2022/11/2528橫軸百分比代表根據(jù)DM模型根據(jù)概率由高到低排序后的名單占總體百分比??v軸則是在這批名單中小概率事件的人數(shù)占總體小概率事件人數(shù)的百分比。45度線表示隨機的狀態(tài),代表當篩選一半的名單去檢查違約狀況時,剛好會包含全體名單一半的違約戶數(shù)量。正常模型的增益圖要比45度線向第二象限彎曲,越向上彎曲表示模型效果越好。理想模型線:在增益圖的最上方兩段直線所構(gòu)成的,表示完美預測的結(jié)果。四、增益圖(靈敏性分析)2022/9/2428橫軸百分比代表AUC(areaundercurve):模型曲線下面的陰影面積與完美模型曲線下面陰影面積的比值。AUC越接近于1,表示模型的預測能力越高。吉尼系數(shù)=模型曲線與45度線之間的面積/完美模型曲線與45度線之間的面積基尼系數(shù)?吉尼系數(shù)越接近1,表示模型的預測能力越高。2022/11/2529AUC(areaundercurve):模型曲線下面的陰AUC與Gini系數(shù)對應的模型分辨能力AUCGini模型預測能力=50%0無預測能力50%-70%0-0.4極差70%-80%0.4-0.6可以接受80%-90%0.6-0.8非常良好90%-100%0.8-1過度完美2022/11/2530AUC與Gini系數(shù)對應的模型分辨能力AUCGini模型預測五、收益圖從收益的角度來看,DM有兩種類型:回應模型(直效行銷):預測的小概率事件能夠為企業(yè)帶來大量獲利。損失模型:預測的小概率事件為企業(yè)帶來大量損失。2022/11/2531五、收益圖從收益的角度來看,DM有兩種類型:2022/9/2上述兩個模型都沒有包含整個公司的固定成本,不管成功案例多、少,都必須付出的成本。收益圖:首先在成本獲利參數(shù)的輸入對話框中,要輸入:總體(?)固定成本(?)單位成本(?)每個收益(?):每個小概率事件發(fā)生時所得到的獲利或是減少的損失。2022/11/2532上述兩個模型都沒有包含整個公司的固定成本,不管成功案例多、少1、回應模型假設電話銷售每打一通電話所要付出的人事、設備折舊以及辦公室設備相關(guān)成本總共是250元;而每成功銷售一通的話第一年可以為公司凈賺1000元。所以每打出去一通電話:銷售成功:1000—250=收益750(即正確預測稀有事件)銷售失?。簱p失250元2022/11/25331、回應模型假設電話銷售每打一通電話所要付出的人事、設備折舊直效行銷設定:總體:50000;固定成本:200000;單位成本:250;每個收益:10002022/11/25346000005000004000003000002000000-100000—15萬535萬假設行銷活動針對全體客戶進行,獲利為-15萬從圖上看,在概率最高的前34%-39%之間名單進行行銷,可以獲利的最高點是535萬元。橫軸表示模型會根據(jù)行銷成功概率由高至低將客戶排序縱軸表示行銷收益直效行銷設定:2022/9/2434600000—15萬532、損失模型下面來看信用評級的預測模型,預測的目標是違約客戶,假設每個客戶第一年帶來的信用卡刷卡手續(xù)費以及利息收入為6000元,每個信用卡違約客戶違約時金額為20000元。所以每預測一個客戶違約狀態(tài):違約戶:損失為20000—6000=損失14000元正常戶:獲利6000元2022/11/25352、損失模型下面來看信用評級的預測模型,預測的目標是違約客戶信用評等模型設定:總體:50000;固定成本:200,000;單位成本:—6,000;每個收益:—20,0002022/11/25366000005000004000003000002000000-100000橫軸表示模型會根據(jù)違約概率由高至低將客戶排序本例最低點為35%,因此,建議該銀行針對違約概率最高的35%客戶拒絕發(fā)給信用卡因為前半段都是高違約率客戶,因此損失曲線是直線下降縱軸表示行銷收益信用評等模型設定:2022/9/2436600000橫軸表示六、散布圖增益圖和收益圖都是用來評估類別變量預測問題的,如果遇到連續(xù)變量如何評估?此時需要散布圖。如果預測的變量是連續(xù)型變量時,前面的分類矩陣、增益圖和收益圖都無法使用。此時,在SQL中“增益圖”會自動切換到“散布圖”。2022/11/2537六、散布圖增益圖和收益圖都是用來評估類別變量預測問題的,如果2022/11/2538600000500000400000300000200000100
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年汝州職業(yè)技術(shù)學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年浙教版選擇性必修1生物上冊階段測試試卷含答案
- 最高額抵押貸款合同(2篇)
- 未來收益合作投資協(xié)議書(2篇)
- 景區(qū)租賃投資經(jīng)營合同(2篇)
- 2025年新世紀版選擇性必修1歷史上冊階段測試試卷含答案
- 2025年北師大版選修化學上冊月考試卷
- 2025年外研版九年級歷史上冊月考試卷
- 2025年湘師大新版必修三生物下冊階段測試試卷
- 2025年滬科版必修3英語上冊階段測試試卷含答案
- 2024年湖南高速鐵路職業(yè)技術(shù)學院高職單招數(shù)學歷年參考題庫含答案解析
- 上海鐵路局招聘筆試沖刺題2025
- 國旗班指揮刀訓練動作要領(lǐng)
- 春季安全開學第一課
- 植物芳香油的提取 植物有效成分的提取教學課件
- 肖像繪畫市場發(fā)展現(xiàn)狀調(diào)查及供需格局分析預測報告
- 2021-2022學年遼寧省重點高中協(xié)作校高一上學期期末語文試題
- 同等學力英語申碩考試詞匯(第六版大綱)電子版
- 墓地個人協(xié)議合同模板
- 2024年部編版初中語文各年級教師用書七年級(上冊)
- 中日合同范本
評論
0/150
提交評論