Clementine決策樹CHAID算法_第1頁
Clementine決策樹CHAID算法_第2頁
Clementine決策樹CHAID算法_第3頁
Clementine決策樹CHAID算法_第4頁
Clementine決策樹CHAID算法_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、CHAID算法(Chi-Square Automatic Interaction DetectionCHAID提供了一種在多個自變量中自動搜索能產(chǎn)生最大差異的變量方案。不同于C&R樹和QUEST節(jié)點,CHAID分析可以生成非二進制樹,即有些分割有兩個以上的分支。CHAID模型需要一個單一的目標和一個或多個輸入字段。還可以指定重量和頻率領(lǐng)域。CHAID分析,卡方自動交互檢測,是一種用卡方統(tǒng)計,以確定最佳的分割,建立決策樹的分類方 法。1. CHAID方法(卡方自動交叉檢驗CHAID根據(jù)細分變量區(qū)分群體差異的顯著性程度(卡方值)的大小順序,將消費者分為不同的細分群體,最終的細分群體是由多個

2、變量屬性共同描述的,因此屬于多變量分析。在形式上,CHAID非常直觀,它輸出的是一個樹狀的圖形。1. 它以因變量為根結(jié)點,對每個 自變量(只能是分類或有序變量,也就是離散性的,如果是連續(xù) 變量,如年齡,收入要定義成分類或有序變量)進行分類,計算分類的卡方值(Chi-Square-Test)。如果幾個變量的分類均顯著,則比較這些分類的顯著程度(P值的大?。缓筮x擇最顯著的分類法作為子節(jié)點。2. CHIAD可以自動歸并自變量中類別,使之顯著性達到最大。3. 最后的每個葉結(jié)點就是一個細分市場CHAID自動地把數(shù)據(jù)分成互斥的、無遺漏的組群,但只適用于類別型資料。當預(yù)測變量較多且都是分類變量時, CH

3、AID分類最適宜。2. CHAID分層的標準:卡方值最顯著的變量3. CHAID過程:建立細分模型,根據(jù)卡方值最顯著的細分變量將群體分岀兩個或多個群體,對 于這些群體再根據(jù)其它的卡方值相對最顯著的細分變量繼續(xù)分岀子群體,直到?jīng)]有統(tǒng)計意義上顯 著的細分變量可以將這些子群體再繼續(xù)分開為止。4. CHAID的一般步驟-屬性變量的預(yù)處理-確定當前分支變量和分隔值屬性變量的預(yù)處理:-對定類的屬性變量,在其多個分類水平中找到對目標變量取值影響不顯著的分類,并合并它們;-對定距型屬性變量,先按分位點分組,然后再合并具有同質(zhì)性的組;-如果目標變量是 定類變量,則采用卡方檢驗-如果目標變量為 定距變量,則采用F

4、檢驗(統(tǒng)計學(xué)依據(jù)數(shù) 據(jù)的計量尺度將數(shù)據(jù)劃分為三大類,即定距型數(shù)據(jù) (Scale )、定序型數(shù)據(jù)(Ordinal )和定類型數(shù)據(jù)(Nominal )。定距型數(shù)據(jù) 通常指諸如身高、體重、血壓等 的連續(xù)性數(shù)據(jù),也包括諸如人數(shù)、商品件數(shù)等離散型數(shù)據(jù); 定序型數(shù)據(jù) 具有內(nèi)在固有大小或高低順序,但它又不同于定距型數(shù)據(jù),一般可以數(shù)值或字符表示。如職稱變量可以有低級、中級和高 級三個取值,可以分別用1、2、3等表示,年齡段 變量可以有老、中、青三個取值,分別用A、B C表示等。這里無論是數(shù)值型的1、2、3還是字符型的 A B、C,都是有大小或高低順序的,但數(shù)據(jù)之間卻是不等距的。因為低級和中級職稱之間的差距與中

5、級和高 級職稱之間的差距是不相等的;定類型數(shù)據(jù) 是指沒有內(nèi)在固定大小或高低順序,一般以數(shù)值或字符表示的分類數(shù)據(jù)。)22S大F檢驗:比較兩組數(shù)據(jù)的方差 s2,F(xiàn) 十,假設(shè)檢驗兩組數(shù)據(jù)沒有顯著差異,F(xiàn)<F表,則接受原假設(shè),兩組數(shù)據(jù)沒有顯著差異;F>F表,拒絕原假設(shè),兩組數(shù)據(jù)存在顯著差異。屬性變量預(yù)處理的具體策略-如果僅有一個或兩個分組,則不做合并處理-根據(jù)卡方統(tǒng)計量(或似然比卡方)的P-值決定合并哪些 組(P值 :.merge )-如果用戶指定在合并同時還考慮組拆分(Allow splitting merged categories),則新近合并的組中如果包括三個以上的原始分組,應(yīng)根據(jù)

6、檢驗結(jié)果判斷是否需再拆分成兩組(P-值:.split-merge )確疋當前分支變量和分隔值-計算經(jīng)預(yù)處理后的各屬性變量與目標變量的卡方檢驗統(tǒng)計量和P-值。P-值最小的變量(與目標變量聯(lián)系最緊密)作為當前的最佳分支變量,該變量的所有分組形成該分支下的子節(jié)點 對每個子節(jié)點重復(fù)上述處理,直到滿足收斂條件為止5. CHAID的適用范圍當預(yù)測變量是分類變量時,CHAID方法最適宜。對于連續(xù)型變量,CHAID在缺省狀態(tài)下將連續(xù)變量 自動分為10段處理,但是可能有遺漏。當預(yù)測變量是人口統(tǒng)計變量時,研究者可以很快找岀不同細分市場特征,免去對交叉分析表歸并 與檢查之苦。6. CHAID的預(yù)剪枝基本參數(shù):1.

7、決策樹最大深度:如果決策樹的層數(shù)已經(jīng)達到指定深度,則停止生長。2. 樹中父節(jié)點和子節(jié)點所包含的最少樣本量或比例:對父節(jié)點是指,如果節(jié)點的樣本量已低于 最少樣本量或比例,則不再分組;對于子節(jié)點是指,如果分組后生成的子節(jié)點中的樣本量低 于最小樣本或比例,則不必進行分組。3. 當輸入變量與輸岀變量的相關(guān)性小于一個指定值,則不必進行分組。7. CHAID模塊的優(yōu)點:-不像CART和QUEST模塊,CHAID可產(chǎn)生多分枝的決策樹-目標變量可以定距或定類的-從統(tǒng)計顯著性角度確定分支變量和分隔值,進而優(yōu)化樹的分枝過程-CHAID是建立在因果關(guān)系的探討中的,依據(jù)目標變量實現(xiàn)對輸入變量眾多水平的劃分例:心臟數(shù)據(jù)

8、綜合診斷數(shù)據(jù)現(xiàn)有數(shù)據(jù)OVERALL_DIAGNOSIS綜合診斷)本案例是一個醫(yī)學(xué)心臟病綜合診斷報告案例,目的通過已知的22個變量F1F22來預(yù)測每個病人是否正常。0-正常,1-異常計數(shù)項:0VE1F13卜OVERALL T01(空白總計04S7551S7125212(空白)總汁13513Z267P(KA2k)0.500,400.250150,10k0.455D.70S1.3232.0722.70 aP(Km2mK)0.050.0250.0100.0050.001K30415.0245.6357,8791C.82B(1)零假設(shè)Ho :心臟病檢驗結(jié)果與F13變量無關(guān)。(F13變量對輸出變量無影響)

9、卡方值越大,說明兩者有關(guān)系可能性越大。(2)確定自由度:(行數(shù)-1)* (列數(shù)-1)=1選擇顯著水平:-=0.05,對應(yīng)的卡方值 K為3.841(3)卡方值=(48 *125 -87 * 7) 2 * 267 / (55 * 212 *135 *132) =37.35> 10.828 >3.481拒絕原假設(shè)。故心臟病檢驗結(jié)果與F13有關(guān)。(卡方值為37.35時,對應(yīng)的P值已趨于0,即“心臟病檢驗結(jié)果與F13有關(guān)”成立的概率趨于1-0=100%)建立CHAID模型-在“建模”中選擇 CHAID節(jié)點,將其加入數(shù)據(jù)流中“TYPE節(jié)點-“ Range范圍:用來描述數(shù)值,如 0-100或0.

10、75-1.25范圍。一個范圍值可以是一個整數(shù),實數(shù),日期/時間。-“Discrete離散:用于不同的字符串數(shù)值的確切數(shù)目是未知的。這是一個未初始化的數(shù)據(jù)類型,即對數(shù) 據(jù)的存儲和使用的所有可能的信息尚不清楚。一旦數(shù)據(jù)被讀取,類型標志,集,或無類型的,取決于最大 集大小屬性對話框中指定的流。-“ Flag標志:用于具有兩個不同值的數(shù)據(jù),如Yes和No或1和2的數(shù)據(jù)。可能是文本,整數(shù),實數(shù),日期/時間數(shù)據(jù)。注:日期/時間是指三種類型的存儲時間,日期或時間戳-“ Set”集:用來描述具有多個不同的值的數(shù)據(jù),每個被視為一個集的成員,如小型/中型/大型數(shù)據(jù)。在這個版本的Clementine ,一套可以有任

11、何存儲數(shù)值 -字符串或日期/時間。請注意,設(shè)置類型設(shè)置不會自動 改變字符串的值。-“Ordered Set ”有序集合:用來描述具有多個不同的值的數(shù)據(jù),有一種內(nèi)在的秩序。例如,工資類別或滿意度排名可以分為一組有序。有序集的順序是指通過其元素的自然排序順序。例如,1,3,5 ,是一組整數(shù)的默認排序順序,而高,低,師范大學(xué)(升序按字母順序排列)是一組字符串的順序。有序的集合 類型,可讓您定義一組有序數(shù)據(jù)的可視化,建立模型(C5.0, C&R Tree, TwoStep ),并擴展到其他應(yīng)用程序,如SPSS,承認有序數(shù)據(jù)作為一個獨特的類型。此外,任何存儲類型(真實的,整數(shù),字符串,日期,時

12、間,等等)的領(lǐng)域都可以被定義為一個有序的集合。-“ TypelesS無類型:用于數(shù)據(jù)不符合任何上述類型的集合類型或包含太多值的集合類型。它是有用于一 個集合包含太多值(如帳號)。CHAID “字段”選項目標。對于需要一個或多個目標字段的模型,請選擇目標字段。此操作與在類型節(jié)點中將字段的方向設(shè)置 為輸岀類似。輸入。選擇輸入字段。此操作與在類型節(jié)點中將字段的方向設(shè)置為輸入類似。分區(qū)字段。該字段允許使用指定字段將數(shù)據(jù)分割為幾個不同的樣本,分別用于模型構(gòu)建過程中的訓(xùn)練、 檢驗和驗證階段。通過用某個樣本生成模型并用另一個樣本對模型進行檢驗,可以預(yù)判岀此模型對類似于 當前數(shù)據(jù)的大型數(shù)據(jù)集的擬合優(yōu)劣。如果已

13、使用類型或分區(qū)節(jié)點定義了多個分區(qū)字段,則必須在每個用于 分區(qū)的建模節(jié)點的 字段”選項卡中選擇一個分區(qū)字段。(如果僅有一個分區(qū)字段,則將在啟用分區(qū)后自動 引入此字段。)同時請注意,要在分析時應(yīng)用選定分區(qū),同樣必須啟用節(jié)點模型選項”選項卡中的分區(qū)功能。(取消此選項,則可以在不更改字段設(shè)置的條件下禁用分區(qū)功能。)使用頻數(shù)字段。此選項允許選擇某個字段作為頻數(shù)權(quán)重。如果訓(xùn)練數(shù)據(jù)中的每條記錄代表多個單元(例 如,正在使用聚合的數(shù)據(jù)),則可采用此項。字段值應(yīng)為代表每條記錄的單元數(shù)。使用加權(quán)字段。此選項允許選擇某個字段作為案例權(quán)重。案例權(quán)重將作為對輸岀字段各個水平上方差的 差異的一種考量。CHAID “模型”

14、選項-模型名稱指定要產(chǎn)生模型的名稱-使用分區(qū)數(shù)據(jù)若用戶定義了此選項,則模型會選擇訓(xùn)練集作為建模數(shù)據(jù)集,并利用測試集對模型評價。 利用訓(xùn)練集建立模型,用 測試集剪枝。-方法 該節(jié)點提供了 CHAID和Exhaustive CHAID兩種方法,后者會花更多時間,但會得到更為可靠的結(jié)果 Exhaustive CHAID算法是CHAID的改進算法。它的改進主要集中在如何避免自由度的影響上。在選擇最佳 分組變量時采用了 “將分組進行到底“的策略。也就是說,仍然保留輸入變量預(yù)處理的結(jié)果,并將各分組 作為決策樹的各分枝。但在計算檢驗統(tǒng)計量的概率P值時,將繼續(xù)合并輸入變量的分組,直到最終形成兩個組或兩個“超類

15、”為止,進而確保所有輸入變量的檢驗統(tǒng)計量的自由度都相同。最后,再比較概率P值,取概率P值最小的輸入變量為當前最佳分組變量。-模式生成模型:計算機直接給岀最終模型,自動建立和剪枝決策樹。啟動交互回話:可以逐層建立,修改和刪除節(jié)點。若同時勾選“使用樹指令”,則可以指定任意層節(jié)點的分割方式或字節(jié)點數(shù),所做設(shè)定也可以保存,以供下次建樹使用。-最大樹狀圖深度:用戶可以自定義CHAID樹的最大層數(shù),避免 過度擬合 問題。(完整的決策樹能夠準確反映訓(xùn)練樣本集中數(shù)據(jù)的特征,但可能因其失去一般代表性而無法用于對新數(shù)據(jù) 的分類預(yù)測,這種現(xiàn)象稱為“過度擬合”現(xiàn)象)CHAID “專家”選項-模式該節(jié)點提供簡單和專家模

16、式-Alpha用于合并:指定合并的顯著水平。若要避免合并,該值應(yīng)設(shè)為1。該選項對于Exhaustive CHAID無效。默認值為0.05,表示當P值0.05時,認為輸入變量目前的分組水平對輸出變量取值沒有顯著影響,可以合并;否則不能合并。(該值越大,合并的可能性越不容易,樹就會越龐大)-Alpha用于分割:設(shè)定分割標準。顯著水平越低,則樹的分叉越少。默認值為0.05,表示當P值0.05時,認為輸入變量目前的分組水平對輸岀變量取值有顯著影響,可以分割;否則不能分割。-卡方用于類別目標:當目標變量時分類變量時,CHAID模型可利用Pearson卡方值或者似然比方法 來進行分類。但小樣本下不應(yīng)該使用

17、Pearson卡方值,似然比更為通用和穩(wěn)健。似然比檢驗 LRT LR=2* (lnL1-lnL2),似然函數(shù) L(日)=L ( x1; x2,., xn;0) =口 P(xP)-正在停止 :節(jié)點終止選項。這些選項控制樹的構(gòu)造,設(shè)置最小分支數(shù)目以避免分割岀過小的子群使用絕對值,允許用絕對記錄數(shù)來指定大小 /使用百分比,允許按照整個訓(xùn)練集的百分比來指定大小-父分支(%)中的最小記錄數(shù):表示當父節(jié)點中的樣本百分比(占總樣本量的百分比)低于指定值(默認2%)時則不進行分組。-子分支()中的最小記錄數(shù):表示當分組后產(chǎn)生的子節(jié)點中的樣本百分比低于指定值(默認1%)時則不進行分組。-Epsilon (;)用

18、于收斂: 當卡方值大于Epsilon值時,需進一步 迭代;否則停止迭代-收斂的最大迭代次數(shù):指定收斂的最大迭代次數(shù)。當實際迭代次數(shù)超過設(shè)定值時,終止計算。-允許分割合并的類別:選中表示,新近合并的組中如果包括三個以上的原始分組,允許將它再拆分成兩個組。例如,可以將1,2,3組拆分成1,2和3或是1,2,3。-使用Bonferroni調(diào)整:對策略變量組合進行分類時,根據(jù)檢驗次數(shù)調(diào)整顯著水平,以獲得較穩(wěn)健的分 類樹CHAID “成本”選項-誤判成本值,調(diào)整誤判(clementine決策樹之調(diào)整誤判成本來優(yōu)化模型)-在某些情況下,特定類型的錯誤比其他類錯誤所引起的損失更大。成本選項卡允許指定不同類型

19、預(yù)測錯誤之間的相對重要性-錯誤歸類損失矩陣顯示預(yù)測類和實際類每一種可能組合的損失。所有錯誤歸類都預(yù)設(shè)為1,要輸入自定義損失值,選擇“使用誤分類損失”,然后把自定義值輸入到損失矩陣中。模型執(zhí)行結(jié)果J 1QOV7 Il 1!M E'3? 1 HSil-軸丄帶1莓F2J1 OOQi'li-UUUU.Z心0|D.ODOOOOJ時仍)的 - JL .1 : M :1.3170(1 105Fin.SK r 0-0.02?. ft=irn 曄 1-mrK 值妙 DID. tA= 15WB. Ofelr 30C-ow:模型的收益評價目杯妥蚩O1>/ERALL_DlAGHa£l3

20、目標婪別0-0書占烷點茫nPut知潔升I I 節(jié)申韋盧II藝占件; 唯癥n希升希;7碩021 0S22 0055 7T"Srsc299.®-|72002価1Z DE虻da53 002'2.50y2 JUD5 OD21 M1 T 3.LM Mys.m5 BBD DDoanaoa.DO437.0020 33GOO17 141S2284.32422X0巧訊GOD3aaa27 27116.01p1 T DDE 041 DD796gag<T.3T|q1 DD1 IPD OD0 00口口口non&51002 £.57D.DO0.000.000.00 62

21、£_0034 12I.DD5.003.5H.B&10190D10 44D DOaoaaaanon| |id4 oa4叭1 DD5oa罵ao106.25實応o.a1 一廠-obalu u12呂IDi n1?33(15Fl2461$5節(jié)點:節(jié)點編號,與決策樹圖形展示中的節(jié)點編號相對應(yīng)。這個號碼是CLEMENTINE自動分配的,每次運行時會不同。節(jié)點:n:節(jié)點包含的樣本個數(shù)。例如:7號測試節(jié)點,總個數(shù)為:24.節(jié)點(%):節(jié)點包含的樣本個數(shù)占總樣本的百分比。例如:7號測試節(jié)點,24/85=28.24%收益:n:節(jié)點包含指定類別(這里為0類)樣本的個數(shù)。高收益的節(jié)點應(yīng)包含盡可能多的指

22、定類別的樣本。 例如:7號測試節(jié)點,“0 “類個數(shù)為:12收益(%):節(jié)點包含指定類別(這里為0類)的樣本占相應(yīng)類別總樣本數(shù) 的百分比。同樣,高收益的節(jié) 點值應(yīng)越高。(匹配項)例如:7號測試節(jié)點,12/20=60%.響應(yīng)(%):節(jié)點包含指定類別(這里為0類)樣本占本節(jié)點樣本的比例。例如:7號測試節(jié)點,12/24=50%指數(shù)(%):節(jié)點包含指定類別(這里為 0類)樣本的比例(響應(yīng))是所有同類別樣本占總樣本比例的百分比,這個值也稱為提升度(lift) 或:收益()是本節(jié)點樣本占總樣本比例的百分比。例如:7 號測試節(jié)點,50%/(20/85)=212.50%提升度是數(shù)據(jù)挖掘中最重要且應(yīng)用最廣的模型評

23、價指標,其定義為lift = P (class t / sam ple ) / P (class t / population)其中,P ( c l a ss/ sa m p)表示在模型所限定的特定樣本空間內(nèi)輸出變量值為t類的概率;P(claqs/ populat)表示在所有樣本空間內(nèi)輸出變量值為t類的概率??梢?,提升度本質(zhì)是收益(%)和響應(yīng)()綜合的反應(yīng)。該值越大說明模型對 t類樣本所應(yīng)具備的特征和“捕捉”能力越強,模型的收 益越好。制作模型評價圖通常按提升度(指數(shù))降序重新排列,然后按百分比點的樣本所在節(jié)點的累計收益評價數(shù)據(jù)。腎停宜 OVER*LL_DIAGIMOSIS 珂辭別: 0節(jié)點仃

24、1竝血呵應(yīng)悄1歸和7woo10 DD1 DI DD29 5?57 5D299 ?30 003S ID21 00旳M57.512di(n'.535 or21 DO75 nj47 n2<B2340 007J DO0 00筋E3死sean .ao竹苗gi oc加DO9? 9735 ?B1SS 95l.aGDODm doJ5 DD対499416g 11e.tf7DOO127 DD15叩100.DI27 501031EBOtiDD1«.DO15 100 o i D2J 97V* S66JU90 001.00icn.Dii21 34ito.gaW100 00192DO35 DD100 oo1923100 001甸時:百知i1鮭M71D0DEi.uia5口口22 505EJ.0D2T 2.5CI720001TJOO9j10必D50.00ariso7.930 002&oa12 006000«J5m.is盯40 00弘皿110066J6239.30167.U5a5000巧DOiiaoa70.0938 7&1M.344soaosumiBoa!dUiQD35 1!9IO.UU4.B,e70 DDeaoo&#

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論