Clementine決策樹CHAID算法

上傳人：小*** IP屬地：天津上傳時間：2021-11-03 格式：DOC 頁數(shù)：14 大?。?50.50KB 積分：19 舉報 版權(quán)申訴

已閱讀5頁，還剩9頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、CHAID算法（Chi-Square Automatic Interaction DetectionCHAID提供了一種在多個自變量中自動搜索能產(chǎn)生最大差異的變量方案。不同于C&R樹和QUEST節(jié)點，CHAID分析可以生成非二進制樹，即有些分割有兩個以上的分支。CHAID模型需要一個單一的目標和一個或多個輸入字段。還可以指定重量和頻率領(lǐng)域。CHAID分析，卡方自動交互檢測，是一種用卡方統(tǒng)計，以確定最佳的分割，建立決策樹的分類方法。1. CHAID方法（卡方自動交叉檢驗CHAID根據(jù)細分變量區(qū)分群體差異的顯著性程度（卡方值）的大小順序，將消費者分為不同的細分群體，最終的細分群體是由多個

2、變量屬性共同描述的，因此屬于多變量分析。在形式上，CHAID非常直觀，它輸出的是一個樹狀的圖形。1. 它以因變量為根結(jié)點，對每個自變量（只能是分類或有序變量，也就是離散性的，如果是連續(xù) 變量，如年齡，收入要定義成分類或有序變量）進行分類，計算分類的卡方值（Chi-Square-Test）。如果幾個變量的分類均顯著，則比較這些分類的顯著程度（P值的大?。缓筮x擇最顯著的分類法作為子節(jié)點。2. CHIAD可以自動歸并自變量中類別，使之顯著性達到最大。3. 最后的每個葉結(jié)點就是一個細分市場CHAID自動地把數(shù)據(jù)分成互斥的、無遺漏的組群，但只適用于類別型資料。當預(yù)測變量較多且都是分類變量時， CH

3、AID分類最適宜。2. CHAID分層的標準：卡方值最顯著的變量3. CHAID過程：建立細分模型，根據(jù)卡方值最顯著的細分變量將群體分岀兩個或多個群體，對于這些群體再根據(jù)其它的卡方值相對最顯著的細分變量繼續(xù)分岀子群體，直到?jīng)]有統(tǒng)計意義上顯著的細分變量可以將這些子群體再繼續(xù)分開為止。4. CHAID的一般步驟-屬性變量的預(yù)處理-確定當前分支變量和分隔值屬性變量的預(yù)處理：-對定類的屬性變量，在其多個分類水平中找到對目標變量取值影響不顯著的分類，并合并它們；-對定距型屬性變量，先按分位點分組，然后再合并具有同質(zhì)性的組；-如果目標變量是定類變量，則采用卡方檢驗-如果目標變量為定距變量，則采用F

4、檢驗（統(tǒng)計學(xué)依據(jù)數(shù) 據(jù)的計量尺度將數(shù)據(jù)劃分為三大類，即定距型數(shù)據(jù) （Scale ）、定序型數(shù)據(jù)（Ordinal ）和定類型數(shù)據(jù)（Nominal ）。定距型數(shù)據(jù) 通常指諸如身高、體重、血壓等的連續(xù)性數(shù)據(jù)，也包括諸如人數(shù)、商品件數(shù)等離散型數(shù)據(jù)；定序型數(shù)據(jù) 具有內(nèi)在固有大小或高低順序，但它又不同于定距型數(shù)據(jù)，一般可以數(shù)值或字符表示。如職稱變量可以有低級、中級和高級三個取值，可以分別用1、2、3等表示，年齡段變量可以有老、中、青三個取值，分別用A、B C表示等。這里無論是數(shù)值型的1、2、3還是字符型的 A B、C,都是有大小或高低順序的，但數(shù)據(jù)之間卻是不等距的。因為低級和中級職稱之間的差距與中

5、級和高級職稱之間的差距是不相等的；定類型數(shù)據(jù) 是指沒有內(nèi)在固定大小或高低順序，一般以數(shù)值或字符表示的分類數(shù)據(jù)。）22S大F檢驗：比較兩組數(shù)據(jù)的方差 s2，F(xiàn) 十，假設(shè)檢驗兩組數(shù)據(jù)沒有顯著差異，F(xiàn)<F表，則接受原假設(shè)，兩組數(shù)據(jù)沒有顯著差異；F>F表，拒絕原假設(shè)，兩組數(shù)據(jù)存在顯著差異。屬性變量預(yù)處理的具體策略-如果僅有一個或兩個分組，則不做合并處理-根據(jù)卡方統(tǒng)計量（或似然比卡方）的P-值決定合并哪些組（P值 :.merge ）-如果用戶指定在合并同時還考慮組拆分（Allow splitting merged categories），則新近合并的組中如果包括三個以上的原始分組，應(yīng)根據(jù)

6、檢驗結(jié)果判斷是否需再拆分成兩組（P-值:.split-merge ）確疋當前分支變量和分隔值-計算經(jīng)預(yù)處理后的各屬性變量與目標變量的卡方檢驗統(tǒng)計量和P-值。P-值最小的變量（與目標變量聯(lián)系最緊密）作為當前的最佳分支變量，該變量的所有分組形成該分支下的子節(jié)點對每個子節(jié)點重復(fù)上述處理，直到滿足收斂條件為止5. CHAID的適用范圍當預(yù)測變量是分類變量時，CHAID方法最適宜。對于連續(xù)型變量，CHAID在缺省狀態(tài)下將連續(xù)變量自動分為10段處理，但是可能有遺漏。當預(yù)測變量是人口統(tǒng)計變量時，研究者可以很快找岀不同細分市場特征，免去對交叉分析表歸并與檢查之苦。6. CHAID的預(yù)剪枝基本參數(shù)：1.

7、決策樹最大深度：如果決策樹的層數(shù)已經(jīng)達到指定深度，則停止生長。2. 樹中父節(jié)點和子節(jié)點所包含的最少樣本量或比例：對父節(jié)點是指，如果節(jié)點的樣本量已低于最少樣本量或比例，則不再分組；對于子節(jié)點是指，如果分組后生成的子節(jié)點中的樣本量低于最小樣本或比例，則不必進行分組。3. 當輸入變量與輸岀變量的相關(guān)性小于一個指定值，則不必進行分組。7. CHAID模塊的優(yōu)點：-不像CART和QUEST模塊，CHAID可產(chǎn)生多分枝的決策樹-目標變量可以定距或定類的-從統(tǒng)計顯著性角度確定分支變量和分隔值，進而優(yōu)化樹的分枝過程-CHAID是建立在因果關(guān)系的探討中的，依據(jù)目標變量實現(xiàn)對輸入變量眾多水平的劃分例：心臟數(shù)據(jù)

8、綜合診斷數(shù)據(jù)現(xiàn)有數(shù)據(jù)OVERALL_DIAGNOSIS綜合診斷）本案例是一個醫(yī)學(xué)心臟病綜合診斷報告案例，目的通過已知的22個變量F1F22來預(yù)測每個病人是否正常。0-正常，1-異常計數(shù)項:0VE1F13卜OVERALL T01（空白總計04S7551S7125212（空白）總汁13513Z267P(KA2k)0.500,400.250150,10k0.455D.70S1.3232.0722.70 aP(Km2mK)0.050.0250.0100.0050.001K30415.0245.6357,8791C.82B（1）零假設(shè)Ho :心臟病檢驗結(jié)果與F13變量無關(guān)。（F13變量對輸出變量無影響）

9、卡方值越大，說明兩者有關(guān)系可能性越大。（2）確定自由度：（行數(shù)-1）* （列數(shù)-1）=1選擇顯著水平:-=0.05，對應(yīng)的卡方值 K為3.841（3）卡方值=（48 *125 -87 * 7） 2 * 267 / （55 * 212 *135 *132） =37.35> 10.828 >3.481拒絕原假設(shè)。故心臟病檢驗結(jié)果與F13有關(guān)。（卡方值為37.35時，對應(yīng)的P值已趨于0,即“心臟病檢驗結(jié)果與F13有關(guān)”成立的概率趨于1-0=100%）建立CHAID模型-在“建模”中選擇 CHAID節(jié)點，將其加入數(shù)據(jù)流中“TYPE節(jié)點-“ Range范圍：用來描述數(shù)值，如 0-100或0.

10、75-1.25范圍。一個范圍值可以是一個整數(shù)，實數(shù)，日期/時間。-“Discrete離散：用于不同的字符串數(shù)值的確切數(shù)目是未知的。這是一個未初始化的數(shù)據(jù)類型，即對數(shù) 據(jù)的存儲和使用的所有可能的信息尚不清楚。一旦數(shù)據(jù)被讀取，類型標志，集，或無類型的，取決于最大集大小屬性對話框中指定的流。-“ Flag標志：用于具有兩個不同值的數(shù)據(jù)，如Yes和No或1和2的數(shù)據(jù)。可能是文本，整數(shù)，實數(shù)，日期/時間數(shù)據(jù)。注：日期/時間是指三種類型的存儲時間，日期或時間戳-“ Set”集：用來描述具有多個不同的值的數(shù)據(jù)，每個被視為一個集的成員，如小型/中型/大型數(shù)據(jù)。在這個版本的Clementine ，一套可以有任

11、何存儲數(shù)值 -字符串或日期/時間。請注意，設(shè)置類型設(shè)置不會自動改變字符串的值。-“Ordered Set ”有序集合：用來描述具有多個不同的值的數(shù)據(jù)，有一種內(nèi)在的秩序。例如，工資類別或滿意度排名可以分為一組有序。有序集的順序是指通過其元素的自然排序順序。例如，1，3，5 ,是一組整數(shù)的默認排序順序，而高，低，師范大學(xué)（升序按字母順序排列）是一組字符串的順序。有序的集合類型，可讓您定義一組有序數(shù)據(jù)的可視化，建立模型（C5.0, C&R Tree, TwoStep ），并擴展到其他應(yīng)用程序，如SPSS，承認有序數(shù)據(jù)作為一個獨特的類型。此外，任何存儲類型（真實的，整數(shù)，字符串，日期，時

12、間，等等）的領(lǐng)域都可以被定義為一個有序的集合。-“ TypelesS無類型：用于數(shù)據(jù)不符合任何上述類型的集合類型或包含太多值的集合類型。它是有用于一個集合包含太多值（如帳號）。CHAID “字段”選項目標。對于需要一個或多個目標字段的模型，請選擇目標字段。此操作與在類型節(jié)點中將字段的方向設(shè)置為輸岀類似。輸入。選擇輸入字段。此操作與在類型節(jié)點中將字段的方向設(shè)置為輸入類似。分區(qū)字段。該字段允許使用指定字段將數(shù)據(jù)分割為幾個不同的樣本，分別用于模型構(gòu)建過程中的訓(xùn)練、檢驗和驗證階段。通過用某個樣本生成模型并用另一個樣本對模型進行檢驗，可以預(yù)判岀此模型對類似于當前數(shù)據(jù)的大型數(shù)據(jù)集的擬合優(yōu)劣。如果已

13、使用類型或分區(qū)節(jié)點定義了多個分區(qū)字段，則必須在每個用于分區(qū)的建模節(jié)點的字段”選項卡中選擇一個分區(qū)字段。（如果僅有一個分區(qū)字段，則將在啟用分區(qū)后自動引入此字段。）同時請注意，要在分析時應(yīng)用選定分區(qū)，同樣必須啟用節(jié)點模型選項”選項卡中的分區(qū)功能。（取消此選項，則可以在不更改字段設(shè)置的條件下禁用分區(qū)功能。）使用頻數(shù)字段。此選項允許選擇某個字段作為頻數(shù)權(quán)重。如果訓(xùn)練數(shù)據(jù)中的每條記錄代表多個單元（例如，正在使用聚合的數(shù)據(jù)），則可采用此項。字段值應(yīng)為代表每條記錄的單元數(shù)。使用加權(quán)字段。此選項允許選擇某個字段作為案例權(quán)重。案例權(quán)重將作為對輸岀字段各個水平上方差的差異的一種考量。CHAID “模型”

14、選項-模型名稱指定要產(chǎn)生模型的名稱-使用分區(qū)數(shù)據(jù)若用戶定義了此選項，則模型會選擇訓(xùn)練集作為建模數(shù)據(jù)集，并利用測試集對模型評價。利用訓(xùn)練集建立模型，用測試集剪枝。-方法該節(jié)點提供了 CHAID和Exhaustive CHAID兩種方法，后者會花更多時間，但會得到更為可靠的結(jié)果 Exhaustive CHAID算法是CHAID的改進算法。它的改進主要集中在如何避免自由度的影響上。在選擇最佳分組變量時采用了 “將分組進行到底“的策略。也就是說，仍然保留輸入變量預(yù)處理的結(jié)果，并將各分組作為決策樹的各分枝。但在計算檢驗統(tǒng)計量的概率P值時，將繼續(xù)合并輸入變量的分組，直到最終形成兩個組或兩個“超類

15、”為止，進而確保所有輸入變量的檢驗統(tǒng)計量的自由度都相同。最后，再比較概率P值,取概率P值最小的輸入變量為當前最佳分組變量。-模式生成模型：計算機直接給岀最終模型，自動建立和剪枝決策樹。啟動交互回話：可以逐層建立，修改和刪除節(jié)點。若同時勾選“使用樹指令”，則可以指定任意層節(jié)點的分割方式或字節(jié)點數(shù)，所做設(shè)定也可以保存，以供下次建樹使用。-最大樹狀圖深度：用戶可以自定義CHAID樹的最大層數(shù)，避免過度擬合問題。（完整的決策樹能夠準確反映訓(xùn)練樣本集中數(shù)據(jù)的特征，但可能因其失去一般代表性而無法用于對新數(shù)據(jù) 的分類預(yù)測，這種現(xiàn)象稱為“過度擬合”現(xiàn)象）CHAID “專家”選項-模式該節(jié)點提供簡單和專家模

16、式-Alpha用于合并：指定合并的顯著水平。若要避免合并，該值應(yīng)設(shè)為1。該選項對于Exhaustive CHAID無效。默認值為0.05，表示當P值0.05時，認為輸入變量目前的分組水平對輸出變量取值沒有顯著影響，可以合并；否則不能合并。（該值越大，合并的可能性越不容易，樹就會越龐大）-Alpha用于分割：設(shè)定分割標準。顯著水平越低，則樹的分叉越少。默認值為0.05，表示當P值0.05時，認為輸入變量目前的分組水平對輸岀變量取值有顯著影響，可以分割；否則不能分割。-卡方用于類別目標：當目標變量時分類變量時，CHAID模型可利用Pearson卡方值或者似然比方法來進行分類。但小樣本下不應(yīng)該使用

17、Pearson卡方值，似然比更為通用和穩(wěn)健。似然比檢驗 LRT LR=2* (lnL1-lnL2)，似然函數(shù) L(日)=L ( x1； x2,., xn；0) =口 P(xP)-正在停止：節(jié)點終止選項。這些選項控制樹的構(gòu)造，設(shè)置最小分支數(shù)目以避免分割岀過小的子群使用絕對值，允許用絕對記錄數(shù)來指定大小 /使用百分比，允許按照整個訓(xùn)練集的百分比來指定大小-父分支（%）中的最小記錄數(shù)：表示當父節(jié)點中的樣本百分比（占總樣本量的百分比）低于指定值（默認2%）時則不進行分組。-子分支（）中的最小記錄數(shù)：表示當分組后產(chǎn)生的子節(jié)點中的樣本百分比低于指定值（默認1%）時則不進行分組。-Epsilon （；）用

18、于收斂：當卡方值大于Epsilon值時，需進一步迭代；否則停止迭代-收斂的最大迭代次數(shù):指定收斂的最大迭代次數(shù)。當實際迭代次數(shù)超過設(shè)定值時，終止計算。-允許分割合并的類別：選中表示，新近合并的組中如果包括三個以上的原始分組，允許將它再拆分成兩個組。例如，可以將1,2,3組拆分成1,2和3或是1，2,3。-使用Bonferroni調(diào)整：對策略變量組合進行分類時，根據(jù)檢驗次數(shù)調(diào)整顯著水平，以獲得較穩(wěn)健的分類樹CHAID “成本”選項-誤判成本值，調(diào)整誤判（clementine決策樹之調(diào)整誤判成本來優(yōu)化模型）-在某些情況下，特定類型的錯誤比其他類錯誤所引起的損失更大。成本選項卡允許指定不同類型

19、預(yù)測錯誤之間的相對重要性-錯誤歸類損失矩陣顯示預(yù)測類和實際類每一種可能組合的損失。所有錯誤歸類都預(yù)設(shè)為1，要輸入自定義損失值，選擇“使用誤分類損失”，然后把自定義值輸入到損失矩陣中。模型執(zhí)行結(jié)果J 1QOV7 Il 1!M E'3? 1 HSil-軸丄帶1莓F2J1 OOQi'li-UUUU.Z心0|D.ODOOOOJ時仍)的 - JL .1 : M ：1.3170(1 105Fin.SK r 0-0.02?. ft=irn 曄 1-mrK 值妙 DID. tA= 15WB. Ofelr 30C-ow:模型的收益評價目杯妥蚩O1>/ERALL_DlAGHa£l3

20、目標婪別0-0書占烷點茫nPut知潔升I I 節(jié)申韋盧II藝占件；唯癥n希升希；7碩021 0S22 0055 7T"Srsc299.®-|72002価1Z DE虻da53 002'2.50y2 JUD5 OD21 M1 T 3.LM Mys.m5 BBD DDoanaoa.DO437.0020 33GOO17 141S2284.32422X0巧訊GOD3aaa27 27116.01p1 T DDE 041 DD796gag<T.3T|q1 DD1 IPD OD0 00口口口non&51002 £.57D.DO0.000.000.00 62

21、£_0034 12I.DD5.003.5H.B&10190D10 44D DOaoaaaanon| |id4 oa4叭1 DD5oa罵ao106.25實応o.a1 一廠-obalu u12呂IDi n1?33(15Fl2461$5節(jié)點：節(jié)點編號，與決策樹圖形展示中的節(jié)點編號相對應(yīng)。這個號碼是CLEMENTINE自動分配的，每次運行時會不同。節(jié)點：n:節(jié)點包含的樣本個數(shù)。例如：7號測試節(jié)點，總個數(shù)為：24.節(jié)點（%）:節(jié)點包含的樣本個數(shù)占總樣本的百分比。例如：7號測試節(jié)點，24/85=28.24%收益：n:節(jié)點包含指定類別（這里為0類）樣本的個數(shù)。高收益的節(jié)點應(yīng)包含盡可能多的指

22、定類別的樣本。例如：7號測試節(jié)點，“0 “類個數(shù)為：12收益（%）：節(jié)點包含指定類別（這里為0類）的樣本占相應(yīng)類別總樣本數(shù) 的百分比。同樣，高收益的節(jié) 點值應(yīng)越高。（匹配項）例如：7號測試節(jié)點，12/20=60%.響應(yīng)（%）:節(jié)點包含指定類別（這里為0類）樣本占本節(jié)點樣本的比例。例如：7號測試節(jié)點，12/24=50%指數(shù)（%）：節(jié)點包含指定類別（這里為 0類）樣本的比例（響應(yīng)）是所有同類別樣本占總樣本比例的百分比，這個值也稱為提升度（lift）或：收益（）是本節(jié)點樣本占總樣本比例的百分比。例如：7 號測試節(jié)點，50%/（20/85）=212.50%提升度是數(shù)據(jù)挖掘中最重要且應(yīng)用最廣的模型評

23、價指標，其定義為lift = P （class t / sam ple ） / P （class t / population）其中，P （ c l a ss/ sa m p）表示在模型所限定的特定樣本空間內(nèi)輸出變量值為t類的概率；P（claqs/ populat）表示在所有樣本空間內(nèi)輸出變量值為t類的概率?？梢?，提升度本質(zhì)是收益（%）和響應(yīng)（）綜合的反應(yīng)。該值越大說明模型對 t類樣本所應(yīng)具備的特征和“捕捉”能力越強，模型的收益越好。制作模型評價圖通常按提升度（指數(shù)）降序重新排列，然后按百分比點的樣本所在節(jié)點的累計收益評價數(shù)據(jù)。腎停宜 OVER*LL_DIAGIMOSIS 珂辭別： 0節(jié)點仃

24、1竝血呵應(yīng)悄1歸和7woo10 DD1 DI DD29 5?57 5D299 ?30 003S ID21 00旳M57.512di(n'.535 or21 DO75 nj47 n2<B2340 007J DO0 00筋E3死sean .ao竹苗gi oc加DO9? 9735 ?B1SS 95l.aGDODm doJ5 DD対499416g 11e.tf7DOO127 DD15叩100.DI27 501031EBOtiDD1«.DO15 100 o i D2J 97V* S66JU90 001.00icn.Dii21 34ito.gaW100 00192DO35 DD100 oo1923100 001甸時:百知i1鮭M71D0DEi.uia5口口22 505EJ.0D2T 2.5CI720001TJOO9j10必D50.00ariso7.930 002&oa12 006000«J5m.is盯40 00弘皿110066J6239.30167.U5a5000巧DOiiaoa70.0938 7&1M.344soaosumiBoa!dUiQD35 1!9IO.UU4.B,e70 DDeaoo&#

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Clementine決策樹CHAID算法

文檔簡介

溫馨提示

最新文檔

評論

Clementine決策樹CHAID算法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔