下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘與商務(wù)智能實(shí)驗(yàn)實(shí)驗(yàn)報(bào)告實(shí)驗(yàn)題目:分類分析:決策樹姓名:王俊學(xué)號(hào):指導(dǎo)教師:張大斌實(shí)驗(yàn)時(shí)間:2016.11.10日12月11年2016.分析類型:決策樹9實(shí)驗(yàn)一、實(shí)驗(yàn)?zāi)康模?)了解和熟悉SPSSModeler及其相關(guān)知識(shí);(2)掌握SPSSModeler工具建立CHAID決策樹的方法;(3)學(xué)會(huì)運(yùn)用SPSSCHAID決策樹進(jìn)行相關(guān)的內(nèi)容分析。二、實(shí)驗(yàn)內(nèi)容本實(shí)驗(yàn)以電信客戶數(shù)據(jù)(文件名為Telephone,sav)為例,數(shù)據(jù)中包含的變量xl到X15分別是:居住地、年齡、婚姻情況、家庭月收入(百萬)、受教育程度、性別、家庭人數(shù)、基本服務(wù)累計(jì)開通月數(shù)、是否申請無線轉(zhuǎn)移服務(wù)、上月基本費(fèi)用、上月限制
2、性免費(fèi)服務(wù)項(xiàng)目的費(fèi)用、無線服務(wù)費(fèi)用、是否電子支付、客戶所申請的服務(wù)套餐類型和是否流失。算法如下所示:CHAID本節(jié)的分析是在基本分析的基礎(chǔ)上進(jìn)行的,具體的三、實(shí)驗(yàn)步驟與結(jié)果步驟1創(chuàng)建CHAID數(shù)據(jù)流(1)通過astatistic文件”節(jié)點(diǎn)讀入文件名為Telephone.sav的數(shù)據(jù)。(2)數(shù)據(jù)流中添加“分區(qū)”節(jié)點(diǎn),將樣本集劃分為訓(xùn)練集和測試集,如圖9-1所示。(3)選擇建模模塊中的“CHAID©”節(jié)點(diǎn),將其連接到數(shù)據(jù)流的恰當(dāng)位So步驟2設(shè)置具體參數(shù)(1)右擊鼠標(biāo),在“構(gòu)建選項(xiàng)”-“基本(B)”,選擇數(shù)的生長算法為ExhaustiveCHAIDo自定義最大樹狀圖深度為5,如圖9-2所示
3、。(2)其他相關(guān)參數(shù)默認(rèn)設(shè)置。步驟3結(jié)果運(yùn)行實(shí)驗(yàn)結(jié)果如圖9-3所示。CHIAID首先確定開通月數(shù)為最佳的分組變量,將其分為3組,開通月數(shù)小于等于5的,開通月數(shù)大于31和開通月數(shù)大于5小于30的。按照一層一層進(jìn)行分組,但很快會(huì)發(fā)現(xiàn)其中某些推理規(guī)則沒有太大的參考價(jià)值。例如,對(duì)于開通月數(shù)大于31個(gè)月的用戶,無論是否采用電子支付方式,年齡如何,婚姻如何,最終的結(jié)果都是未流失。這種情況于該算法的剪枝方式有一定的聯(lián)系。.四、實(shí)驗(yàn)分析與擴(kuò)展練習(xí)實(shí)驗(yàn)分析:對(duì)于CHAID算法,SPSSModeler如何進(jìn)行交互方式建模?答:在進(jìn)行交互建模時(shí)候,以下這些參數(shù)的調(diào)整都會(huì)對(duì)建模的結(jié)果造成一定的影響:A.數(shù)據(jù)分區(qū)中的訓(xùn)
4、練和測試分區(qū)以及設(shè)置隨機(jī)種子B.相關(guān)CHAID參數(shù)設(shè)置中的樹生長算法選擇和最大樹狀圖深度設(shè)置C.相關(guān)CHAID參數(shù)設(shè)置中的成長規(guī)則D.相關(guān)CHAID參數(shù)設(shè)置中的整體設(shè)置D.相關(guān)CHAID參數(shù)設(shè)置中的高級(jí)設(shè)置的分割和合并五、結(jié)論與討論(重點(diǎn))通過這次實(shí)驗(yàn),我總結(jié)一下知識(shí)點(diǎn):1. 決策樹算法的優(yōu)點(diǎn)如下:(1)分類精度高;(2)生成的模式簡單;(3)對(duì)噪聲數(shù)據(jù)有很好的健壯性。因而是目前應(yīng)用最為廣泛的歸納推理算法之一,在數(shù)據(jù)挖掘中受到研究者的廣泛關(guān)注。2. CHAID的一般步驟:(1.)屬性變量的預(yù)處理(2.)確定當(dāng)前分支變量和分隔值屬性變量的預(yù)處理:(1)對(duì)定類的屬性變量,在其多個(gè)分類水平中找到對(duì)目標(biāo)變量取值影響不顯著的分類,并合并它們;(2)對(duì)定距型屬性變量,先按分位點(diǎn)分組,然后再合并具有同質(zhì)性的組;)如果目標(biāo)變量是定類變量,則采用卡方檢驗(yàn)3(.(4)如果目標(biāo)變量為定距變量,則采用F檢驗(yàn)每對(duì)預(yù)測分類的評(píng)估,以確定最顯著差異的因變量。由于這些合并步驟,通過計(jì)算修正邦費(fèi)羅尼p值來合并交叉表。3. CHAID算法優(yōu)點(diǎn):(1)可產(chǎn)生多分枝的決策樹(2)目標(biāo)變量可以定距或定類(3)從統(tǒng)計(jì)顯
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小動(dòng)物流行病知識(shí)競賽考試題庫300題(含答案)
- 2025年新型電力系統(tǒng)(配電自動(dòng)化)職業(yè)技能競賽參考試題庫(含答案)
- 2025年安徽省職教高考《語文》核心考點(diǎn)必刷必練試題庫(含答案)
- 2025年桂林山水職業(yè)學(xué)院高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 2025年昆明幼兒師范高等??茖W(xué)校高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年新疆建設(shè)職業(yè)技術(shù)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點(diǎn)含答案解析
- 中班冬季主題活動(dòng)策劃方案五篇
- 全新合同式環(huán)保管家服務(wù)下載
- 食品銷售代理合同范本
- 商品房買賣合同預(yù)售
- 蘇教版四年級(jí)數(shù)學(xué)下冊第三單元第二課時(shí)《常見的數(shù)量關(guān)系》課件
- 浙江省臺(tái)州市2021-2022學(xué)年高一上學(xué)期期末質(zhì)量評(píng)估政治試題 含解析
- 中國高血壓防治指南(2024年修訂版)解讀課件
- 2024年浙江省中考科學(xué)試卷
- 初三科目綜合模擬卷
- 2024年全國高考新課標(biāo)卷物理真題(含答案)
- 勞動(dòng)合同薪酬與績效約定書
- 足療店?duì)I銷策劃方案
- 學(xué)校安全一崗雙責(zé)
- 交通工程公司乳化瀝青儲(chǔ)油罐拆除工程安全協(xié)議書
- YS/T 441.1-2014有色金屬平衡管理規(guī)范第1部分:銅選礦冶煉
評(píng)論
0/150
提交評(píng)論