Clementine作業(yè)_第1頁
Clementine作業(yè)_第2頁
Clementine作業(yè)_第3頁
Clementine作業(yè)_第4頁
Clementine作業(yè)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘決策樹分析報告經(jīng)濟(jì)管理學(xué)院 管理科學(xué)與工程專業(yè) 1206122353 麻小龍問題:現(xiàn)搜集整理到某大型商場的顧客和商品的相關(guān)信息,通過SPSS Clementine軟件建立決策樹模型進(jìn)行數(shù)據(jù)挖掘分析,找到什么類型的顧客將購買什么類型的商品(比如:是否購買健康食品),顧客在購買某種商品的時候是否還有可能購買其他某幾種商品。解決思路:在處理該問題中,我使用了關(guān)聯(lián)分析、決策樹分析,具體分析解決過程如下:關(guān)聯(lián)分析是指如果兩個或者多個事物之間存在一定的聯(lián)系,那么其中一個事物就可能通過其他事物進(jìn)行預(yù)測。它的目的就是挖掘數(shù)據(jù)之間隱藏的相互關(guān)系。本題是針對某大型商場的購物資料對數(shù)據(jù)進(jìn)行分析。為了找到商品

2、在出售時是否存在某種聯(lián)系,我們將使用關(guān)聯(lián)分析方法;另一方面,為了得到購買某種商品的顧客特征,我們將采用決策樹的方法對顧客分類。步驟一:讀入數(shù)據(jù)。該模型的數(shù)據(jù)存儲為BSAKETS1n,我們在選擇面板選擇可變文件節(jié)點作為數(shù)據(jù)讀入節(jié)點,雙擊該結(jié)點進(jìn)行編輯,加入數(shù)據(jù)存儲文件。如下圖所示:步驟二:關(guān)聯(lián)分析從數(shù)據(jù)源讀入數(shù)據(jù)后,接下來就需要根據(jù)要進(jìn)行的分析對字段進(jìn)行設(shè)置。關(guān)聯(lián)分析是分析多個量之間的關(guān)系,所以需要分析的字段既設(shè)置為模型的輸入又設(shè)置為模型的輸出,對字段的設(shè)置采用類型結(jié)點。2.1 設(shè)置數(shù)據(jù)字段格式。在選擇面板選擇類型結(jié)點,并將其連接到數(shù)據(jù)流中。因為我們的分析是對商品進(jìn)行的,與顧客的個人信息無關(guān),所

3、以在類型結(jié)點中將顧客個人信息的字段的方向設(shè)置為無,其他商品字段的方向設(shè)置為雙向。同時我們也將讀入字段類型和字段取值。如下圖所示:2.2 生成關(guān)聯(lián)分析數(shù)據(jù)流。在選擇面板中的建模目錄中我們選擇GRI結(jié)點加入到數(shù)據(jù)流中。執(zhí)行該數(shù)據(jù)流,它的結(jié)果將在管理器的模型欄中以與模型同名的結(jié)點顯示,右鍵選擇瀏覽該結(jié)點,如下圖所示: 分析結(jié)果如下:該結(jié)果數(shù)據(jù)顯示了各種商品之間的關(guān)系,這個表的每一行表明了購買某種商品的時候還有哪些商品有被購買的可能性,它是基于關(guān)聯(lián)分析中的支持度和置信度來分析的。支持度越大,說明同時被購買的可能性越大。比如我們就第一行來分析,支持度為3.0%,置信度為96.67,顧客在購買canned

4、veg時有可能會同時購買freshmeat,frozenmeal,beer這三種商品。其他行的相關(guān)信息,我們用同樣的方法進(jìn)行分析得出結(jié)果。步驟三:圖形化顯示各個商品之間的關(guān)系我們除了用模型外,還可以用圖形目錄下的網(wǎng)絡(luò)結(jié)點。選擇網(wǎng)絡(luò)結(jié)點將其連入數(shù)據(jù)流中,此時對網(wǎng)絡(luò)結(jié)點的設(shè)置如下:在plot面板中選擇“僅選擇真值標(biāo)志”欄,這可以幫助我們簡化輸出網(wǎng)絡(luò),執(zhí)行結(jié)果如下圖所示:其中該圖中各色的結(jié)點代表了不同種類的商品,任意兩點之間連線越策表明這兩點之間的關(guān)系越強(qiáng)烈,這也正說明購買其中某件商品時,另外一個很有可能也會被同時購買。我們還可以通過改變浮標(biāo)值設(shè)置不同的顯示,當(dāng)浮標(biāo)值越大時候網(wǎng)絡(luò)圖將顯示關(guān)系越強(qiáng)烈關(guān)

5、系的點。如下圖所示:分析結(jié)果如下:就上述網(wǎng)狀圖,各個節(jié)點之間有連線說明兩線兩端的商品在購買時可能被購買。連線的粗細(xì)也表面關(guān)系的密切程度,即同時被購買的可能性的大小。在本問題中,我們分析當(dāng)浮標(biāo)設(shè)置在122時候這種情況,此時購買fish時很大可能會購買fruitveg,購買confectionery時很有可能購買wine,其中cannedveg,beer,frozenmeal這三種商品時因為三者之間存在密切聯(lián)系,所以購買其中一種時,其他兩種被購買的可能性很大。同樣,當(dāng)浮標(biāo)的值改變時,我們可以用同樣的方法來分析數(shù)據(jù)之間的關(guān)系。步驟四:用決策樹來分類分析。決策樹(decision tree)一般都是自

6、上而下生成的。每個決策或者事件(自然狀態(tài))都可能引出兩個或者多個事件,導(dǎo)致不同的結(jié)果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。決策樹就是將決策過程各個階段之間的結(jié)構(gòu)繪制成一張箭線圖。本問題中我們運用決策樹對購買某樣商品的客戶進(jìn)行分類,通過分析某個顧客的個人信息判斷怎樣的人將購買健康食品。在決策樹建模時我們需要設(shè)置一個導(dǎo)出結(jié)點,模型根據(jù)樣本在該結(jié)點的不同取值構(gòu)造出決策樹。4.1 將導(dǎo)出結(jié)點連接到類型結(jié)點,如下圖所示:4.2 設(shè)置導(dǎo)出結(jié)點的屬性,如下圖所示:這里我們命名該結(jié)點為Health_food,在導(dǎo)出為欄中我們選擇標(biāo)志,這表面新生成的Health_food字段將存儲兩值類型的數(shù)據(jù)

7、。在真值和假值欄分別填寫新字段的兩種數(shù)據(jù)值,其中真值表示當(dāng)條件滿足時該字段的值,假值表示當(dāng)條件不滿足時該字段的值。對判斷條件的設(shè)置我們可以通過單擊True when欄右邊的按鈕進(jìn)行。在表達(dá)式構(gòu)建器中我們可以選擇數(shù)據(jù)的任一字段,通過設(shè)計表達(dá)式建立結(jié)果為真時的條件。這里我們設(shè)置表達(dá)式為fruitveg=T and fish=T,這表明當(dāng)顧客買了fruitveg和fish時該顧客便購買了健康食物。如下圖所示:4.3 設(shè)置字段的輸入/輸出方向。在Health_food結(jié)點后添加一個類型結(jié)點來制定字段的輸入/輸出方向。這里我們要分析購買健康食物的顧客特征,所以我們將Health_food字段的方向選項設(shè)置為輸出,將顧客的個人特征設(shè)置為輸入,將其他商品設(shè)置為無。4.4 數(shù)據(jù)流的最終建立。在對字段定義完后,我們將C5.0結(jié)點加入到數(shù)據(jù)流。數(shù)據(jù)流如下圖所示:運行建立了決策樹的數(shù)據(jù)流,我們可以得到輸出入下樹形圖所示。該樹的葉子結(jié)點表明了怎樣的顧客將選擇健康食品,怎樣的顧客將選擇拒絕健康食品。如下圖所示:分析結(jié)果如下:通過該決策樹模型分析,我們可以發(fā)現(xiàn),就總的人來說,14.5%的人會選擇購買健康食物,85.5%的人不會購買健康食物。而在下一個分支中,按照年齡來劃分,小于并包括24歲的人中40.4%的人會選擇購買健康食品,59.6%的人則不會購買。年齡大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論