商務(wù)智能課程論文2(共14頁)_第1頁
商務(wù)智能課程論文2(共14頁)_第2頁
商務(wù)智能課程論文2(共14頁)_第3頁
商務(wù)智能課程論文2(共14頁)_第4頁
商務(wù)智能課程論文2(共14頁)_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 20/20目錄 TOC o 1-3 h z u HYPERLINK l _Toc428531510 HYPERLINK l _Toc428531511 引言 PAGEREF _Toc428531511 h 3 HYPERLINK l _Toc428531512 1.決策樹演算法 (Decision Tree) 簡介 PAGEREF _Toc428531512 h 3 HYPERLINK l _Toc428531513 1.1決策樹演算法的原理 PAGEREF _Toc428531513 h 3 HYPERLINK l _Toc428531514 1.2決策樹演算法的選擇 PAGEREF _T

2、oc428531514 h 4 HYPERLINK l _Toc428531515 1.3 CHAID算法簡介 PAGEREF _Toc428531515 h 4 HYPERLINK l _Toc428531516 2.自行車銷售數(shù)據(jù)欄位和特征分析 PAGEREF _Toc428531516 h 5 HYPERLINK l _Toc428531517 3.建立決策樹模型串流 PAGEREF _Toc428531517 h 6 HYPERLINK l _Toc428531518 3.1讀取數(shù)據(jù) PAGEREF _Toc428531518 h 6 HYPERLINK l _Toc428531519

3、 3.2 數(shù)據(jù)類型定義 PAGEREF _Toc428531519 h 7 HYPERLINK l _Toc428531520 3.3決策樹節(jié)點設(shè)定 PAGEREF _Toc428531520 h 7 HYPERLINK l _Toc428531521 4.生成模型與修正模型 PAGEREF _Toc428531521 h 9 HYPERLINK l _Toc428531522 5.模型分析 PAGEREF _Toc428531522 h 13基于(jy)SPSS Modeler的自行車銷售(xioshu)預(yù)測分析引言(ynyn)隨著資訊科技的演進,如何通過方法有效的分析海量數(shù)據(jù),并從其中找到

4、有利的規(guī)格或資訊已經(jīng)成為一種趨勢。而決策樹演算法是目前在進行數(shù)據(jù)分析時很常用的分類方法,本文將使用 IBM SPSS Modeler進行實作,介紹決策樹 (Decision tree) 演算法于零售領(lǐng)域的應(yīng)用實例。IBM SPSS Modeler包含多種決策樹模型,包括 C5.0、C&R Tree、Quest、CHAID。首先,本文將會簡介決策樹演算法的基本原理,接著會針對案例數(shù)據(jù) (某公司自行車銷售數(shù)據(jù)) 進行初步的數(shù)據(jù)分析,并套入決策樹模型中,分析、解釋并討論最后的結(jié)果。本文所用分析工具為IBM SPSS Modeler 17 試用版,所建立模型需IBM SPSS Modeler 15及以

5、上版本才可正常查看。1.決策樹演算法 (Decision Tree) 簡介1.1決策樹演算法的原理決策樹演算法是在進行數(shù)據(jù)挖掘時經(jīng)常使用的分類和預(yù)測方法。一個決策樹的架構(gòu),是由三個部分所組成:葉節(jié)點 (Leaf Node)、決策節(jié)點 (Decision nodes) 以及分支。決策樹演算法的基本原理為:通過演算法中所規(guī)定的分類條件對于整體數(shù)據(jù)進行分類,產(chǎn)生一個決策節(jié)點,并持續(xù)依照演算法規(guī)則分類,直到數(shù)據(jù)無法再分類為止。決策樹演算法的比較決策樹演算法依據(jù)其演算原理以及可適用分析數(shù)據(jù)類型的不同延伸出多種決策樹演算法。在 IBM SPSS Modeler 中,主要提供了四種常用的決策樹演算法供使用者

6、選擇,分別為:C5.0、CHAID、QUEST 以及 C&R Tree 四種。1.)C5.0由 C4.5 演化而來。此演算法的分類原理主要是利用資訊衡量標準 (Information Measure) 來構(gòu)建決策樹,并對每一個節(jié)點產(chǎn)生不同數(shù)目的分支來分割數(shù)據(jù),直到數(shù)據(jù)無法分割為止。C5.0 的目標字段 (Target) 測量級別,不適用于連續(xù)類型 (Continuous) 的測量級別。而輸入字段的數(shù)據(jù)型態(tài)則適用連續(xù)類型 (Continuous) 的測量級別。2.)CHAID (Chi-Square Automatic Interaction Detector)此演算法和前述的 C5.0 概念很

7、像,均可以(ky)在每一個節(jié)點產(chǎn)生不同數(shù)目的分支來分割數(shù)據(jù),用來建立決策樹。但是在背后分類的原理則利用卡方分析檢定 (Chi-square F test) 來進行分支(fnzh),通過卡方檢定來計算節(jié)點中的 P-value,來決定數(shù)據(jù)是否仍須進行(jnxng)分支。另外,CHAID 的目標字段 (Target) 的測量級別可適用于連續(xù)類型 (Continuous) 的測量級別,但在輸入字段則只適用分類類型 (Categorical) 的測量級別。3.)QUEST (Quick Unbiased Efficient Statistical Tree)此演算法是利用統(tǒng)計方法分割數(shù)據(jù),即以判定決策樹

8、是否仍需進行分支,以建立二元的決策樹。QUEST 在變數(shù)的數(shù)據(jù)型態(tài)限制上,跟 C5.0 一樣,目標字段 (Target) 測量級別,不適用于連續(xù)類型 (Continuous) 的測量級別。但在輸入字段的測量級別則適用連續(xù)類型 (Continuous) 的測量級別。4.)C&R Tree (Classification and Regression Tree)又稱為 CART,構(gòu)建決策樹的原理是使用 Gini Ratio 作為判定決策樹是否仍須進行分支的依據(jù),并建立二元的決策樹。此演算法不管是在目標變數(shù) (Target) 以及輸入字段的測量級別均適用連續(xù)類型 (Continuous) 的測量級別

9、做分析。1.2決策樹演算法的選擇在使用決策樹演算法進行分析之前,首要工作就是選擇適當?shù)难菟惴?。一般來說,會根據(jù)所要分析數(shù)據(jù)的特性以及數(shù)據(jù)型態(tài)等選擇初步的演算法。接下來再通過比較初步篩選的決策樹分析出來的結(jié)果,選擇最適合的決策樹演算法。使用者可依據(jù)數(shù)據(jù)類型以及分析需求的不同,選擇適當?shù)臎Q策樹演算法進行分析。雖然不同的決策樹演算法有各自適用的數(shù)據(jù)類型以及演算架構(gòu)等差異,但概括來說,決策樹的主要原理均為通過演算法所定義的規(guī)則,對數(shù)據(jù)進行分類,以建立決策樹。鑒于篇幅所限,以下部分僅針對CHAID算法進行簡單的介紹和應(yīng)用展示。1.3 CHAID算法簡介CHAID,或卡方自動交互效應(yīng)檢測,是一種通過使用稱

10、作卡方統(tǒng)計量的特定統(tǒng)計類型識別決策樹中的最優(yōu)分割來構(gòu)建決策樹的分類方法?!翱ǚ健笔窃诜诸惸P椭袘?yīng)用的一個統(tǒng)計量;“交互作用”是指進行成功預(yù)測所需要考慮的各變量之間的相互關(guān)系;“檢驗”是研究者想要完成的工作;“自動”則意味著這項指導(dǎo)性技術(shù)是可用的。下文中列舉了一些在響應(yīng)模型中應(yīng)用 CHAID的好處。研究人員通常會搜集大量的預(yù)期解釋變量。CHAID可以用來提前篩選數(shù)據(jù)以剔除隨機變量(對預(yù)測沒有貢獻的變量)。另外,對于那些已進入CHAID的變量,其進入的次序揭示了他們對預(yù)測的重要程度。一個分類變量包含著若干類別,但對響應(yīng)變量而言并不是每一個類別都實際顯著。 CHAID可以幫助解決哪些類別需要合并的問

11、題。比如,一組數(shù)據(jù)分為十二類,分別代表不同的地區(qū),但是也許這12個類別僅有3種不同的響應(yīng)模式。在這種情況下,應(yīng)該合并地區(qū)分類。CHAID將進行統(tǒng)計檢驗,合并不顯著的類別。有些解釋變量可能由無序類別組成,有些則可能由有序類別組成。如果統(tǒng)計(tngj)上可行的話,研究人員希望合并前者中所有的無序類別,而僅合并后者中臨近的類別。CHAID 可以實現(xiàn)(shxin)這兩種合并。回歸分析適用于揭示(jish)線性關(guān)系。例如,假設(shè)隨著受訪者受教育程度的增加,針對相應(yīng)問題回答“是”的百分比也增加了。那么這種模式就是線性的,回歸分析可以揭示出這種關(guān)系。但是,如果隨著受教育程度的增加,針對相應(yīng)問題回答“是”的百分

12、比是先增加后下降的,那么,單純的運用回歸分析就無法揭示應(yīng)答與教育水平之間的顯著關(guān)系了,因為這個模式不是線性的。換句話說,CHAID揭示非線性關(guān)系?;貧w分析揭示出主要的影響因素。也就是說,我們做回歸分析時假設(shè)某個解釋變量的影響相對于其他解釋變量的取值而言是不變的。但事實未必如此。因此,研究人員在確定某一個解釋變量對響應(yīng)變量的影響之前,需要指定其他解釋變量的水平。這被稱為一個“指定影響”或一個“交互作用”。CHAID能夠揭示解釋變量間的交互作用。CHAID會生成一個分類樹。研究人員可以從該分類樹上找到統(tǒng)計上顯著的分割點。由于 CHAID在內(nèi)置統(tǒng)計檢驗中運用了 Bonferroni調(diào)節(jié),這種基于一組

13、數(shù)據(jù)構(gòu)建的分割模型在一個類似的抽樣樣本中可以得到很好的交叉驗證。2.自行車銷售數(shù)據(jù)欄位和特征分析這次分析使用的數(shù)據(jù)來自某自行車零售商的自行車銷售數(shù)據(jù),數(shù)據(jù)內(nèi)容包括:客戶的基本數(shù)據(jù)(年齡、婚姻狀況、性別、年收入、教育等),及客戶的業(yè)務(wù)相關(guān)數(shù)據(jù)(是否已購買自行車),一共十四個字段。數(shù)據(jù)的前十條記錄預(yù)覽情況如圖1所示。圖1 自行車銷售數(shù)據(jù)展示為了保證樣本抽取的隨機性,我們設(shè)置一個“樣本抽取”節(jié)點,隨機抽取70%的樣本進行模型分析。如圖2所示。圖2 樣本(yngbn)抽取在模型建置前,首先(shuxin)要了解數(shù)據(jù)的組成。通過“數(shù)據(jù)(shj)審核”中簡單的圖表及統(tǒng)計數(shù)據(jù)(如圖3所示),我們可以察覺數(shù)據(jù)

14、的異常、極端值。以年齡欄位為例,我們可以通過最大、最小及平均值,來觀察有無異常分布。年齡32102歲及平均51歲屬于正常分布,所以不需要做特殊處理。其它欄位可以通過同樣方式檢視,以增加對客戶數(shù)據(jù)的了解。圖3 數(shù)據(jù)審核3.建立決策樹模型串流3.1讀取數(shù)據(jù)SPSS Modeler中需要根據(jù)數(shù)據(jù)(shj)檔案格式,來選擇不同的源節(jié)點讀取數(shù)據(jù)。本文使用的數(shù)據(jù)檔案格式為.xls,因此(ync)我們將使用EXCEL文件(wnjin)節(jié)點。在節(jié)點設(shè)定方面,文件標簽下我們先讀入數(shù)據(jù)“vTargetMail.xls”,選擇工作表“按索引”,工作表范圍“范圍從第一個非空行開始”,對于空行選擇“停止讀取”,接著勾選

15、“第一行存在列名稱”。過濾掉不分析的字段。如圖4所示。 圖4 讀取數(shù)據(jù)3.2 數(shù)據(jù)類型定義為了產(chǎn)生決策樹模型,我們需要在數(shù)據(jù)建模前就定義好各欄位的角色,也就是加入字段選項下的“類型”節(jié)點(請見圖5)。將類型節(jié)點拉入串流后,我們會先點選讀取值按鈕,接著設(shè)定角色。在本案例中,字段“BikeBuyer”是我們最后預(yù)測的目標,因此將其測量設(shè)定為“標記”,角色設(shè)定為“目標”,余下的欄位則是要設(shè)定為“輸入”。在完成這一步后,點擊“讀取值”讀取數(shù)據(jù),就已經(jīng)完成數(shù)據(jù)準備(請見圖6),可以套用決策樹模型節(jié)點了。圖5 “促銷購買”類型節(jié)點設(shè)置圖6 數(shù)據(jù)準備(zhnbi)完成3.3決策樹節(jié)點(ji din)設(shè)定如前

16、面(qin mian)所述,SPSS Modeler共提供四種決策樹節(jié)點建模,包括 C5.0、C&R 樹、Quest 和 CHAID。由于篇幅有限,因此本文將只建立CHAID分類模型。將 CHAID 節(jié)點與分區(qū)節(jié)點連結(jié)后,我們將于此節(jié)點編輯頁面中的模型標簽下設(shè)定相關(guān)的變數(shù)。由于 CHAID 節(jié)點設(shè)定較多,以下將挑選我們有修改預(yù)設(shè)值的變數(shù)進行詳細介紹。此定義來自“SPSS Modeler 17 Modeling Nodes文件”。最大樹深度:指定根節(jié)點以下的最大級數(shù)(遞歸分割樣本的次數(shù))。修剪樹以防止過擬合:修剪包括刪除對于樹的精確性沒有顯著貢獻的底層分割。修剪有助于簡化樹,使樹更容易被理解,在

17、某些情況下還可提高廣義性。停止規(guī)則:設(shè)置最小分支大小可阻止通過分割創(chuàng)建非常小的子組。如果節(jié)點(父)中要分割的記錄數(shù)小于指定值,則父分支中的最小記錄數(shù) 將阻止進行分割。如果由分割創(chuàng)建的任意分支(子)中的記錄數(shù)小于指定值,則子分支中的最小記錄數(shù) 將阻止進行分割。在建模節(jié)點的“字段”選項卡中,已選中“使用預(yù)定義角色”,這意味著將按在類型節(jié)點中的指定使用目標和輸入。如圖7所示。圖7 模型(mxng)字段選項卡“構(gòu)建(u jin)選項”包含的選項可以用于指定要構(gòu)建的模型類型。由于我們想要一個全新的模型,因此使用默認選項構(gòu)建新模型。我們還要求它為單個標準決策樹模型,并且不包含任何增強(zngqing),因

18、此保留默認目標選項構(gòu)建單個樹。如圖8所示。圖8 構(gòu)建選項除圖9和圖10設(shè)置,其它設(shè)置按照默認設(shè)置不變。圖9 構(gòu)建(u jin)選項基本 圖10 構(gòu)建(u jin)選項高級4.生成模型(mxng)與修正模型決策樹節(jié)點設(shè)定完成后,點擊主工具列的運行當前流前即可看到?jīng)Q策樹模型的產(chǎn)生。添加一個“評估”圖形節(jié)點和“分析”輸出節(jié)點,方便后續(xù)比較預(yù)測模型精確度并檢驗預(yù)測結(jié)果。模型整體如圖11所示。圖11 自行車銷售CHAID預(yù)測模型雙擊決策樹模型則可看到模型結(jié)果,而我們最主要要觀察的是模型標簽及查看器標簽下的內(nèi)容。模型標簽內(nèi)容如圖 9 所示,左欄位使用文字樹狀展開,表現(xiàn)每一階層的分類狀況及目標變數(shù)的模式;右

19、欄位則是整體模型預(yù)測變量的重要性比較。我們也將會根據(jù)變量重要性調(diào)整模型設(shè)定、變數(shù)選擇,持續(xù)的訓(xùn)練出較佳的模型。查看器標簽則是將一樣的決策樹結(jié)果用樹狀圖的方式展現(xiàn)。對于 CHAID 模型塊,“模型”選項卡以規(guī)則集的形式顯示詳細信息,規(guī)則集實際上是可根據(jù)不同輸入字段的值將各個記錄分配給子節(jié)點的一組規(guī)則。在規(guī)則集的右側(cè),“模型”選項卡顯示預(yù)測變量重要性圖表,該圖表顯示評估模型時每個預(yù)測變量的相對重要性。通過這一點,我們看到“NumberCarsOwned”變量的重要性水平最顯著,其次是“Age”、“YearlyIncome”、“TotalChildren”、“CommuteDistance”等,而最

20、不重要的就是“Gender”變量。模型分析結(jié)果如圖12-14所示。圖12 圖13 圖14圖15圖16圖15和圖16表明,預(yù)測數(shù)據(jù)與原始數(shù)據(jù)擬合程度不夠好,由于預(yù)測結(jié)果的錯誤率較高,經(jīng)過思考(sko)與探索發(fā)現(xiàn)是由于數(shù)據(jù)沒有清洗導(dǎo)致,所以在模型中加入“自動準備數(shù)據(jù)”節(jié)點進行預(yù)處理并進行“數(shù)據(jù)審核”。如圖17所示。圖17 修改(xigi)后的模型經(jīng)過運行(ynxng)之后,得到的模型分析結(jié)果。可以看到錯誤率明顯下降了,正確率從66.2%提高到73.79%。但是預(yù)測準確率依然不是很理想的原因有可能是分析的數(shù)據(jù)量不夠大或者不具有代表性的原因。圖18 修改后的模型正確率提高5.模型(mxng)分析(fn

21、x)如圖19所示,各預(yù)測(yc)變量的重要性由高到低排列分別為:NumberCarsOwned(0.34),TotalChildren(0.18),YearlyIncome(0.17),Age(0.16),Region(0.05),CommuteDistance(0.03),HouseOwnerFlag(0.02),MaritalStatus(0.02),NumberChildrenAtHome(0.02),Gender(0.01),有上述權(quán)重我們可以看出NumberCarsOwned變量是最重要的預(yù)測變量,權(quán)重最大,其次分別為TotalChildren、YearlyIncome、Age和Re

22、gion,因此這五個變量將作為決策樹的重要分支用于目標預(yù)測,而Gender是最不重要的預(yù)測變量,所占權(quán)重只有0.01。圖19 預(yù)測變量重要性排序 圖20決策樹中樹干決策樹中樹干“BikeBuyer”兩個類別(1表示已購買自行車,0表示未購買自行車)的比例各自接近50%,說明抽取樣本的分布比較均勻,結(jié)果具有一定的分析意義。從上面我們也可以看出,抽取的樣本數(shù)為5644。P值0.001表示樣本通過顯著性檢驗。見圖20。以下是根據(jù)“NumberCarsOwned(擁有汽車的數(shù)量)”變量分出的第一層枝干,可以看到擁有車輛數(shù)量小于等于1的情況下,客戶偏向于購買自行車;而擁有車輛數(shù)量大于1的情況下,客戶選擇

23、不購買自行車。聯(lián)系實際,如果客戶出行時有二至四輛代步小汽車,那通常不會騎自行車出門,購買自行車的可能性就比較低。 圖21 決策樹第二層樹枝模型的分析結(jié)果如圖22所示。由于我們的關(guān)注點在于哪些類型的是購買自行車的潛在客戶,所以以下僅選取“NumberCarsOwned”變量值為0或1的情況進行下一步分析?!癗umberCarsOwned”變量第一層枝干之下是根據(jù)“Age”變量分出的第二層枝干,擁有汽車數(shù)量為0且年齡在49歲以下的客戶偏向于購買自行車,而年齡高于49歲的客戶可能由于身體狀況等問題不便騎自行車出門而消費可能性不大。擁有汽車數(shù)量為1且年齡在40到61歲之間的客戶偏向于購買自行車?!癗umberCarsOwned”變量值為0 的情況下,“Age(年齡)”變量第二層枝干之下的第三層分支分別為“YearlyIncom

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論