基于SPSS Modeler的自行車銷售預(yù)測分析_第1頁
基于SPSS Modeler的自行車銷售預(yù)測分析_第2頁
基于SPSS Modeler的自行車銷售預(yù)測分析_第3頁
基于SPSS Modeler的自行車銷售預(yù)測分析_第4頁
基于SPSS Modeler的自行車銷售預(yù)測分析_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

14/14目錄引言 31.決策樹演算法(DecisionTree)簡介 31.1決策樹演算法的原理 31.2決策樹演算法的選擇 41.3CHAID算法簡介 42.自行車銷售數(shù)據(jù)欄位和特征分析 53.建立決策樹模型串流 63.1讀取數(shù)據(jù) 63.2數(shù)據(jù)類型定義 73.3決策樹節(jié)點設(shè)定 74.生成模型與修正模型 95.模型分析 13

基于SPSSModeler的自行車銷售預(yù)測分析引言隨著資訊科技的演進,如何通過方法有效的分析海量數(shù)據(jù),并從其中找到有利的規(guī)格或資訊已經(jīng)成為一種趨勢。而決策樹演算法是目前在進行數(shù)據(jù)分析時很常用的分類方法,本文將使用IBMSPSSModeler進行實作,介紹決策樹(Decisiontree)演算法于零售領(lǐng)域的應(yīng)用實例。IBMSPSSModeler包含多種決策樹模型,包括C5.0、C&RTree、Quest、CHAID。首先,本文將會簡介決策樹演算法的基本原理,接著會針對案例數(shù)據(jù)(某公司自行車銷售數(shù)據(jù))進行初步的數(shù)據(jù)分析,并套入決策樹模型中,分析、解釋并討論最后的結(jié)果。本文所用分析工具為IBMSPSSModeler17試用版,所建立模型需IBMSPSSModeler15及以上版本才可正常查看。1.決策樹演算法(DecisionTree)簡介1.1決策樹演算法的原理決策樹演算法是在進行數(shù)據(jù)挖掘時經(jīng)常使用的分類和預(yù)測方法。一個決策樹的架構(gòu),是由三個部分所組成:葉節(jié)點(LeafNode)、決策節(jié)點(Decisionnodes)以及分支。決策樹演算法的基本原理為:通過演算法中所規(guī)定的分類條件對于整體數(shù)據(jù)進行分類,產(chǎn)生一個決策節(jié)點,并持續(xù)依照演算法規(guī)則分類,直到數(shù)據(jù)無法再分類為止。決策樹演算法的比較決策樹演算法依據(jù)其演算原理以及可適用分析數(shù)據(jù)類型的不同延伸出多種決策樹演算法。在IBMSPSSModeler中,主要提供了四種常用的決策樹演算法供使用者選擇,分別為:C5.0、CHAID、QUEST以及C&RTree四種。1.)C5.0由C4.5演化而來。此演算法的分類原理主要是利用資訊衡量標(biāo)準(zhǔn)(InformationMeasure)來構(gòu)建決策樹,并對每一個節(jié)點產(chǎn)生不同數(shù)目的分支來分割數(shù)據(jù),直到數(shù)據(jù)無法分割為止。C5.0的目標(biāo)字段(Target)測量級別,不適用于連續(xù)類型(Continuous)的測量級別。而輸入字段的數(shù)據(jù)型態(tài)則適用連續(xù)類型(Continuous)的測量級別。2.)CHAID(Chi-SquareAutomaticInteractionDetector)此演算法和前述的C5.0概念很像,均可以在每一個節(jié)點產(chǎn)生不同數(shù)目的分支來分割數(shù)據(jù),用來建立決策樹。但是在背后分類的原理則利用卡方分析檢定(Chi-squareFtest)來進行分支,通過卡方檢定來計算節(jié)點中的P-value,來決定數(shù)據(jù)是否仍須進行分支。另外,CHAID的目標(biāo)字段(Target)的測量級別可適用于連續(xù)類型(Continuous)的測量級別,但在輸入字段則只適用分類類型(Categorical)的測量級別。3.)QUEST(QuickUnbiasedEfficientStatisticalTree)此演算法是利用統(tǒng)計方法分割數(shù)據(jù),即以判定決策樹是否仍需進行分支,以建立二元的決策樹。QUEST在變數(shù)的數(shù)據(jù)型態(tài)限制上,跟C5.0一樣,目標(biāo)字段(Target)測量級別,不適用于連續(xù)類型(Continuous)的測量級別。但在輸入字段的測量級別則適用連續(xù)類型(Continuous)的測量級別。4.)C&RTree(ClassificationandRegressionTree)又稱為CART,構(gòu)建決策樹的原理是使用GiniRatio作為判定決策樹是否仍須進行分支的依據(jù),并建立二元的決策樹。此演算法不管是在目標(biāo)變數(shù)(Target)以及輸入字段的測量級別均適用連續(xù)類型(Continuous)的測量級別做分析。1.2決策樹演算法的選擇在使用決策樹演算法進行分析之前,首要工作就是選擇適當(dāng)?shù)难菟惴?。一般來說,會根據(jù)所要分析數(shù)據(jù)的特性以及數(shù)據(jù)型態(tài)等選擇初步的演算法。接下來再通過比較初步篩選的決策樹分析出來的結(jié)果,選擇最適合的決策樹演算法。使用者可依據(jù)數(shù)據(jù)類型以及分析需求的不同,選擇適當(dāng)?shù)臎Q策樹演算法進行分析。雖然不同的決策樹演算法有各自適用的數(shù)據(jù)類型以及演算架構(gòu)等差異,但概括來說,決策樹的主要原理均為通過演算法所定義的規(guī)則,對數(shù)據(jù)進行分類,以建立決策樹。鑒于篇幅所限,以下部分僅針對CHAID算法進行簡單的介紹和應(yīng)用展示。1.3CHAID算法簡介CHAID,或卡方自動交互效應(yīng)檢測,是一種通過使用稱作卡方統(tǒng)計量的特定統(tǒng)計類型識別決策樹中的最優(yōu)分割來構(gòu)建決策樹的分類方法。“卡方”是在分類模型中應(yīng)用的一個統(tǒng)計量;“交互作用”是指進行成功預(yù)測所需要考慮的各變量之間的相互關(guān)系;“檢驗”是研究者想要完成的工作;“自動”則意味著這項指導(dǎo)性技術(shù)是可用的。下文中列舉了一些在響應(yīng)模型中應(yīng)用CHAID的好處。

研究人員通常會搜集大量的預(yù)期解釋變量。CHAID可以用來提前篩選數(shù)據(jù)以剔除隨機變量(對預(yù)測沒有貢獻的變量)。另外,對于那些已進入CHAID的變量,其進入的次序揭示了他們對預(yù)測的重要程度。一個分類變量包含著若干類別,但對響應(yīng)變量而言并不是每一個類別都實際顯著。CHAID可以幫助解決哪些類別需要合并的問題。比如,一組數(shù)據(jù)分為十二類,分別代表不同的地區(qū),但是也許這12個類別僅有3種不同的響應(yīng)模式。在這種情況下,應(yīng)該合并地區(qū)分類。CHAID將進行統(tǒng)計檢驗,合并不顯著的類別。

有些解釋變量可能由無序類別組成,有些則可能由有序類別組成。如果統(tǒng)計上可行的話,研究人員希望合并前者中所有的無序類別,而僅合并后者中臨近的類別。CHAID可以實現(xiàn)這兩種合并。

回歸分析適用于揭示線性關(guān)系。例如,假設(shè)隨著受訪者受教育程度的增加,針對相應(yīng)問題回答“是”的百分比也增加了。那么這種模式就是線性的,回歸分析可以揭示出這種關(guān)系。但是,如果隨著受教育程度的增加,針對相應(yīng)問題回答“是”的百分比是先增加后下降的,那么,單純的運用回歸分析就無法揭示應(yīng)答與教育水平之間的顯著關(guān)系了,因為這個模式不是線性的。換句話說,CHAID揭示非線性關(guān)系。

回歸分析揭示出主要的影響因素。也就是說,我們做回歸分析時假設(shè)某個解釋變量的影響相對于其他解釋變量的取值而言是不變的。但事實未必如此。因此,研究人員在確定某一個解釋變量對響應(yīng)變量的影響之前,需要指定其他解釋變量的水平。這被稱為一個“指定影響”或一個“交互作用”。CHAID能夠揭示解釋變量間的交互作用。CHAID會生成一個分類樹。研究人員可以從該分類樹上找到統(tǒng)計上顯著的分割點。由于CHAID在內(nèi)置統(tǒng)計檢驗中運用了Bonferroni調(diào)節(jié),這種基于一組數(shù)據(jù)構(gòu)建的分割模型在一個類似的抽樣樣本中可以得到很好的交叉驗證。2.自行車銷售數(shù)據(jù)欄位和特征分析這次分析使用的數(shù)據(jù)來自某自行車零售商的自行車銷售數(shù)據(jù),數(shù)據(jù)內(nèi)容包括:客戶的基本數(shù)據(jù)(年齡、婚姻狀況、性別、年收入、教育等),及客戶的業(yè)務(wù)相關(guān)數(shù)據(jù)(是否已購買自行車),一共十四個字段。數(shù)據(jù)的前十條記錄預(yù)覽情況如圖1所示。圖1自行車銷售數(shù)據(jù)展示 為了保證樣本抽取的隨機性,我們設(shè)置一個“樣本抽取”節(jié)點,隨機抽取70%的樣本進行模型分析。如圖2所示。圖2樣本抽取在模型建置前,首先要了解數(shù)據(jù)的組成。通過“數(shù)據(jù)審核”中簡單的圖表及統(tǒng)計數(shù)據(jù)(如圖3所示),我們可以察覺數(shù)據(jù)的異常、極端值。以年齡欄位為例,我們可以通過最大、最小及平均值,來觀察有無異常分布。年齡32~102歲及平均51歲屬于正常分布,所以不需要做特殊處理。其它欄位可以通過同樣方式檢視,以增加對客戶數(shù)據(jù)的了解。圖3數(shù)據(jù)審核3.建立決策樹模型串流3.1讀取數(shù)據(jù)SPSSModeler中需要根據(jù)數(shù)據(jù)檔案格式,來選擇不同的源節(jié)點讀取數(shù)據(jù)。本文使用的數(shù)據(jù)檔案格式為.xls,因此我們將使用EXCEL文件節(jié)點。在節(jié)點設(shè)定方面,文件標(biāo)簽下我們先讀入數(shù)據(jù)“vTargetMail.xls”,選擇工作表“按索引”,工作表范圍“范圍從第一個非空行開始”,對于空行選擇“停止讀取”,接著勾選“第一行存在列名稱”。過濾掉不分析的字段。如圖4所示。圖4讀取數(shù)據(jù)3.2數(shù)據(jù)類型定義為了產(chǎn)生決策樹模型,我們需要在數(shù)據(jù)建模前就定義好各欄位的角色,也就是加入字段選項下的“類型”節(jié)點(請見圖5)。將類型節(jié)點拉入串流后,我們會先點選讀取值按鈕,接著設(shè)定角色。在本案例中,字段“BikeBuyer”是我們最后預(yù)測的目標(biāo),因此將其測量設(shè)定為“標(biāo)記”,角色設(shè)定為“目標(biāo)”,余下的欄位則是要設(shè)定為“輸入”。在完成這一步后,點擊“讀取值”讀取數(shù)據(jù),就已經(jīng)完成數(shù)據(jù)準(zhǔn)備(請見圖6),可以套用決策樹模型節(jié)點了。圖5“促銷購買”類型節(jié)點設(shè)置圖6數(shù)據(jù)準(zhǔn)備完成3.3決策樹節(jié)點設(shè)定如前面所述,SPSSModeler共提供四種決策樹節(jié)點建模,包括C5.0、C&R樹、Quest和CHAID。由于篇幅有限,因此本文將只建立CHAID分類模型。將CHAID節(jié)點與分區(qū)節(jié)點連結(jié)后,我們將于此節(jié)點編輯頁面中的模型標(biāo)簽下設(shè)定相關(guān)的變數(shù)。由于CHAID節(jié)點設(shè)定較多,以下將挑選我們有修改預(yù)設(shè)值的變數(shù)進行詳細介紹。此定義來自“SPSSModeler17ModelingNodes文件”。最大樹深度:指定根節(jié)點以下的最大級數(shù)(遞歸分割樣本的次數(shù))。修剪樹以防止過擬合:修剪包括刪除對于樹的精確性沒有顯著貢獻的底層分割。修剪有助于簡化樹,使樹更容易被理解,在某些情況下還可提高廣義性。停止規(guī)則:設(shè)置最小分支大小可阻止通過分割創(chuàng)建非常小的子組。如果節(jié)點(父)中要分割的記錄數(shù)小于指定值,則父分支中的最小記錄數(shù)將阻止進行分割。如果由分割創(chuàng)建的任意分支(子)中的記錄數(shù)小于指定值,則子分支中的最小記錄數(shù)將阻止進行分割。在建模節(jié)點的“字段”選項卡中,已選中“使用預(yù)定義角色”,這意味著將按在類型節(jié)點中的指定使用目標(biāo)和輸入。如圖7所示。圖7模型字段選項卡“構(gòu)建選項”包含的選項可以用于指定要構(gòu)建的模型類型。由于我們想要一個全新的模型,因此使用默認選項構(gòu)建新模型。我們還要求它為單個標(biāo)準(zhǔn)決策樹模型,并且不包含任何增強,因此保留默認目標(biāo)選項構(gòu)建單個樹。如圖8所示。圖8構(gòu)建選項除圖9和圖10設(shè)置,其它設(shè)置按照默認設(shè)置不變。圖9構(gòu)建選項——基本圖10構(gòu)建選項——高級4.生成模型與修正模型決策樹節(jié)點設(shè)定完成后,點擊主工具列的運行當(dāng)前流前即可看到?jīng)Q策樹模型的產(chǎn)生。添加一個“評估”圖形節(jié)點和“分析”輸出節(jié)點,方便后續(xù)比較預(yù)測模型精確度并檢驗預(yù)測結(jié)果。模型整體如圖11所示。圖11自行車銷售CHAID預(yù)測模型雙擊決策樹模型則可看到模型結(jié)果,而我們最主要要觀察的是模型標(biāo)簽及查看器標(biāo)簽下的內(nèi)容。模型標(biāo)簽內(nèi)容如圖9所示,左欄位使用文字樹狀展開,表現(xiàn)每一階層的分類狀況及目標(biāo)變數(shù)的模式;右欄位則是整體模型預(yù)測變量的重要性比較。我們也將會根據(jù)變量重要性調(diào)整模型設(shè)定、變數(shù)選擇,持續(xù)的訓(xùn)練出較佳的模型。查看器標(biāo)簽則是將一樣的決策樹結(jié)果用樹狀圖的方式展現(xiàn)。對于CHAID模型塊,“模型”選項卡以規(guī)則集的形式顯示詳細信息,規(guī)則集實際上是可根據(jù)不同輸入字段的值將各個記錄分配給子節(jié)點的一組規(guī)則。在規(guī)則集的右側(cè),“模型”選項卡顯示預(yù)測變量重要性圖表,該圖表顯示評估模型時每個預(yù)測變量的相對重要性。通過這一點,我們看到“NumberCarsOwned”變量的重要性水平最顯著,其次是“Age”、“YearlyIncome”、“TotalChildren”、“CommuteDistance”等,而最不重要的就是“Gender”變量。模型分析結(jié)果如圖12-14所示。圖12圖13圖14圖15圖16圖15和圖16表明,預(yù)測數(shù)據(jù)與原始數(shù)據(jù)擬合程度不夠好,由于預(yù)測結(jié)果的錯誤率較高,經(jīng)過思考與探索發(fā)現(xiàn)是由于數(shù)據(jù)沒有清洗導(dǎo)致,所以在模型中加入“自動準(zhǔn)備數(shù)據(jù)”節(jié)點進行預(yù)處理并進行“數(shù)據(jù)審核”。如圖17所示。圖17修改后的模型經(jīng)過運行之后,得到的模型分析結(jié)果??梢钥吹藉e誤率明顯下降了,正確率從66.2%提高到73.79%。但是預(yù)測準(zhǔn)確率依然不是很理想的原因有可能是分析的數(shù)據(jù)量不夠大或者不具有代表性的原因。圖18修改后的模型正確率提高5.模型分析如圖19所示,各預(yù)測變量的重要性由高到低排列分別為:NumberCarsOwned(0.34),TotalChildren(0.18),YearlyIncome(0.17),Age(0.16),Region(0.05),CommuteDistance(0.03),HouseOwnerFlag(0.02),MaritalStatus(0.02),NumberChildrenAtHome(0.02),Gender(0.01),有上述權(quán)重我們可以看出NumberCarsOwned變量是最重要的預(yù)測變量,權(quán)重最大,其次分別為TotalChildren、YearlyIncome、Age和Region,因此這五個變量將作為決策樹的重要分支用于目標(biāo)預(yù)測,而Gender是最不重要的預(yù)測變量,所占權(quán)重只有0.01。圖19預(yù)測變量重要性排序圖20決策樹中樹干決策樹中樹干“BikeBuyer”兩個類別(1表示已購買自行車,0表示未購買自行車)的比例各自接近50%,說明抽取樣本的分布比較均勻,結(jié)果具有一定的分析意義。從上面我們也可以看出,抽取的樣本數(shù)為5644。P值<0.001表示樣本通過顯著性檢驗。見圖20。以下是根據(jù)“NumberCarsOwned(擁有汽車的數(shù)量)”變量分出的第一層枝干,可以看到擁有車輛數(shù)量小于等于1的情況下,客戶偏向于購買自行車;而擁有車輛數(shù)量大于1的情況下,客戶選擇不購買自行車。聯(lián)系實際,如果客戶出行時有二至四輛代步小汽車,那通常不會騎自行車出門,購買自行車的可能性就比較低。圖21決策樹第二層樹枝模型的分析結(jié)果如圖22所示。由于我們的關(guān)注點在于哪些類型的是購買自行車的潛在客戶,所以以下僅選取“NumberCarsOwned”變量值為0或1的情況進行下一步分析?!癗umberCarsOwned”變量第一層枝干之下是根據(jù)“Age”變量分出的第二層枝干,擁有汽車數(shù)量為0且年齡在49歲以下的客戶偏向于購買自行車,而年齡高于49歲的客戶可能由于身體狀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論