![商務(wù)數(shù)據(jù)分析課件:預(yù)測模型應(yīng)用_第1頁](http://file4.renrendoc.com/view12/M01/2C/37/wKhkGWXqNHaAbTFPAABj0iOQ1Io002.jpg)
![商務(wù)數(shù)據(jù)分析課件:預(yù)測模型應(yīng)用_第2頁](http://file4.renrendoc.com/view12/M01/2C/37/wKhkGWXqNHaAbTFPAABj0iOQ1Io0022.jpg)
![商務(wù)數(shù)據(jù)分析課件:預(yù)測模型應(yīng)用_第3頁](http://file4.renrendoc.com/view12/M01/2C/37/wKhkGWXqNHaAbTFPAABj0iOQ1Io0023.jpg)
![商務(wù)數(shù)據(jù)分析課件:預(yù)測模型應(yīng)用_第4頁](http://file4.renrendoc.com/view12/M01/2C/37/wKhkGWXqNHaAbTFPAABj0iOQ1Io0024.jpg)
![商務(wù)數(shù)據(jù)分析課件:預(yù)測模型應(yīng)用_第5頁](http://file4.renrendoc.com/view12/M01/2C/37/wKhkGWXqNHaAbTFPAABj0iOQ1Io0025.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
預(yù)測模型應(yīng)用第一節(jié)購買預(yù)測1.問題描述大部分的汽車企業(yè)都積累了大量的顧客信息,建立了客戶關(guān)系營銷系統(tǒng),可以對擁有的數(shù)據(jù)做整合分析和深層挖掘。汽車企業(yè)可通過對顧客的自然屬性、社交習(xí)慣、網(wǎng)絡(luò)搜索內(nèi)容等多維度的數(shù)據(jù),利用大數(shù)據(jù)技術(shù),進行建模分析,挖掘顧客的消費規(guī)律,預(yù)測客戶的購買行為,進而實現(xiàn)精準營銷。本案例主要考慮了顧客的人口屬性特征和家庭特征(性別、年齡、婚姻狀況、是否有子女等)以及顧客的APP使用數(shù)據(jù),通過機器學(xué)習(xí)的方法來預(yù)測具有不同特征的顧客的購買意愿。購買意愿預(yù)測,為銷售商通過深度挖掘客戶行為特征進而預(yù)測顧客的購物決定提供了新的思路和方法。2.數(shù)據(jù)理解(1)數(shù)據(jù)來源本案例中使用的數(shù)據(jù)集來源于某公司。主要包括顧客的個人信息數(shù)據(jù)、家庭屬性數(shù)據(jù)、APP使用偏好數(shù)據(jù)和汽車偏好數(shù)據(jù)。(2)數(shù)據(jù)描述本案例的數(shù)據(jù)集可以被分成四個部分:消費者的個人數(shù)據(jù)包括:性別、年齡、職業(yè)、居住城市、信息獲取渠道、興趣愛好;消費者的家庭數(shù)據(jù)包括:婚姻狀況和是否有子女;APP使用偏好數(shù)據(jù)記錄了消費者對各類APP的使用行為;消費者的汽車偏好數(shù)據(jù)指的是客戶對特定車型中的偏好,直接反映在消費者是否會購買某款車型。在數(shù)據(jù)集中,將手機號碼作為數(shù)據(jù)樣本中每個消費者的唯一標(biāo)識。在本案例中,預(yù)測目標(biāo)就是消費者是否會購買某一個特定廠商特定車型,因此,本案例涉及的消費者購買意圖預(yù)測將會被轉(zhuǎn)換為二元分類問題。3.數(shù)據(jù)預(yù)處理(1)數(shù)據(jù)清洗和篩選在對數(shù)據(jù)特征進行分析前,先要對數(shù)據(jù)進行清洗過濾。(I)刪除存在異常值的記錄:比如,當(dāng)本人年齡-孩子年齡<男方22周歲(女方20周歲),則判定當(dāng)前樣本為存在異常值的記錄,應(yīng)當(dāng)刪除。(II)刪除空缺值較為嚴重的屬性:比如,某種APP使用的顧客人數(shù)過少,顧客在這個屬性上的取值絕大部分都是空,說明此屬性的存在影響了建模的效率,而且對于模型建立并不能提供充分的信息,應(yīng)該被刪除。(III)刪除使用次數(shù)過小的顧客記錄。(2)數(shù)據(jù)轉(zhuǎn)換本案例所用數(shù)據(jù)集中大部分的顧客特征均為分類特征,所有的分類特征需要進行“one-hot”的編碼轉(zhuǎn)換處理。4.模型建立本案例將80%的數(shù)據(jù)樣本用做訓(xùn)練集,將剩下20%的數(shù)據(jù)集用做測試集使用10折交叉驗證法(10-foldcross-validation)來確保算法的有效性。為了達到更好的預(yù)測效果,采用支持向量機模型和隨機森林模型和深度學(xué)習(xí)模型這三種算法進行建模。本案例使用的數(shù)據(jù)集隨機分成10份,以減少預(yù)測模型過度擬合的可能性。5.模型評價為了評估本案例提出的消費者汽車購買預(yù)測模型的性能,本案例利用正確率(Accuracy)、精確度(Precision)、召回率(Recall)和F1得分指標(biāo)衡量提出模型的性能。通過對三種模型的參數(shù)調(diào)整,分別得到三種模型的最好的表現(xiàn)結(jié)果。結(jié)果見下表。本案例中在所有的評價標(biāo)準上支持向量機模型(SVM)都優(yōu)于隨機森林模型(RF)。這說明隨機森林模型具有更強的識別消費者汽車購買意向的能力。6.案例小結(jié)從汽車行業(yè)出發(fā),主要針對顧客購買汽車的決策和行為進行研究,旨在提出一種創(chuàng)新的算法和框架,能較為精準的預(yù)測顧客購車的決策,為汽車銷售商制定長期戰(zhàn)略、降低營銷成本提供一定的指導(dǎo)和借鑒作用。本案例主要搭建了一個“基于機器學(xué)習(xí)和深度學(xué)習(xí)的汽車購買意向預(yù)測模型”,通過在真實數(shù)據(jù)集上的實驗,利用顧客的個人特征、家庭特征和APP使用特征通過機器學(xué)習(xí)的方法來預(yù)測消費者是是否做出購買決策,并挑選出表現(xiàn)最優(yōu)的模型。實驗顯示隨機森林模型相對于支持向量機模型有更好的表現(xiàn)。第二節(jié)流失預(yù)測1.問題描述新的產(chǎn)品和銷售方式層出不窮,人們傾向于選擇更優(yōu)質(zhì)的或者新鮮的食物。但是對于企業(yè)來說,留住顧客變得越來越難,客戶流失已經(jīng)成為他們面臨的一個重要問題和挑戰(zhàn)。本案例聚焦于銀行業(yè)顧客流失現(xiàn)象,建立了三類模型預(yù)測客戶流失。2.數(shù)據(jù)理解(1)數(shù)據(jù)來源本案例所使用的數(shù)據(jù)集來源于一家大型中資銀行的真實客戶數(shù)據(jù)。本案例的數(shù)據(jù)集包括由27個特征描述的超過20,000個客戶的記錄。(2)數(shù)據(jù)描述在本案例中,從銀行的數(shù)據(jù)倉庫中提取的數(shù)據(jù)集主要可以分為三類:顧客基本信息,帳戶級別信息和客戶行為信息。3.數(shù)據(jù)預(yù)處理數(shù)據(jù)集進行清洗和篩選??紤]到數(shù)據(jù)原始樣本規(guī)模較大,對存在問題的數(shù)據(jù)記錄采用了刪除方式進行處理:(1)刪除與流失預(yù)測無關(guān)的特征,例如身份證號碼。(2)刪除缺失值超過30%的特征。經(jīng)過上述預(yù)處理,最后剩下15個特征。顧客基本信息包括年齡,教育程度,可支配收入的大小,就業(yè)類型,婚姻狀況,家庭人數(shù)和服務(wù)等級;帳戶級別類別包括帳戶類型,擔(dān)保類型,貸款期限,貸款數(shù)據(jù)和貸款金額;客戶行為類別包括帳戶狀態(tài),信用狀態(tài)以及協(xié)議條款被破壞的次數(shù)。本案例以賬戶狀態(tài)判斷客戶是否流失。4.模型建立經(jīng)過預(yù)處理,共有1524個樣本,其中50%用做訓(xùn)練集,50%做測試集。在此基礎(chǔ)上,使用決策樹模型、SVM模型和神經(jīng)網(wǎng)絡(luò)模型來預(yù)測用戶是否會流失。與前面的購買決策預(yù)測相類似,這也是一個二分類問題。5.模型評價在本案例中使用準確率來評估不同算法的表現(xiàn),支持向量機模型(SVM)、BP神經(jīng)網(wǎng)絡(luò)(BPNN)、決策樹模型(DT)這三種算法預(yù)測用戶流失的實驗結(jié)果見下表。結(jié)果表明,SVM的正確率和精確度最高,其次是ANN,而DT的兩個指標(biāo)最低。6.案例小結(jié)本案例從金融行業(yè)出發(fā),主要針對銀行用戶流失進行預(yù)測,基于客戶個人特征信息、行為信息以及賬戶信息,應(yīng)用機器學(xué)習(xí)算法來進行預(yù)測。結(jié)果顯示在三種算法中,SVM取得效果最好。本研究不僅限于銀行業(yè),流失問題也是其他行業(yè)非常關(guān)注的問題。第三節(jié)銷量預(yù)測銷量預(yù)測是商家經(jīng)營中的一個重要決策依據(jù)。為了更準確地預(yù)測出每個商品的銷售數(shù)量,商品評論是一個重要的因素。商品評論反應(yīng)的是商品在消費者中的口碑,顯然,某個商品在某段時間的好口碑是有助其銷售額增長的有利因素,因為評論能夠起到降低潛在消費者對商品的感知風(fēng)險,鼓勵其進行購買的作用。但商品的評論中除了評分數(shù)據(jù)外,還有大量評論文本數(shù)據(jù),如何才能從文本數(shù)據(jù)中挖掘出有效的信息?如何將這些信息融合上到商品銷量的預(yù)測中去?這是本案例所需要解決的重要問題。2.數(shù)據(jù)理解(1)數(shù)據(jù)來源本案例實驗數(shù)據(jù)是某電商平臺的圖書數(shù)據(jù)。(2)數(shù)據(jù)描述本案例實驗選取的是商城中圖書頻道的商品及商品評論。數(shù)據(jù)集主要包括兩部分,一部分是傳統(tǒng)的數(shù)值型指標(biāo),包括(I)歷史銷售量,歷史銷售量是銷量預(yù)測的重要指標(biāo)。(II)價格變動,價格是影響人們購買的重要因素。(III)促銷活動,分析研究期間商家有沒有舉辦促銷活動。另一部分是評論的文本數(shù)據(jù)。3.數(shù)據(jù)預(yù)處理:數(shù)據(jù)清洗(1)數(shù)據(jù)過濾在構(gòu)建模型前,本案例先對數(shù)據(jù)進行了過濾、刪除。(I)確認數(shù)據(jù)中是否存在數(shù)據(jù)錯誤、缺失等問題,例如銷售額不能為負值。(II)對銷售數(shù)據(jù)中出現(xiàn)的異常銷售額進行識別。(2)文本數(shù)據(jù)預(yù)處理(I)用戶的評論中存在廣告等與商品無關(guān)的信息,需要刪除。(II)對句子進行分詞、刪除停用詞、標(biāo)注詞性,只保留名詞、形容詞、副詞和動詞等處理。4.數(shù)據(jù)預(yù)處理:特征工程(1)銷量特征構(gòu)建基于已有的數(shù)據(jù),我們可以獲得每本圖書每天的日銷售數(shù)據(jù),為了預(yù)測每本圖書在第x天的銷售數(shù)據(jù),使用從x-7到x-1天的日銷售數(shù)據(jù)構(gòu)成一個長度為7的向量,作為近期銷售數(shù)據(jù)。定義價格變動特征和促銷活動特征的取值。(2)文本特征構(gòu)建使用LDA模型,得到每個評論的主題分布,即每篇評論的內(nèi)容傾向。5.模型建立(1)訓(xùn)練集與測試集訓(xùn)練集合文本數(shù)據(jù)是提前兩個月的產(chǎn)品評論,即如果預(yù)測5月1日的銷量,使用評論的發(fā)布日期是2月1號到4月30日,而當(dāng)預(yù)測5月2日時,需要重新訓(xùn)練LDA獲得主題分布數(shù)據(jù)。(2)使用神經(jīng)網(wǎng)絡(luò)進行擬合案例利用神經(jīng)網(wǎng)絡(luò)進行預(yù)測,為了驗證提出的預(yù)測方法的有效性與準確性,僅使用前一周的銷售量、價格變動和是否有促銷活動作為輸入的BPNN擬合結(jié)果作為基準模型,通過對比說明文本數(shù)據(jù)在銷量預(yù)測中發(fā)揮的作用。6.模型評價(1)評估標(biāo)準本案例使用平均絕對百分比誤差MAPE作為評估模型效果的依據(jù)。(2)模型表現(xiàn)在使用LDA模型獲取文本主題數(shù)據(jù)時,在得到訓(xùn)練集和測試集中的主題及其分布之后,輸入BPNN進行訓(xùn)練和測試。右上圖展示了預(yù)測結(jié)果。將文本主題個數(shù)逐漸從2增加到5,右下圖顯示了不同主題個數(shù)下預(yù)測結(jié)果的MAPE值。我們可以看到有兩個主題分布的輸入可以得到更準確的預(yù)測結(jié)果。6.模型評價(2)模型表現(xiàn)為了進一步比較不同主題個數(shù)下,加入文本因素后帶來的預(yù)測效果的變化,使用2、3、4和5個主題分布結(jié)合相應(yīng)的前一天銷售量進行預(yù)測,和基本的BPNN比較,結(jié)果如右圖所示??梢钥闯?,有兩個主題分布輸入的模型具有更低的MAPE,這表明,所提出的結(jié)合評論進行銷量預(yù)測的方法可以帶來更準確的預(yù)測效果。7.案例小結(jié)商品下的評論能夠幫助我們更準確地預(yù)測銷量。通過該案例的數(shù)據(jù)建模過程和建模結(jié)果,可以分析出兩條對企業(yè)運營有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度養(yǎng)老服務(wù)業(yè)委托貸款協(xié)議
- 自愿合伙經(jīng)營合同書(33篇)
- 2025屆柳州市高三語文下學(xué)期開學(xué)考試卷附答案解析
- 5萬噸年鋰電池物理法循環(huán)再生項目可行性研究報告模板-立項備案
- 2024-2025學(xué)年安徽省滁州市定遠英華中學(xué)高二上學(xué)期期中考試歷史試卷
- 2025年企業(yè)租賃辦公地點合同標(biāo)準格式
- 2025年移動支付行業(yè)策劃發(fā)展聯(lián)盟合作協(xié)議模板
- 2025年化妝專業(yè)學(xué)員培訓(xùn)協(xié)議
- 2025年腳踏自行車及其零件項目提案報告模板
- 2025年制造業(yè)轉(zhuǎn)讓合同范文
- 電流互感器試驗報告
- 蔣中一動態(tài)最優(yōu)化基礎(chǔ)
- 華中農(nóng)業(yè)大學(xué)全日制專業(yè)學(xué)位研究生實踐單位意見反饋表
- 付款申請英文模板
- 七年級英語閱讀理解10篇(附答案解析)
- 抖音來客本地生活服務(wù)酒旅商家代運營策劃方案
- 鉆芯法樁基檢測報告
- 無線網(wǎng)網(wǎng)絡(luò)安全應(yīng)急預(yù)案
- 國籍狀況聲明書【模板】
- 常用保潔綠化人員勞動合同范本5篇
- 新高考高一英語時文閱讀
評論
0/150
提交評論