數(shù)據(jù)挖掘的技術(shù)對(duì)電子商務(wù)平臺(tái)作用_第1頁(yè)
數(shù)據(jù)挖掘的技術(shù)對(duì)電子商務(wù)平臺(tái)作用_第2頁(yè)
數(shù)據(jù)挖掘的技術(shù)對(duì)電子商務(wù)平臺(tái)作用_第3頁(yè)
數(shù)據(jù)挖掘的技術(shù)對(duì)電子商務(wù)平臺(tái)作用_第4頁(yè)
數(shù)據(jù)挖掘的技術(shù)對(duì)電子商務(wù)平臺(tái)作用_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘技術(shù)對(duì)電子商務(wù)平臺(tái)的作用以京東為例的數(shù)據(jù)挖掘應(yīng)用分析作者:史俊禺班級(jí):12計(jì)1指導(dǎo)老師:鄭琪完成時(shí)間:2015.1.3第一章緒論1.1背景資料分析 31.2數(shù)據(jù)挖掘應(yīng)用對(duì)電子商務(wù)領(lǐng)域的意義 41.3數(shù)據(jù)挖掘過(guò)程 41.4數(shù)據(jù)挖掘主要方法 51.5數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu) 71.6數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用流程 8第二章以京東為例的數(shù)據(jù)挖掘應(yīng)用分析2.1數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用分析一一客戶(hù)獲得 92.11 客戶(hù)獲得的定義 92.12 數(shù)據(jù)挖掘可以對(duì)客戶(hù)獲得產(chǎn)生的作用 92.13客戶(hù)獲得的步驟 92.2數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用分析一一客戶(hù)流失預(yù)測(cè) 112.21客戶(hù)細(xì)分的定義 112.22客

2、戶(hù)流失預(yù)測(cè)步驟 132.3數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用分析一一客戶(hù)消費(fèi)特征 142.31客戶(hù)消費(fèi)特征定義及背景 142.32京東建立客戶(hù)消費(fèi)特征的過(guò)程 142.33 RSS技術(shù)在電子商務(wù)平臺(tái)的應(yīng)用 162.34建立客戶(hù)消費(fèi)特征之后可應(yīng)用的數(shù)據(jù)模塊 17結(jié)語(yǔ) 18摘要:在電子商務(wù)平臺(tái)日益發(fā)展的今天,數(shù)據(jù)分析作為一種科學(xué)的手 段,可以起到規(guī)范市場(chǎng)、節(jié)約成本、保護(hù)在線(xiàn)交易安全,而數(shù)據(jù)挖掘 這門(mén)技術(shù)可以從大量繁雜數(shù)據(jù)中提取有用的信息,并發(fā)現(xiàn)特定的規(guī) 律,為商家對(duì)客戶(hù)的需求信息和行為預(yù)測(cè)提供可能性。本篇報(bào)告是作者在對(duì)數(shù)據(jù)挖掘課本學(xué)習(xí)的前提下,以京東商城為例,從互聯(lián)網(wǎng)上搜集各類(lèi)數(shù)據(jù)并進(jìn)行分析,從客戶(hù)獲得、客

3、戶(hù)流失預(yù) 測(cè)、客戶(hù)消費(fèi)特征這三個(gè)方面進(jìn)行分析,最后歸納出數(shù)據(jù)挖掘在電子 商務(wù)應(yīng)用上的必然性和重要性。第一章緒論1.1背景資料分析電子商務(wù)是指?jìng)€(gè)人或企業(yè)通過(guò)In ter net網(wǎng)絡(luò),采用數(shù)字化電子 方式進(jìn)行商務(wù)數(shù)據(jù)交換和開(kāi)展商務(wù)業(yè)務(wù)活動(dòng)。電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信 息和知識(shí),為公司創(chuàng)造更多潛在的利潤(rùn)。數(shù)據(jù)挖掘(Data Mining),又稱(chēng)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),是 從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取隱含 在其中的、人們事先不知道的,但又是潛在有用的

4、信息和知識(shí)的過(guò)程。 數(shù)據(jù)挖掘涉及的科學(xué)領(lǐng)域和方法很多,其核心技術(shù)經(jīng)歷了數(shù)十年的發(fā) 展其中包括統(tǒng)計(jì),近鄰,聚類(lèi),決策樹(shù),神經(jīng)網(wǎng)絡(luò)和規(guī)則等1.2數(shù)據(jù)挖掘應(yīng)用對(duì)電子商務(wù)領(lǐng)域的意義數(shù)據(jù)挖掘有助于發(fā)現(xiàn)電子商務(wù)業(yè)務(wù)發(fā)展的趨勢(shì), 幫助電子商務(wù) 企業(yè)做出正確的決策,使企業(yè)處于更有利的競(jìng)爭(zhēng)位置。 商業(yè)電子化的 趨勢(shì)不僅為客戶(hù)提供了便利的交易方式和廣泛的選擇,同時(shí)也為商家提供了更加深入地了解客戶(hù)需求信息和購(gòu)物行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的重要應(yīng)用技術(shù)之一, 將為正確的商業(yè)決策提 供強(qiáng)有力的支持和可靠的保證,是電子商務(wù)不可缺少的重要工具。數(shù)據(jù)挖掘有助于客戶(hù)關(guān)系管理,特別是對(duì)電子商務(wù)客戶(hù)關(guān)系管 理起著決

5、定性的作用。數(shù)據(jù)挖掘主要是找尋隱藏在數(shù)據(jù)中的信息, 例 如發(fā)現(xiàn)趨勢(shì)、特征及相關(guān)性的過(guò)程,也就是從數(shù)據(jù)中發(fā)掘出信息或知 識(shí)。以此對(duì)客戶(hù)需求進(jìn)行深入分析以滿(mǎn)足企業(yè)對(duì)個(gè)體細(xì)分市場(chǎng)的客戶(hù) 關(guān)系管理需求。從發(fā)現(xiàn)客戶(hù)到客戶(hù)分類(lèi)再到客戶(hù)管理, 數(shù)據(jù)挖掘通過(guò) 各種針對(duì)性技術(shù)為企業(yè)客戶(hù)關(guān)系管理提供了強(qiáng)有力的保證。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于客戶(hù)關(guān)系管理,能夠幫助企業(yè)深入理解客戶(hù),得到更加 準(zhǔn)確的客戶(hù)模型,從而改進(jìn)營(yíng)銷(xiāo)決策和客戶(hù)服務(wù)。數(shù)據(jù)挖掘可以促進(jìn)電子商務(wù)平臺(tái)的發(fā)展,加強(qiáng)企業(yè)電子商務(wù) 平臺(tái)應(yīng)用的普及度。采用數(shù)據(jù)挖掘技術(shù)將電子商務(wù)中豐富的數(shù)據(jù)源信 息進(jìn)行有效組織利用對(duì)電子商務(wù)的具有巨大的應(yīng)用價(jià)值。同時(shí)數(shù)據(jù)挖掘?qū)τ陔娮由虅?wù)

6、平臺(tái)信息的挖掘分析可以幫助檢驗(yàn)電子商務(wù)平臺(tái)的 性能,促進(jìn)電子商務(wù)平臺(tái)的智能化,幫助企業(yè)打造更具可操作性及吸 引力的消費(fèi)平臺(tái),為消費(fèi)者提供更便利的消費(fèi)環(huán)境。數(shù)據(jù)挖掘有利于企業(yè)資源優(yōu)化,合理分配資源以實(shí)現(xiàn)資源價(jià)值 最大化。數(shù)據(jù)挖掘進(jìn)行有效的統(tǒng)計(jì)分析挖掘,可以指導(dǎo)營(yíng)銷(xiāo)的組織和 分配,讓企業(yè)在市場(chǎng)競(jìng)爭(zhēng)中處于有利位置搶占先機(jī)。 通過(guò)數(shù)據(jù)挖掘可 以發(fā)現(xiàn)消費(fèi)者的消費(fèi)特性,從而幫助制定個(gè)性化服務(wù),極大地吸引顧 客,既避免資源浪費(fèi),又為企業(yè)帶來(lái)巨大的價(jià)值。1.3數(shù)據(jù)挖掘過(guò)程挖掘數(shù)據(jù)過(guò)程可以分為3個(gè)步驟:數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式 分析。A. 數(shù)據(jù)預(yù)處理實(shí)際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性、 冗余性和模糊性。因此,

7、 數(shù)據(jù)挖掘一般不對(duì)原始數(shù)據(jù)進(jìn)行挖掘,要通過(guò)預(yù)處理提供準(zhǔn)確、簡(jiǎn)潔 的數(shù)據(jù)。預(yù)處理主要完成以下工作:包括合并數(shù)據(jù),將多個(gè)文件或多 個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行合并處理; 選擇數(shù)據(jù),提取出適合分析的數(shù)據(jù) 集合;數(shù)據(jù)清洗、過(guò)濾,易9除一些無(wú)關(guān)記錄,將文件、圖形、圖像及 多媒體等文件轉(zhuǎn)換成可便于數(shù)據(jù)挖掘的格式等。B. 模式發(fā)現(xiàn)模式發(fā)現(xiàn)階段就是利用挖掘算法挖掘出有效的、 新穎的、潛在的、 有用的以及最終可以理解的信息和知識(shí)。可用于Web的挖掘技術(shù)有路 徑選擇、關(guān)聯(lián)分析、分類(lèi)規(guī)則、聚類(lèi)分析、序列分析、依賴(lài)性建模等C.模式分析 模式分析是從模式發(fā)現(xiàn)階段獲得的模式、 規(guī)則中過(guò)濾掉不感興趣的規(guī) 則和模式。通過(guò)技術(shù)手段,對(duì)

8、得到的模式進(jìn)行數(shù)據(jù)分析,得出有意義 的結(jié)論。常用的技術(shù)手段有:關(guān)聯(lián)規(guī)則、分類(lèi)、聚類(lèi)、序列模式等。14數(shù)據(jù)挖掘主要方法a. 數(shù)據(jù)統(tǒng)計(jì)方法使用這些方法一般首先建立一個(gè)數(shù)據(jù)模型或統(tǒng)計(jì)模型,然后根據(jù) 這種模型提取有關(guān)的知識(shí)。例如,可由訓(xùn)練數(shù)據(jù)建立一個(gè) Bayesian 網(wǎng),然后,根據(jù)該網(wǎng)的一些參數(shù)及聯(lián)系權(quán)重提取出相關(guān)的知識(shí)。b. 關(guān)聯(lián)規(guī)則方法關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)之間存在關(guān)系的規(guī)則,形式為“A1 A A2 A ?An - B1 A B2 A ?Bn”。一般分為兩個(gè)步驟:第一步,求出大數(shù)據(jù) 項(xiàng)集。第二步,用大數(shù)據(jù)項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(kù)一組。 運(yùn)用關(guān)聯(lián)規(guī) 則的數(shù)據(jù)項(xiàng)往往存在某種潛在關(guān)聯(lián)關(guān)系的規(guī)則。一找出所有類(lèi)

9、似的關(guān)聯(lián)規(guī)則,對(duì)于企業(yè)確定生產(chǎn)銷(xiāo)售、產(chǎn)品分類(lèi)設(shè)計(jì)、市場(chǎng)分析等多方面 是有價(jià)值的。c. 人工神經(jīng)網(wǎng)絡(luò)方法人工神經(jīng)網(wǎng)絡(luò)是由大量的簡(jiǎn)單神經(jīng)元,通過(guò)極其豐富和完善的連 接而構(gòu)成的自適應(yīng)非線(xiàn)性動(dòng)態(tài)系統(tǒng),并具有分布存儲(chǔ)、聯(lián)想記憶、大 規(guī)模并行處理、自組織、自學(xué)習(xí)、自適應(yīng)等功能。人工神經(jīng)網(wǎng)絡(luò)是一 種有效地預(yù)測(cè)模型,在聚類(lèi)分析、奇異點(diǎn)分析、特征提取中可以得到。 通過(guò)模擬人的神經(jīng)元功能,經(jīng)過(guò)輸入層、隱藏層、輸出層等,對(duì)數(shù)據(jù) 進(jìn)行調(diào)整、計(jì)算,最后得到結(jié)果,用于分類(lèi)和回歸。d. 決策樹(shù)方法決策樹(shù)算法是目前應(yīng)用最廣泛的歸納推理算法之一,是一種逼近 離散值函數(shù)的方法。它是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,通常用來(lái)形 成分類(lèi)器

10、和預(yù)測(cè)模型,著眼于從一組無(wú)次序、無(wú)規(guī)則的事例中推理出 決策樹(shù)表示形成的分類(lèi)規(guī)則。它采用自頂向下的遞歸方式,在決策樹(shù)的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向 下的分支,最后在決策樹(shù)的葉結(jié)點(diǎn)得到結(jié)論。因此從根到葉結(jié)點(diǎn)的一 條路徑就對(duì)應(yīng)著一條合取規(guī)則,而整棵決策樹(shù)就對(duì)應(yīng)著一組析取表達(dá) 式規(guī)則。決策樹(shù)可能是現(xiàn)在最流行的有指導(dǎo)數(shù)據(jù)挖掘結(jié)構(gòu)。e. 聚類(lèi)方法聚類(lèi)分析是對(duì)群體及成員進(jìn)行分類(lèi)的遞歸過(guò)程。一個(gè)簇是一組數(shù)據(jù)對(duì)象的集合,在同一簇的對(duì)象彼此類(lèi)似,而不同簇中的對(duì)象彼此相 異。將一組物理或抽象對(duì)象分組成為由類(lèi)似對(duì)象組成的多個(gè)簇的過(guò)程 被稱(chēng)為聚類(lèi)。聚類(lèi)是將數(shù)據(jù)對(duì)象分組成為多個(gè)類(lèi)或簇,在同一個(gè)

11、簇中的對(duì)象具有較高的相似度,而不同簇中的對(duì)象差別較大。f. 可視化技術(shù)數(shù)據(jù)與結(jié)果被轉(zhuǎn)化和表達(dá)成可視化形式,如圖形、圖像等,使用 戶(hù)對(duì)數(shù)據(jù)的剖析更清楚。1.5數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu)(見(jiàn)下圖)用戶(hù)界面銷(xiāo)支f ffin 場(chǎng)策戶(hù)業(yè) 市決喀商 子務(wù)臺(tái) 電IW:平 一模 規(guī)式 則樓 圖型表識(shí) 知16數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用流程(見(jiàn)下圖)第二章以京東為例的數(shù)據(jù)挖掘應(yīng)用分析2.1數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用分析一一客戶(hù)獲得2.11客戶(hù)獲得的定義客戶(hù)獲得是指企業(yè)在吸引潛在客戶(hù)轉(zhuǎn)變?yōu)閷?shí)際購(gòu)買(mǎi)者這一過(guò)程中所運(yùn)用的策略和方法??蛻?hù)獲得的最佳值取決于企業(yè)保留客戶(hù)的能 力、客戶(hù)重復(fù)購(gòu)買(mǎi)的頻次以及與保留客戶(hù)相比獲得客戶(hù)的相對(duì)

12、機(jī)遇。2.12數(shù)據(jù)挖掘可以對(duì)客戶(hù)獲得產(chǎn)生的作用由于現(xiàn)代線(xiàn)上交易的特點(diǎn),即:客戶(hù)數(shù)量龐大,需求多種多樣,特征分類(lèi)較多,用傳統(tǒng)方式如問(wèn)卷調(diào)查等已經(jīng)不能全面科學(xué)的對(duì)客戶(hù) 獲得產(chǎn)生作用,而利用數(shù)據(jù)挖掘可以根據(jù)客戶(hù)的市場(chǎng)活動(dòng)數(shù)據(jù),在一定時(shí)間內(nèi)分析其歷史數(shù)據(jù),總結(jié)出一個(gè)預(yù)測(cè)模型,從而可以針對(duì)不同 的客戶(hù)、不同的需求提供個(gè)性化服務(wù)信息,如廣告投放、喜好預(yù)測(cè)等, 來(lái)鎖定重點(diǎn)客戶(hù),其中典型的方法有統(tǒng)計(jì)方法的貝葉斯分類(lèi)、機(jī)器學(xué)習(xí)的判定樹(shù)歸納分類(lèi)、神經(jīng)網(wǎng)絡(luò)的后向傳播分類(lèi)等。2.13客戶(hù)獲得的步驟1. 建立關(guān)系階段。是賣(mài)方確立客戶(hù),買(mǎi)賣(mài)雙方建立互信的階段, 買(mǎi)方對(duì)你的產(chǎn)品和服務(wù)并沒(méi)有真正的使用經(jīng)驗(yàn)。 這個(gè)階段是客戶(hù)營(yíng)

13、銷(xiāo) 中最為關(guān)鍵的,也是需要消耗最多資源的。以京東為例:截止今年4月份,京東商城已經(jīng)有4千萬(wàn)注冊(cè)用戶(hù),2014年3、4 月份訂單量達(dá)到每月40萬(wàn)?!緮?shù)據(jù)來(lái)源:驅(qū)動(dòng)之家http:/news.mydrivers.eom/1/225/225167.htm建立關(guān)系的方法如增加廣告投入、seo優(yōu)化、優(yōu)惠信息提示等2. 穩(wěn)定關(guān)系階段。與客戶(hù)關(guān)系進(jìn)入穩(wěn)定期以后,工作重點(diǎn)和關(guān)鍵 就發(fā)生了轉(zhuǎn)移,這個(gè)時(shí)候工作重點(diǎn)應(yīng)該放在防止意外情況發(fā)生和積極 進(jìn)行危機(jī)管理。進(jìn)入穩(wěn)定階段以后,溝通在客戶(hù)管理中起著非常重要 的作用。3. 加強(qiáng)關(guān)系階段。隨著買(mǎi)賣(mài)雙方信任和了解的加固, 賣(mài)方應(yīng)該對(duì) 自己滿(mǎn)足客戶(hù)的能力進(jìn)一步地加強(qiáng)和要求,

14、應(yīng)該更加深入分析客戶(hù)的 需求潛力。這也是增加銷(xiāo)售內(nèi)容和加固關(guān)系的最佳時(shí)期。在加強(qiáng)階段 要和客戶(hù)建立一個(gè)互利互惠的關(guān)系。以京東為例:會(huì)員劃分標(biāo)準(zhǔn)明細(xì)表等級(jí)注冊(cè)扶牌銅牌銀牌金牌鉆取鉆三鉆四帖五鉆申請(qǐng) 條件免費(fèi) 注冊(cè)100200050001 /J3萬(wàn)10萬(wàn)30萬(wàn)60 A100年內(nèi)完咸10亍以上不同日期的訂單保級(jí)條件1000以下10002500250050005000仁5萬(wàn)1.5萬(wàn)3萬(wàn)3萬(wàn)15萬(wàn)5萬(wàn)3Q萬(wàn)30萬(wàn)50/j50萬(wàn)以上注:K邯年消樹(shù)超過(guò)定額度,即可申請(qǐng)成為相應(yīng)等級(jí)的會(huì)員,2, 會(huì)員身份有效期為年,年期滿(mǎn)后,京東將根據(jù)客戶(hù)年內(nèi)消費(fèi)輒度重新確認(rèn) 會(huì)員等級(jí).3、京東的保級(jí)條件為 年內(nèi)完成10個(gè)以上

15、不同口期妁訂單,且達(dá)到拍應(yīng)的 消費(fèi)額*所墓求的消機(jī)額為申嗇條件的消費(fèi)額減半(3)商品評(píng)價(jià)使用商品評(píng)價(jià)功能.如評(píng)價(jià)有價(jià)值,將給弓相應(yīng)的積分獎(jiǎng)勵(lì)。項(xiàng)目產(chǎn)品價(jià)格銅牌及以下銀牌會(huì)員金牌會(huì)員.鉆會(huì)員雙鉆會(huì)員會(huì)場(chǎng)四鉆 會(huì)/五鉆 會(huì)員非圖祜評(píng)價(jià)送分規(guī)則10-200元610121416161616200-1000止10143040505050501000 元以上142440508080呂080商品評(píng)價(jià) 送分 規(guī)則10元3456888810-30 元5681012121212230元68101215151515注:圖片來(lái)源一客戶(hù)客戶(hù)關(guān)系的建立與維護(hù)(第 3版)同時(shí),京東還建立了積分制度,由購(gòu)買(mǎi)商品和評(píng)價(jià)商品獲得

16、,此處不再贅述規(guī)則。優(yōu)點(diǎn):層次清晰,關(guān)鍵客戶(hù)明確,會(huì)員制度提高客戶(hù)忠誠(chéng)度,積分制度的補(bǔ)充很充分。缺點(diǎn):等級(jí)劃分過(guò)多,會(huì)員的優(yōu)惠有水分無(wú)法刺激客戶(hù)的升級(jí)欲望,等級(jí)升級(jí)制度如五鉆過(guò)于苛刻2.2數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用分析一一客戶(hù)流失預(yù)測(cè)2.21 客戶(hù)流失定義及背景由于企業(yè)各種營(yíng)銷(xiāo)手段的實(shí)施而導(dǎo)致客戶(hù)和企業(yè)中止合作的現(xiàn)象就是客戶(hù)流失而在互聯(lián)網(wǎng)購(gòu)物高度發(fā)展的今天,流失率不再是購(gòu)物平臺(tái)生存的決定性因素,而如何使用獨(dú)特的銷(xiāo)售手段和對(duì)客戶(hù)購(gòu)買(mǎi)行為的分析以及訪(fǎng)問(wèn)量和站內(nèi)搜索量保持并增加客戶(hù)數(shù)量成為各大購(gòu)物平臺(tái)競(jìng)爭(zhēng)的主要目標(biāo)傳統(tǒng)的客戶(hù)流失預(yù)測(cè)采用時(shí)間閾值法和 RFM法,但效果不佳, 自1994年David C

17、 Schmittlein等人提出的SMC模型,可以科學(xué)的 預(yù)測(cè)客戶(hù)流失問(wèn)題,這是首個(gè)真正意義上的客戶(hù)行為預(yù)測(cè)模型。而在數(shù)據(jù)挖掘技術(shù)中對(duì)客戶(hù)行為的預(yù)測(cè), 多采用回歸分析、決策樹(shù)和神經(jīng) 網(wǎng)絡(luò)。近兩年,SVM,貝葉斯網(wǎng)絡(luò),粗糙集等也被用于客戶(hù)流失預(yù) 測(cè)建模。本段著重介紹最常規(guī)的兩種方法:決策樹(shù)和貝葉斯分類(lèi)。 決策樹(shù)決策樹(shù)是一種流行的分類(lèi)算法,具有學(xué)習(xí)快速塊、分類(lèi)準(zhǔn)確率 高、分類(lèi)結(jié)果表現(xiàn)直觀等特點(diǎn)。決策樹(shù)的構(gòu)造包括兩個(gè)階段:通過(guò)訓(xùn) 練集生成決策樹(shù);對(duì)生成的決策樹(shù)進(jìn)行剪枝。應(yīng)用決策樹(shù)對(duì)新樣本進(jìn) 行分類(lèi)時(shí),從樹(shù)根節(jié)點(diǎn)開(kāi)始對(duì)樣本進(jìn)行測(cè)試,根據(jù)測(cè)試結(jié)果確定下一 個(gè)節(jié)點(diǎn),直至到達(dá)也節(jié)點(diǎn),葉節(jié)點(diǎn)所屬類(lèi)別就是新節(jié)點(diǎn)

18、的預(yù)測(cè)類(lèi)別。 決策樹(shù)算法有ID3,C4.5,C5.0,CART等。由于基于C4.5算法的決策樹(shù)有良好的性能并且能夠自動(dòng)產(chǎn)生分類(lèi) 規(guī)則,應(yīng)用C4.5算法對(duì)保險(xiǎn)客戶(hù)基本信息進(jìn)行了分類(lèi),分析出了客 戶(hù)流失的特征,通過(guò)此模型,保險(xiǎn)公司提高了客戶(hù)挽留率。Kitayama 通過(guò)基于決策樹(shù)的方法對(duì)客戶(hù)檔案進(jìn)行了分類(lèi),首先把客戶(hù)群體劃分為首選客戶(hù)(Preferred customers)和一般客戶(hù),首選客戶(hù)指那些對(duì)公 司最有價(jià)值的客戶(hù),接著應(yīng)用決策樹(shù)根據(jù)客戶(hù)特征分類(lèi),識(shí)別高價(jià)值 客戶(hù),以達(dá)到挽留高價(jià)值客戶(hù)的目的。為了克服決策樹(shù)固有的缺點(diǎn), 提高客戶(hù)流失預(yù)測(cè)模型的精確度和可解釋性,結(jié)合了AD Tree模型 與L

19、ogistic回歸方程的優(yōu)點(diǎn),提出了 TreeLogit模型。貝葉斯分類(lèi)法貝葉斯分類(lèi)是一種典型的統(tǒng)計(jì)學(xué)分類(lèi)方法,用于預(yù)測(cè)樣本屬于特定類(lèi)的概率,主要分為樸素貝葉斯(Na?ve Bayes)分類(lèi)和貝葉斯網(wǎng)絡(luò) (Bayes network)。樸素貝葉斯是機(jī)器學(xué)習(xí)中常用的概率統(tǒng)計(jì)方法, 基本思想是基于概率論的貝葉斯公式和簡(jiǎn)化假設(shè),根據(jù)屬性和類(lèi)別的聯(lián)合概率來(lái)估計(jì)新樣本的基本類(lèi)別。應(yīng)用樸素貝葉斯提的前提條件是 類(lèi)條件獨(dú)立,而貝葉斯網(wǎng)絡(luò)則用于非獨(dú)立的聯(lián)合條件的概率分布,訓(xùn)練后的貝葉斯網(wǎng)絡(luò)可以用于分類(lèi)??蛻?hù)流失預(yù)測(cè)技術(shù)的對(duì)比研究表明,樸素貝葉斯的預(yù)測(cè)效果可以 與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)相媲美。首先對(duì)引起電商客戶(hù)流失的

20、客戶(hù)心理、 服務(wù)質(zhì)量等因素進(jìn)行分析,確定先驗(yàn)知識(shí),根據(jù)先驗(yàn)知識(shí)選取特征和 訓(xùn)練樣本,通過(guò)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí),建立客戶(hù)流失模型,通過(guò)實(shí)驗(yàn)證明了貝葉斯網(wǎng)絡(luò)是分析客戶(hù)流失等不確定性問(wèn)題的有 效工具。2.22 客戶(hù)流失預(yù)測(cè)步驟以京東為例的電商平臺(tái)統(tǒng)計(jì)并預(yù)測(cè)客戶(hù)流失量時(shí),需要使用的數(shù)據(jù)屬性太過(guò)復(fù)雜,所以一般情況下專(zhuān)業(yè)人員首先需要對(duì)數(shù)據(jù)進(jìn)行采 集,來(lái)源即是客戶(hù)的搜索信息、購(gòu)買(mǎi)信息、基本資料,客服回執(zhí)等。 在京東客戶(hù)的歷史行為中,隱含了大量與流失相關(guān)的行為模式,數(shù)據(jù)必須圍繞市場(chǎng)分析得到的與相關(guān)的信息來(lái)組建。專(zhuān)業(yè)人員從數(shù)據(jù)庫(kù)中抽取基本客戶(hù)群、客戶(hù)的繳費(fèi)資料、客戶(hù)基本資料、客戶(hù)投訴資料、 客戶(hù)帳單、

21、客戶(hù)消費(fèi)習(xí)慣等信息形成信息表,然后根據(jù)用戶(hù)號(hào)和帳務(wù) 年月進(jìn)行連接,即為原始數(shù)據(jù)。同時(shí)在原始數(shù)據(jù)的基礎(chǔ)上,根據(jù)業(yè)務(wù) 專(zhuān)家的意見(jiàn),進(jìn)一步衍生有可能與流失相關(guān)的屬性。在一般的流失預(yù)測(cè)中,多采用分類(lèi)建模和聚類(lèi)建模的方法進(jìn)行數(shù) 據(jù)的歸納和模型的優(yōu)化。建立分類(lèi)預(yù)測(cè)模型2.3數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用分析一一客戶(hù)消費(fèi)特征2.31客戶(hù)消費(fèi)特征定義及背景一定的客戶(hù)群體在某一消費(fèi)行為上有相似性或可聚性,便由單獨(dú) 的消費(fèi)行為變?yōu)橐环N群體消費(fèi)特征。從電子商務(wù)應(yīng)用的角度講,數(shù)據(jù) 挖掘技術(shù)可以提取客戶(hù)消費(fèi)特征,并以數(shù)據(jù)研究為前提對(duì)客戶(hù)的消費(fèi) 行為分析,得出客戶(hù)的消費(fèi)習(xí)慣、消費(fèi)能力、心理特征,從而對(duì)客戶(hù) 進(jìn)行分群,做到精準(zhǔn)

22、廣告投放、vip客戶(hù)重點(diǎn)關(guān)注等。2.32京東建立客戶(hù)消費(fèi)特征的過(guò)程首先進(jìn)行數(shù)據(jù)收集:網(wǎng)絡(luò)日志數(shù)據(jù)(訪(fǎng)問(wèn)數(shù)據(jù))、用戶(hù)行為數(shù)據(jù)(收藏、購(gòu)買(mǎi)、瀏覽等)、網(wǎng)站交易數(shù)據(jù)。初步建立用戶(hù)畫(huà)像,如圖(數(shù)據(jù)來(lái)源:199IT網(wǎng)站)行為建模方法有文/archives/281800.html 本挖掘、自然語(yǔ)言處理。機(jī)器學(xué)習(xí)、貝葉斯算法、聚類(lèi)算法等根據(jù)數(shù)據(jù)建模進(jìn)行用戶(hù)分群,界定不同消費(fèi)特征的人群,如圖(數(shù) 據(jù)來(lái)源:199IT 網(wǎng)站 /archives/281800.html2.33 RSS技術(shù)在電子商務(wù)平臺(tái)的應(yīng)用經(jīng)過(guò)對(duì)客戶(hù)消費(fèi)特征的分析之后。京

23、東網(wǎng)等電商平臺(tái)就可以運(yùn)用最新的RSS技術(shù)構(gòu)建個(gè)性化服務(wù)。RSS的英文全稱(chēng)是“ RichSiteSu-mmary ” 豐富站點(diǎn)摘要)或者是 RDFSiteSummary (RDF 站點(diǎn)摘要)。京東可以根據(jù)客戶(hù)的喜好建立不同格式的頻道,由客戶(hù) 根據(jù)自己的需求定制頻道??蛻?hù)根據(jù)自己的需求對(duì)接收的所有頻道進(jìn) 行定制,挑選出對(duì)自己有用的頻道。定制完成后,當(dāng)客戶(hù)再次進(jìn)入該網(wǎng) 站時(shí)就會(huì)只顯示其定制的頻道。通過(guò)定制,客戶(hù)就擁有一個(gè)完全屬于 自己的個(gè)性化網(wǎng)站。RSS具有及時(shí)、全面、有序、高效等特點(diǎn),能及時(shí)傳遞客戶(hù)需要 的最新信息;全面報(bào)道客戶(hù)感興趣的網(wǎng)站內(nèi)容;能夠按照內(nèi)容的重要 性進(jìn)行排序,并且將最新和最重要的

24、內(nèi)容置于頂端;客戶(hù)可以根據(jù)自 己的興趣對(duì)商品進(jìn)行定制,并且能夠隨時(shí)掌握最新的標(biāo)價(jià)等信息。打 開(kāi)京東的首頁(yè),可以發(fā)現(xiàn)幾乎所有種類(lèi)的商品都已打包成相應(yīng)的 “RSS 頻道”,向客戶(hù)的個(gè)人主頁(yè)定期發(fā)送。通過(guò)RSS這個(gè)新渠道,京東有新 商品上市、新促銷(xiāo)信息時(shí),都能快速地將這些信息傳送給其客戶(hù),不僅 給客戶(hù)提供了方便,而且大大提高了這些信息的普及率、針對(duì)性和實(shí) 效性。2.34 建立客戶(hù)消費(fèi)特征之后可應(yīng)用的數(shù)據(jù)模塊問(wèn)題分析模塊:分析客戶(hù)信息,根據(jù)客戶(hù)特點(diǎn)將用戶(hù)進(jìn)行分類(lèi),實(shí)現(xiàn)客戶(hù)信息庫(kù)記錄的建立、更新及客戶(hù)信息的獲取。同時(shí)還為客戶(hù) 興趣模型的建立提供客戶(hù)基本信息。1.用戶(hù)接口模塊:客戶(hù)和系統(tǒng)進(jìn)行交互的接口,其可以接受客戶(hù)注冊(cè) 及其請(qǐng)求信息、反饋信息,在這個(gè)過(guò)程中可以學(xué)習(xí)并記錄客戶(hù)的興趣 和習(xí)慣。同時(shí),該模塊還負(fù)責(zé)將最終結(jié)果輸出給對(duì)應(yīng)客戶(hù)及獲取本地 客戶(hù)信息庫(kù)的內(nèi)容。2信息收集模塊:根據(jù)客戶(hù)需求,主動(dòng)跟蹤本地信息庫(kù)和網(wǎng)絡(luò)相關(guān)信 息,收集客戶(hù)所需信息。3.客戶(hù)興趣模型

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論