




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 學(xué)士學(xué)位論文題目:數(shù)據(jù)挖掘技術(shù)及其在電子商務(wù)中的應(yīng)用指導(dǎo)教師: 系 別:北京大學(xué)信息管理系 專 業(yè):信息管理與信息系統(tǒng) 學(xué) 號(hào): 2013000001 學(xué)生姓名: 2012年10月北京大學(xué)信息管理系大專起點(diǎn)本科函授學(xué)生畢業(yè)論文函授站 北京 年級(jí) 2010級(jí) 姓名 學(xué)號(hào) 2013000001 題 目: 數(shù)據(jù)挖掘技術(shù)及其在電子商務(wù)中的應(yīng)用 指導(dǎo)教師評(píng)語:初評(píng)成績(jī)(百分制):指導(dǎo)教師(簽名) 指導(dǎo)教師工作單位 職 稱 年 月 日摘 要介紹數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘方法。如何使用數(shù)據(jù)挖掘技術(shù)分析電子商務(wù)活動(dòng)中的客戶訪問行為,購買行為以及客戶的性別、年齡等特征,從而調(diào)整電子商務(wù)網(wǎng)站的站點(diǎn)結(jié)構(gòu),廣告宣傳,商
2、品推薦,客戶引導(dǎo)以及商品的規(guī)劃等。使電子商務(wù)活動(dòng)更具有針對(duì)性,用戶體驗(yàn)更加人性化,以及為電商企業(yè)決策提供數(shù)據(jù)支持。關(guān)鍵詞數(shù)據(jù)挖掘 數(shù)據(jù)倉庫 電子商務(wù) 信息處理 預(yù)測(cè)目錄 TOC o 1-3 h z u HYPERLINK l _Toc338604206 第一章 引言 PAGEREF _Toc338604206 h 5 HYPERLINK l _Toc338604207 第二章 數(shù)據(jù)挖掘技術(shù)概述 PAGEREF _Toc338604207 h 6 HYPERLINK l _Toc338604208 2.1 數(shù)據(jù)挖掘定義 PAGEREF _Toc338604208 h 6 HYPERLINK l
3、_Toc338604209 2.2 數(shù)據(jù)挖掘類型 PAGEREF _Toc338604209 h 7 HYPERLINK l _Toc338604210 2.2.1分類 PAGEREF _Toc338604210 h 7 HYPERLINK l _Toc338604211 2.2.2估計(jì) PAGEREF _Toc338604211 h 7 HYPERLINK l _Toc338604212 2.2.3預(yù)測(cè) PAGEREF _Toc338604212 h 7 HYPERLINK l _Toc338604213 2.2.4相似分組或市場(chǎng)籃分析 PAGEREF _Toc338604213 h 8 H
4、YPERLINK l _Toc338604214 2.2.5聚集 PAGEREF _Toc338604214 h 8 HYPERLINK l _Toc338604215 2.3 數(shù)據(jù)挖掘過程 PAGEREF _Toc338604215 h 8 HYPERLINK l _Toc338604216 2.3.1確定業(yè)務(wù)對(duì)象 PAGEREF _Toc338604216 h 8 HYPERLINK l _Toc338604217 2.3.2數(shù)據(jù)準(zhǔn)備 PAGEREF _Toc338604217 h 9 HYPERLINK l _Toc338604218 2.3.3數(shù)據(jù)挖掘 PAGEREF _Toc3386
5、04218 h 9 HYPERLINK l _Toc338604219 2.3.4分析和同化 PAGEREF _Toc338604219 h 9 HYPERLINK l _Toc338604220 2.4 數(shù)據(jù)挖掘的常用方法 PAGEREF _Toc338604220 h 10 HYPERLINK l _Toc338604221 2.4.1市場(chǎng)籃分析(Market Basket Analysis) PAGEREF _Toc338604221 h 10 HYPERLINK l _Toc338604222 2.4.2基于記憶推理(Memory-Based Reason-ing, MBR) PAGE
6、REF _Toc338604222 h 10 HYPERLINK l _Toc338604223 2.4.3聚集分析(Cluster Detection) PAGEREF _Toc338604223 h 10 HYPERLINK l _Toc338604224 2.4.4鏈路分析(Link Analysis) PAGEREF _Toc338604224 h 10 HYPERLINK l _Toc338604225 2.4.5決策樹(Decision Tree) PAGEREF _Toc338604225 h 10 HYPERLINK l _Toc338604226 2.4.6神經(jīng)網(wǎng)絡(luò)(Neut
7、ral Network) PAGEREF _Toc338604226 h 11 HYPERLINK l _Toc338604227 2.4.7遺傳算法(Genetic Algorithms) PAGEREF _Toc338604227 h 11 HYPERLINK l _Toc338604228 2.4.8Rough集(Rough Set) PAGEREF _Toc338604228 h 11 HYPERLINK l _Toc338604229 第三章 電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用 PAGEREF _Toc338604229 h 11 HYPERLINK l _Toc338604230 3.1
8、 電子商務(wù)簡(jiǎn)介 PAGEREF _Toc338604230 h 11 HYPERLINK l _Toc338604231 3.2 挖掘客戶的購買行為 PAGEREF _Toc338604231 h 12 HYPERLINK l _Toc338604232 3.3 分析客戶對(duì)站點(diǎn)的訪問行為 PAGEREF _Toc338604232 h 13 HYPERLINK l _Toc338604233 3.4 從歷史銷售數(shù)據(jù)中挖掘交易規(guī)律 PAGEREF _Toc338604233 h 14 HYPERLINK l _Toc338604234 3.5 定位客戶的網(wǎng)絡(luò)性別 PAGEREF _Toc3386
9、04234 h 15 HYPERLINK l _Toc338604235 3.6 路徑分析 PAGEREF _Toc338604235 h 16 HYPERLINK l _Toc338604236 3.7 關(guān)聯(lián)分析方法的運(yùn)用 PAGEREF _Toc338604236 h 16 HYPERLINK l _Toc338604237 第四章 結(jié)束語 PAGEREF _Toc338604237 h 18 HYPERLINK l _Toc338604238 參考文獻(xiàn) PAGEREF _Toc338604238 h 20第一章 引言目前互聯(lián)網(wǎng)電子商務(wù)行業(yè)猶如雨后春筍遍地開花,如淘寶、京東、當(dāng)當(dāng)、凡客、蘇
10、寧易購、庫巴購物網(wǎng)、拍拍網(wǎng)等。眾多的電商在互聯(lián)網(wǎng)中活躍著,其中有綜合性的電商網(wǎng)站,如淘寶、京東、當(dāng)當(dāng)?shù)取R灿袑iT性從事某一類商品的電商活動(dòng)的網(wǎng)站,如麥包包專門進(jìn)行箱包類的電商活動(dòng),聚美優(yōu)品則專門進(jìn)行化妝品類商品的網(wǎng)上交易。 2012-2016年中國電子商務(wù)行業(yè)投資價(jià)值分析及深度研究咨詢報(bào)告 中國行業(yè)研究網(wǎng)() 報(bào)告編號(hào):937696電子商務(wù)推動(dòng)生產(chǎn)生活方式的發(fā)展,已經(jīng)滲透到各個(gè)行業(yè)和領(lǐng)域,對(duì)拉動(dòng)經(jīng)濟(jì)增長(zhǎng)、促進(jìn)轉(zhuǎn)變有著重要作用。電子商務(wù)服務(wù)業(yè)正在成為現(xiàn)代服務(wù)業(yè)一個(gè)核心產(chǎn)業(yè)。截至2011年底,中國網(wǎng)民規(guī)模突破5億關(guān)口,達(dá)5.13億人。中國網(wǎng)絡(luò)購物用戶規(guī)模達(dá)1.94億人,同比增長(zhǎng)20.8%,網(wǎng)購使用
11、率37.8%,未來網(wǎng)絡(luò)購物用戶規(guī)模將持續(xù)增長(zhǎng)。網(wǎng)絡(luò)購物用戶對(duì)于網(wǎng)絡(luò)購物的依賴性較高,大部分網(wǎng)絡(luò)購物用戶瀏覽網(wǎng)購網(wǎng)站的頻率較高。其中,超過四成網(wǎng)購消費(fèi)者每天瀏覽網(wǎng)購網(wǎng)站一次以上,近六成用戶每天都要進(jìn)行網(wǎng)購網(wǎng)站的瀏覽。而對(duì)于絕大多數(shù)(接近95%)的網(wǎng)購用戶來講,每周至少瀏覽一次網(wǎng)購網(wǎng)站。2011年中國電子商務(wù)交易總額為5.8萬億元,同比增長(zhǎng)29.2%,其中網(wǎng)絡(luò)購物交易規(guī)模突破7825億元,占社會(huì)消費(fèi)品零售總額比重達(dá)到4.3%。其中,B2B領(lǐng)域,無論是中小企業(yè)、還是規(guī)模較大企業(yè)均加大了網(wǎng)絡(luò)渠道的應(yīng)用,通過互聯(lián)網(wǎng)促成交易的達(dá)成。得益于網(wǎng)購的蓬勃發(fā)展,物流業(yè)市場(chǎng)得到井噴式發(fā)展,年均增長(zhǎng)率達(dá)27.23%。
12、2011年底,中國電子商務(wù)服務(wù)企業(yè)突破15萬家,中國網(wǎng)上零售市場(chǎng)成交值達(dá)230億美金,已僅次于美國位列第二,隨著基礎(chǔ)建設(shè)和網(wǎng)上貿(mào)易的發(fā)展,預(yù)計(jì)未來3年內(nèi),中國電子商務(wù)交易額將保持年均29%以上的增長(zhǎng)速度。到2015年我國網(wǎng)絡(luò)消費(fèi)用戶數(shù)量將激增至3.29億人。網(wǎng)絡(luò)消費(fèi)支出有望使中國電子商務(wù)市場(chǎng)的規(guī)模超過美國,達(dá)12萬億元人民幣以上,成為全球第一大電子商務(wù)市場(chǎng)。不管是綜合性還是專業(yè)性的電商網(wǎng)站,都存在著非常大的競(jìng)爭(zhēng),比如前不久的京東和蘇寧、國美的價(jià)格大戰(zhàn),不僅考驗(yàn)著電商們系統(tǒng)的壓力,也考驗(yàn)了他們的數(shù)據(jù)分析處理能力。同時(shí)各大電商企業(yè)基本都擁有大量的用戶,如何去分析他們的用戶的訪問習(xí)慣,購買行為,以及
13、分析競(jìng)爭(zhēng)對(duì)手的相關(guān)數(shù)據(jù)從而調(diào)整電子商務(wù)網(wǎng)站的站點(diǎn)結(jié)構(gòu),廣告宣傳,商品推薦,客戶引導(dǎo)以及商品的規(guī)劃、潛在用戶的挖掘等。使電子商務(wù)活動(dòng)更具有針對(duì)性,用戶體驗(yàn)更加人性化,提高自己的競(jìng)爭(zhēng)力。在這樣的大數(shù)據(jù)環(huán)境下我們就需要用到數(shù)據(jù)挖掘技術(shù)來幫助企業(yè)進(jìn)行數(shù)據(jù)的分析。數(shù)據(jù)挖掘(Data Mining)是從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程。這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等,可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為。第二章 數(shù)據(jù)挖掘技術(shù)概述2.1數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘之所以引起信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以
14、廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛地用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索。所以,數(shù)據(jù)挖掘是信息技術(shù)自然演化的結(jié)果,因而是重要的。那么什么是數(shù)據(jù)挖掘呢?數(shù)據(jù)挖掘開山鼻祖Usama Fayyad 烏薩馬本法耶茲博士是美國人工智能協(xié)會(huì)(AAAI),ACM(美國計(jì)算機(jī)協(xié)會(huì))院士,研究員. 在加入雅虎之前,法耶茲共同創(chuàng)立和領(lǐng)導(dǎo)的DMX集團(tuán)的數(shù)據(jù)挖掘和數(shù)據(jù)戰(zhàn)略.: 數(shù)據(jù)挖掘是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在的,以及最終可理解的模式的非平凡過程 U.M Fayyad etc Advances in Knowledge Disco
15、very and Data Mining AAAl/The MIT Press 1996。Zekulin: 數(shù)據(jù)挖掘是一個(gè)從大型數(shù)據(jù)庫中提取以前未知的、可理解的、可執(zhí)行的信息,并用它來進(jìn)行關(guān)鍵的商業(yè)決策的過程。Ferruzza: 數(shù)據(jù)挖掘是用在知識(shí)發(fā)現(xiàn)過程,來辨識(shí)存在于數(shù)據(jù)中的未知關(guān)系和模式的一些方法。John: 數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過程。Parsaye: 數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個(gè)決策支持過程。數(shù)據(jù)挖掘的定義各一,但他們都有一個(gè)中心的思想就是數(shù)據(jù)的提取和分析,那我們可以從技術(shù)的角度來給數(shù)據(jù)挖掘下一個(gè)定義 數(shù)據(jù)挖掘概念與技術(shù)(原書第2版).(加)韓家煒,
16、堪博著,范明,孟小峰譯.機(jī)械工業(yè)出版社:數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱藏在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。2.2數(shù)據(jù)挖掘類型2.2.1分類這是最常見的數(shù)據(jù)挖掘類型,其中數(shù)據(jù)的目標(biāo)數(shù)據(jù)項(xiàng)表示數(shù)據(jù)所代表的對(duì)象的類型。例如在醫(yī)學(xué)應(yīng)用中,對(duì)象可分為有病和沒病兩類;在金融應(yīng)用中,對(duì)象可分為低風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)兩類。分類數(shù)據(jù)挖掘先從一個(gè)已分類的數(shù)據(jù)集(訓(xùn)練集)得到一個(gè)模型,這個(gè)模型就包含了從該訓(xùn)練集中得到的知識(shí)。然后應(yīng)用這個(gè)模型(知識(shí))對(duì)新的未分類的數(shù)據(jù)進(jìn)行分類。2.2.2估計(jì)這是一種與分類相類似的類型。分類的目標(biāo)數(shù)據(jù)項(xiàng)是離散化的,而估
17、計(jì)的目標(biāo)數(shù)據(jù)項(xiàng)是連續(xù)的。2.2.3預(yù)測(cè)通過分析代表對(duì)象過去和現(xiàn)在行為的數(shù)據(jù)來預(yù)測(cè)對(duì)象未來的行為。這實(shí)際上是一種特殊的分類或估計(jì),其目標(biāo)數(shù)據(jù)項(xiàng)就是要預(yù)測(cè)的值。2.2.4相似分組或市場(chǎng)籃分析確定哪些對(duì)象會(huì)集中在一起,典型的應(yīng)用是確定在超級(jí)市場(chǎng)中顧客會(huì)將哪些商品放在一個(gè)購物車或購物籃中,即他們會(huì)同時(shí)購買那些商品。2.2.5聚集將一組對(duì)象分為幾部分,每一部分稱為一個(gè)簇,簇中的對(duì)象具有類似的特點(diǎn)。聚集分析通常是其他數(shù)據(jù)挖掘方法的前一步驟。2.3數(shù)據(jù)挖掘過程圖1 數(shù)據(jù)挖掘基本過程2.3.1確定業(yè)務(wù)對(duì)象清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問題應(yīng)
18、是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。2.3.2數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。取得數(shù)據(jù)源。數(shù)據(jù)挖掘最理想的數(shù)據(jù)源是數(shù)據(jù)倉庫 Harjinder S Gill.數(shù)據(jù)倉庫客戶/方服務(wù)器計(jì)算指南.北京:清華大學(xué)出版社,1998。數(shù)據(jù)倉庫由來自多個(gè)數(shù)據(jù)庫的數(shù)據(jù)組成,并消除它們之間的不一致。如數(shù)據(jù)倉庫不可得,則要從各個(gè)數(shù)據(jù)庫中取得數(shù)據(jù)。數(shù)據(jù)挖掘有時(shí)還需要對(duì)原有數(shù)據(jù)庫進(jìn)改造以得到可用的數(shù)據(jù)源,例如延長(zhǎng)歷史數(shù)據(jù)的保留期。數(shù)據(jù)的預(yù)處理:研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型。包括消除
19、來自不同數(shù)據(jù)庫甚至不同類型計(jì)算機(jī)數(shù)據(jù)表示的不一致,在數(shù)據(jù)中加入新的數(shù)據(jù)項(xiàng)(例如對(duì)原有數(shù)據(jù)項(xiàng)進(jìn)行有意義的數(shù)學(xué)計(jì)算而得到新的數(shù)據(jù)項(xiàng))以發(fā)現(xiàn)更多的規(guī)律,將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集等方面。數(shù)據(jù)的轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對(duì)挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。2.3.3數(shù)據(jù)挖掘?qū)λ玫降慕?jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善和選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。2.3.4分析和同化結(jié)論分析:解釋并評(píng)估結(jié)果,其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。知識(shí)的同化:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。2.4數(shù)
20、據(jù)挖掘的常用方法呂曉玲、謝邦昌編著. 數(shù)據(jù)挖掘方法與應(yīng)用.中國人民大學(xué)出版社,2009-1-12.4.1市場(chǎng)籃分析(Market Basket Analysis)找到在一次交易或活動(dòng)中會(huì)同時(shí)出現(xiàn)的對(duì)象,由此得到的模型將給出一組對(duì)象同時(shí)出現(xiàn)的可能性。其具體方法是計(jì)算訓(xùn)練集中各種對(duì)象組合出現(xiàn)的概率,當(dāng)概率超過一定的閾值時(shí),可以認(rèn)為該對(duì)象組合代表了會(huì)同時(shí)出現(xiàn)的對(duì)象。2.4.2基于記憶推理(Memory-Based Reason-ing, MBR)這種方法用已知對(duì)象的特征(記憶)來估計(jì)未知對(duì)象的特征。MBR在已知對(duì)象集合中尋找與未知對(duì)象最接近的對(duì)象,然后將這些對(duì)象特征組合起來估計(jì)未知對(duì)象的特征。MBR
21、的關(guān)鍵在于正確定義用來尋找最接近對(duì)象的距離函數(shù)和組合對(duì)象特征的組合函數(shù)。2.4.3聚集分析(Cluster Detection)通過對(duì)數(shù)據(jù)的分析將一個(gè)數(shù)據(jù)集分為幾個(gè)特征相同的簇,即把特征相同的數(shù)據(jù)聚集在一起。2.4.4鏈路分析(Link Analysis)它用來分析對(duì)象之間的關(guān)系。具體方法是將對(duì)象(數(shù)據(jù))看成是圖的節(jié)點(diǎn),它們之間存在的關(guān)系看成是圖的邊(鏈路),然后用圖論的方法進(jìn)行分析。2.4.5決策樹(Decision Tree)它將訓(xùn)練集中數(shù)據(jù)分為不相交的子集,每個(gè)子集可由一定的規(guī)則來描述。此規(guī)則在邏輯上具有層次結(jié)構(gòu),因此可用樹型數(shù)據(jù)結(jié)構(gòu)來表示,樹上的每個(gè)節(jié)點(diǎn)代表一條規(guī)則。2.4.6神經(jīng)網(wǎng)絡(luò)
22、(Neutral Network)這是最常見的一種數(shù)據(jù)挖掘方法。它是在計(jì)算機(jī)上模擬神經(jīng)元及其連接的方法。神經(jīng)網(wǎng)絡(luò)實(shí)際上完成從已知數(shù)據(jù)項(xiàng)到目標(biāo)數(shù)據(jù)項(xiàng)的一種復(fù)雜的非線性映射,它獲取的知識(shí)就存在于網(wǎng)絡(luò)結(jié)構(gòu)中。神經(jīng)網(wǎng)絡(luò)主要用來進(jìn)行分類、估計(jì)和預(yù)測(cè)等有向數(shù)據(jù)挖掘,也可用于聚集等無向數(shù)據(jù)挖掘。2.4.7遺傳算法(Genetic Algorithms)它是一種應(yīng)用遺傳學(xué)原理和自然選擇機(jī)制來搜索最優(yōu)解的方法。在數(shù)據(jù)挖掘中,它用來尋找實(shí)現(xiàn)分類、估計(jì)和預(yù)測(cè)功能的最優(yōu)參數(shù)集。這種方法先產(chǎn)生一組解法,然后用重組、突變和選擇等進(jìn)化過程來得到下一代解法。隨著進(jìn)化過程的繼續(xù),較差解法被拋棄,從而逐步得到最優(yōu)解法。2.4.8
23、Rough集(Rough Set)它所使用的數(shù)據(jù)結(jié)構(gòu)是決策表,決策表中的每一項(xiàng)數(shù)據(jù)由條件屬性和決策屬性構(gòu)成,其目的是通過簡(jiǎn)化決策表即去掉某些條件屬性來確定條件屬性和決策屬性的映射關(guān)系,最終得到一組用條件屬性來表示決策屬性的規(guī)則。這種方法用Rough集理論中一些概念和方法來考察決策表中條件屬性的重要性,以確定那些屬性是可以去掉的,那些屬性是要保留的。第三章 電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用3.1電子商務(wù)簡(jiǎn)介電子商務(wù)周曙東.電子商務(wù)概論.南京:東南大學(xué)出版社,2011-7-1是指?jìng)€(gè)人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動(dòng).目前國內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)
24、交換、網(wǎng)上訂購,網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)有以下優(yōu)勢(shì):服務(wù)不受時(shí)間限制,給客戶帶來了極大方便.客戶可以足不出戶、一天二十四小時(shí)地進(jìn)行各種信息查詢、商品查詢、即時(shí)購物等活動(dòng)全球性資源共享.Internet上的信息容量無比巨大,任何人都可以從中受益突破了地域的限制,可以直接與全市、全國、甚至全世界的客戶打交道大大降低了商家的經(jīng)營成本.商家不再需要真正的店鋪,而且可以直接進(jìn)貨、減少倉儲(chǔ),加快資金周轉(zhuǎn),可節(jié)省大量的人力、物力和財(cái)力商家可以更方便、更直接、更系統(tǒng)地接受客戶反饋,有利于商家做好售后服務(wù)和市場(chǎng)調(diào)查由于絕大部分信息可以在網(wǎng)上實(shí)時(shí)地發(fā)送,故可以大大降低廣告費(fèi)用和信息
25、發(fā)布費(fèi)用,且能增加時(shí)效性Internet數(shù)字化、主動(dòng)式、交互性的特點(diǎn)是電話、傳真、電視、報(bào)紙等傳統(tǒng)媒介不能替代、無可比擬的節(jié)省購物空間.因?yàn)榫W(wǎng)上購物均為無店鋪直銷形式,廠家可直接與消費(fèi)者掛鉤,并通過信息反饋及時(shí)調(diào)整產(chǎn)品供求關(guān)系,買主感覺商店就在身邊,廠家可以避免盲目生產(chǎn)造成的積壓.3.2挖掘客戶的購買行為客戶購買行為的分析是線下銷售和在線電子商務(wù)活動(dòng)中最基礎(chǔ)最常用的數(shù)據(jù)挖掘行為。經(jīng)典的啤酒和尿布案例就是通過分析客戶的購買行為發(fā)現(xiàn)在外國的超市里男人去買尿布的同時(shí)也買走了啤酒,從而決定將尿布和啤酒的擺放位置調(diào)整得更合理,促進(jìn)超市里啤酒的銷量,同時(shí)也省去了尋找啤酒和尿布的時(shí)間,縮短了每客戶購物的時(shí)間
26、,進(jìn)而提高銷售業(yè)績(jī)。這是線下超市的一個(gè)經(jīng)典案例,在電子商務(wù)活動(dòng)中也同樣適用。我們可以從網(wǎng)站的數(shù)據(jù)庫中記錄的客戶的購買記錄,可以是一次交易,也可以是一段時(shí)間內(nèi)的交易記錄,去分析客戶在交易中所購買的商品。找出商品與商品之間的聯(lián)系,商品與客戶行為的聯(lián)系,從而調(diào)整電子商務(wù)網(wǎng)站的商品推薦策略、購買建議等。為客戶縮短搜索商品的時(shí)間,簡(jiǎn)化操作,增強(qiáng)用戶的購買體驗(yàn)。2012年4月由IT168和盛拓傳媒主辦的2012數(shù)據(jù)庫技術(shù)大會(huì)上有一場(chǎng)是關(guān)于數(shù)據(jù)挖掘技術(shù)的,他們邀請(qǐng)到了淘寶的數(shù)據(jù)挖掘工程師來進(jìn)行分享。會(huì)上淘寶的工程師分享了這么一個(gè)案例,他們分析了每年的情人節(jié)、七夕、圣誕節(jié)這三個(gè)節(jié)日淘寶上商品的銷售情況。發(fā)現(xiàn)在
27、這三個(gè)節(jié)日,淘寶用戶基本會(huì)購買鮮花和巧克力等商品。這也不奇怪,通常情況下在這些節(jié)日都是男女互贈(zèng)禮物以示愛意,鮮花和巧克力銷量大增也是正常。但是過了大概半月到一月的時(shí)間,他們又對(duì)這些在節(jié)日購買了鮮花和巧克力的客戶進(jìn)行了一次購買行為的分析,分析發(fā)現(xiàn),這部分客戶在購買了鮮花或巧克力后的一周到一個(gè)月間大部分的客戶都購買了另一種商品,那就是安全套。而后又分析了每月的安全套交易量,對(duì)比了情人節(jié)、七夕、圣誕三個(gè)節(jié)日所在的月和其它月份安全套的交易量。最后得出一個(gè)結(jié)論,客戶在重要的節(jié)日購買鮮花和巧克力后的一周到一個(gè)月時(shí)間內(nèi)很大概率會(huì)購買計(jì)生用品。根據(jù)此項(xiàng)分析結(jié)論淘寶可以在客戶將鮮花或巧克力放入購物車后推薦客戶購
28、買計(jì)生用品,如:xxx客戶您好,80%購買鮮花和巧克力的客戶還購買了以下商品。把計(jì)生用品為客戶做一個(gè)列表展示。合理的商品推薦策略、購買建議可以縮短客戶搜索商品的時(shí)間、簡(jiǎn)化客戶的購買操作、同時(shí)也增強(qiáng)了客戶的購買體驗(yàn)。從而縮短每客戶的購物時(shí)間,提高每次交易的商品數(shù)量和交易金額,使電子商務(wù)活動(dòng)更高效。3.3分析客戶對(duì)站點(diǎn)的訪問行為電子商務(wù)是通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動(dòng)。這種活動(dòng)都需要基于電子商務(wù)站點(diǎn)進(jìn)行,站點(diǎn)內(nèi)的訪問行為體現(xiàn)的是客戶的購買意向,和感興趣的商品,以及對(duì)站點(diǎn)功能使用的熟練程度,如站點(diǎn)的搜索、物品分類等??蛻魧?duì)某個(gè)站點(diǎn)的訪問方式體現(xiàn)的是個(gè)人
29、的上網(wǎng)習(xí)慣、對(duì)網(wǎng)絡(luò)的使用頻度、對(duì)電子商務(wù)(網(wǎng)上交易)的認(rèn)知程度等。打仗時(shí)知己知彼方能百戰(zhàn)不殆,電子商務(wù)活動(dòng)雖不是打仗,但是越多的了解你的客戶客戶群,掌握他們的習(xí)慣和愛好對(duì)開展電子商務(wù)活動(dòng)絕對(duì)是至關(guān)重要的,可以更好的去留住客戶和發(fā)展新的客戶,對(duì)提高企業(yè)的競(jìng)爭(zhēng)力非常的重要。使用數(shù)據(jù)挖掘技術(shù)對(duì)客戶的站點(diǎn)訪問行為數(shù)據(jù)進(jìn)行分析從而對(duì)客戶更深入的了解,制定合適的導(dǎo)航信息、站點(diǎn)內(nèi)部的分類、站點(diǎn)的便捷功能、站點(diǎn)的廣告推廣等??蛻魧?duì)站點(diǎn)的訪問行為分析分兩類進(jìn)行,一類是分析客戶在站點(diǎn)內(nèi)部的訪問行為記錄。如,客戶首先進(jìn)入主站點(diǎn),而后統(tǒng)計(jì)出進(jìn)入主站點(diǎn)后訪問最多的前三個(gè)或五個(gè)頁面,找到這些頁面后分析這些頁面,找出頁面的
30、特性,分析客戶從主站點(diǎn)直接進(jìn)入該頁面的目的。例如,可以發(fā)現(xiàn),有大部分客戶進(jìn)入主站點(diǎn)后進(jìn)入搜索頁面或者是商品分類頁面,而不是直接進(jìn)入商品的詳細(xì)頁面。這說明,大部分客戶非常明白自己要購買什么商品,目的明確,不是閑逛的,進(jìn)入主站后直接搜索或進(jìn)入所需要的商品的類目進(jìn)行查找。據(jù)此再對(duì)此類客戶的購買記錄進(jìn)行分析,看看他們是不是找到了自己需要的商品,并進(jìn)行了購買活動(dòng)。如果客戶進(jìn)行了搜索查找,而成交量卻比較的低,說明存在問題。是客戶找到了商品沒有進(jìn)行購買還是客戶根本就沒有搜索到相關(guān)的商品,此時(shí)就需要去核實(shí)一下站點(diǎn)的搜索功能是否可用、實(shí)用、好用,分類是否合理、便捷等從而對(duì)站點(diǎn)進(jìn)行相關(guān)的優(yōu)化,提高性能和體驗(yàn),使客
31、戶在本站點(diǎn)購物簡(jiǎn)單愉快。第二類是分析客戶對(duì)站點(diǎn)的訪問方式,如直接輸入站點(diǎn)地址進(jìn)行訪問的客戶則可能是經(jīng)常光顧本站,有一定網(wǎng)購經(jīng)驗(yàn),對(duì)網(wǎng)絡(luò)比較熟悉甚至依賴。對(duì)這類客戶不需要太多的引導(dǎo)和推廣,因?yàn)樗麄円呀?jīng)是老手了。比如還有的是通過百度搜索或者其他的網(wǎng)站鏈接進(jìn)入到站點(diǎn)的,那可以推斷這些客戶并不經(jīng)常在網(wǎng)絡(luò)上活動(dòng),甚至他們需要間接的通過其他站點(diǎn)來訪問我們的電子商務(wù)網(wǎng)站,對(duì)這類客戶就需要有一定的引導(dǎo),比如提示他們將我們的站點(diǎn)收藏到IE收藏夾,或者引導(dǎo)他們?nèi)绾斡涀』蛉绾沃苯釉L問到我們的站點(diǎn)。3.4從歷史銷售數(shù)據(jù)中挖掘交易規(guī)律數(shù)據(jù)挖掘基本過程的第一項(xiàng)就是確定業(yè)務(wù)對(duì)象,也就是說我們進(jìn)行數(shù)據(jù)挖掘的目標(biāo),數(shù)據(jù)挖掘只作
32、為一種技術(shù),通過此項(xiàng)技術(shù)來實(shí)現(xiàn)或者是驗(yàn)證我們一開始設(shè)定的目標(biāo)。簡(jiǎn)單的說就是在進(jìn)行數(shù)據(jù)挖掘前我們先要有一個(gè)猜想,猜想會(huì)有什么樣的規(guī)律或者情況,而后通過數(shù)據(jù)挖掘相關(guān)技術(shù)去驗(yàn)證。電子商務(wù)活動(dòng)中產(chǎn)生的大量的交易數(shù)據(jù)是一類非常有挖掘價(jià)值的數(shù)據(jù),關(guān)鍵在于從什么角度去挖掘,確定什么樣的目標(biāo)。比如可以利用商品的歷史銷售數(shù)據(jù)從時(shí)間(天)、成交量?jī)蓚€(gè)維度進(jìn)行數(shù)據(jù)挖掘分析得出某類商品是否存在交易的規(guī)律。淘寶的數(shù)據(jù)分析師們也做過這樣的猜測(cè)和分析,他們?cè)诒姸嗟慕灰追治鲋邪l(fā)現(xiàn)有一種商品每個(gè)月月初的時(shí)候交易明顯比平常高出好幾倍,是什么呢?手機(jī)充值卡,它的交易是有規(guī)律的,因?yàn)橐苿?dòng)運(yùn)營商一般會(huì)在月初進(jìn)行費(fèi)用結(jié)算,很多人也就在這
33、時(shí)候需要進(jìn)充值。找到商品的交易規(guī)律則可以事先做好庫存的準(zhǔn)備,避免脫銷的現(xiàn)象,就能抓住時(shí)機(jī),達(dá)成最有效的交易。3.5定位客戶的網(wǎng)絡(luò)性別電子商務(wù)活動(dòng)中一般都需要客戶在網(wǎng)站進(jìn)行注冊(cè)填寫相關(guān)個(gè)人信息而后才可以進(jìn)行正常的電子商務(wù)活動(dòng)??蛻舻膫€(gè)人信息必須是要保密的不可以隨意的泄露,所以在利用和分析此類信息的時(shí)候需要更多的考慮客戶的信息安全和隱私。其實(shí)單從客戶注冊(cè)信息中的性別去判斷或分類客戶是不太準(zhǔn)確的,為什么這么說呢?例如,我們可以做這樣一個(gè)分析,調(diào)取網(wǎng)站注冊(cè)信息為男性的客戶的交易記錄進(jìn)行分析,看看這些所謂的男性客戶都買過什么樣的商品,有多少百分比的商品是男性用品。分析大概可以得出結(jié)論是男性注冊(cè)用戶其實(shí)有
34、50%左右在購買女性商品,這其實(shí)是一個(gè)普遍的現(xiàn)象,男士在網(wǎng)上購物大多數(shù)情況下其實(shí)不是為自己在消費(fèi),更多的是在替女性進(jìn)行消費(fèi),從整個(gè)電子商務(wù)行業(yè)的調(diào)查來看女性消費(fèi)主體也是大于男性消費(fèi)的,如果我們單純的以用戶的注冊(cè)性別來進(jìn)行男女顧客的分類然后進(jìn)行相關(guān)的營銷廣告、商品的推薦策略制定的話那效果是不那么準(zhǔn)確和明顯的。更應(yīng)該結(jié)合客戶的購買記錄進(jìn)行商品的性別分析,從而分析得出客戶在電子商務(wù)活動(dòng)中,在網(wǎng)絡(luò)中的性別。3.6路徑分析鄒顯春、謝中、周彥暉.電子商務(wù)與Web數(shù)據(jù)挖掘.重慶:西南師范大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院400715路徑分析可以被用于判定在一個(gè)Web站點(diǎn)中最頻繁訪問的路徑。還有一些其他的有關(guān)路徑的信息
35、通過路徑分析可以得出:70%的用戶端在訪問/company/product2時(shí),是從/company開始,經(jīng)過/company/new, /company/products,/company/product1。80%的訪問這個(gè)站點(diǎn)的客戶是從/company/products開始的。65%的客戶在瀏覽4個(gè)或更少的頁面后就離開了。第一條規(guī)則在/company/product2頁面上有有用的信息,但因?yàn)榭蛻魧?duì)站點(diǎn)進(jìn)行的是迂回繞行的訪問,所以這個(gè)有用信息并不明顯。第二條規(guī)則說明了客戶對(duì)站點(diǎn)的訪問一般不是從主頁開始的,而是從/company/products開始的,如果在這個(gè)頁面上包含一些產(chǎn)品的目錄類型
36、的信息,將是一個(gè)不錯(cuò)的主意。第三條規(guī)則說明了客戶在網(wǎng)站上駐留的時(shí)間。既然客戶在這個(gè)網(wǎng)站上瀏覽一般不超過4個(gè)頁面,就可以把重要的商品信息放在這些頁面中。通過路徑分析,可以改進(jìn)頁面及網(wǎng)站結(jié)構(gòu)的設(shè)計(jì)。3.7關(guān)聯(lián)分析方法的運(yùn)用關(guān)聯(lián)分析可形式化地描述為:設(shè)I= i1,i2,im是m個(gè)不同項(xiàng)目的集合,D是針對(duì)I上的事件的集合,D中每一項(xiàng)事件包含若干項(xiàng)目I,且I I。則關(guān)聯(lián)規(guī)則表示為X Y,其中X,Y I,并且XY=。X稱作規(guī)則的前提,Y是結(jié)果。針對(duì)每一條規(guī)則應(yīng)同時(shí)計(jì)算最小支持度和最小置信度,得出的最小支持度和最小置信度必須同時(shí)大于用戶給出的最小支持度和最小置信度閥值,這條規(guī)則才被認(rèn)為有參考的價(jià)值,并被列入
37、分析的結(jié)果。定義1:對(duì)于D I,X是包含于D的事件子集,則子集X在集合D上的最小支持度為:support(X)=S(X)/S(D),其中S(X)表示包含項(xiàng)目X的事件個(gè)數(shù),S(D)表示事件D的個(gè)數(shù)。定義2:X Y的最小置信度為:confidence(X Y)=S(XY)/S(X),其中S(XY)表示同時(shí)包含項(xiàng)目X和Y的事件個(gè)數(shù)。關(guān)聯(lián)分析就是要分析I上的事件集合D,針對(duì)D中的每一個(gè)項(xiàng)目X,計(jì)算最小支持度,對(duì)那些大于用戶給出的最小支持度閥值的X,進(jìn)而計(jì)算其與另一個(gè)項(xiàng)目Y的最小置信度,若得到值大于用戶給出的最小置信度閥值,則認(rèn)為規(guī)則X Y成立,也即斷言項(xiàng)目X、Y在一定程度上發(fā)生關(guān)聯(lián)。下面結(jié)合顧客購買實(shí)
38、例提出一個(gè)可行的關(guān)聯(lián)分析方法。某公司專業(yè)生產(chǎn)化妝用品和沐浴用品,該公司在全國各大城市的各大商場(chǎng)都設(shè)點(diǎn)銷售,公司對(duì)一定時(shí)間范圍內(nèi)顧客購買詳細(xì)情況作了收集,情況如表1所示(限于篇幅,僅列出6個(gè)顧客、5種產(chǎn)品為例)。表1顧客購買情況表錢鋒,徐麟文.數(shù)據(jù)挖掘及在營銷中的應(yīng)用.杭州電子工業(yè)學(xué)院管理分院,2001-08針對(duì)表1進(jìn)行關(guān)聯(lián)分析,首先構(gòu)造兩種商品間的關(guān)聯(lián)表,如表2所示,表中每一個(gè)數(shù)值表示的是行、列代表的兩種商品同時(shí)被一個(gè)用戶購買的次數(shù)。表2兩種商品間關(guān)聯(lián)表第二步,針對(duì)設(shè)定的最小支持度閥值,計(jì)算每一個(gè)X的最小支持度,將大于最小支持度閥值的X列出(本例,設(shè)最小支持度閥值為0.5):support(洗面奶)=0.6; support(晚霜)=0.6; support(洗發(fā)水)=0.8; support(沐浴乳)=0.6.第三步,針對(duì)設(shè)定的最小置信度閥值和上步列出的X,計(jì)算的最小置信度表,如表3所示:表3X Y的最小置信度表第四步,將大于最小置信度閥值的列出(本例,設(shè)最小置信度閥值為0.5),即為關(guān)聯(lián)分析所得出的規(guī)則:Rule1:晚霜 洗面奶,sup
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 倉儲(chǔ)管理員勞動(dòng)合同7篇
- 2025年全球版權(quán)授權(quán)合同示范文本
- 2025年融資租賃合同協(xié)議書范例
- 2025年醫(yī)療工作者雇傭合同樣本
- 2025年產(chǎn)品獨(dú)家銷售策劃授權(quán)合同范本
- 消防設(shè)計(jì)審核合同6篇
- 2025年企業(yè)數(shù)據(jù)中心光纖布線項(xiàng)目合同范本
- 不銹鋼加工合同
- 2025年典型建筑設(shè)計(jì)合同格式
- 正規(guī)融資租賃合同8篇
- CBZ125-1998-潛艇船體結(jié)構(gòu)焊接質(zhì)量檢驗(yàn)規(guī)則
- 2024年河南省信陽市浉河區(qū)二模語文試卷
- 代理商區(qū)域保護(hù)協(xié)議書范本
- 2024年包頭鋼鐵職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫及答案解析
- 2024年南京鐵道職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫及答案解析
- 英語定位紙模板
- 中外政治思想史-形成性測(cè)試四-國開(HB)-參考資料
- 小學(xué)語文中高年級(jí)單元整體教學(xué)設(shè)計(jì)的實(shí)踐研究(中期報(bào)告)
- 國家安全教育國土安全
- 機(jī)電系統(tǒng)綜合調(diào)試方案
- 《合理調(diào)節(jié)情緒-做自己情緒的主人》班會(huì)課件
評(píng)論
0/150
提交評(píng)論