版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
連鎖便利商店資料探勘之研究
本研究出處Marketbasketanalysisinamultiplestoreenvironment,DecisionSupportSystems,Vol.40,No.2,pp.339-354.(SCI)DataMining定義數(shù)據(jù)挖掘定義 就是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí),將隱含的、先前并不知道的、潛在有用的信息從數(shù)據(jù)庫(kù)中粹取出來(lái)的過(guò)程DataMining為何興起?商品條形碼之廣泛使用企業(yè)界之計(jì)算機(jī)化數(shù)以百萬(wàn)計(jì)之?dāng)?shù)據(jù)庫(kù)正在使用多年來(lái)累積了大量企業(yè)事務(wù)數(shù)據(jù)
Data Knowledge
主要功用從數(shù)據(jù)庫(kù)中挖掘知識(shí)了解使用者行為幫助企業(yè)作決策增進(jìn)商機(jī)KnowledgeDiscoveryinDatabases(KDD)Datamining:thecoreofKDDprocess.DataCleaningDataIntegrationDatabasesDataWarehouseKnowledgeTask-relevantDataSelectionDataMiningPatternEvaluation發(fā)票的數(shù)據(jù)內(nèi)容時(shí)間店號(hào)購(gòu)買(mǎi)商品購(gòu)買(mǎi)數(shù)量?jī)r(jià)格總價(jià)關(guān)聯(lián)規(guī)則Itemset:商品集合Largeitemset(frequentitemset):經(jīng)常被一齊購(gòu)買(mǎi)的商品集合Minimumsupport最小支持度門(mén)坎Minimumconfidence最小信心門(mén)坎Associationrule關(guān)聯(lián)規(guī)則:顧客若買(mǎi)了X之后,很有可能會(huì)再買(mǎi)Y從Largeitemset我們可以推出關(guān)聯(lián)規(guī)則Ex:minsup=20%sup{1}=6/10=60%sup{1,2}=4/10=40%sup{1,2,3}=2/10=20%以上是largeitemsetsup{3,5}=1/10=10%sup{1,3,5}=1/10=10%以上不是largeitemsetTIDItems1011,2,51022,41032,31041,2,41051,31062,31071,31081,2,3,51091,2,31103,4產(chǎn)生關(guān)聯(lián)規(guī)則:minconf=50%{1}{2}規(guī)則成立
sup(1)=60%,sup(1,2)=40%,conf:67.7%{1}{2,3}規(guī)則不成立
sup(1)=60%,sup(1,2,3)=20%,conf:33.3%{1,2}3規(guī)則成立
sup(1,2)=40%,sup(1,2,3)=20%,conf:50%研究主題加入購(gòu)買(mǎi)數(shù)量的考慮加入時(shí)間地點(diǎn)考慮加入價(jià)格的考慮加入時(shí)間及地點(diǎn)考慮傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘方式只局限于單一店面沒(méi)有考慮每個(gè)產(chǎn)品可能有不同的上架期間以零售業(yè)來(lái)說(shuō),有能力導(dǎo)入資料挖掘的企業(yè)大多具有多家連鎖店,故傳統(tǒng)關(guān)聯(lián)規(guī)則方法并不適用傳統(tǒng)關(guān)聯(lián)規(guī)則只能提供單店的信息假設(shè)50家商店,每家店平均交易筆數(shù)為1000筆商品A只在其中5家商店販賣(mài),共銷(xiāo)售2000筆傳統(tǒng)方式算出之support:2000/50000=0.04但實(shí)際上的support值應(yīng)為:2000/5000=0.4以醫(yī)院附近的店為例研究目的以時(shí)間和地點(diǎn)為限制條件的關(guān)聯(lián)規(guī)則挖掘不同商品計(jì)算support值時(shí),必須以其上架時(shí)間及地點(diǎn)的交易筆數(shù)為基底新挖掘方式能夠因應(yīng)市場(chǎng)競(jìng)爭(zhēng)及顧客需求,找出何地點(diǎn)的商店最適合在哪個(gè)時(shí)段販賣(mài)何種商品在中午時(shí)段辦公大樓附近的便利商店,購(gòu)買(mǎi)便當(dāng)?shù)念櫩屯瑫r(shí)也會(huì)購(gòu)買(mǎi)飲料環(huán)境假設(shè)一連鎖系列商店,共有n個(gè)店面每個(gè)店面可以因應(yīng)其特殊的環(huán)境而銷(xiāo)售不同的商品為了因應(yīng)市場(chǎng)的變化,不斷的調(diào)整銷(xiāo)售商品之組合每個(gè)商品品項(xiàng)有不同的銷(xiāo)售時(shí)間及不同的銷(xiāo)售店面,甚至在不同的店面其銷(xiāo)售期間也都不同TidTimeItems10T1AE60T1BCF110T2ABE120T2BC250T3AC260T3CDF330T4ACDE340T4ABEH440T5ADH480T5CDEFTidTimeItems20T1ABH70T1B90T1EH160T2H180T2ABH190T2ABH270T3ACF320T4CDEFG430T5DG490T5CDEF商店P(guān)1商店P(guān)2事務(wù)數(shù)據(jù)庫(kù)TimeStoreT1T2T3T4T5T6P1111000P2011100P3111110P4001110P5011100P6111100T1T2T3T4T5T6111111110000000111110001011111000011Item1Item2TimeStoreT1T2T3T4T5T6P1111000P2010000P3000110P4000000P5011100P6000000Items{1,2}T1T2T3T4T5T6P1451216901265P2324230643432P3213243341021P443418704359P5934212394723P623235422356|dVx|=45+12+16+42+34+10+42+12+39=252TimeStoreT1T2T3T4T5T6P1111000P2010000P3000110P4000000P5011100P6000000Items{1,2}真實(shí)支持度在有效基準(zhǔn)Vx為基底所計(jì)算出x之a(chǎn)ctualsupport值,以a-sup(x,dVx)來(lái)表示計(jì)算方式為a-sup(x,dVx)=|W(x,dVx)|/|dVx|以有效基準(zhǔn)Vx
y為基底所計(jì)算出x之a(chǎn)ctualsupport值,以a-sup(x,dVx
y)來(lái)表示,公式為a-sup(x,dVx
y)=|W(x,dVx
y)|/|dVx
y|真實(shí)支持度:范例|dVx|=252假設(shè)|W(x,dVx)|
=100a-sup(x,dVx)=100/252T1T2T3T4T5T6P1451216901265P2324230643432P3213243341021P443418704359P5934212394723P623235422356規(guī)則信賴(lài)度時(shí)間地點(diǎn)關(guān)聯(lián)規(guī)則的信賴(lài)度(confidencevalue),conf(x
y),代表規(guī)則的預(yù)測(cè)強(qiáng)度,公式為
a-sup(x
y,dVx
y)/a-sup(x,dVx
y)說(shuō)明:即在X和Y都上架販賣(mài)的情形下,當(dāng)賣(mài)出X時(shí),會(huì)有多少比例也會(huì)賣(mài)出Y時(shí)間地點(diǎn)關(guān)聯(lián)規(guī)則給定一個(gè)confidencethreshold
[0,1],若conf(x
y)
的話(huà),則我們稱(chēng)x
y為時(shí)間地點(diǎn)關(guān)聯(lián)規(guī)則,也就是該規(guī)則符合minimalconfidence時(shí)間地點(diǎn)關(guān)聯(lián)規(guī)則包含如下x
ya-sup(x
y,dVx
y)conf(x
y)有效基準(zhǔn)Vxy的時(shí)間地點(diǎn)集合Support錯(cuò)誤率利用傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘方式及多商店下的關(guān)聯(lián)規(guī)則方式,比較每一FrequentItemset的support值差異ex.傳統(tǒng)方式globalsupport=40%
多商店下actualsupport=60%
該FrequentItemset錯(cuò)誤率20%/60%=33.3%規(guī)則數(shù)錯(cuò)誤率算出多商店下關(guān)聯(lián)規(guī)則能夠比傳統(tǒng)方式多找出的規(guī)則數(shù)占多商店下關(guān)聯(lián)規(guī)則數(shù)的比率傳統(tǒng)方式的TypeCErrorex.傳統(tǒng)方式規(guī)則數(shù)250
多商店下規(guī)則數(shù)300
傳統(tǒng)方式的錯(cuò)誤率50/300=16.67%250300多商店下的關(guān)聯(lián)規(guī)則數(shù)傳統(tǒng)方式的規(guī)則數(shù)評(píng)量觀點(diǎn)DataSetNumberofstoresNumberofperiodsRangeofstoresizesProductReplacementRate123510505105050-10050-10050-1000.0010.0010.00145650505050505010-10050-10090-1000.0010.0010.00178950505050505050-10050-10050-1000.0010.0050.010Support誤差vs商店時(shí)間數(shù)Support錯(cuò)誤率規(guī)則數(shù)誤差vs
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 屋面防水課件教學(xué)課件
- 2024年度大數(shù)據(jù)中心建設(shè)與運(yùn)維合同
- 2024年度供應(yīng)鏈管理與融資合同
- 2024年度CRM系統(tǒng)升級(jí)合同:增強(qiáng)銷(xiāo)售合同管理功能
- 2024年度5G基站建設(shè)施工合同
- 2024年建筑工程環(huán)保分包合同
- 2024上海市室內(nèi)裝修合同協(xié)議書(shū)范本
- 2024年度企業(yè)合規(guī)性檢查與咨詢(xún)服務(wù)合同
- 2024年夫妻財(cái)產(chǎn)清算協(xié)議
- 2024天然氣管網(wǎng)運(yùn)營(yíng)管理合同
- 三年級(jí)數(shù)學(xué)上冊(cè)蘇教版《認(rèn)識(shí)長(zhǎng)方形正方形》教學(xué)設(shè)計(jì)及活動(dòng)單(市級(jí)公開(kāi)課)
- 老年友善醫(yī)療機(jī)構(gòu)建設(shè)項(xiàng)目報(bào)價(jià)函
- 針織學(xué)試題庫(kù)
- 天大物化第六版答案pdf
- 破窗效應(yīng)(課堂PPT)課件
- 質(zhì)量通?。?07頁(yè))ppt課件
- 《頸椎病病人的護(hù)理》PPT課件(完整版)
- 兩票三制培訓(xùn).
- 醫(yī)院藥品儲(chǔ)備定期評(píng)價(jià)分析報(bào)告及改進(jìn)措施
- 教練技術(shù)一階段講義
- 廣州供電局輸電部高壓電纜運(yùn)行工作介紹
評(píng)論
0/150
提交評(píng)論