數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設(shè)計報告書_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設(shè)計報告書_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設(shè)計報告書_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設(shè)計報告書_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程設(shè)計報告書_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

目錄TOC\o"1-5"\h\z\o"CurrentDocument"1.緒論 2\o"CurrentDocument"1.1項目背景 2\o"CurrentDocument"1.2提出問題 2\o"CurrentDocument"2數(shù)據(jù)庫倉庫與數(shù)據(jù)集的概念介紹 2\o"CurrentDocument"2.1數(shù)據(jù)倉庫 2\o"CurrentDocument"2.2數(shù)據(jù)集 2\o"CurrentDocument"3數(shù)據(jù)倉庫 33.1數(shù)據(jù)倉庫的設(shè)計 33.1.1數(shù)據(jù)倉庫的概念模型設(shè)計 33.1.2數(shù)據(jù)倉庫的邏輯模型設(shè)計 3\o"CurrentDocument"3.2數(shù)據(jù)倉庫的建立 33.2.1數(shù)據(jù)倉庫數(shù)據(jù)集 3\o"CurrentDocument"3.2.2建立維表 4\o"CurrentDocument"4.數(shù)據(jù)挖掘操作 4\o"CurrentDocument"4.1數(shù)據(jù)預(yù)處理 44.1.1描述性數(shù)據(jù)匯總 4\o"CurrentDocument"4.2決策樹 4\o"CurrentDocument"5、實驗心得 12\o"CurrentDocument"6、大總結(jié) 121.緒論1.1項目背景在現(xiàn)在大數(shù)據(jù)時代,各行各業(yè)需要對商品及相關(guān)關(guān)節(jié)的數(shù)據(jù)進行收集處理,尤其零售行業(yè),于企業(yè)對產(chǎn)品的市場需求進行科學(xué)合理的分析,從而預(yù)測出將來的市場,制定出高效的決策,給企業(yè)帶來經(jīng)濟收益。1.2提出問題對于超市的商品的購買時期和購買數(shù)量的如何決定,才可以使銷售量最大,不積壓商品,不缺貨,對不同時期季節(jié)和不同人群制定不同方案,使企業(yè)收益最大,通過數(shù)據(jù)挖掘?qū)?shù)據(jù)進行決策樹分析,關(guān)聯(lián)分析,順序分析與決策分析等可以制定出最佳方案。2數(shù)據(jù)庫倉庫與數(shù)據(jù)集的概念介紹2.1數(shù)據(jù)倉庫數(shù)據(jù)倉庫是為企業(yè)所有級別的決策制定過程提供支持的所有類型數(shù)據(jù)的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持的目的而創(chuàng)建。為企業(yè)提供需要業(yè)務(wù)智能來指導(dǎo)業(yè)務(wù)流程改進和監(jiān)視時間、成本、質(zhì)量和控制。數(shù)據(jù)倉庫是決策系統(tǒng)支持(dss)和聯(lián)機分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時變性。2.2數(shù)據(jù)集數(shù)據(jù)集是指一種由數(shù)據(jù)所組成的集合。Dataset(或dataset)是一個數(shù)據(jù)的集合,通常以表格形式出現(xiàn)。每一列代表一個特定變量。每一行都對應(yīng)于某一成員的數(shù)據(jù)集的問題。它列出的價值觀為每一個變量,如身高和體重的一個物體或價值的隨機數(shù)。每個數(shù)值被稱為數(shù)據(jù)資料。對應(yīng)于行數(shù),該數(shù)據(jù)集的數(shù)據(jù)可能包括一個或多個成員。3數(shù)據(jù)倉庫3.1數(shù)據(jù)倉庫的設(shè)計3.1.1數(shù)據(jù)倉庫的概念模型設(shè)計概念模型的設(shè)計是整個概念模型開發(fā)過程的三階段。設(shè)計階段依據(jù)概念模型分析以及分析過程中收集的任何數(shù)據(jù),完成星型模型和雪花型模型的設(shè)計。如果僅依賴ERD,那只能對商品、銷售、客戶主題設(shè)計成如圖所示的概念模型。這種模型適合于傳統(tǒng)的數(shù)據(jù)庫設(shè)計,但不適合于數(shù)據(jù)倉庫的設(shè)計。3.1.2數(shù)據(jù)倉庫的邏輯模型設(shè)計邏輯建模是數(shù)據(jù)倉庫實施中的重要一環(huán),因為它能直接反映出各個業(yè)務(wù)的需求,同時對系統(tǒng)的物理實施有著重要的指導(dǎo)作用,它的作用在于可以通過實體和關(guān)系勾勒出企業(yè)的數(shù)據(jù)藍圖,數(shù)據(jù)倉庫的邏輯模型設(shè)計任務(wù)主要有:分析主題域,確定要裝載到數(shù)據(jù)倉庫的主題、確認粒度層次劃分、確認數(shù)據(jù)分割策略、關(guān)系模式的定義和記錄系統(tǒng)定義、確認數(shù)據(jù)抽取模型等。邏輯模型最終設(shè)計成果包括每個主題的邏輯定義,并將相關(guān)內(nèi)容記錄在數(shù)據(jù)倉庫的元數(shù)據(jù)中、粒度劃分、數(shù)據(jù)分割策略、表劃分和數(shù)據(jù)來源等。3.2數(shù)據(jù)倉庫的建立3.2.1數(shù)據(jù)倉庫數(shù)據(jù)集一般說來,一個數(shù)據(jù)集市是按照某一特定部門的決策支持需求而組織起來的、針對一組主題的應(yīng)用系統(tǒng)。例如,財務(wù)部擁有自己的數(shù)據(jù)集市,用來進行財務(wù)方面的報表和分析,市場推廣部、銷售部等也擁有各自專用的數(shù)據(jù)集市,用來為本部門的決策支持提供輔助手段。數(shù)據(jù)集市大都采用多維數(shù)據(jù)庫技術(shù),這種技術(shù)對數(shù)據(jù)的分析而言也許是最優(yōu)的,但肯定不適合于大量數(shù)據(jù)的存儲,因為多維數(shù)據(jù)庫的數(shù)據(jù)冗余度很高。為了提高速度,對數(shù)據(jù)集市中的數(shù)據(jù)一般都建立大量的索引。換言之,數(shù)據(jù)集市中往往靠對數(shù)據(jù)的預(yù)處理來換取運行時的高速度,當業(yè)務(wù)部門提出新的問題時,如果不在原來設(shè)計的范圍內(nèi),則需要數(shù)據(jù)庫管理員對數(shù)據(jù)庫作許多調(diào)整和優(yōu)化處理。3.2.2建立維表維是分析問題的角度,度量是要分析的問題。多維視圖:用包含度量和維的表的數(shù)據(jù)結(jié)構(gòu)可以創(chuàng)建一個多維視圖,用試題和維創(chuàng)建的多維模型稱為星型模型,星型模型生成的主要表格被稱為事實表。事實表的屬性值幾乎都有連續(xù)值。事實表是規(guī)范化的。與維表不同不是隨時間的推移變化,而是不斷變大。維表:星型模型也具有非常小的表,用來裝載描述信息。維表是逆規(guī)范化的。如果把維表置于第二范式中,這樣的表稱為雪花模型。維表包括主鍵,通常對應(yīng)事實表的外部鍵。如果維表的主鍵不在實事表中,這個主鍵字便被稱作退化的維。創(chuàng)建維表:有3種方法:星型模型、雪花模型和星暴模型。星暴模型含有兩張以上的事實表?;居行┏洚斁S事實表。星型模型:所有信息維都放在同一個維表中。維表信息包含一個唯一的標識符(ID)和通過這個維表建立的所有維所需的屬性。星型模型由小的維表與大的事實表組成,多稱為“小表和大表”。事實表一般是標準表。雪花模型:把信息分為3種標準格式。產(chǎn)品表、類別表、子類別表。把這些信息放到一起需要一定數(shù)據(jù)的連接。雪花模型比星型模型效率低,占空間少。所有的事實表都有一個與之相關(guān)的時間維表。數(shù)據(jù)挖掘操作4.1數(shù)據(jù)預(yù)處理4.1.1描述性數(shù)據(jù)匯總對于許多數(shù)據(jù)預(yù)處理任務(wù),希望知道關(guān)于數(shù)據(jù)的中心趨勢和離中趨勢特征。中心趨勢度量包括均值(mean)、中位數(shù)(median)、眾數(shù)(mode)和中列數(shù)(midrange),而數(shù)據(jù)離中趨勢度量包括四分位數(shù)(quartiles)、四分位數(shù)極差(interquartilerange,IQR)和方差(variance)。這些描述性統(tǒng)計量有助于理解數(shù)據(jù)的分布。4.2決策樹

讀取文本數(shù)據(jù)使用變量文件節(jié)點讀取定界文本數(shù)據(jù)??梢詮倪x項板中添加變量文件節(jié)點,方法是單擊源選項卡找到此節(jié)點,或者使用收藏夾選項卡(默認情況下,其中包含此節(jié)點)。然后,雙擊新添加的節(jié)點以打開相應(yīng)的對話框。如圖1所示。BedIt■禺上■和1@@??圖??RBt*耳覚轉(zhuǎn)MqE.I:#-SPSS;XflhntrawtN1S宜轉(zhuǎn)St*圖1單擊緊挨“導(dǎo)入文件”框右邊以省略號“…”標記的按鈕,瀏覽到系統(tǒng)中的Clementine安裝目錄。打開目標文件目錄,然后選擇名為sales.xls的文件。選擇從文件讀取字段名,并注意已載入此對話框中的字段和值。如圖2所示。圖2單擊過濾選項,可以把用不到的信息給過濾掉。如圖3所示。

sales^xls過慮11 ril收戟員謂管曰Hfl■?瞬時閆小票號-X?「」岳號 ?用號商品馮一? 怕呂咼 ?^Lu&tr——? 輅.'■占寧氐讓牛己輸九?目十已過逋,0牛已重命知帖牛已怖岀▼童看當黠段 童看未使用的拿段設(shè)誥數(shù)揖邊殘刪連空G哦圖謝gZlE-■?類型選項卡可幫助了解數(shù)據(jù)中的更多字段類型。還可以選擇讀取值來查看各個字段的實際值,具體取決于在值列中的選擇。此過程稱為實例化。如圖4所示。ExcelXG黴據(jù)挖腫詢影血ExcelXG黴據(jù)挖腫詢影血期但稱用尼匕“蘭?£■z苦拿臺羔售隹票E品品期但稱用尼匕“蘭?£■z苦拿臺羔售隹票E品品X「藝計訥梢小庫亠曲.曲靳?⑥回砂?兇妙回IA1UI護聲y護-%.話-%y護/椅査T.才~~S-躋||工車中上注無SI竺凹?讀取值肴余叵商煉所有恒方向、輸入X入\畝、WHA ■Q,査看當前豐段 査看未償用的換設(shè)蠱應(yīng)用垂羞圖4(2)添加表現(xiàn)在已載入數(shù)據(jù)文件,可以瀏覽一下某些記錄的值。其中一個方法就是構(gòu)建一個包含表節(jié)點的流。要將表節(jié)點添加到流中,可雙擊選項板中的表節(jié)點圖標或?qū)⑵渫戏诺焦ぷ鲄^(qū)。如圖5所示。

圖5雙擊選項板中的某個節(jié)點后,該節(jié)點將自動與流工作區(qū)中的選定節(jié)點相連接。此外,如果尚未連接節(jié)點,則可以使用鼠標中鍵將源節(jié)點與表節(jié)點相連接。要模擬鼠標中鍵操作,請在使用鼠標時按下Alt鍵。如圖6所示。I Isales.kls i克圖6要查看表,請單擊工具欄上的綠色箭頭按鈕執(zhí)行流,或者右鍵單擊表節(jié)點,然后選擇執(zhí)行。如圖7所示。Zip—@Sft誼工具;甘電點而口MUTEiaar£umii._snDGmj1?a.aH12IS龍鬥貝B1BD6DO21?記超盤映wmQ2-14斥商品日話品時蚣舊艸酗呢ElYiHE丈時FTTiUWUAfcHL10DQ2I m一曲知£1_MJU何週£?■洞DQi1..SAE9iuZip—@Sft誼工具;甘電點而口MUTEiaar£umii._snDGmj1?a.aH12IS龍鬥貝B1BD6DO21?記超盤映wmQ2-14斥商品日話品時蚣舊艸酗呢ElYiHE丈時FTTiUWUAfcHL10DQ2I m一曲知£1_MJU何週£?■洞DQi1..SAE9iu■2He.aan3.0..?i—11...3R3.QSj315..MMT WKrr憶=JMEOwmDQMEi中n-UDJDQD061“3UiHCriiirtiWWIS 殺申* MW? 1 3D.MM5 中q-qnj=> wow 1? siq-WM2畫于=10£d3 [鈦慢肌 10DQ2 i?=1033? 10CQ9 i“ 4Gl.MM2-ihjirir;-Himm?mwhbncrrii1WMS旺科甬見WOZ]i16U3D2ZV*WTD3DZ21WK!!魚心?岡呵1洞音耳擔祁洞I訶越生e^IRQ通財112.0.]3Ja..JT.Q.lQja.」皿葩 |I£.Hg14Ihs|15-17..'S1R-19邊血£22Z.晤t*1K1S:12iZF2ie:i2zr3.4I1U&1GI2:7r44皿恥1b1fl±5L4帖2R1&1ASSj抑煩IRlBSfl3.d戟]*2EL1K15:05h44HJR1&1AS5£L44HM?iEd白舸74WREW?B.1.皿狛吃詣潮2.4皿恥悒伯殳13.40曲IRQ制3?UEl訃:閔:駅fl.訃:閔:駅霊iEd自潮T44HJR也伯衛(wèi)L4442GL1K1929■L行iMIBNiMlltiI04U4jt:班畫■WK61WDQE-畫畏■WWK1=PrHIZ西(IDrIB21D7ti]4 D7LO4 1ffiiXii:ifS*i?hiBKrii北?E_.?BL._51..acuWno1QJ]..BIOL1W0¥fa.!.tomEooaaa.imnfc5.El.EbUEKd寶Cu1mom3.D..eDMfeKC21..1mdh30MOwor-21WOffl=g.D..EiDinEMM5.B..1WO^fl..3.D..B.DMB.DOQZD..I.MD^S汕an沖TLioaonwnmw=m1MDHie1SIJ:L禎k1fi..1fflOCT初WOPiKIL1’G.EU3.0W3.DWZ!lwo?t-i.el.1DMIDCO込1MDH5.El.EbUEKd11.1MOM161§.0._16.0.=eiu1.W0¥31?5mn.m.q.=Em1NDlF*”1.5..LT-W1.?0.E.=1WOffl-2.H.2.DMiMM1MonIS怕£L血心10ioaon3B.DMecu]zd.o1rtlnf:iM1(3)創(chuàng)建分布圖將分布節(jié)點添加到流,并將其與源節(jié)點相連接,然后雙擊該節(jié)點以編輯要顯示的選項。選擇商品名稱作為要顯示其分布的目標字段。然后,在對話框中單擊

執(zhí)行。如圖8所示。圖8最終圖表將有助于查看數(shù)據(jù)的“結(jié)構(gòu)”結(jié)果表明,商品300g壺瓶棗和400g沁州黃賣的最多。如圖9所示。圖9此外,還可以在“輸出”選項卡中找到數(shù)據(jù)審核節(jié)點。如圖10所示。

圖10添加并執(zhí)行數(shù)據(jù)審核節(jié)點,同時快速瀏覽所有字段的分布圖和直方圖。如圖11所示。圖11創(chuàng)建散點圖現(xiàn)在我們來看一下有哪些因素會對商品出售(目標變量)產(chǎn)生影響。作為一名消費者,我們一定知道銷售模式對銷售數(shù)量有著重要的影響。所以創(chuàng)建一個關(guān)于商品名稱和銷售模式的散點圖。將散點圖節(jié)點放在工作區(qū)中,并將其與源節(jié)點相連接,然后雙擊該節(jié)點對其進行編輯。如圖12所示。表圖12

在“散點圖”選項卡中,選擇商品名稱作為X字段,選擇銷售模式作為Y字段,并選擇銷售金額作為交疊字段。然后單擊執(zhí)行。如圖13所示。圖13圖13此散點圖清楚地顯示商品在零售和特價模式下銷售金額的不同。商品在特價的銷售模式下,銷售金額明顯高于零售模式下的銷售金額。如圖14所示。匸文件瀾輯村生戍視囹職■上|d:區(qū)]隘也冉匕::::坍偉愛糧11*11adod:區(qū)]隘也冉匕::::坍偉愛糧11*11adoI11II2:lrm o衛(wèi)主紙If山口T.1I虹??-施屮聲r更崔攤宇肉禮盤B■無杲ft…SSI事畀is-H瓶…業(yè)童翌ffl要assiseI一犁匹毀陣…I一皐戲。天…圖14創(chuàng)建直方圖因很多數(shù)據(jù)不能夠直接顯示,所以我們要建立直方圖,直方圖能夠很清晰的顯示數(shù)據(jù)。首先,將網(wǎng)絡(luò)節(jié)點與您工作區(qū)中的源節(jié)點相連接。如圖15所示。

序號裔品茗粗2[肖售嘆式序號裔品茗粗2[肖售嘆式圖15在“直方圖”選項卡中,選擇商品序號作為X字段,選擇銷售數(shù)量作為交疊字段。然后單擊執(zhí)行。如圖16所示。圖16圖16此直方圖能夠清楚地顯示不同商品銷售數(shù)量的不同。由圖可以看出序號為1的商品銷售數(shù)量最多,序號為9的商品銷售數(shù)量最少。如圖17所示。

口文件 湄掘t?生咸x艇匡回x|@孑用臨逼昌jT 1口文件 湄掘t?生咸x艇匡回x|@孑用臨逼昌jT 1y>/■I:.-.rAA;丘言的昌方圏■■■□■2「s-丸02第is徐dEift05老46徐詛年乞年樣佯門年應(yīng)佯釀DD1D氏lonll1D盡1Q雙盼岱馬2D申N-困..二紳

'C.£1?■--'E--uT-01-%flfr.-3J.-4XUn.-圖175、 實驗心得在本次實驗中,從新建工作流一直到獲得最終結(jié)果,整個流程讓我對數(shù)據(jù)挖掘中數(shù)據(jù)分析處理的基本方法有了深入的了解,特別是決策樹模型應(yīng)用的理解,同時,也學(xué)會了如何使用決策樹通過建模和直觀化顯示發(fā)現(xiàn)數(shù)據(jù)庫中的關(guān)系(即鏈接)以及利用這些鏈接與數(shù)據(jù)中的案例組相對應(yīng)關(guān)系可以通過建??稍敿氀芯窟@些組并描繪其特征,增強了運用決策樹模型和聚類分析模型的能力。通過這次學(xué)習(xí)讓我意識到,對于數(shù)據(jù)我們不僅要能利用統(tǒng)計來分析它的規(guī)律,也要能會通過數(shù)據(jù)挖掘軟件來挖掘數(shù)據(jù)當中的潛在信息,并且利用數(shù)據(jù)挖掘所得到的有利信息更好的服務(wù)于數(shù)據(jù)使用者。6、 大總結(jié)堅持好一段時間,終于把完成了任務(wù),通過這幾次實驗報告的實踐操作,我收獲很大,不但學(xué)習(xí)相關(guān)數(shù)據(jù)挖掘的知識,關(guān)于SPSS了解更多,操作也比原來熟練多了。雖然過程中有點折磨過,但當你克服了,耐心去一步一步操作,那些煩躁的心情就會慢慢消失,還得要有耐心,認真的態(tài)度去操作,才能有結(jié)果。關(guān)聯(lián)分析是一個很有用的數(shù)據(jù)挖掘模型,能夠幫助企業(yè)做很多很有用的產(chǎn)品組合推薦、優(yōu)惠促銷組合,同時也能指導(dǎo)貨架擺放是否合理,還能夠找到更多的潛在客戶,的確真正的把數(shù)據(jù)挖掘落到實處。關(guān)聯(lián)分析具體能用來做什么呢?可以一句話來概括:最大限度地從你口袋里面掏出更多的錢買我的產(chǎn)品。通過關(guān)聯(lián)規(guī)則,推出相應(yīng)的促銷禮包或優(yōu)惠組合套裝,快速幫助提高銷售額。如自行車針對不同人群,來制定有效的銷售方案。零售超市或商場,可以通過產(chǎn)品關(guān)聯(lián)程度大小,指導(dǎo)產(chǎn)品合理擺放,方便顧客最購買更多其所需要的產(chǎn)品。最常見的就是超市里面購買肉和購買蔬菜水果等貨架會擺放得很近,目前就是很多人會同時購買肉與蔬菜,產(chǎn)品的合理擺放也是提高銷售的一個關(guān)鍵。進行相關(guān)產(chǎn)品推薦或者挑選相應(yīng)的關(guān)聯(lián)產(chǎn)品進行精準營銷。最常見的是你在亞馬遜或京東購買產(chǎn)品的時候,旁邊會出現(xiàn)購買該商品的人,有百分之多少還會購買如下的產(chǎn)品,快速幫助顧客找到其共同愛好的產(chǎn)品。物以類聚,人以群分。例如,窮人一般和窮人在一起,富人也喜歡和富人在一起。還有數(shù)據(jù)挖掘的人喜歡和數(shù)據(jù)挖掘的人打交道,都離不開這些鳥道理。尋找更多潛在的目標客戶。例如:100人里面,購買A的有60人,購買B的有40人,同時購買A和B的有30人,說明A里面有一半的顧客會購買B,反推而言。如果推出類似B的產(chǎn)品,除了向產(chǎn)品B的用戶推薦(因為新產(chǎn)品與B的功能效果比較類似)之外,還可以向A的客戶進行推薦,這樣就能最大限度地尋找更多的目標客戶。決策樹分析法是常用的風(fēng)險分析決策方法。該方法是一種用樹形圖來描述各方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論