下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
.."數(shù)據(jù)挖掘與商務智能實驗"實驗報告實驗題目:關聯(lián)分析:關聯(lián)規(guī)那么:王俊學號:4指導教師:大斌實驗時間:2016.11.092016年11月12日實驗8關聯(lián)分析:關聯(lián)規(guī)那么實驗目的了解和熟悉SPSSModeler及其相關知識;掌握SPSSModeler工具建立Apriori關聯(lián)規(guī)那么的方法;學會運用SPSSModeler關聯(lián)規(guī)那么進展相關的容分析。實驗容本實驗分析的是超市顧客個人信息和他們的一次購置商品數(shù)據(jù),采用的是關聯(lián)分析中的Apriori算法。本實驗的數(shù)據(jù)來自文件名為BASKETS.txt的文件。數(shù)據(jù)的主要容包括兩個局部,第一局部是顧客的個人信息,主要變量有會員卡號〔cardid〕、消費金額〔value〕、支付方式〔pmethod〕、性別〔sex〕、是否業(yè)主〔homeown〕、年齡〔age〕、收入〔ine〕;第二局部是顧客的一次購置商品的信息,主要變量有果蔬〔fruitveg〕、鮮肉〔freshmeat〕、奶制品〔dairy〕、罐頭蔬菜〔cannedveg〕、罐頭肉〔cannedmeat〕、冷凍食品〔frozenmeal〕、啤酒〔beer〕、葡萄酒〔wine〕、軟飲料〔softdrink〕、魚〔fish〕、糖果〔confectionery〕,均為二分類型變量,取值T表示購置,F表示未購置,是一種事實表的數(shù)據(jù)組織格式。本次試驗分析的是的哪些商品最有可能購置。具體實驗步驟如下:實驗步驟與結果步驟1創(chuàng)立Apriori算法數(shù)據(jù)流〔1〕通過"可變文件〞節(jié)點讀入數(shù)據(jù)BASKETS.txt?!?〕選擇建??ㄆ械?Apriori〞節(jié)點并將其簡潔到數(shù)據(jù)中的恰當位置,點擊鼠標,選擇菜單中的編輯選項進展參數(shù)設置。步驟2設置具體參數(shù)〔1〕在"字段〞下,選擇"使用定制設置〞選項。在"后項〞和"前項〞框中選擇關聯(lián)規(guī)那么的后項和前項的變量,本例中分析連帶銷售商品,因此所有商品均被選入后項和前項。如圖8-1〔a〕所示。圖8-1〔a〕〔2〕在"類型〞下,制定當前前項最低條件支持度,默認值10%;最小規(guī)那么置信度,默認值為80%;最大前項數(shù),默認為5;勾選"僅包含標志變量的真值〞,表示只顯示工程出現(xiàn)的規(guī)那么,而不顯示工程不出現(xiàn)時的規(guī)那么,這里關心的是商品的連帶購置。如圖8-1〔b〕所示。圖8-1〔b〕〔3〕在"專家〞的選項下,選擇模式"專家〞選項,并選擇評價關聯(lián)規(guī)那么的度量指標,這里選擇默認選項"規(guī)那么置信度〞。如圖8-2所示。圖8-2步驟3結果運行實驗結果如圖8-3所示。結果說明,如按第2條關聯(lián)規(guī)那么,購置啤酒和冷凍食品那么會同時購置罐頭蔬菜,樣本中購置啤酒喝冷凍食品的樣本為170;同樣也說明購置啤和冷凍食品的顧客有85.882%的可能購置罐頭蔬菜,該規(guī)那么的支持度為14.6%。本例中產(chǎn)生了三條關聯(lián)規(guī)那么:啤酒和罐頭蔬菜→冷凍食品〔S=14.6%,C=87.452%〕;啤酒和冷凍食品→罐頭蔬菜〔S=14.6%,C=85.882%〕;冷凍食品和罐頭蔬菜→啤酒〔S=14.6%,C=84.393%〕。同時三條關聯(lián)規(guī)那么的提升度〔2.895,2.834,2.88〕都可以承受。因此,啤酒、罐頭蔬菜、冷凍食品是最可能連帶銷售的商品。可以利用關聯(lián)規(guī)那么考察哪類和顧客符合哪條關聯(lián)規(guī)律。如果顧客滿足某條關聯(lián)規(guī)那么,那么可以推斷其有一定可能性同時購置某種商品,反之,那么無法預測。步驟4考察關聯(lián)規(guī)律〔1〕將Apriori節(jié)點中的模型計算的結果添加到數(shù)據(jù)流編輯區(qū)域的恰當位置?!?〕點擊鼠標右鍵選擇"編輯〞選項,進展"選項〞的設置?!?〕"最大預測數(shù)〞中輸入數(shù)值,默認為3.〔4〕勾選"忽略不匹配籃工程〞,表示樣本應用規(guī)那么時不能按照順序完全匹配前項的所有工程時,允許采用非精度匹配。勾選"檢查預測不在籃中〞,表示樣本應用關聯(lián)規(guī)那么時,給出的后項結果不應出現(xiàn)在前項。如圖8-4所示。圖8-4通過"表〞節(jié)點課觀察具體的結果。$A、$AC、$A-Rule表示每個樣本應用關聯(lián)規(guī)那么的推測結果、置信度和規(guī)那么編號。例如在表中向編號16的顧客運用關聯(lián)規(guī)那么1,可以推測其有85.9%的可能性同時購置罐頭蔬菜。當然,如果樣本不符合任何關聯(lián)規(guī)那么,也就是沒有一條關聯(lián)規(guī)那么中出現(xiàn)的商品出現(xiàn)在顧客的購物清單中,那么推斷結果為系統(tǒng)缺失值$null$。實驗結果如圖8-5所示。圖8-5實驗最終圖示如下:實驗分析與擴展練習實驗分析:請總結分析下面的問題:如果需要關注的關聯(lián)規(guī)那么比擬多,或者讀者只是想關注特定情況下的規(guī)那么,如何使用該軟件工具進展相關的過濾。答:先在導入文件時候選擇篩選過濾選項,根據(jù)自己的需要選取需要的字段;然后在字段中進展相關的篩選和過濾也可以到達要求,如下圖:在相關的分析中,如何合理的使用GRI算法得到相應的結果。五、結論與討論(重點)Apriori算法的根本思想是:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預定義的最小支持度一樣。然后由頻集產(chǎn)生強關聯(lián)規(guī)那么,這些規(guī)那么必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)那么,產(chǎn)生只包含集合的項的所有規(guī)那么,其中每一條規(guī)那么的右部只有一項,這里采用的是中規(guī)那么的定義。一旦這些規(guī)那么被生成,那么只有那些大于用戶給定的最小可信度的規(guī)那么才被留下來。為了生成所有頻集,使用了遞推的方法。關聯(lián)規(guī)那么的優(yōu)缺點:〔1〕優(yōu)點:它可以產(chǎn)生清晰有用的結果;它支持間接數(shù)據(jù)挖掘;可以處理變長的數(shù)據(jù);它的計算的消耗量是可以預見的?!?〕缺點:當問題變大時,計算量增長得厲害;難以決定正確的數(shù)據(jù);容易忽略稀有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 福建省南平市文昌學校2020-2021學年高一物理上學期期末試卷含解析
- 福建省南平市外屯中學2021-2022學年高一英語下學期期末試卷含解析
- 4 上學路上 第二課時 說課稿-2023-2024學年道德與法治一年級上冊統(tǒng)編版
- 雙十二消費者體驗解讀
- 12 故宮博物院 說課稿-2024-2025學年語文六年級上冊統(tǒng)編版
- 歷史巨人典故解讀
- 科研之路揭秘
- 科技驅動:未來掌控者
- 外包施工合同(2篇)
- 2024活動協(xié)作:權利與義務規(guī)定
- 跨高速橋梁施工保通專項方案
- 鐵路貨車主要輪對型式和基本尺寸
- 譯林版南京學校四年級英語上冊第一單元第1課時storytime導學單
- 理正深基坑之鋼板樁受力計算
- 員工入職培訓
- 鋪種草皮施工方案(推薦文檔)
- 10KV高壓環(huán)網(wǎng)柜(交接)試驗
- 綜合單價的確定
- 未來水電工程建設抽水蓄能電站BIM項目解決方案
- 張可填充顏色的中國地圖與世界地圖課件
- 9以內(nèi)除法口算(81題)
評論
0/150
提交評論