《網(wǎng)絡(luò)數(shù)據(jù)挖掘》實驗四_第1頁
《網(wǎng)絡(luò)數(shù)據(jù)挖掘》實驗四_第2頁
《網(wǎng)絡(luò)數(shù)據(jù)挖掘》實驗四_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)嶒炈囊弧嶒災(zāi)康?學(xué)習(xí)如何為關(guān)聯(lián)規(guī)則挖掘準(zhǔn)備數(shù)據(jù),學(xué)習(xí)關(guān)聯(lián)規(guī)則挖掘二、實驗內(nèi)容實驗內(nèi)容目錄下的movies目錄中的3個EXCEL文件分別為:customers.xls, movies.xls, movietype.xls,閱讀其中的數(shù)據(jù),理解3個文件之間的關(guān)系。將這3個EXCEL文件導(dǎo)入以自己學(xué)號命名的數(shù)據(jù)庫。由于顧客看的電影片名繁多,具體電影之間的關(guān)聯(lián)規(guī)則比較小,因此我們將 分析顧客所看電影類型的頻繁項集和它們之間的關(guān)聯(lián)規(guī)則。因此我們首先需 要將每個顧客所看的具體電影名稱轉(zhuǎn)換成電影的類型,然后在此基礎(chǔ)上進(jìn)行 數(shù)據(jù)挖掘。首先創(chuàng)建一個視圖view_movietype,從moviet

2、ype表中找出所有不重復(fù)的電影類型。字段如下:字段名稱字段類型說明電影類型Varchar(50)具體字段名稱為movietype 中的值,注意不能重復(fù)。5.根據(jù)視圖所列出的電影類型,創(chuàng)建一個客戶觀看電影類型表CusMovieType。 字段如下:字段名稱字段類型說明customerlDInt(主鍵,不能重復(fù),不能為 空)電影類型1Varchar(1)具體字段名稱為 view movietype 中的值。電影類型2Varchar(1)O O O O。在這張表中,customerlD為客戶表中的ID 號,作為本表的主鍵值,后面的列為第4步所創(chuàng)建視圖的所有行,類型為字符型,長度為1,當(dāng)某個custo

3、merlD 看過該類型的電影,則值為T。通過以下步驟填充表的行:創(chuàng)建一個視圖view_customerID,從movies表中找出所有的customerlD (不能重復(fù))。將視圖 view_customerID 中的所有 customerID 插入至表 CusMovieType 中。創(chuàng)建一個視圖view_custom_movietype,顯示所有客戶ID所購買電影的 類型。對視圖 view_custom_movietype 表逐行搜索,尋找每個客戶看過的每部電 影屬于哪個類型,并將 CusMovieType 表中對應(yīng)的 customerID 行的電影 類型字段值修改為 T。6.對cusMovi

4、eType表進(jìn)行單維布爾關(guān)聯(lián)規(guī)則挖掘,找出和“驚悚片”相關(guān)的關(guān) 聯(lián)規(guī)則,挖掘結(jié)構(gòu)如下:主鍵: CustomerID輸入列:所有電影類型預(yù)測列:驚悚片挖掘算法:關(guān)聯(lián)規(guī)則分析挖掘結(jié)果,內(nèi)容包括a)列出所有項集大于等于 3的頻繁項集(截圖),并簡單說明 5 種項集。b)列出包含有“驚悚片”的 3項集(5 種),并簡單說明。c)列出顧客選擇驚悚片的關(guān)聯(lián)規(guī)則(截圖),并簡單說明 5 個關(guān)聯(lián)規(guī)則。在第 6 步創(chuàng)建的挖掘結(jié)構(gòu)上新建一個挖掘模型,將“喜劇片”作為預(yù)測列, 進(jìn)行挖掘,寫出挖掘結(jié)果。內(nèi)容包括:a)列出所有項集大于等于 3的頻繁項集(截圖),并簡單說明 5 種項集。b)列出包含有“喜劇片”的 3項集

5、(5 種),并簡單說明。c)列出顧客選擇喜劇片的關(guān)聯(lián)規(guī)則(截圖),并簡單說明 5 個關(guān)聯(lián)規(guī)則。下面我們將分析顧客的年齡和性別與觀看電影類別的關(guān)系。首先 用 CusMovieType 表 和 customers 表 創(chuàng) 建 一 個 關(guān) 聯(lián) 查 詢 視 圖 view_cus_age_movietype,里面的列包括:customerID,age,Gender(性別),以及 所有電影類型。字段名稱字段類型說明customerIDInt(主鍵,不能重復(fù),不能為 空)AgeIntGenderVarchar(50)電影類型1Varchar(1)具體字段名稱為 view movietype 中的值。電影類型

6、2Varchar(1)O O O O。將上面的視圖中的age列離散化,按年齡從低到高,分成4組或者5組(自 己根據(jù)所有客戶的年齡排序后分組,注意年齡字段中有些行為空值),生成一 個新的列:年齡區(qū)間。對 view_cus_age_movietype 視圖進(jìn)行關(guān)聯(lián)規(guī)則挖掘,找出顧客年齡、性別和 觀看電影類型之間的關(guān)聯(lián)規(guī)則,挖掘結(jié)構(gòu)如下:a)主鍵: CustomerIDb)輸入列:年齡區(qū)間,Gender,所有電影類型c)預(yù)測列:驚悚片,喜劇片d)挖掘算法:關(guān)聯(lián)規(guī)則分析挖掘結(jié)果,內(nèi)容包括a)列出所有項集大于等于3的頻繁項集,并簡單說明5種項集。b)列出包含有“年齡區(qū)間”、“性別”、“ 驚悚片”的項集(

7、3 個以上),作 簡單說明c)列出包含有“年齡區(qū)間”、“性別”、“ 喜劇片”的項集(3 個以上),作 簡單說明d)列出顧客的年齡區(qū)間、性別、電影類型選擇“驚悚片”的關(guān)聯(lián)規(guī)則,并 簡單說明。e)列出顧客的年齡區(qū)間、性別、電影類型選擇“喜劇片”的關(guān)聯(lián)規(guī)則,并 簡單說明。從 12 步可以看到由于電影類型眾多,影響了關(guān)于顧客年齡、性別與我們要分 析的“驚悚片,喜劇片”(也就是說,這些結(jié)果被淹沒了),因此我們需要將 挖掘模型中的輸入列進(jìn)行刪減,不選擇所有的電影類型,而只選擇在第 6 步 和第 8 步挖掘出來的和“驚悚片,喜劇片”這兩種類型相關(guān)的電影類型(5 種),分析挖掘結(jié)果,內(nèi)容包括a)列出所有項集大于等于 3的頻繁項集,并簡單說明 5 種項集。b)列出包含有“年齡區(qū)間”、“性別”、“ 驚悚片”的項集(3 個以上),作 簡單說明c)列出包含有“年齡區(qū)間”、“性別”、“ 喜劇片”的項集(3 個以上),作 簡單說明d) 列出顧客的年齡區(qū)間、性別、電影類型選擇“驚悚片”的關(guān)聯(lián)規(guī)則,并 簡

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論