




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘設(shè)計(jì)指導(dǎo)書自編東華理工大學(xué)軟件學(xué)院數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程組2012年11月目錄實(shí)驗(yàn)一:數(shù)據(jù)倉庫的環(huán)境配置與構(gòu)建實(shí)驗(yàn)實(shí)驗(yàn)二:數(shù)據(jù)倉庫的OLAP技術(shù)實(shí)驗(yàn)實(shí)驗(yàn)三:數(shù)據(jù)挖掘方法實(shí)踐實(shí)驗(yàn)實(shí)驗(yàn)一、數(shù)據(jù)倉庫的環(huán)境配置與構(gòu)建實(shí)驗(yàn)實(shí)驗(yàn)?zāi)康?1了解數(shù)據(jù)挖掘與商務(wù)智能之間的聯(lián)系與區(qū)別;2分析數(shù)據(jù)挖掘倉庫的特性和構(gòu)架;3掌握數(shù)據(jù)挖掘的功能和建模的標(biāo)準(zhǔn)CRISP-DM。4掌握MSS的分析服務(wù)、報(bào)表服務(wù)和整合服務(wù),并能夠用以解決實(shí)際問題。實(shí)驗(yàn)結(jié)果分析與要求:完成實(shí)驗(yàn)?zāi)康闹械膬?nèi)容,記錄操作中的各個(gè)步驟,并進(jìn)行分析。實(shí)驗(yàn)內(nèi)容:1、將Excel數(shù)據(jù)表導(dǎo)入SQL數(shù)據(jù)庫中的數(shù)據(jù)表材料:SQL范例資料.xls中的三
2、國表。軟件:SQL Server 2008 R2基本步驟:1首先按照三國表中的屬性在數(shù)據(jù)口中建立對應(yīng)的表。2打開VS選擇項(xiàng)目中的“Integration Services”項(xiàng)目,并制定項(xiàng)目的保存位置,最后單擊“確定”按鈕即可新建一個(gè)SSIS項(xiàng)目。3在“控制流”選項(xiàng)卡中,從工具箱拖拽“數(shù)據(jù)挖掘查詢?nèi)蝿?wù)”的圖示到工作區(qū)中。4切換“數(shù)據(jù)流”選項(xiàng)卡,先制定數(shù)據(jù)的源,因?yàn)橐獙?dǎo)入的是Excel數(shù)據(jù),所以從工具箱拖拽Excel源的圖示到工作區(qū)中,然后再Excel源上右擊,選擇菜單上的“編輯”。5在Excel源編輯器中,單擊“新建”按鈕來制定Excel數(shù)據(jù)的源,在Excel連接管理器中,單擊“瀏覽”按鈕來選擇
3、Excel 文件,完成后單擊“確定”按鈕。6在“Excel工作表的名稱”下拉列表中選擇要導(dǎo)入的數(shù)據(jù)表,然后單擊“確定”按鈕,完成數(shù)據(jù)源的設(shè)置。7建立數(shù)據(jù)轉(zhuǎn)換,從工具箱中拖拽“數(shù)據(jù)轉(zhuǎn)換”到工作區(qū)中。8在Excel源上右擊,選擇“添加路徑”。9指定“Excel源”到“數(shù)據(jù)轉(zhuǎn)換”,最后單擊“確定”按鈕。10輸出指定“Excel源輸出”,輸入指定“數(shù)據(jù)轉(zhuǎn)換輸入”,單擊“確定”按鈕。11設(shè)置數(shù)據(jù)流的目標(biāo),要導(dǎo)入到SQL的數(shù)據(jù)庫中,從工具箱中拖拽“SQL Server目標(biāo)”到工作區(qū)。12然后在“數(shù)據(jù)轉(zhuǎn)換”上右擊,選擇添加路徑來建立與數(shù)據(jù)流目標(biāo)的連接。13在“數(shù)據(jù)流”對話框中,指定從“數(shù)據(jù)轉(zhuǎn)換”到“SQL
4、Server目標(biāo)”,單擊“確定”按鈕。在“選擇輸入輸出”對話框中,輸出指定“數(shù)據(jù)轉(zhuǎn)換輸出”,輸入指定“SQL Server目標(biāo)輸入”,單擊“確定”按鈕。14最后設(shè)置數(shù)據(jù)導(dǎo)入的位置,在“SQL Server目標(biāo)”上右擊,選擇“編輯”。15在“SQL 目標(biāo)編輯器”窗口中,單擊“新建”按鈕,然后在“配置 OLE DB連接管理器”窗口轉(zhuǎn)中,同樣單擊“新建”按鈕。16在“連接管理器”窗口中,“服務(wù)器名”選擇SQL數(shù)據(jù)庫的位置,在“登錄到服務(wù)器”中選擇“使用windows身份驗(yàn)證”,在“選擇或輸入一個(gè)數(shù)據(jù)庫名”指定數(shù)據(jù)要導(dǎo)入的數(shù)據(jù)庫,單擊“確定”按鈕返回上一個(gè)窗口,再單擊“確定”按鈕。17最后要指定數(shù)據(jù)要
5、導(dǎo)入哪一個(gè)數(shù)據(jù)表,選擇完成后單擊“確定”按鈕。18接下來選擇“映射”,接著單擊“確定”按鈕即可。19現(xiàn)在已經(jīng)完成配置,單擊“啟動(dòng)調(diào)用”按鈕,測試是否錯(cuò)誤,執(zhí)行完畢為綠色,執(zhí)行中為黃色,錯(cuò)誤為紅色。20可以到導(dǎo)入的SQL數(shù)據(jù)庫的數(shù)據(jù)表位置查看數(shù)據(jù)是否都已經(jīng)導(dǎo)入了。選擇SQL Server Management Studio打開后找到之前導(dǎo)出的數(shù)據(jù)表來查看。21選擇“選擇前1000行”后則可以看到結(jié)果。2、對數(shù)據(jù)進(jìn)行抽樣材料:SQL范例資料.xls中的三國表。軟件:SQL Server 2008 R2基本步驟:在“數(shù)據(jù)轉(zhuǎn)換”中選擇“百分比抽樣”,抽樣的百分比為20%。其他同“將Excel數(shù)據(jù)表導(dǎo)入
6、SQL數(shù)據(jù)庫中的數(shù)據(jù)表”的操作步驟。實(shí)驗(yàn)二、交換機(jī)數(shù)據(jù)倉庫的OLAP技術(shù)實(shí)驗(yàn)實(shí)驗(yàn)?zāi)康?1掌握決策樹模型的基本概念和計(jì)算方法,并用其預(yù)測三國表中“身份屬性”與其他屬性的關(guān)系;2掌握貝葉斯分類器的基本概念,并用其預(yù)測三國表中“身份屬性”與其他屬性的關(guān)系;3掌握關(guān)聯(lián)規(guī)則的基本概念和種類,并用其預(yù)測“腎細(xì)胞癌轉(zhuǎn)移情況”。4對比以上三種模型,分析其聯(lián)系與區(qū)別。實(shí)驗(yàn)結(jié)果分析與要求:完成實(shí)驗(yàn)?zāi)康闹械膬?nèi)容,記錄操作中的各個(gè)步驟,并進(jìn)行分析。實(shí)驗(yàn)內(nèi)容:1、使用決策樹模型預(yù)測三國表中“身份屬性”與其他屬性間的關(guān)系;材料:SQL范例資料.xls中的三國表。軟件:SQL Server 2008 R2基本步驟:1首先將
7、三國表導(dǎo)入到SQL數(shù)據(jù)庫中。2新建Analysis Service 項(xiàng)目,進(jìn)入項(xiàng)目中的新建挖掘結(jié)構(gòu),使用數(shù)據(jù)挖掘向?qū)斫?進(jìn)入數(shù)據(jù)挖掘向?qū)醉摵髥螕簟跋乱徊健卑粹o。3從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫讀取數(shù)據(jù),即為默認(rèn)值,故直接在這個(gè)頁面單擊“下一步”按鈕。4到數(shù)據(jù)挖掘技術(shù)部分,選擇“Microsoft決策樹”后,單擊“下一步”按鈕。5選擇所要用數(shù)據(jù)的數(shù)據(jù)庫位置后,單擊“下一步”按鈕。6選擇要使用的數(shù)據(jù)表,單擊“下一步”按鈕。7選擇所需輸入變量與預(yù)測變量,以及索引鍵;以序列號(hào)碼為索引,身份為預(yù)測變量,并單擊“建議”按鈕以了解預(yù)測變量與其他變量間的相關(guān)性,可找出較具影響力的輸入變量,完成后單擊“確定”
8、按鈕,這時(shí)會(huì)回到原來的頁面,單擊“下一步”按鈕。8單擊“建議”按鈕,此時(shí)程序會(huì)提出一些變量的相關(guān)系數(shù),用戶可自行選擇輸入與否。9聲明正確的數(shù)據(jù)屬性,完成后單擊“下一步”按鈕。10在此可選擇測試數(shù)據(jù)的百分比,本實(shí)驗(yàn)中無測試數(shù)據(jù),百分比選擇“0”。11更改挖掘結(jié)構(gòu)名稱,單擊“完成”按鈕。12選擇上方的挖掘模型查看器后,程序詢問是否生成和部署項(xiàng)目,單擊“是”按鈕。13接下來單擊“運(yùn)行”按鈕。14運(yùn)行完成后單擊“關(guān)閉”按鈕。15建模完成,生成數(shù)據(jù)挖掘結(jié)構(gòu)接口包含數(shù)據(jù)挖掘結(jié)構(gòu)、挖掘模型、挖掘模型查看器、挖掘準(zhǔn)確度圖標(biāo)以及挖掘模型預(yù)測;其中在挖掘結(jié)構(gòu)中,主要是呈現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性以及分析的變量。而在挖掘模型
9、中,主要是列出所建立的挖掘模型,也可以新建挖掘模型,并調(diào)整變量,變量使用狀況包含Ignore(忽略、Input(輸入變量、Predict(預(yù)測變量、輸入變量以及PredictOnly(預(yù)測變量。而在挖掘模型上右擊,選擇“設(shè)置算法參數(shù)”針對方法論的參數(shù)設(shè)置加以編輯。挖掘模型查看器則是呈現(xiàn)此樹狀結(jié)構(gòu),對于數(shù)據(jù)的分布進(jìn)一步的加以了解。而可以從“依賴關(guān)系網(wǎng)絡(luò)”了解因變量與自變量間的關(guān)聯(lián)性強(qiáng)弱程度。2、使用貝葉斯模型預(yù)測三國表中“身份屬性”與其他屬性間的關(guān)系;材料:SQL范例資料.xls中的三國表。軟件:SQL Server 2008 R2基本步驟:除挖掘技術(shù)部分選擇合適的挖掘方法外,其他步驟同上。3、
10、使用關(guān)聯(lián)規(guī)則預(yù)測腎癌表中“腎細(xì)胞癌轉(zhuǎn)移情況”;材料:SQL范例資料.xls中的腎癌。軟件:SQL Server 2008 R2基本步驟:除挖掘技術(shù)部分選擇合適的挖掘方法外,其他步驟同上。實(shí)驗(yàn)三、數(shù)據(jù)挖掘方法實(shí)踐實(shí)驗(yàn)實(shí)驗(yàn)?zāi)康?1掌握邏輯回歸模型;2使用邏輯回歸模型完成三個(gè)實(shí)例,并進(jìn)總結(jié)。3使用神經(jīng)網(wǎng)絡(luò)模型對“腎癌”表中數(shù)據(jù)進(jìn)行分析。實(shí)驗(yàn)內(nèi)容:1、使用邏輯回歸模型對“腎癌”表中數(shù)據(jù)進(jìn)行分析;材料:SQL范例資料.xls中的腎癌表。軟件:SQL Server 2008 R2基本步驟:1首先將三國表導(dǎo)入到SQL數(shù)據(jù)庫中。2新建Analysis Service 項(xiàng)目,進(jìn)入項(xiàng)目中的新建挖掘結(jié)構(gòu),使用數(shù)據(jù)挖
11、掘向?qū)斫?進(jìn)入數(shù)據(jù)挖掘向?qū)醉摵髥螕簟跋乱徊健卑粹o。3從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫讀取數(shù)據(jù),即為默認(rèn)值,故直接在這個(gè)頁面單擊“下一步”按鈕。4到數(shù)據(jù)挖掘技術(shù)部分,選擇“Microsoft邏輯回歸”后,單擊“下一步”按鈕。5確認(rèn)數(shù)據(jù)庫中的數(shù)據(jù)表。6選擇“癌癥$”數(shù)據(jù)表進(jìn)行分析,選中“事例”復(fù)選框。7選擇變量,其中預(yù)測變量為“腎細(xì)胞癌轉(zhuǎn)移情況”,輸入變量為“患者的年齡(歲”、“腎細(xì)胞癌血管內(nèi)皮生長因子(VEGF”、“腎細(xì)胞癌組織內(nèi)微血管數(shù)(MV”、“腎癌細(xì)胞核組織學(xué)分級(jí)”與“腎細(xì)胞癌分期”。8要確定變量的數(shù)據(jù)內(nèi)容類型以及數(shù)據(jù)類型,其中輸入變量中“患者的年齡(歲”、“腎細(xì)胞癌組織內(nèi)微血管數(shù)(MV”
12、為Continuous,其他皆為Discrete。9在此可選擇測試數(shù)據(jù)的百分比,本實(shí)驗(yàn)中無測試數(shù)據(jù),百分比選擇“0”。10單擊“挖掘模型查看器”選項(xiàng)卡,所呈現(xiàn)的是概率值,在對應(yīng)的輸入變量條件下,其預(yù)測變量所發(fā)生的概率。11根據(jù)挖掘準(zhǔn)確度圖標(biāo),紅線越靠近藍(lán)色表示越準(zhǔn)確。本實(shí)驗(yàn)中原始模型(紅線與理想模型(藍(lán)線很接近,表示此模型準(zhǔn)確度較高。12再根據(jù)分類矩陣可以發(fā)現(xiàn),建立的邏輯回歸模型所預(yù)測結(jié)果與實(shí)際分類結(jié)果的預(yù)測正確率高達(dá)97.15%。13根據(jù)邏輯回歸模型,利用“挖掘模型預(yù)測”選項(xiàng)卡生成預(yù)測值。2、使用邏輯回歸模型對“高中成績”表中數(shù)據(jù)進(jìn)行分析;材料:SQL范例資料.xls中的高中成績。軟件:SQL Server 2008 R2基本步驟:同上。3、使用邏輯回歸模型對“三國”表中數(shù)據(jù)進(jìn)行分析;數(shù)據(jù)倉庫與數(shù)據(jù)挖掘設(shè)計(jì)指導(dǎo)書 材料:SQL 范例
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 青海大學(xué)《多元統(tǒng)計(jì)分析與建模》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江工商職業(yè)技術(shù)學(xué)院《物流裝備課程設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 中央財(cái)經(jīng)大學(xué)《ndustraOrganatonofBankng》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024-2025學(xué)年山東省德州市平原縣第一中學(xué)高三新時(shí)代NT抗疫愛心卷(II)物理試題含解析
- 江蘇商貿(mào)職業(yè)學(xué)院《現(xiàn)代人工智能技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 高平市2024-2025學(xué)年三年級(jí)數(shù)學(xué)第二學(xué)期期末教學(xué)質(zhì)量檢測模擬試題含解析
- 貴州體育職業(yè)學(xué)院《基礎(chǔ)醫(yī)學(xué)概論下》2023-2024學(xué)年第二學(xué)期期末試卷
- 公共交通智能調(diào)度管理制度
- 工傷認(rèn)證所有流程
- 中水管線施工方案
- DB12T 1315-2024城市內(nèi)澇氣象風(fēng)險(xiǎn)等級(jí)
- 歷史-浙江天域全國名校協(xié)作體2025屆高三下學(xué)期3月聯(lián)考試題和解析
- 新課標(biāo)(水平三)體育與健康《籃球》大單元教學(xué)計(jì)劃及配套教案(18課時(shí))
- GA/T 761-2024停車庫(場)安全管理系統(tǒng)技術(shù)要求
- 大學(xué)生創(chuàng)新創(chuàng)業(yè)基礎(chǔ)(創(chuàng)新創(chuàng)業(yè)課程)完整全套教學(xué)課件
- 人教版小學(xué)數(shù)學(xué)四年級(jí)下冊第一單元測試卷附答案(共9套)
- DL∕T 5210.6-2019 電力建設(shè)施工質(zhì)量驗(yàn)收規(guī)程 第6部分:調(diào)整試驗(yàn)
- (完整版)形式發(fā)票模版(國際件通用)
- GM∕T 0036-2014 采用非接觸卡的門禁系統(tǒng)密碼應(yīng)用指南
- 部編版四年級(jí)道德與法治下冊第3課《當(dāng)沖突發(fā)生》優(yōu)秀課件(含視頻)
- 中建三總工字建筑工程施工技術(shù)檔案資料管理辦法(完整版)
評論
0/150
提交評論