數(shù)據(jù)倉庫和數(shù)據(jù)挖掘?qū)嶒瀳蟾鎋第1頁
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘?qū)嶒瀳蟾鎋第2頁
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘?qū)嶒瀳蟾鎋第3頁
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘?qū)嶒瀳蟾鎋第4頁
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘?qū)嶒瀳蟾鎋第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 24/24 一、上機目的及內(nèi)容目的:1理解數(shù)據(jù)挖掘的基本概念及其過程;2理解數(shù)據(jù)挖掘與數(shù)據(jù)倉庫、OLAP之間的關(guān)系3理解基本的數(shù)據(jù)挖掘技術(shù)與方法的工作原理與過程,掌握數(shù)據(jù)挖掘相關(guān)工具的使用。內(nèi)容:將創(chuàng)建一個數(shù)據(jù)挖掘模型以訓(xùn)練銷售數(shù)據(jù),并使用“Microsoft 決策樹”算法在客戶群中找出購買自行車模式。請將要挖掘的維度(事例維度)設(shè)置為客戶,再將客戶的屬性設(shè)置為數(shù)據(jù)挖掘算法識別模式時要使用的信息。然后算法將使用決策樹從中確定模式。下一步需要訓(xùn)練模型,以便能夠瀏覽樹視圖并從中讀取模式。市場部將根據(jù)這些模式選擇潛在的客戶發(fā)送自行車促銷信息。要求:利用實驗室和指導(dǎo)教師提供的實驗軟件,認真完成規(guī)定的

2、實驗內(nèi)容,真實地記錄實驗中遇到的各種問題和解決的方法與過程,并根據(jù)實驗案例繪出模型及操作過程。實驗完成后,應(yīng)根據(jù)實驗情況寫出實驗報告。二、實驗原理及基本技術(shù)路線圖(方框原理圖或程序流程圖)關(guān)聯(lián)分析:關(guān)聯(lián)分析是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一類重要方法。時序模式:通過時間序列搜索出重復(fù)發(fā)生概率較高的模式。分類:分類是在聚類的基礎(chǔ)上對已確定的類找出該類別的概念描述,代表了這類數(shù)據(jù)的整體信息,既該類的內(nèi)涵描述,一般用規(guī)則或決策樹模式表示。三、所用儀器、材料(設(shè)備名稱、型號、規(guī)格等或使用軟件)1臺PC及Microsoft SQL Server套件四、實驗方法、步驟(或:程序代碼或操作過程)及實驗過程原始記錄(

3、測試數(shù)據(jù)、圖表、計算等)創(chuàng)建 Analysis Services 項目打開 Business Intelligence Development Studio。在“文件”菜單上,指向“新建”,然后選擇“項目”。確保已選中“模板”窗格中的“Analysis Services 項目”。在“名稱”框中,將新項目命名為 AdventureWorks。單擊“確定”。 更改存儲數(shù)據(jù)挖掘?qū)ο蟮膶嵗?Business Intelligence Development Studio 的“項目”菜單中,選擇“屬性”。在“屬性頁”窗格的左側(cè),單擊“部署”。在“目標(biāo)”選項部分,驗證數(shù)據(jù)庫名稱是否為 localhost

4、。如果使用的是其他實例,請鍵入該實例的名稱。單擊“確定”。創(chuàng)建數(shù)據(jù)源在解決方案資源管理器中,右鍵單擊“數(shù)據(jù)源”文件夾,然后選擇“新建數(shù)據(jù)源”。系統(tǒng)將打開數(shù)據(jù)源向?qū)?。在“歡迎使用數(shù)據(jù)源向?qū)А表撁嬷校瑔螕簟跋乱徊健卑粹o。在“選擇如何定義連接”頁上,單擊“新建”向 Adventure Works 數(shù)據(jù)庫中添加連接。系統(tǒng)將打開“連接管理器”對話框。在“連接管理器”的“提供程序”列表中,選擇“本機 OLE DBMicrosoft OLE DB Provider for SQL Server”。在“服務(wù)器名稱”列表中,鍵入或選擇承載 AdventureWorksDW 的服務(wù)器的名稱。在“登錄到服務(wù)器”組中

5、,選擇身份驗證方法,并輸入憑據(jù)。在“選擇或輸入數(shù)據(jù)庫名稱”列表中,選擇 AdventureWorksDW,再單擊“確定”按鈕。單擊“下一步”按鈕進入向?qū)У南乱豁?。在“模擬信息”頁中,選擇“使用服務(wù)某”,再單擊“下一步”。請注意,在“完成向?qū)А表撝校瑪?shù)據(jù)源名稱默認為 Adventure Works DW。單擊“完成”。新的數(shù)據(jù)源 Adventure Works DW 將顯示在解決方案資源管理器的“數(shù)據(jù)源”文件夾中。創(chuàng)建數(shù)據(jù)源視圖在解決方案資源管理器中,右鍵單擊“數(shù)據(jù)源視圖”,選擇“新建數(shù)據(jù)源視圖”。系統(tǒng)將打開數(shù)據(jù)源視圖向?qū)?。在“歡迎使用數(shù)據(jù)源視圖向?qū)А表撋?,單擊“下一步”。在“選擇數(shù)據(jù)源”頁的“

6、關(guān)系數(shù)據(jù)源”下,系統(tǒng)將默認選中您在上一個任務(wù)中創(chuàng)建的 Adventure Works DW 數(shù)據(jù)源。 單擊“下一步”。 若要創(chuàng)建新數(shù)據(jù)源,請單擊“新建數(shù)據(jù)源”,啟動數(shù)據(jù)源向?qū)?。在“選擇表和視圖”頁上,選擇下列各表,然后單擊右箭頭鍵,將這些表包括在新數(shù)據(jù)源視圖中:dbo.ProspectiveBuyerdbo.vAssocSeqLineItemsdbo.vAssocSeqOrdersdbo.vTargetMaildbo.vTimeSeries單擊“下一步”。在“完成向?qū)А表撋?,默認情況下,系統(tǒng)將數(shù)據(jù)源視圖命名為 Adventure Works DW。 單擊“完成”。系統(tǒng)將打開數(shù)據(jù)源視圖設(shè)計器,顯

7、示 Adventure Works DW 數(shù)據(jù)源視圖。創(chuàng)建用于目標(biāo)方案的挖掘結(jié)構(gòu)在解決方案資源管理器中,右鍵單擊“挖掘結(jié)構(gòu)”并選擇“新建挖掘結(jié)構(gòu)”啟動數(shù)據(jù)挖掘向?qū)?。在“歡迎使用數(shù)據(jù)挖掘向?qū)А表撋?,單擊“下一步”。在“選擇定義方法”頁上,確保已選中“從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫”,再單擊“下一步”。在“創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)”頁的“您要使用何種數(shù)據(jù)挖掘技術(shù)?”下,選擇“Microsoft 決策樹”。單擊“下一步”。在“選擇數(shù)據(jù)源視圖”頁上,請注意已默認選中 Adventure Works DW。在數(shù)據(jù)源視圖中,單擊“瀏覽”查看各表,然后單擊“關(guān)閉”返回該向?qū)?。單擊“下一步”。在“指定表類型”頁上,選中

8、vTargetMail 表旁邊“事例”列中的復(fù)選框,再單擊“下一步”。在“指定定型數(shù)據(jù)”頁上,確保已選中 CustomerKey 列旁邊 Key 列中的復(fù)選框。如果數(shù)據(jù)源視圖中的源表表示一個鍵,則數(shù)據(jù)挖掘向?qū)⒆詣舆x擇該列作為模型的鍵。選中 BikeBuyer 列旁邊的“輸入”和“可預(yù)測”。單擊“建議”打開“提供相關(guān)列建議”對話框。只要選中至少一個可預(yù)測屬性,即可啟用“建議”按鈕。“提供相關(guān)列建議”對話框?qū)⒘谐雠c可預(yù)測列關(guān)聯(lián)最密切的列,并按照與可預(yù)測屬性的相互關(guān)系對屬性進行排序。值大于 0.05 的列將被自動選中,以包括在模型中。閱讀建議,然后單擊“取消”忽略建議并保留向?qū)гO(shè)置的原始值。選中以

9、下各列旁邊的“輸入”復(fù)選框:AgemuteDistanceEnglishEducationEnglishOccupationFirstNameGenderGeographyKeyHouseOwnerFlagLastNameMaritalStatusNumberCarsOwnedNumberChildrenAtHomeRegionTotalChildrenYearlyIne單擊“下一步”。在“指定列的內(nèi)容和數(shù)據(jù)類型”頁上,單擊“檢測”以運行對數(shù)值數(shù)據(jù)進行取樣并確定數(shù)值列是否包含連續(xù)或離散值的算法。例如,某列可包含薪金信息,用以作為連續(xù)的實際薪金值,也可包含整數(shù),用以表示離散的編碼薪金X圍(例如

10、1 = (大于)運算符。在同一行單擊“值”框,并鍵入 20。單擊“表達式”窗格以刷新該表達式,并驗證它是否正確。單擊“確定”。再次單擊“確定”,關(guān)閉“篩選數(shù)據(jù)集”對話框。“輸入選擇”選項卡中的“篩選表達式”窗格會顯示剛才創(chuàng)建的篩選表達式 vTargetMail: (Age 20)。當(dāng)制作提升圖時,模型將僅使用其年齡大于 20 的客戶進行測試。顯示模型的提升在“選擇要在提升圖中顯示的可預(yù)測的挖掘模型列”下,確保已在每個模型的“可預(yù)測的列名”列表中選中 Bike Buyer。在“預(yù)測值”列中,選擇 1。對于具有相同可預(yù)測列的每個模型,將自動填充相同的值。顯示模型的準確性在“選擇要在提升圖中顯示的可

11、預(yù)測的挖掘模型列”下,確保已在每個模型的“可預(yù)測的列名”列表中選中 Bike Buyer。將“預(yù)測值”列保留為空。查看提升圖若要查看提升圖,請切換到“挖掘準確性圖表”的“提升圖”選項卡。當(dāng)您單擊該選項卡時,便會對服務(wù)器和數(shù)據(jù)庫的挖掘結(jié)構(gòu)和輸入表或測試數(shù)據(jù)運行預(yù)測查詢。預(yù)測結(jié)果隨后會與已知的實際值進行比較,并將繪制在圖上。有關(guān)如何使用該圖的詳細信息,請參閱提升圖(Analysis Services - 數(shù)據(jù)挖掘)。創(chuàng)建查詢創(chuàng)建預(yù)測查詢的第一步是選擇挖掘模型和輸入表。選擇模型和輸入表在數(shù)據(jù)挖掘設(shè)計器“挖掘模型預(yù)測”選項卡的“挖掘模型”框中,單擊“選擇模型”。系統(tǒng)將打開“選擇挖掘模型”對話框。在整個

12、樹中導(dǎo)航到“目標(biāo)”結(jié)構(gòu),展開該結(jié)構(gòu)并選擇 TM_Decision_Tree,再單擊“確定”。在“選擇輸入表”框中,單擊“選擇事例表”。系統(tǒng)將打開“選擇表”對話框。在“數(shù)據(jù)源”中,選擇 Adventure Works DW。在“表/視圖名稱”中,選擇 ProspectiveBuyer 表,再單擊“確定”。選擇輸入表之后,預(yù)測查詢生成器便會根據(jù)各列的名稱在挖掘模型和輸入表之間創(chuàng)建默認映射。生成預(yù)測查詢在“挖掘模型預(yù)測”選項卡上的網(wǎng)格內(nèi)的“源”列中,單擊第一個空行中的單元格,然后選擇 ProspectiveBuyer。在 ProspectiveBuyer 行的“字段”列中,選擇 ProspectAl

13、ternateKey。這會將唯一標(biāo)識符添加到預(yù)測查詢中,以便標(biāo)識誰可能購買自行車,以及誰不可能購買自行車。在“源”列中,單擊下一個空行,然后選擇 TM_Decision_Tree。在 TM_Decision_Tree 行的“字段”列中,選擇 Bike Buyer。這將會輸出 Microsoft 決策樹模型中作為預(yù)測目標(biāo)的列。在“源”列下,單擊下一個空行,然后選擇“預(yù)測函數(shù)”。在“預(yù)測函數(shù)”行的“字段”列中,選擇 PredictProbability。預(yù)測函數(shù)提供有關(guān)模型如何進行預(yù)測的信息。PredictProbability 函數(shù)提供有關(guān)正確預(yù)測的概率信息。您可以在“條件/參數(shù)”列中指定預(yù)測函

14、數(shù)的參數(shù)。在 PredictProbability 行的“條件/參數(shù)”列中,鍵入 TM_Decision_Tree.Bike Buyer。這將指定 PredictProbability 函數(shù)的目標(biāo)列。有關(guān)函數(shù)的詳細信息,請參閱數(shù)據(jù)挖掘擴展插件 (DMX) 函數(shù)參考。“挖掘模型預(yù)測”選項卡的工具欄中的第一個工具是“切換到查詢設(shè)計視圖/切換到查詢結(jié)果視圖”按鈕。通過單擊此按鈕上的下箭頭,可在所創(chuàng)建的查詢的視圖之間切換。使用“查詢”視圖可以查看預(yù)測查詢生成器創(chuàng)建的 DMX 代碼。使用“結(jié)果”視圖可以運行查詢并查看結(jié)果。使用“設(shè)計”視圖可以向查詢中添加新預(yù)測函數(shù)。注意:如果在“查詢”視圖中手動更改查詢的文本,則切換回“設(shè)計”視圖時,不會保留修改后的查詢。查看結(jié)果通過單擊“切換到查詢設(shè)計視圖/切換到查詢結(jié)果視圖”按鈕(即工具欄上的第一個按鈕)旁邊的箭頭并選擇“結(jié)果”,可以運行查詢。六、實驗結(jié)果、分析和結(jié)論(誤差分析與數(shù)據(jù)處理、成果總結(jié)等。其中,繪制曲線圖時必須用計算紙或程序運行結(jié)果、改進、收獲)使用 Microsoft SQL Server Ana

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論