




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一、上機(jī)目的及內(nèi)容目的:1理解數(shù)據(jù)挖掘的基本概念及其過程;2理解數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)、OLAP之間的關(guān)系3理解基本的數(shù)據(jù)挖掘技術(shù)與方法的工作原理與過程,掌握數(shù)據(jù)挖掘相關(guān)工具的使用。內(nèi)容:將創(chuàng)建一個(gè)數(shù)據(jù)挖掘模型以訓(xùn)練銷售數(shù)據(jù),并使用“Microsoft 決策樹”算法在客戶群中找出購(gòu)買自行車模式。請(qǐng)將要挖掘的維度(事例維度)設(shè)置為客戶,再將客戶的屬性設(shè)置為數(shù)據(jù)挖掘算法識(shí)別模式時(shí)要使用的信息。然后算法將使用決策樹從中確定模式。下一步需要訓(xùn)練模型,以便能夠?yàn)g覽樹視圖并從中讀取模式。市場(chǎng)部將根據(jù)這些模式選擇潛在的客戶發(fā)送自行車促銷信息。要求: 利用實(shí)驗(yàn)室和指導(dǎo)教師提供的實(shí)驗(yàn)軟件,認(rèn)真完成規(guī)定的實(shí)驗(yàn)內(nèi)容,真
2、實(shí)地記錄實(shí)驗(yàn)中遇到的各種問題和解決的方法與過程,并根據(jù)實(shí)驗(yàn)案例繪出模型及操作過程。實(shí)驗(yàn)完成后,應(yīng)根據(jù)實(shí)驗(yàn)情況寫出實(shí)驗(yàn)報(bào)告。二、實(shí)驗(yàn)原理及基本技術(shù)路線圖(方框原理圖或程序流程圖)關(guān)聯(lián)分析:關(guān)聯(lián)分析是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的一類重要方法。時(shí)序模式:通過時(shí)間序列搜索出重復(fù)發(fā)生概率較高的模式。分類:分類是在聚類的基礎(chǔ)上對(duì)已確定的類找出該類別的概念描述,代表了這類數(shù)據(jù)的整體信息,既該類的內(nèi)涵描述,一般用規(guī)則或決策樹模式表示。三、所用儀器、材料(設(shè)備名稱、型號(hào)、規(guī)格等或使用軟件)1臺(tái)PC及Microsoft SQL Server套件四、實(shí)驗(yàn)方法、步驟(或:程序代碼或操作過程)及實(shí)驗(yàn)過程原始記錄( 測(cè)試數(shù)據(jù)、圖
3、表、計(jì)算等)創(chuàng)建 Analysis Services 項(xiàng)目1. 打開 Business Intelligence Development Studio。2. 在“文件”菜單上,指向“新建”,然后選擇“項(xiàng)目”。3. 確保已選中“模板”窗格中的“Analysis Services 項(xiàng)目”。4. 在“名稱”框中,將新項(xiàng)目命名為 AdventureWorks。5. 單擊“確定”。 1 / 24更改存儲(chǔ)數(shù)據(jù)挖掘?qū)ο蟮膶?shí)例1. 在 Business Intelligence Development Studio 的“項(xiàng)目”菜單中,選擇“屬性”。2. 在“屬性頁(yè)”窗格的左側(cè),單擊“部署”。3. 在“目標(biāo)”選
4、項(xiàng)部分,驗(yàn)證數(shù)據(jù)庫(kù)名稱是否為 localhost。如果使用的是其他實(shí)例,請(qǐng)鍵入該實(shí)例的名稱。單擊“確定”。創(chuàng)建數(shù)據(jù)源1. 在解決方案資源管理器中,右鍵單擊“數(shù)據(jù)源”文件夾,然后選擇“新建數(shù)據(jù)源”。 系統(tǒng)將打開數(shù)據(jù)源向?qū)А?. 在“歡迎使用數(shù)據(jù)源向?qū)А表?yè)面中,單擊“下一步”按鈕。3. 在“選擇如何定義連接”頁(yè)上,單擊“新建”向 Adventure Works 數(shù)據(jù)庫(kù)中添加連接。系統(tǒng)將打開“連接管理器”對(duì)話框。4. 在“連接管理器”的“提供程序”列表中,選擇“本機(jī) OLE DBMicrosoft OLE DB Provider for SQL Server”。5. 在“服務(wù)器名稱”列表中,鍵入或選
5、擇承載 AdventureWorksDW 的服務(wù)器的名稱。6. 在“登錄到服務(wù)器”組中,選擇身份驗(yàn)證方法,并輸入憑據(jù)。7. 在“選擇或輸入數(shù)據(jù)庫(kù)名稱”列表中,選擇 AdventureWorksDW,再單擊“確定”按鈕。8. 單擊“下一步”按鈕進(jìn)入向?qū)У南乱豁?yè)。9. 在“模擬信息”頁(yè)中,選擇“使用服務(wù)帳戶”,再單擊“下一步”。10. 請(qǐng)注意,在“完成向?qū)А表?yè)中,數(shù)據(jù)源名稱默認(rèn)為 Adventure Works DW。11. 單擊“完成”。新的數(shù)據(jù)源 Adventure Works DW 將顯示在解決方案資源管理器的“數(shù)據(jù)源”文件夾中。創(chuàng)建數(shù)據(jù)源視圖1. 在解決方案資源管理器中,右鍵單擊“數(shù)據(jù)源視
6、圖”,選擇“新建數(shù)據(jù)源視圖”。系統(tǒng)將打開數(shù)據(jù)源視圖向?qū)А?. 在“歡迎使用數(shù)據(jù)源視圖向?qū)А表?yè)上,單擊“下一步”。3. 在“選擇數(shù)據(jù)源”頁(yè)的“關(guān)系數(shù)據(jù)源”下,系統(tǒng)將默認(rèn)選中您在上一個(gè)任務(wù)中創(chuàng)建的 Adventure Works DW 數(shù)據(jù)源。 單擊“下一步”。 若要?jiǎng)?chuàng)建新數(shù)據(jù)源,請(qǐng)單擊“新建數(shù)據(jù)源”,啟動(dòng)數(shù)據(jù)源向?qū)А?. 在“選擇表和視圖”頁(yè)上,選擇下列各表,然后單擊右箭頭鍵,將這些表包括在新數(shù)據(jù)源視圖中:· dbo.ProspectiveBuyer · dbo.vAssocSeqLineItems · dbo.vAssocSeqOrders · dbo.
7、vTargetMail · dbo.vTimeSeries 5. 單擊“下一步”。 6. 在“完成向?qū)А表?yè)上,默認(rèn)情況下,系統(tǒng)將數(shù)據(jù)源視圖命名為 Adventure Works DW。 單擊“完成”。系統(tǒng)將打開數(shù)據(jù)源視圖設(shè)計(jì)器,顯示 Adventure Works DW 數(shù)據(jù)源視圖。創(chuàng)建用于目標(biāo)郵件方案的挖掘結(jié)構(gòu)1. 在解決方案資源管理器中,右鍵單擊“挖掘結(jié)構(gòu)”并選擇“新建挖掘結(jié)構(gòu)”啟動(dòng)數(shù)據(jù)挖掘向?qū)А?. 在“歡迎使用數(shù)據(jù)挖掘向?qū)А表?yè)上,單擊“下一步”。3. 在“選擇定義方法”頁(yè)上,確保已選中“從現(xiàn)有關(guān)系數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)”,再單擊“下一步”。4. 在“創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)”頁(yè)的“您要使用
8、何種數(shù)據(jù)挖掘技術(shù)?”下,選擇“Microsoft 決策樹”。 5. 單擊“下一步”。6. 在“選擇數(shù)據(jù)源視圖”頁(yè)上,請(qǐng)注意已默認(rèn)選中 Adventure Works DW。在數(shù)據(jù)源視圖中,單擊“瀏覽”查看各表,然后單擊“關(guān)閉”返回該向?qū)А?. 單擊“下一步”。8. 在“指定表類型”頁(yè)上,選中 vTargetMail 表旁邊“事例”列中的復(fù)選框,再單擊“下一步”。9. 在“指定定型數(shù)據(jù)”頁(yè)上,確保已選中 CustomerKey 列旁邊 Key 列中的復(fù)選框。如果數(shù)據(jù)源視圖中的源表表示一個(gè)鍵,則數(shù)據(jù)挖掘向?qū)⒆詣?dòng)選擇該列作為模型的鍵。10. 選中 BikeBuyer 列旁邊的“輸入”和“可預(yù)測(cè)”。
9、11. 單擊“建議”打開“提供相關(guān)列建議”對(duì)話框。只要選中至少一個(gè)可預(yù)測(cè)屬性,即可啟用“建議”按鈕?!疤峁┫嚓P(guān)列建議”對(duì)話框?qū)⒘谐雠c可預(yù)測(cè)列關(guān)聯(lián)最密切的列,并按照與可預(yù)測(cè)屬性的相互關(guān)系對(duì)屬性進(jìn)行排序。值大于 0.05 的列將被自動(dòng)選中,以包括在模型中。12. 閱讀建議,然后單擊“取消”忽略建議并保留向?qū)гO(shè)置的原始值。13. 選中以下各列旁邊的“輸入”復(fù)選框:· Age · CommuteDistance · EnglishEducation · EnglishOccupation · FirstName · Gender ·
10、 GeographyKey · HouseOwnerFlag · LastName · MaritalStatus · NumberCarsOwned · NumberChildrenAtHome · Region · TotalChildren · YearlyIncome 14. 單擊“下一步”。15. 在“指定列的內(nèi)容和數(shù)據(jù)類型”頁(yè)上,單擊“檢測(cè)”以運(yùn)行對(duì)數(shù)值數(shù)據(jù)進(jìn)行取樣并確定數(shù)值列是否包含連續(xù)或離散值的算法。例如,某列可包含薪金信息,用以作為連續(xù)的實(shí)際薪金值,也可包含整數(shù),用以表示離散的編碼薪金范圍(例如
11、1 = < $25,000;2 = 從 $25,000 到 $50,000)。16. 單擊“檢測(cè)”后,請(qǐng)查看“內(nèi)容類型”和“數(shù)據(jù)類型”列中的各項(xiàng);如有必要,請(qǐng)進(jìn)行更改,以確保設(shè)置與下表所示一致。通常,向?qū)?huì)檢測(cè)數(shù)值,并分配相應(yīng)的數(shù)值數(shù)據(jù)類型;但有些情況下,您可能想要將數(shù)值作為文本處理。例如,GeographyKey 應(yīng)作為文本處理,因?yàn)閷?duì)此標(biāo)識(shí)符進(jìn)行數(shù)學(xué)運(yùn)算是不對(duì)的。列 內(nèi)容類型 數(shù)據(jù)類型 Age Continuous Long BikeBuyer Discrete Long CommuteDistance Discrete Text CustomerKey Key Long Engli
12、shEducation Discrete Text EnglishOccupation Discrete Text FirstName Discrete Text Gender Discrete Text GeographyKey Discrete Text HouseOwnerFlag Discrete Text LastName Discrete Text MaritalStatus Discrete Text NumberCarsOwned Discrete Long NumberChildrenAtHome Discrete Long Region Discrete Text Tota
13、lChildren Discrete Long YearlyIncome Continuous Double 17. 單擊“下一步”。18. 在“將數(shù)據(jù)拆分為定型集和測(cè)試集”頁(yè)上,對(duì)于“測(cè)試數(shù)據(jù)百分比”,請(qǐng)保留默認(rèn)值 30。19. 對(duì)于“測(cè)試數(shù)據(jù)集中的最大事例數(shù)”,請(qǐng)鍵入 1000。單擊“下一步”。 20. 在“完成向?qū)А表?yè)上的“挖掘結(jié)構(gòu)名稱”中,鍵入 Targeted Mailing。21. 在“挖掘模型名稱”中,鍵入 TM_Decision_Tree。22. 選中“允許鉆取”復(fù)選框。23. 單擊“完成”。測(cè)試挖掘模型的準(zhǔn)確性映射輸入列如果使用外部數(shù)據(jù)測(cè)試挖掘模型,則必須確保挖掘結(jié)構(gòu)中的列與
14、輸入數(shù)據(jù)中的列匹配。為此,可以使用“指定列映射”對(duì)話框。如果直接映射列名,則數(shù)據(jù)挖掘設(shè)計(jì)器將自動(dòng)創(chuàng)建關(guān)系。若要?jiǎng)h除兩列之間的映射,請(qǐng)選擇將“挖掘結(jié)構(gòu)”表中的列鏈接到“選擇輸入表”表中的列的行,再按 Delete 鍵。還可以通過單擊“選擇輸入表”中的列并將其拖到“挖掘結(jié)構(gòu)”中相應(yīng)的列來手動(dòng)創(chuàng)建映射。將輸入列映射到挖掘結(jié)構(gòu)1. 在數(shù)據(jù)挖掘設(shè)計(jì)器中的“挖掘準(zhǔn)確性圖表”選項(xiàng)卡的“輸入選擇”選項(xiàng)卡中,選擇選項(xiàng)“指定其他數(shù)據(jù)集”。2. 單擊“指定其他數(shù)據(jù)集”選項(xiàng)右側(cè)的 () 按鈕。此時(shí)將打開“指定列映射”對(duì)話框。如果您要測(cè)試的結(jié)構(gòu)未顯示在“挖掘結(jié)構(gòu)”窗格中,請(qǐng)單擊“選擇結(jié)構(gòu)”并選擇目標(biāo)郵件。3. 在“選擇
15、輸入表”框中,單擊“選擇事例表”。系統(tǒng)將打開“選擇表”對(duì)話框。在此對(duì)話框中選擇包含表或需要使用的表的數(shù)據(jù)源視圖,然后選擇該表。用于確定模型準(zhǔn)確性的數(shù)據(jù)必須包含可以映射到可預(yù)測(cè)列的列。為了實(shí)現(xiàn)本教程的教學(xué)目標(biāo),您需要對(duì)用于處理模型的輸入列使用相同的數(shù)據(jù)并對(duì)數(shù)據(jù)應(yīng)用篩選器。但是,理想情況下,您將使用用于處理該模型的數(shù)據(jù)中保留的測(cè)試數(shù)據(jù)集。在“選擇輸入選擇”選項(xiàng)卡上選擇選項(xiàng)“使用挖掘結(jié)構(gòu)測(cè)試事例”,將選擇該數(shù)據(jù)作為輸入。4. 在“數(shù)據(jù)源”列表中,確保已選中 Adventure Works DW。5. 在“表/視圖名稱”列表中,選擇 vTargetMail,再單擊“確定”。挖掘結(jié)構(gòu)中的列會(huì)自動(dòng)映射到輸
16、入表中具有相同名稱的列。 篩選輸入行如果選擇“指定其他數(shù)據(jù)集”選項(xiàng),則可以通過使用顯示事例表列和嵌套表列的一組對(duì)話框生成篩選條件。可以從運(yùn)算符、類型值的列表中進(jìn)行選擇,并連接條件與邏輯運(yùn)算符,以創(chuàng)建限制測(cè)試所用事例的復(fù)雜條件。對(duì)測(cè)試數(shù)據(jù)應(yīng)用篩選器1. 在數(shù)據(jù)挖掘設(shè)計(jì)器中的“挖掘準(zhǔn)確性圖表”選項(xiàng)卡的“輸入選擇”選項(xiàng)卡上,單擊“打開篩選器編輯器”。 2. 此時(shí)將打開“vTargetMail 數(shù)據(jù)集篩選器”對(duì)話框。在此網(wǎng)格內(nèi),輸入轉(zhuǎn)換為將應(yīng)用于源表的 WHERE 子句的條件,以限制用于測(cè)試的事例。3. 在“挖掘結(jié)構(gòu)列”下,單擊網(wǎng)格內(nèi)頂部的行。選擇 vTargetMail。4. 單擊“值”單元。此時(shí)將
17、打開“篩選器”對(duì)話框,該對(duì)話框可幫助您對(duì) vTargetMail 表設(shè)置條件。5. 在第一行中,單擊“挖掘結(jié)構(gòu)列”下的網(wǎng)格,然后從列的列表中選擇 Age。6. 單擊 Age 旁邊的“運(yùn)算符”框,并選擇 >(大于)運(yùn)算符。7. 在同一行單擊“值”框,并鍵入 20。8. 單擊“表達(dá)式”窗格以刷新該表達(dá)式,并驗(yàn)證它是否正確。單擊“確定”。9. 再次單擊“確定”,關(guān)閉“篩選數(shù)據(jù)集”對(duì)話框。“輸入選擇”選項(xiàng)卡中的“篩選表達(dá)式”窗格會(huì)顯示剛才創(chuàng)建的篩選表達(dá)式 vTargetMail: (Age > 20)。當(dāng)制作提升圖時(shí),模型將僅使用其年齡大于 20 的客戶進(jìn)行測(cè)試。顯示模型的提升1. 在“選
18、擇要在提升圖中顯示的可預(yù)測(cè)的挖掘模型列”下,確保已在每個(gè)模型的“可預(yù)測(cè)的列名”列表中選中 Bike Buyer。2. 在“預(yù)測(cè)值”列中,選擇 1。對(duì)于具有相同可預(yù)測(cè)列的每個(gè)模型,將自動(dòng)填充相同的值。顯示模型的準(zhǔn)確性1. 在“選擇要在提升圖中顯示的可預(yù)測(cè)的挖掘模型列”下,確保已在每個(gè)模型的“可預(yù)測(cè)的列名”列表中選中 Bike Buyer。2. 將“預(yù)測(cè)值”列保留為空。查看提升圖若要查看提升圖,請(qǐng)切換到“挖掘準(zhǔn)確性圖表”的“提升圖”選項(xiàng)卡。當(dāng)您單擊該選項(xiàng)卡時(shí),便會(huì)對(duì)服務(wù)器和數(shù)據(jù)庫(kù)的挖掘結(jié)構(gòu)和輸入表或測(cè)試數(shù)據(jù)運(yùn)行預(yù)測(cè)查詢。預(yù)測(cè)結(jié)果隨后會(huì)與已知的實(shí)際值進(jìn)行比較,并將繪制在圖上。有關(guān)如何使用該圖的詳細(xì)信
19、息,請(qǐng)參閱提升圖(Analysis Services - 數(shù)據(jù)挖掘)。創(chuàng)建查詢創(chuàng)建預(yù)測(cè)查詢的第一步是選擇挖掘模型和輸入表。選擇模型和輸入表1. 在數(shù)據(jù)挖掘設(shè)計(jì)器“挖掘模型預(yù)測(cè)”選項(xiàng)卡的“挖掘模型”框中,單擊“選擇模型”。系統(tǒng)將打開“選擇挖掘模型”對(duì)話框。2. 在整個(gè)樹中導(dǎo)航到“目標(biāo)郵件”結(jié)構(gòu),展開該結(jié)構(gòu)并選擇 TM_Decision_Tree,再單擊“確定”。3. 在“選擇輸入表”框中,單擊“選擇事例表”。系統(tǒng)將打開“選擇表”對(duì)話框。4. 在“數(shù)據(jù)源”中,選擇 Adventure Works DW。5. 在“表/視圖名稱”中,選擇 ProspectiveBuyer 表,再單擊“確定”。選擇輸入
20、表之后,預(yù)測(cè)查詢生成器便會(huì)根據(jù)各列的名稱在挖掘模型和輸入表之間創(chuàng)建默認(rèn)映射。 生成預(yù)測(cè)查詢1. 在“挖掘模型預(yù)測(cè)”選項(xiàng)卡上的網(wǎng)格內(nèi)的“源”列中,單擊第一個(gè)空行中的單元格,然后選擇 ProspectiveBuyer。2. 在 ProspectiveBuyer 行的“字段”列中,選擇 ProspectAlternateKey。這會(huì)將唯一標(biāo)識(shí)符添加到預(yù)測(cè)查詢中,以便標(biāo)識(shí)誰可能購(gòu)買自行車,以及誰不可能購(gòu)買自行車。3. 在“源”列中,單擊下一個(gè)空行,然后選擇 TM_Decision_Tree。4. 在 TM_Decision_Tree 行的“字段”列中,選擇 Bike Buyer。這將會(huì)輸出 Microsoft 決策樹模型中作為預(yù)測(cè)目標(biāo)的列。5. 在“源”列下,單擊下一個(gè)空行,然后選擇“預(yù)測(cè)函數(shù)”。6. 在“預(yù)測(cè)函數(shù)”行的“字段”列中,選擇 PredictProbability。預(yù)測(cè)函數(shù)提供有關(guān)模型如何進(jìn)行預(yù)測(cè)的信息。PredictProbability 函數(shù)提供有關(guān)正確預(yù)測(cè)的概率信息。您可以在“條件/參數(shù)”列中指定預(yù)測(cè)函數(shù)的參數(shù)。7. 在 PredictProba
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 私人轉(zhuǎn)讓汽車合同協(xié)議書
- 2024年視聽周邊設(shè)備:耳機(jī)項(xiàng)目資金需求報(bào)告代可行性研究報(bào)告
- 二手車中間人合同協(xié)議書
- 2024年力與變形檢測(cè)儀項(xiàng)目資金申請(qǐng)報(bào)告代可行性研究報(bào)告
- 品牌項(xiàng)目合同協(xié)議書范本
- 樓房出租合同協(xié)議書圖片
- 合同協(xié)議書心得
- 作業(yè)托管合同協(xié)議書
- 房子主頁(yè)合同協(xié)議書
- 消費(fèi)安全協(xié)議書合同
- 乳化液廢水處理方案
- 軍事航天技術(shù)
- 教學(xué)課件《斷裂力學(xué)》
- 慢阻肺的管理課件
- 新媒體實(shí)驗(yàn)影像課件
- HP系列培訓(xùn)手冊(cè)
- 游戲王統(tǒng)一規(guī)則
- 畢業(yè)論文-原油電脫水方法與機(jī)理的研究
- 陜西省2022年普通高中學(xué)業(yè)水平考試(真題)
- 大學(xué)體育課程設(shè)置
- JJF(魯) 142-2022 稱重式雨量計(jì)校準(zhǔn)規(guī)范
評(píng)論
0/150
提交評(píng)論