【精品】《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》實驗指導書_第1頁
【精品】《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》實驗指導書_第2頁
【精品】《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》實驗指導書_第3頁
【精品】《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》實驗指導書_第4頁
【精品】《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》實驗指導書_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炛笇ㄟm用于信息系統(tǒng)與信息管理專業(yè))目 錄前 言1實驗一、spss clementine 軟件功能演練5實驗二、spss clementine 數(shù)據(jù)可視化9實驗三、決策樹c5.0 建模10實驗四、關(guān)聯(lián)規(guī)則挖掘21實驗五、欺詐屏蔽/異常檢測/神經(jīng)網(wǎng)絡(luò)29實驗六、分類和回歸樹節(jié)點(c&rt)40實驗七、多項 logistic 回歸50實驗八、綜合實驗:電力負荷預測56前 言一、課程簡介數(shù)據(jù)挖掘(data mining),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘的廣義觀點:數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的

2、數(shù)據(jù)中“挖掘”有趣知識的過程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(knowledge discovery in database, kdd),因此,數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的協(xié)同工作,一方面,可以迎合和簡化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉庫應(yīng)用中極為重要和相對獨立的方面和工具。數(shù)據(jù)挖掘有機結(jié)合了來自多學科技術(shù),其中包括:數(shù)據(jù)庫、數(shù)理統(tǒng)計、機器學習、高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索、圖像與信號處理、空間數(shù)據(jù)分析等,這里我們強調(diào)數(shù)據(jù)挖掘所處理的是大規(guī)模數(shù)據(jù),且其挖掘算法應(yīng)是高效的和可擴展的。

3、通過數(shù)據(jù)挖掘,可從數(shù)據(jù)庫中挖掘出有意義的知識、規(guī)律,或更高層次的信息,并可以從多個角度對其進行瀏覽察看。所挖掘出的知識可以幫助進行決策支持、過程控制、信息管理、查詢處理等等。因此數(shù)據(jù)挖掘被認為是數(shù)據(jù)庫系統(tǒng)最重要的前沿研究領(lǐng)域之一,也是信息工業(yè)中最富有前景的數(shù)據(jù)庫應(yīng)用領(lǐng)域之一。當前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。而據(jù)gartner的報告也指出,數(shù)據(jù)挖掘會成為未來10年內(nèi)重要的技術(shù)之一。二、課程的任務(wù)和實驗的教學目標課程編號:5405190課程屬性:專業(yè)任選課實驗學時:12 適用專業(yè):信息管理與信息系統(tǒng)先修課程:管理信息系統(tǒng)、計算機基礎(chǔ)、

4、數(shù)據(jù)庫技術(shù)、統(tǒng)計學數(shù)據(jù)倉庫與數(shù)據(jù)挖掘是一門理論和實踐相結(jié)合的課程,它在整個信息系統(tǒng)與信息管理專業(yè)中處于信息系統(tǒng)應(yīng)用的前沿應(yīng)用的地位,是計算機科學的算法理論基礎(chǔ)和數(shù)據(jù)庫、數(shù)據(jù)倉庫技術(shù)、統(tǒng)計技術(shù)的結(jié)合,以及在管理實踐中應(yīng)用。其上機實驗的目的主要是實現(xiàn)數(shù)據(jù)挖掘的主要算法,訓練學生實際動手進行數(shù)據(jù)挖掘設(shè)計和軟件應(yīng)用的能力,加深對數(shù)據(jù)挖掘相關(guān)概念和算法的理解。本課程具有技術(shù)性和實踐性較強的特點,因此,配合基本原理的講授,應(yīng)當安排相應(yīng)的實習操作。通過實驗和操作,使學生鞏固和加深數(shù)據(jù)倉庫與數(shù)據(jù)挖掘理論知識,進一步加強學生獨立分析問題和解決問題的能力、綜合設(shè)計及創(chuàng)新能力的培養(yǎng),為今后工作打下良好的基礎(chǔ)。經(jīng)過多

5、層次、多方式的全面訓練后,學生應(yīng)達到下列要求:1進一步鞏固和加深數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基本知識的理解,提高綜合運用所學知識,建立和管理數(shù)據(jù)的能力。2能根據(jù)需要選學參考書,查閱相關(guān)的工具,通過獨立思考,深入鉆研有關(guān)問題,學會自己獨立分析問題、解決問題,具有一定的創(chuàng)新能力。3能正確處理大規(guī)模數(shù)據(jù),選擇數(shù)據(jù)挖掘工具的開發(fā)平臺和相關(guān)的軟件解決實踐問題。4能獨立撰寫實驗報告,準確分析實驗結(jié)果,總結(jié)有關(guān)的問題,提出相關(guān)的建議。三、實驗教材及參考書理論課教材及參考書:f 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程(叢書名: 高等院校信息管理與信息系統(tǒng)專業(yè)系列教材)作者: 陳文偉 編著,清華大學出版社,2006.8f 數(shù)據(jù)倉庫和數(shù)據(jù)

6、挖掘,蘇新寧 等編著,清華大學出版社,2006.4f 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)(第2版),陳京民 編著,電子工業(yè)出版社,2007.11f jiawei han, micheline kamber. data mining: concepts and techniques.高等教育出版社(影印版),2001.5.f ian h. witten, eibe frank. data mining: practical machine learning tools and techniques (第二版). 機械工業(yè)出版社(影印版),2005.f richard j. roiger, michael w

7、. geatz. data mining: a tutorial-based primer.清華大學出版社,2003.實驗教材:f 數(shù)據(jù)挖掘clementine應(yīng)用實務(wù),謝邦昌 主編,機械工業(yè)出版社,2008.4f 數(shù)據(jù)挖掘原理與spss clementine應(yīng)用寶典,元昌安 主編,電子工業(yè)出版社,2009.8四、實驗基本內(nèi)容及學時分配按照數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒灲虒W大綱的要求,共設(shè)立實驗8個,總計20學時。試驗基本內(nèi)容與學時分配如下表:序號實驗名稱實驗學時每組人數(shù)實驗屬性實驗者類別開出要求1spss clementine 軟件功能演練21演練本科必開2實驗二、spss clementine 數(shù)

8、據(jù)可視化21演練本科必開3決策樹c5.0 建模21驗證綜合本科必開4關(guān)聯(lián)規(guī)則挖掘21驗證綜合本科必開5欺詐屏蔽/異常檢測/神經(jīng)網(wǎng)絡(luò)21驗證綜合本科必開6分類和回歸樹節(jié)點(c&rt)21驗證綜合本科必開7多項 logistic 回歸21驗證綜合本科必開8實驗八、綜合實驗:電力負荷預測61綜合實驗本科必開五、實驗方式與基本要求1、本課程的實驗為非單獨設(shè)課,因此,應(yīng)該課程的內(nèi)容安排和進度,配合技術(shù)原理的講授,進行相應(yīng)的操作和實驗。 2、該課以綜合性實驗為主,教師給出實驗題目,實驗前學生必須進行預習, 3、在規(guī)定的時間內(nèi),由學生獨立完成,出現(xiàn)問題,教師要引導學生獨立分析、解決,不得包辦代替。4、實驗中

9、按要求做好學生實驗情況及結(jié)果記錄,實驗后認真填寫實驗記錄。5、 實驗指導書僅作為上機時的參考步驟,不能作為唯一的依據(jù),以教材和課堂講授為準。實驗一、spss clementine 軟件功能演練【實驗目的】1、熟悉spss clementine 軟件功能和操作特點。2、了解spss clementine 軟件的各選項面板和操作方法。3、熟練掌握spss clementine 工作流程?!緦嶒瀮?nèi)容】1、打開spss clementine 軟件,逐一操作各選項,熟悉軟件功能。2、打開一有數(shù)據(jù)庫、或新建數(shù)據(jù)文件,讀入spss clementine,并使用各種輸出節(jié)點,熟悉數(shù)據(jù)輸入輸出。(要求:至少做a

10、ccess數(shù)據(jù)庫文件、excel文件、txt文件、可變文件的導入、導出)【實驗步驟】1、啟動 clementine:請從 windows 的“開始”菜單中選擇: 所有程序spss clementine 11.1spss clementine client 11.12、clementine窗口當?shù)谝淮螁?clementine 時,工作區(qū)將以默認視圖打開。中間的區(qū)域稱作流工作區(qū)。在 clementine 中,這將是用來工作的主要區(qū)域。clementine 中絕大部分的數(shù)據(jù)和建模工具都在選項板中,該區(qū)域位于流工作區(qū)的下方。每個選項卡都包含一組以圖形表示數(shù)據(jù)挖掘任務(wù)的節(jié)點,例如訪問和過濾數(shù)據(jù),創(chuàng)建圖

11、形和構(gòu)建模型。要將節(jié)點添加到工組區(qū),可在節(jié)點選項板中雙擊圖標或?qū)⑵渫献е凉ぷ鲄^(qū)后釋放。隨后可將各個圖標連接以創(chuàng)建一個表示數(shù)據(jù)流動的流。窗口的右上方是輸出和對象管理器。這些選項卡用于查看和管理各種 clementine 對象?!傲鳌边x項卡包含了當前會話中打開的所有流??梢詫⑦@些流保存并關(guān)閉,也可將其添加到工程中?!拜敵觥边x項卡包含了由 clementine 中的流操作產(chǎn)生的各類文件??梢燥@示、重命名和關(guān)閉此處所列的表格、圖形和報告。“模型”選項卡是一個功能強大的工具,包含了在一次會話中產(chǎn)生的所有模型(即,已在 clementine 中構(gòu)建完畢的模型)。通過它,可以對模型作更深入的查看、將其添加至

12、流中、導出或為其加注解。窗口右側(cè)底部的部分是工程工具,它用來創(chuàng)建和管理數(shù)據(jù)挖掘工程。查看在 clementine 中創(chuàng)建的工程有兩種方式 - 類視圖或 crisp-dm 視圖。 “crisp-dm”選項卡提供了一種組織工程的方式。“類”選項卡提供了一種在 clementine 中按類別(即,按照所創(chuàng)建對象的類別)組織工作的方式。當要獲取數(shù)據(jù)、流、模型等對象的詳盡目錄時,這種視圖十分有用。 實驗二、spss clementine 數(shù)據(jù)可視化【實驗目的】1、熟悉spss clementine 繪圖。2、了解spss clementine 圖形選項面板各節(jié)點的使用方法。3、熟練掌握spss clem

13、entine 數(shù)據(jù)可視化流程。【實驗內(nèi)容】1、打開spss clementine 軟件,逐一操作各圖形選項面板,熟悉軟件功能。2、打開一有數(shù)據(jù)庫、或新建數(shù)據(jù)文件,讀入spss clementine,并使用各種輸出節(jié)點,熟悉數(shù)據(jù)輸入輸出。(要求:至少做分布圖、直方圖、收集圖、多重散點圖、時間散點圖)【實驗步驟】1、啟動 clementine:請從 windows 的“開始”菜單中選擇: 所有程序pss clementine 11.1spss clementine client 11.12、建立一個流、導入相關(guān)數(shù)據(jù),打開圖形選項面板3、繪制以下各類圖形(1)以顏色為層次的圖(2)以大小為層次的圖(

14、3)以顏色、大小、形狀和透明度為層次的圖(4)以面板圖為層次的圖(5)三維收集圖(6)動畫散點圖(7)分布圖(8)直方圖(9)收集圖(10)多重散點圖未標準化時的多重散點圖標準化后的多重散點圖(11)網(wǎng)絡(luò)圖實驗三、決策樹c5.0 建?!緦嶒災康摹?、熟悉spss clementine建模方法。2、掌握spss clementine分布圖、散點圖、網(wǎng)絡(luò)圖的創(chuàng)建方法。3、掌握決策樹c5.0決策方法?!緦嶒瀮?nèi)容】1、創(chuàng)建散點圖。2、創(chuàng)建分布圖。3、創(chuàng)建網(wǎng)絡(luò)圖?!緦嶒灢襟E】假設(shè)你是一位正在匯總研究數(shù)據(jù)的醫(yī)學研究員。已收集了一組患有同一疾病的患者的數(shù)據(jù)。在治療過程中,每位患者均對五種藥物中的一種有明顯反

15、應(yīng)。的任務(wù)就是通過數(shù)據(jù)挖掘找出適合治療此疾病的藥物。此示例使用名為 druglearn.str 的流,此流引用名為 drug1n 的數(shù)據(jù)文件。可以從任何 clementine client 安裝軟件的 demos 目錄下找到這些文件,也可以通過從 windows 的“開始”菜單選擇 start all programs spss clementine 11.1 demos訪問這些文件。文件 druglearn.str 位于 classification_module 目錄中。此 demo 中使用的數(shù)據(jù)字段包括: 年齡(數(shù)值)性別m 或 fbp血壓:高、正常或低膽固醇血液中的膽固醇含量:正?;蚋?/p>

16、na血液中鈉的濃度k血液中鉀的濃度藥品對患者有效的處方藥1、讀取文本數(shù)據(jù)使用變量文件節(jié)點讀取定界文本數(shù)據(jù)??梢詮倪x項板中添加變量文件節(jié)點,方法是單擊源選項卡找到此節(jié)點,或者使用收藏夾選項卡(默認情況下,其中包含此節(jié)點)。然后,雙擊新添加的節(jié)點以打開相應(yīng)的對話框。單擊緊挨“文件”框右邊以省略號“.”標記的按鈕,瀏覽到系統(tǒng)中的 clementine 安裝目錄。打開 demos 目錄,然后選擇名為 drug1n 的文件。選擇從文件讀取字段名,并注意已載入此對話框中的字段和值。單擊數(shù)據(jù)選項卡,覆蓋和更改某個字段的存儲。注意,存儲不同于類型或數(shù)據(jù)字段的用途。類型選項卡可幫助了解數(shù)據(jù)中的更多字段類型。還可

17、以選擇讀取值來查看各個字段的實際值,具體取決于在值列中的選擇。此過程稱為實例化。類型選項卡可幫助了解數(shù)據(jù)中的更多字段類型。還可以選擇讀取值來查看各個字段的實際值,具體取決于在值列中的選擇。此過程稱為實例化。2、添加表?,F(xiàn)在已載入數(shù)據(jù)文件,可以瀏覽一下某些記錄的值。其中一個方法就是構(gòu)建一個包含表節(jié)點的流。要將表節(jié)點添加到流中,可雙擊選項板中的表節(jié)點圖標或?qū)⑵渫戏诺焦ぷ鲄^(qū)。雙擊選項板中的某個節(jié)點后,該節(jié)點將自動與流工作區(qū)中的選定節(jié)點相連接。此外,如果尚未連接節(jié)點,則可以使用鼠標中鍵將源節(jié)點與表節(jié)點相連接。要模擬鼠標中鍵操作,請在使用鼠標時按下 alt 鍵。要查看表,請單擊工具欄上的綠色箭頭按鈕執(zhí)行

18、流,或者右鍵單擊表節(jié)點,然后選擇執(zhí)行。3、創(chuàng)建分布圖數(shù)據(jù)挖掘過程中,創(chuàng)建匯總視圖通常有助于研究數(shù)據(jù)。clementine 提供了若干不同類型的圖表供您選擇,具體取決于要匯總分析的數(shù)據(jù)類型。例如,要找出每種藥物的對癥患者的比例,請使用分布節(jié)點。將分布節(jié)點添加到流,并將其與源節(jié)點相連接,然后雙擊該節(jié)點以編輯要顯示的選項。選擇藥品作為要顯示其分布的目標字段。然后,在對話框中單擊執(zhí)行最終圖表將有助于查看數(shù)據(jù)的“結(jié)構(gòu)”。結(jié)果表明,藥品 y 的對癥患者最多,而藥品 b 和藥品 c 的對癥患者最少。此外,還可以添加并執(zhí)行數(shù)據(jù)審核節(jié)點,同時快速瀏覽所有字段的分布圖和直方圖??梢栽凇拜敵觥边x項卡中找到數(shù)據(jù)審核節(jié)

19、點。4、創(chuàng)建散點圖現(xiàn)在我們來看一下有哪些因素會對藥品(目標變量)產(chǎn)生影響。作為研究員,您一定知道鈉和鉀的濃度在血液中有著重要的影響。由于兩者都是數(shù)值,您可以用顏色區(qū)分藥品,創(chuàng)建一個關(guān)于鈉和鉀的散點圖。將散點圖節(jié)點放在工作區(qū)中,并將其與源節(jié)點相連接,然后雙擊該節(jié)點對其進行編輯在“散點圖”選項卡中,選擇 na 作為 x 字段,選擇 k 作為 y 字段,并選擇藥品作為交疊字段。然后單擊執(zhí)行。此散點圖清楚地顯示一個閾值,在此閾值上方,對癥藥品始終是 y,在此閾值下方,對癥藥品均不是 y。此閾值是一個比率,即鈉(na)和鉀(k)的比率。5、創(chuàng)建網(wǎng)絡(luò)圖因為很多數(shù)據(jù)字段均可分類,也可嘗試繪制網(wǎng)絡(luò)圖,此圖表將

20、反映不同類別之間的聯(lián)系。首先,將網(wǎng)絡(luò)節(jié)點與您工作區(qū)中的源節(jié)點相連接。在“網(wǎng)絡(luò)節(jié)點”對話框中,選擇 bp(血壓)和藥品。然后單擊執(zhí)行。此圖顯示,藥品 y 與三種級別的血壓均相關(guān)。y 是最佳藥品。實驗四、關(guān)聯(lián)規(guī)則挖掘【實驗目的】1、熟悉c5.0 規(guī)則歸納2、掌握購物籃分析的方法。【實驗內(nèi)容】1、字段和記錄的篩選。2、規(guī)則歸納 (c5.0)分類。3、購物籃分析?!緦嶒灢襟E】本示例處理描述超級市場購物籃內(nèi)容(即,所購買的全部商品的集合)的虛構(gòu)數(shù)據(jù),以及購買者的相關(guān)個人數(shù)據(jù)(可通過忠誠卡方案獲得)。目的是尋找購買相似產(chǎn)品并且可按人口統(tǒng)計學方式(如按年齡、收入等)刻畫其特征的客戶群。本示例說明了數(shù)據(jù)挖掘的

21、兩個階段: 關(guān)聯(lián)規(guī)則建模和一個揭示所購買商品之間聯(lián)系的 web 顯示 c5.0 規(guī)則歸納(描繪已標識產(chǎn)品組的購買者的特征) 注意:此應(yīng)用不直接使用預測建模,因此,不對最終模型進行準確性度量,在數(shù)據(jù)挖掘過程中也不存在與之相關(guān)的訓練/檢驗兩個步驟的區(qū)分。本例使用名為 baskrule 的流,該流引用名為 baskets1n 的數(shù)據(jù)文件。任何 clementine client 安裝的 demos 目錄中都具有這些文件,通過從 windows 的“開始”菜單中選擇 start all programs spss clementine 11.1 demos 可訪問這些文件。文件 baskrule 位于

22、 classification_module 目錄下。1、訪問數(shù)據(jù)使用“變量文件”節(jié)點連接到數(shù)據(jù)集 baskets1n,選擇要從該文件讀取的字段名稱。將“類型”節(jié)點連接到數(shù)據(jù)源,然后將該節(jié)點連接到“表”節(jié)點。將字段卡 id 的類型設(shè)置為無類型(因為每個忠誠卡 id 在數(shù)據(jù)集中只出現(xiàn)一次,因此對于建模沒有用處)。選擇集作為字段性別的類型(這是為了確保 gri 建模算法不會將性別視為標志)?,F(xiàn)在,執(zhí)行該流以將“類型”節(jié)點實例化并顯示表。數(shù)據(jù)集包含 18 個字段,其中每條記錄表示一個購物籃。下列標題中會顯示 18 個字段。購物籃摘要: l cardid.購買此籃商品的客戶的忠誠卡標識符。l valu

23、e.購物籃的總購買價格。l pmethod.購物籃的支付方法??ǔ钟姓叩膫€人詳細信息: l sex l homeown.卡持有者是否擁有住房。l 收入 l age 購物籃內(nèi)容產(chǎn)品類別的出現(xiàn)標志: l fruitveg l freshmeat l dairy l cannedveg l cannedmeat l frozenmeal l beer l wine l softdrink l fish l confectionery 3、發(fā)現(xiàn)購物籃內(nèi)容的關(guān)系首先,需要使用一般規(guī)則歸納 (gri) 大致了解購物籃內(nèi)容的關(guān)系(關(guān)聯(lián))以生成關(guān)聯(lián)規(guī)則。選擇要在此建模過程中使用的字段,方法是:編輯“類型”節(jié)點

24、,將所有產(chǎn)品類別的方向設(shè)置為雙向,并將所有其他方向設(shè)置為無。(雙向表示該字段可以是結(jié)果模型的輸入或輸出。)注意:通過按住 shift 鍵并單擊以選擇多個字段,然后指定列中的選項,可為多個字段設(shè)置選項。指定了用于建模的字段后,請將 gri 節(jié)點附加到“類型”節(jié)點,編輯它,選擇選項只顯示值為真的標志變量,然后執(zhí)行 gri 節(jié)點。結(jié)果(管理器窗口右上角“模型”選項卡上的非精練模型)包含您可以查看(使用上下文菜單,然后選擇瀏覽)的關(guān)聯(lián)規(guī)則。這些規(guī)則顯示凍肉、罐裝蔬菜和啤酒之間存在多種關(guān)聯(lián);酒和糖果也具有關(guān)聯(lián)。出現(xiàn)雙向關(guān)聯(lián)規(guī)則(如:frozenmeal beer beer frozenmeal)web

25、顯示(只顯示雙向關(guān)聯(lián))可能會突出顯示此數(shù)據(jù)中的一些模式。將 web 節(jié)點附加到“類型”節(jié)點,編輯 web 節(jié)點,選擇所有購物籃內(nèi)容字段,選擇僅顯示 true 標志,然后執(zhí)行 web 節(jié)點。因為大多數(shù)產(chǎn)品類別組合都會出現(xiàn)在多個購物籃中,所以此 web 上的強鏈接太多,無法顯示 gri 模型表示的客戶群。要提高臨界值以便只顯示最強的鏈接,請使用工具欄上的滑塊來實現(xiàn)最多只顯示 50 個連接。要指定弱連接和強連接,請單擊工具欄上的黃色雙箭頭按鈕。這會展開顯示 web 輸出摘要和控件的對話框。選擇大小表示強/正常/弱。將弱鏈接設(shè)置為低于 90。將強鏈接設(shè)置為高于 100。在最終顯示中,會有三個客戶群突出

26、顯示:l 購買魚和果蔬的客戶,可將這類客戶稱為“健康食客”l 購買酒和糧果的客戶l 購買啤酒、凍肉和罐裝蔬菜(“啤酒、豆類和比薩”)的客戶請注意,gri 僅標識這些客戶群中的最后兩個;健康食客未形成足夠強的模式,gri 無法發(fā)現(xiàn)它。4、描繪客戶群的特征現(xiàn)在,已經(jīng)根據(jù)客戶購買的產(chǎn)品類型標識了三個客戶群,但是還要知道這些客戶是誰,即,他們的人口統(tǒng)計學特征。通過為每個群中的每名客戶添加標志,并使用規(guī)則歸納 (c5.0) 來基于規(guī)則描繪這些標志的特征,可以實現(xiàn)這一點。首先,必須獲取每個群的標志。使用剛剛創(chuàng)建的 web 顯示,可以自動生成每個群的標志。使用鼠標右鍵,單擊fruitveg和fish之間的鏈

27、接,并選擇為鏈接生成“派生”節(jié)點。編輯最終的“派生”節(jié)點以將“派生”字段名稱更改為健康。使用從wine到confectionery的鏈接重復該練習,并將最終的“派生”字段命名為 wine_chocs。對于第三個群(涉及三個鏈接),首先要確保未選擇任何鏈接。然后,在按住 shift 鍵的同時單擊鼠標左鍵,從而選擇cannedveg、beer和frozenmeal中的全部三個鏈接。(一定要處于“交互”模式而不是“編輯”模式。)然后,從 web 顯示菜單中選擇:生成:導出節(jié)點(“和”)將最終“派生”字段的名稱更改為 beer_beans_pizza。要描繪這些客戶群的特征,請連續(xù)將現(xiàn)有的類型節(jié)點連接

28、到這三個導出節(jié)點,然后附加另一個類型節(jié)點。在新類型節(jié)點中,請將除以下字段外的所有字段的方向都設(shè)置為無:value、pmethod、sex、homeown、income和age(這些字段的方向應(yīng)該設(shè)置為輸入),以及相關(guān)的客戶群(例如,beer_beans_pizza,它們的方向應(yīng)該設(shè)置為輸出)。附加 c5.0 節(jié)點,將輸出類型設(shè)置為規(guī)則集,然后執(zhí)行它。最終模型(用于 beer_beans_pizza)包含此客戶群的明確人口統(tǒng)計學特征:rule 1 for t:if income t通過在第二個類型節(jié)點中選擇其他客戶群標志作為輸出,可將同一方法應(yīng)用到這些標志。通過在此上下文中使用 gri 代替 c

29、5.0,可生成更多替代特征描繪;gri 也可用于同時描繪所有客戶群標志的特征,原因是,gri 并非被限制到一個輸出字段。示例說明如何使用 clementine 通過建模(使用 gri)和直觀化(使用 web 顯示)發(fā)現(xiàn)數(shù)據(jù)庫中的關(guān)系(即鏈接)。這些鏈接與數(shù)據(jù)中的案例組相對應(yīng),并且,通過建模(使用 c5.0 規(guī)則集)可詳細研究這些組并描繪其特征。例如,在零售領(lǐng)域,可能會使用這種客戶組確定特殊優(yōu)惠目標,以提高直接郵寄的響應(yīng)率,或自定義某分部的存貨產(chǎn)品范圍以與其人口統(tǒng)計學基礎(chǔ)的需求匹配。1、2、。3、。實驗五、欺詐屏蔽/異常檢測/神經(jīng)網(wǎng)絡(luò)【實驗目的】1、 熟悉各種聚類分析方法2、 了解神經(jīng)網(wǎng)絡(luò)分析方

30、法與過程3、 掌握異常檢測的方法。【實驗內(nèi)容】1、聚類分析。2、神經(jīng)網(wǎng)絡(luò)建模。3、異常檢測?!緦嶒灢襟E】此示例顯示了 clementine 在檢測詐欺行為方面的應(yīng)用。這一領(lǐng)域涉及農(nóng)業(yè)發(fā)展財政補貼申請。有兩種財政補貼類型在考慮之列:耕地開發(fā)財政補貼和退役田地財政補貼。本例使用虛擬數(shù)據(jù)演示如何通過分析方法來發(fā)現(xiàn)與標準數(shù)據(jù)的偏差,同時突出了有必要進一步調(diào)查的異常記錄。財政補貼申請金額取決于田地的類型和大小,您會特別關(guān)注其中的不合理部分。分析通過兩個階段執(zhí)行:先使用“異常檢測”進行預篩選,然后使用“神經(jīng)網(wǎng)絡(luò)”模型進行深入分析。本例使用名為 fraud_anomalies.str 的流,該流引用名為 g

31、rantfraudn.db 的數(shù)據(jù)文件??梢詮娜魏?clementine client 安裝軟件的 demos 目錄下找到這些文件,也可以通過從 windows 的“開始”菜單選擇 start all programs spss clementine 11.1 demos訪問這些文件。文件 fraud_anomalies.str 位于 classification_module 目錄下。此示例顯示了 clementine 在檢測詐欺行為方面的應(yīng)用。這一領(lǐng)域涉及農(nóng)業(yè)發(fā)展財政補貼申請。有兩種財政補貼類型在考慮之列:耕地開發(fā)財政補貼和退役田地財政補貼。本例使用虛擬數(shù)據(jù)演示如何通過分析方法來發(fā)現(xiàn)與標準

32、數(shù)據(jù)的偏差,同時突出了有必要進一步調(diào)查的異常記錄。財政補貼申請金額取決于田地的類型和大小,您會特別關(guān)注其中的不合理部分。分析通過兩個階段執(zhí)行:先使用“異常檢測”進行預篩選,然后使用“神經(jīng)網(wǎng)絡(luò)”模型進行深入分析。本例使用名為 fraud_anomalies.str 的流,該流引用名為 grantfraudn.db 的數(shù)據(jù)文件??梢詮娜魏?clementine client 安裝軟件的 demos 目錄下找到這些文件,也可以通過從 windows 的“開始”菜單選擇 start all programs spss clementine 11.1 demos訪問這些文件。文件 fraud_anoma

33、lies.str 位于 classification_module 目錄下。此數(shù)據(jù)包含 9 個字段: id。唯一標識符。 姓名。申請人姓名。 區(qū)域。地理位置(中部北部西南部東南部)。 田地質(zhì)量。以整數(shù)為計量單位 - 農(nóng)戶申報的田地質(zhì)量。 降雨量。以整數(shù)為計量單位 - 田地年降雨量。 田地收入。以實數(shù)為計量單位 - 申報的田地年收入。 主要農(nóng)作物。主產(chǎn)農(nóng)作物(玉米小麥馬鈴薯油菜籽)。 申請類型。申請的財政補貼類型 (decommission_land/arable_dev)。 申請金額。以實數(shù)為計量單位 - 申請的財政補貼額。1、預篩選要快速篩選異常記錄,可以使用異常檢測節(jié)點(如樣本文件 fra

34、ud_anomalies.str 中所示)。首先使用變量文件節(jié)點連接到數(shù)據(jù)集 grantfraudn.db。此數(shù)據(jù)集包含字段名稱,因此可以將表節(jié)點添加到流并執(zhí)行以檢查其構(gòu)成。此外,還可以通過單擊源節(jié)點中的類型選項卡并讀取值對數(shù)據(jù)有一些初步了解。在類型選項卡中,單擊讀取值讀取數(shù)據(jù),然后將姓名和 id 字段的方向設(shè)置為無,因為建模過程中不使用這些字段。所有其他字段的方向應(yīng)設(shè)置為輸入,這樣他們將作為輸入內(nèi)容包含在異常檢測模型中。在異常檢測節(jié)點的“模型”選項卡中,選擇訓練數(shù)據(jù)中大多數(shù)異常記錄的數(shù)目,然后輸入值 10。然后執(zhí)行此節(jié)點,并將生成的節(jié)點添加到流。在已生成模型的“設(shè)置”選項卡中,可以選擇相應(yīng)選

35、項放棄非異常記錄,這樣在評分過程中,只有標記為潛在異常的記錄才保留在流中。添加表節(jié)點并執(zhí)行,以查看得分數(shù)據(jù)。模型生成的 $0-anomaly 字段表明哪些記錄為潛在異常記錄。由于在“設(shè)置”選項卡中選中了放棄記錄選項,所以僅列出標記為潛在異常的記錄。還列出了每條記錄的整體異常指數(shù)值,同時給出了對等組和最有可能造成記錄異常的三個字段。您可以使用圖表更方便地查看要標記的記錄。例如,您可以針對申請金額繪制田地大小,并附上 $0-anomaly 字段來查看異常記錄。(將散點圖節(jié)點添加到生成的異常檢測模型中。要查看顯示所有記錄(不僅僅是異常記錄)的完整散點圖,請取消選擇已生成模型中“設(shè)置”選項卡上的放棄記

36、錄選項。)如您所期望的那樣,將標志出金額最高的申請。不過,還標志出了許多其他金額的申請,其中包括某些金額最低的申請。要弄清事情緣由,有必要進一步觀察數(shù)據(jù)。2、數(shù)據(jù)調(diào)查。要繼續(xù)分析詐欺數(shù)據(jù),可以使用勘察表來調(diào)查數(shù)據(jù)(如樣本文件 fraud.str 中所示)。此操作可幫您設(shè)立對建模很有用的假設(shè)條件。在本例中,我們將逐步講解從訪問數(shù)據(jù)到訓練神經(jīng)網(wǎng)絡(luò)的具體操作步驟。首先,思考數(shù)據(jù)中可能存在的詐欺類型。一種可能是一塊田地同時出現(xiàn)多份財政補貼資助申請表。要檢查重復申請,請將分布節(jié)點連接至數(shù)據(jù)集,然后選擇姓名字段(假定該字段具有識別每塊田地的唯一值)。最終的分布圖將顯示一些進行了多次申請的田地。(要查看結(jié)果

37、,請單擊計數(shù)列標題,按計數(shù)對行進行降序排列。)要繼續(xù)分析詐欺數(shù)據(jù),可以使用勘察表來調(diào)查數(shù)據(jù)(如樣本文件 fraud.str 中所示)。此操作可幫您設(shè)立對建模很有用的假設(shè)條件。在本例中,我們將逐步講解從訪問數(shù)據(jù)到訓練神經(jīng)網(wǎng)絡(luò)的具體操作步驟。首先,思考數(shù)據(jù)中可能存在的詐欺類型。一種可能是一塊田地同時出現(xiàn)多份財政補貼資助申請表。 要檢查重復申請,請將分布節(jié)點連接至數(shù)據(jù)集,然后選擇姓名字段(假定該字段具有識別每塊田地的唯一值)。最終的分布圖將顯示一些進行了多次申請的田地。(要查看結(jié)果,請單擊計數(shù)列標題,按計數(shù)對行進行降序排列。)以此為基礎(chǔ),您可以使用選擇節(jié)點放棄具有多個記錄的田地所對應(yīng)的記錄。然后,您

38、只需關(guān)注申請資助的單塊田地的特征就可以了。您可以使用 clementine 構(gòu)建一個模型,根據(jù)田地的大小、主要農(nóng)作物類型、土壤類型等來評估該田地的期望收入。要準備建模,您需要在導出節(jié)點中使用 clem 語言導出新字段。例如,您可以通過 farmsize * rainfall * landquality 這一簡單公式評估收入。要查明偏差,需要繪制 diff 的直方圖。通過疊加申請類型來檢查其會不會影響評估收入之間的差距很有意思。既然所有大偏差都發(fā)生在 arable_dev 財政補貼上,就可以只選擇 arable_dev 財政補貼申請。為此,將選擇節(jié)點添加到名為 diff 的導出節(jié)點,然后使用 c

39、lem 表達式 claimtype = arable_dev 選擇記錄。3、訓練神經(jīng)網(wǎng)絡(luò)在最初的數(shù)據(jù)調(diào)查中,在考慮各種因素的情況下將實際申請金額與期望金額進行比較很有用。這就是神經(jīng)網(wǎng)絡(luò)的意義所在。在數(shù)據(jù)中使用變量,神經(jīng)網(wǎng)絡(luò)可以根據(jù)目標變量或相關(guān)變量來進行預測。通過這些預測變量,您可以查明偏差的記錄或記錄組。在最初的數(shù)據(jù)調(diào)查中,在考慮各種因素的情況下將實際申請金額與期望金額進行比較很有用。這就是神經(jīng)網(wǎng)絡(luò)的意義所在。在數(shù)據(jù)中使用變量,神經(jīng)網(wǎng)絡(luò)可以根據(jù)目標變量或相關(guān)變量來進行預測。通過這些預測變量,您可以查明偏差的記錄或記錄組。 建模準備過程中,應(yīng)首先將類型節(jié)點添加到當前流中。由于要使用數(shù)據(jù)中的其他

40、變量來預測申請值,您可以使用類型節(jié)點將申請金額的方向設(shè)置為輸出。添加神經(jīng)網(wǎng)絡(luò)節(jié)點并執(zhí)行。一旦神經(jīng)網(wǎng)絡(luò)訓練結(jié)束,可以將已生成模型添加到流,然后繪制一張預期申請金額與實際申請金額的比較圖。大多數(shù)案例的預期申請金額與實際申請金額都基本相符。導出另一個 claimdiff 字段(與之前導出的“收入差額”字段類似)。此導出節(jié)點使用 clem 表達式(abs(claimvalue - $n-claimvalue) / claimvalue) * 100為了說明實際申請金額與預估申請金額之間的差異,請使用 claimdiff 直方圖。您主要想了解申請金額比預估金額(由神經(jīng)網(wǎng)絡(luò)判斷)高的人。通過在直方圖劃出區(qū)

41、域,您可以右鍵單擊劃出的區(qū)域,然后生成一個選擇節(jié)點以進一步調(diào)查 claimdiff 值相對較大(如大于 50%)的人。這些申請有待進一步調(diào)查。實驗六、分類和回歸樹節(jié)點(c&rt)【實驗目的】1、掌握c&rt分類算法。2、掌握決策樹的建立和修剪3、了解c&rt分類算法在管理決策中的應(yīng)用【實驗內(nèi)容】1、c&rt分類算法建立決策樹【實驗步驟】分類和回歸樹節(jié)點 (c&rt) 是一種基于樹的分類和預測方法,此方法使用遞歸分區(qū)將訓練記錄分割為多個具有相似的輸出字段值的段。在本示例中,將 c&rt 應(yīng)用于某市場研究,其中的目標字段為有意預訂有線電視交互服務(wù)。預測變量字段包括年齡、性別、教育、收入類別、每天看

42、電視的時間和子女數(shù)(按有序集合編碼,因為值 8 表示 8 個或更多)。此示例使用名為 newschancart.str 的流,此流引用名為 newschan.sav 的數(shù)據(jù)文件??梢詮娜魏?clementine client 安裝軟件的 demos 目錄下找到這些文件,也可以通過從 windows 的開始菜單下選擇 start all programs spss clementine 11.1 demos 來訪問這些文件。文件 newschancart.str 位于 base_module 目錄下。1、創(chuàng)建樹要創(chuàng)建流,可執(zhí)行下列操作:在 demos 文件夾中添加指向 newschan.sav

43、的 spss 文件源節(jié)點。為流添加類型節(jié)點。在類型節(jié)點中選擇讀取值以實例化字段。選擇 newschan 并將其類型設(shè)置為標志,將其方向設(shè)置為輸出。其他所有字段用作預測變量(輸入)。將 c&rt 節(jié)點連接到類型節(jié)點。在“模型”選項卡上,選擇啟動交互會話作為構(gòu)建選項。這樣,在執(zhí)行節(jié)點時將啟動“交互樹”窗口,通過該窗口可以在生成模型之前生成并編輯樹。在“專家”選項卡上選擇專家模式并選擇修剪樹和使用標準誤規(guī)則。將最小雜質(zhì)改變值設(shè)置為 0.003。增加此值可避免進行改進意義十分微小的分割,從而傾向于生成較簡單的樹。要指定停止標準,可在“專家”選項卡上單擊停止。在“停止標準”對話框中選擇使用絕對值。將最小

44、絕對臨界值更改為 25 和 10,然后單擊確定。行節(jié)點。此時將出現(xiàn)交互樹窗口,在其中可以生成并編輯樹。 最初,僅顯示根節(jié)點。統(tǒng)計顯示訓練數(shù)據(jù)中有 442 個記錄。因為尚未分割樹,因此所有的記錄 (100%) 都落在此節(jié)點中。在整個示例中,有 215 個記錄對預訂的響應(yīng)為是,其總響應(yīng)率為 48.6%。使用樹模型,我們可以嘗試是否能夠通過找到最有可能作出積極響應(yīng)的子組來提高此匹配率。提示:要查看字段標簽,例如否和是響應(yīng)的標簽,可單擊菜單欄上的顯示字段和值的標簽按鈕在“查看器”選項卡上,單擊根節(jié)點以選中它并從菜單中選擇以下項: 樹 生成樹和修剪生成的樹具有五層和五個終端節(jié)點。(要查看整個樹,可使用縮

45、放工具或單擊工具欄右側(cè)的圖窗口工具按鈕。)如果尚未選中修剪選項,則樹可能會復雜得多。修剪操作基于成本復雜性算法,此算法可根據(jù)終端節(jié)點數(shù)調(diào)整風險評估。 2、生成模型和節(jié)點以便評分使用決策樹時,共有幾個選項可用于生成或?qū)С鰰捊Y(jié)果。其中兩個常用的選項為根據(jù)當前樹生成模型或根據(jù)當前樹生成選擇節(jié)點。這些選項會在下面各節(jié)中進行說明。有關(guān)其他選項的說明,例如過濾節(jié)點和規(guī)則集,請參閱 clementine 幫助。根據(jù)當前樹生成模型可使用此流生成模型,該模型可根據(jù)分配到節(jié)點的記錄的積極響應(yīng)率對這些記錄進行評分。在交互樹窗口的“查看器”選項卡上,從“生成”菜單中選擇生成模型。此時將出現(xiàn)“生成新模型”對話框。 在

46、“生成新模型”對話框中,輸入新模型的名稱(可選),然后單擊確定。 該模型位于流工作區(qū)中。在流工作區(qū)中,將生成的 newschan1 模型連接到類型節(jié)點。在生成的 newschan1 模型中,單擊設(shè)置選項卡,選擇計算置信度和規(guī)則 id,然后單擊確定。連接表節(jié)點并執(zhí)行流。已執(zhí)行的表中顯示了可能接受有線電視服務(wù)預訂的用戶的記錄。$r-newschan 列顯示了對這些記錄的預測結(jié)果。如果某記錄顯示的值為 1,則可以預測該用戶對預訂的響應(yīng)為是。如果需要,可將此生成的模型保存到模型選項板上以備將來的數(shù)據(jù)使用。右鍵單擊流中的 newschan1 模型并選擇添加到模型選項板。然后單擊模型選項板上的模型并選擇保

47、存模型。生成選擇節(jié)點還可以生成選擇節(jié)點,該節(jié)點包括所有落在節(jié)點 2 和 13 中的記錄。然后,可以使用具有新數(shù)據(jù)的選擇節(jié)點確定哪些用戶最有可能對預訂做出積極的響應(yīng)。 在交互樹窗口中,使用按住 ctrl 鍵并單擊的方法選中節(jié)點 2 和 13。 從“生成”菜單中,選擇選擇節(jié)點。生成的選擇節(jié)點位于流工作區(qū)中。該生成的選擇節(jié)點可根據(jù)在交互樹窗口中為節(jié)點 2 和 13 選擇的標準來構(gòu)建表達式。 將生成的選擇節(jié)點連接到流中的類型節(jié)點上。 將表連接到選擇節(jié)點并執(zhí)行該表以查看記錄。注意,此次僅選中 226 個記錄而不是原來的 442 個記錄。今后還可將此選擇節(jié)點應(yīng)用于其他數(shù)據(jù)集中;可根據(jù)同樣的已定義的年齡、收

48、入、教育和性別屬性過濾這些新數(shù)據(jù)。本示例演示了如何在市場研究中應(yīng)用 c&rt 節(jié)點和決策樹來確定那些愿意預訂有線電視交互服務(wù)的用戶。通過使用預測變量,例如年齡、性別、教育、收入類別、每天看電視的時間和子女數(shù),我們可以預測和分類響應(yīng)以便在商業(yè)競爭中獲取最高響應(yīng)率。樹模型使用簡單,易于理解。系統(tǒng)將構(gòu)建樹并遞歸分割每個分支直到符合一個或多個停止標準為止。然后,可根據(jù)使用的建模方法在每個分割處自動選擇最合適的預測變量。如本示例所示,可使用樹生成模型或選擇節(jié)點并將其應(yīng)用到以后的數(shù)據(jù)集中。實驗七、多項 logistic 回歸【實驗目的】1、熟悉logistic 回歸。2、掌握clementine 中l(wèi)og

49、istic 回歸建模方法?!緦嶒瀮?nèi)容】1、在clementine 中建立多項logistic 回歸【實驗步驟】logistic 回歸是一種統(tǒng)計方法,它可根據(jù)輸入字段的值對記錄進行分類。這種統(tǒng)計方法類似于線性回歸,但是它使用的是分類目標字段而非數(shù)值目標字段。例如,假設(shè)某個電信服務(wù)提供商已按照服務(wù)使用模式對其客戶群進行了劃分,將這些客戶分類到四個組中。如果可使用人口數(shù)據(jù)預測組成員,則可以為單個預期客戶定制服務(wù)使用模式。此示例使用名為 telco_custcat.str 的流,此流引用名為 telco.sav 的數(shù)據(jù)文件??梢詮娜魏?clementine client 安裝軟件的 demos 目錄下

50、找到這些文件,也可以通過從 windows 的“開始”菜單下選擇 start all programs spss clementine 11.1 demos 來訪問這些文件。文件 telco_custcat.str 位于 classification_module 目錄下。本示例將焦點集中于使用人口數(shù)據(jù)預測使用模式。目標字段 custcat 有四個可能的值對應(yīng)于四個客戶組,如下所示:值標簽1基本服務(wù)2電子服務(wù)3附加服務(wù)4全套服務(wù)因為目標含有多個類別,因此將使用多項模型。如果目標含有兩個截然不同的分類,例如是/否,真/假,或流失/保持,則會轉(zhuǎn)而創(chuàng)建二項模型。 1、構(gòu)建流在 demos 文件夾中添

51、加指向 telco.sav 的 spss 文件源節(jié)點。添加一個用來定義字段的類型節(jié)點,確保所有類型均設(shè)置正確。例如,可以將值為 0 和 1 的大多數(shù)字段視為標志字段,但對于某些字段(如性別),將其視為具有兩個值的集合字段更為準確。提示:要更改具有相似值(如 0/1)的多個字段,請單擊值列標題,以便按值對字段進行排序,然后按住 shift 鍵的同時使用鼠標或箭頭鍵選擇所有要更改的字段。然后您可以右鍵單擊這些選擇,以更改所選字段的類型或其他特性。因為將性別視為集合比視為標志更精確一些,所以請單擊其“類型”值,然后將其更改為集合。將客戶類別字段的方向設(shè)置為輸出。所有其他字段的方向都應(yīng)設(shè)置為輸入。因為

52、此示例主要關(guān)注人口統(tǒng)計,所以請使用過濾節(jié)點以選取相關(guān)字段(地區(qū)、年齡、婚姻狀況、地址、收入、教育程度、行業(yè)、退休、性別、居住地和客戶類別)。其他字段可以排除在此分析之外。(另外,您可以將這些字段的方向更改為無,而不要排除這些字段,或者選擇要在建模節(jié)點中使用的字段。)2、瀏覽模型在 logistic 節(jié)點上,單擊模型選項卡并選擇逐步法。選中多項、主效應(yīng)和將常量納入方程式。將目標的底數(shù)類別保留為 1。模型將對其他客戶與預訂基本服務(wù)的客戶進行比較。在“專家”選項卡上,選中專家模式,選中輸出,然后在“高級輸出”對話框中選中分類表。運行節(jié)點以生成模型,該模型會添加到右上角的模型選項板中。要查看其詳細信息

53、,請在生成的模型節(jié)點上用右鍵單擊并選擇瀏覽。“模型”選項卡中顯示了用于將記錄分配到目標字段的每個類別的方程式。因為共有四個可能的類別,而其中之一是底數(shù)類別,因此選項卡中有三個方程式,其中類別 3 表示附加服務(wù),等等?!皡R總”選項卡顯示了(包括其他內(nèi)容)模型中使用的目標字段和輸入字段(預測變量字段)。注意,這些字段是根據(jù)逐步法實際選擇出來的字段,不是為進行分析而提交的完整列表?!案呒墶边x項卡上顯示的項目取決于在建模節(jié)點的“高級輸出”對話框中選中的選項。其中通常顯示的一個項目是觀測值處理概要,它顯示了落在目標字段每個類別中的記錄的百分比。這將生成一個空模型用作比較的基礎(chǔ)。在不構(gòu)建使用預測變量的模型

54、的情況下,最好的預計結(jié)果可能是將所有的客戶分配到最普通的組 3(附加服務(wù)組)中。 如果基于訓練數(shù)據(jù)將所有客戶分配到空模型,則得到的正確率將是 281/1000 = 28.1%。“高級”選項卡還包括其他信息,使您能夠檢查模型的預測。然后,可將這些預測與空模型的結(jié)果相比,以查看使用此數(shù)據(jù)的模型的執(zhí)行效果。在“高級”選項卡底部,分類表顯示了此模型的結(jié)果,其正確率為 39.9%。特別是,此模型在識別全套服務(wù)客戶(類別 4)時表現(xiàn)優(yōu)異,而在識別電子服務(wù)客戶(類別 2)時表現(xiàn)很差。如果想提高預測類別 2 中客戶的準確性,可能需要再找到一個預測變量來識別此類客戶。依賴于您所期望的預測,模型可充分滿足您的需求

55、。例如,如果您對識別類別 2 中的客戶并不關(guān)心,那么該模型的準確性足以滿足需求。這種情況可能是,電子服務(wù)僅是一種為吸引顧客而出售且獲利微薄的產(chǎn)品。例如,如果投資的最高回報來自于落在類別 3 或類別 4 中的客戶,則該模型能夠提供所需的信息。當構(gòu)建模型時,可使用“高級輸出”對話框中的大量診斷信息來評估模型實際擬合數(shù)據(jù)的程度。請參閱logistic 回歸模型高級輸出 詳細信息。 clementine 中用到的建模方法的數(shù)據(jù)原理的說明在clementine 算法指南中列出,該指南位于任何 clementine client 安裝軟件的文檔目錄下;也可以通過從 windows 的“開始”菜單下選擇 start all programs spss clementine 11.1 文檔來訪問此文檔。實驗八、綜合實驗:電力負荷預測【實驗目的】1、熟悉數(shù)據(jù)挖掘預測技術(shù)。2、掌握clementine 中預測方法。【實驗內(nèi)容】1、 對給定的數(shù)據(jù)進行預處理,2、 在clementine 中建立預測模型3、 方法采用回歸、廣義線性genlin模型、支持向量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論