數(shù)據(jù)倉庫與數(shù)據(jù)挖掘SPSS實(shí)驗(yàn)指導(dǎo)書_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘SPSS實(shí)驗(yàn)指導(dǎo)書_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘SPSS實(shí)驗(yàn)指導(dǎo)書_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘SPSS實(shí)驗(yàn)指導(dǎo)書_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘SPSS實(shí)驗(yàn)指導(dǎo)書_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒?yàn)指導(dǎo)書(適用于信息系統(tǒng)與信息管理專業(yè))目 錄前 言1實(shí)驗(yàn)一、SPSS Clementine 軟件功能演練5實(shí)驗(yàn)二、SPSS Clementine 數(shù)據(jù)可視化9實(shí)驗(yàn)三、決策樹C5.0 建模10實(shí)驗(yàn)四、關(guān)聯(lián)規(guī)則挖掘21實(shí)驗(yàn)五、欺詐屏蔽/異常檢測(cè)/神經(jīng)網(wǎng)絡(luò)29實(shí)驗(yàn)六、分類和回歸樹節(jié)點(diǎn)(C&RT)40實(shí)驗(yàn)七、多項(xiàng) Logistic 回歸50實(shí)驗(yàn)八、綜合實(shí)驗(yàn):電力負(fù)荷預(yù)測(cè)56前 言一、課程簡(jiǎn)介數(shù)據(jù)挖掘(Data Mining),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘的廣義觀點(diǎn):數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的

2、數(shù)據(jù)中“挖掘”有趣知識(shí)的過程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),因此,數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的協(xié)同工作,一方面,可以迎合和簡(jiǎn)化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉庫應(yīng)用中極為重要和相對(duì)獨(dú)立的方面和工具。數(shù)據(jù)挖掘有機(jī)結(jié)合了來自多學(xué)科技術(shù),其中包括:數(shù)據(jù)庫、數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、高性能計(jì)算、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索、圖像與信號(hào)處理、空間數(shù)據(jù)分析等,這里我們強(qiáng)調(diào)數(shù)據(jù)挖掘所處理的是大規(guī)模數(shù)據(jù),且其挖掘算法應(yīng)是高效的和可擴(kuò)展的。

3、通過數(shù)據(jù)挖掘,可從數(shù)據(jù)庫中挖掘出有意義的知識(shí)、規(guī)律,或更高層次的信息,并可以從多個(gè)角度對(duì)其進(jìn)行瀏覽察看。所挖掘出的知識(shí)可以幫助進(jìn)行決策支持、過程控制、信息管理、查詢處理等等。因此數(shù)據(jù)挖掘被認(rèn)為是數(shù)據(jù)庫系統(tǒng)最重要的前沿研究領(lǐng)域之一,也是信息工業(yè)中最富有前景的數(shù)據(jù)庫應(yīng)用領(lǐng)域之一。當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。而據(jù)Gartner的報(bào)告也指出,數(shù)據(jù)挖掘會(huì)成為未來10年內(nèi)重要的技術(shù)之一。二、課程的任務(wù)和實(shí)驗(yàn)的教學(xué)目標(biāo)課程編號(hào):5405190課程屬性:專業(yè)任選課實(shí)驗(yàn)學(xué)時(shí):12 適用專業(yè):信息管理與信息系統(tǒng)先修課程:管理信息系統(tǒng)、計(jì)算機(jī)基礎(chǔ)、

4、數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘是一門理論和實(shí)踐相結(jié)合的課程,它在整個(gè)信息系統(tǒng)與信息管理專業(yè)中處于信息系統(tǒng)應(yīng)用的前沿應(yīng)用的地位,是計(jì)算機(jī)科學(xué)的算法理論基礎(chǔ)和數(shù)據(jù)庫、數(shù)據(jù)倉庫技術(shù)、統(tǒng)計(jì)技術(shù)的結(jié)合,以及在管理實(shí)踐中應(yīng)用。其上機(jī)實(shí)驗(yàn)的目的主要是實(shí)現(xiàn)數(shù)據(jù)挖掘的主要算法,訓(xùn)練學(xué)生實(shí)際動(dòng)手進(jìn)行數(shù)據(jù)挖掘設(shè)計(jì)和軟件應(yīng)用的能力,加深對(duì)數(shù)據(jù)挖掘相關(guān)概念和算法的理解。本課程具有技術(shù)性和實(shí)踐性較強(qiáng)的特點(diǎn),因此,配合基本原理的講授,應(yīng)當(dāng)安排相應(yīng)的實(shí)習(xí)操作。通過實(shí)驗(yàn)和操作,使學(xué)生鞏固和加深數(shù)據(jù)倉庫與數(shù)據(jù)挖掘理論知識(shí),進(jìn)一步加強(qiáng)學(xué)生獨(dú)立分析問題和解決問題的能力、綜合設(shè)計(jì)及創(chuàng)新能力的培養(yǎng),為今后工作打下良好的基礎(chǔ)。經(jīng)過多

5、層次、多方式的全面訓(xùn)練后,學(xué)生應(yīng)達(dá)到下列要求:1進(jìn)一步鞏固和加深數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基本知識(shí)的理解,提高綜合運(yùn)用所學(xué)知識(shí),建立和管理數(shù)據(jù)的能力。2能根據(jù)需要選學(xué)參考書,查閱相關(guān)的工具,通過獨(dú)立思考,深入鉆研有關(guān)問題,學(xué)會(huì)自己獨(dú)立分析問題、解決問題,具有一定的創(chuàng)新能力。3能正確處理大規(guī)模數(shù)據(jù),選擇數(shù)據(jù)挖掘工具的開發(fā)平臺(tái)和相關(guān)的軟件解決實(shí)踐問題。4能獨(dú)立撰寫實(shí)驗(yàn)報(bào)告,準(zhǔn)確分析實(shí)驗(yàn)結(jié)果,總結(jié)有關(guān)的問題,提出相關(guān)的建議。三、實(shí)驗(yàn)教材及參考書理論課教材及參考書:F 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程(叢書名: 高等院校信息管理與信息系統(tǒng)專業(yè)系列教材)作者: 陳文偉 編著,清華大學(xué)出版社,2006.8F 數(shù)據(jù)倉庫和數(shù)據(jù)

6、挖掘,蘇新寧 等編著,清華大學(xué)出版社,2006.4F 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)(第2版),陳京民 編著,電子工業(yè)出版社,2007.11F Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques.高等教育出版社(影印版),2001.5.F Ian H. Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques (第二版). 機(jī)械工業(yè)出版社(影印版),2005.F Richard J. Roiger, Michael W

7、. Geatz. Data Mining: A Tutorial-Based Primer.清華大學(xué)出版社,2003.實(shí)驗(yàn)教材:F 數(shù)據(jù)挖掘Clementine應(yīng)用實(shí)務(wù),謝邦昌 主編,機(jī)械工業(yè)出版社,2008.4F 數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用寶典,元昌安 主編,電子工業(yè)出版社,2009.8四、實(shí)驗(yàn)基本內(nèi)容及學(xué)時(shí)分配按照數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)大綱的要求,共設(shè)立實(shí)驗(yàn)8個(gè),總計(jì)20學(xué)時(shí)。試驗(yàn)基本內(nèi)容與學(xué)時(shí)分配如下表:序號(hào)實(shí)驗(yàn)名稱實(shí)驗(yàn)學(xué)時(shí)每組人數(shù)實(shí)驗(yàn)屬性實(shí)驗(yàn)者類別開出要求1SPSS Clementine 軟件功能演練21演練本科必開2實(shí)驗(yàn)二、SPSS Clementine 數(shù)

8、據(jù)可視化21演練本科必開3決策樹C5.0 建模21驗(yàn)證綜合本科必開4關(guān)聯(lián)規(guī)則挖掘21驗(yàn)證綜合本科必開5欺詐屏蔽/異常檢測(cè)/神經(jīng)網(wǎng)絡(luò)21驗(yàn)證綜合本科必開6分類和回歸樹節(jié)點(diǎn)(C&RT)21驗(yàn)證綜合本科必開7多項(xiàng) Logistic 回歸21驗(yàn)證綜合本科必開8實(shí)驗(yàn)八、綜合實(shí)驗(yàn):電力負(fù)荷預(yù)測(cè)61綜合實(shí)驗(yàn)本科必開五、實(shí)驗(yàn)方式與基本要求1、本課程的實(shí)驗(yàn)為非單獨(dú)設(shè)課,因此,應(yīng)該課程的內(nèi)容安排和進(jìn)度,配合技術(shù)原理的講授,進(jìn)行相應(yīng)的操作和實(shí)驗(yàn)。 2、該課以綜合性實(shí)驗(yàn)為主,教師給出實(shí)驗(yàn)題目,實(shí)驗(yàn)前學(xué)生必須進(jìn)行預(yù)習(xí), 3、在規(guī)定的時(shí)間內(nèi),由學(xué)生獨(dú)立完成,出現(xiàn)問題,教師要引導(dǎo)學(xué)生獨(dú)立分析、解決,不得包辦代替。4、實(shí)驗(yàn)中

9、按要求做好學(xué)生實(shí)驗(yàn)情況及結(jié)果記錄,實(shí)驗(yàn)后認(rèn)真填寫實(shí)驗(yàn)記錄。5、 實(shí)驗(yàn)指導(dǎo)書僅作為上機(jī)時(shí)的參考步驟,不能作為唯一的依據(jù),以教材和課堂講授為準(zhǔn)。實(shí)驗(yàn)一、SPSS Clementine 軟件功能演練【實(shí)驗(yàn)?zāi)康摹?、熟悉SPSS Clementine 軟件功能和操作特點(diǎn)。2、了解SPSS Clementine 軟件的各選項(xiàng)面板和操作方法。3、熟練掌握SPSS Clementine 工作流程?!緦?shí)驗(yàn)內(nèi)容】1、打開SPSS Clementine 軟件,逐一操作各選項(xiàng),熟悉軟件功能。2、打開一有數(shù)據(jù)庫、或新建數(shù)據(jù)文件,讀入SPSS Clementine,并使用各種輸出節(jié)點(diǎn),熟悉數(shù)據(jù)輸入輸出。(要求:至少做a

10、ccess數(shù)據(jù)庫文件、excel文件、txt文件、可變文件的導(dǎo)入、導(dǎo)出)【實(shí)驗(yàn)步驟】1、啟動(dòng) Clementine:請(qǐng)從 Windows 的“開始”菜單中選擇: 所有程序SPSS Clementine 11.1SPSS Clementine client 11.12、Clementine窗口當(dāng)?shù)谝淮螁?dòng) Clementine 時(shí),工作區(qū)將以默認(rèn)視圖打開。中間的區(qū)域稱作流工作區(qū)。在 Clementine 中,這將是用來工作的主要區(qū)域。Clementine 中絕大部分的數(shù)據(jù)和建模工具都在選項(xiàng)板中,該區(qū)域位于流工作區(qū)的下方。每個(gè)選項(xiàng)卡都包含一組以圖形表示數(shù)據(jù)挖掘任務(wù)的節(jié)點(diǎn),例如訪問和過濾數(shù)據(jù),創(chuàng)建圖

11、形和構(gòu)建模型。要將節(jié)點(diǎn)添加到工組區(qū),可在節(jié)點(diǎn)選項(xiàng)板中雙擊圖標(biāo)或?qū)⑵渫献е凉ぷ鲄^(qū)后釋放。隨后可將各個(gè)圖標(biāo)連接以創(chuàng)建一個(gè)表示數(shù)據(jù)流動(dòng)的流。窗口的右上方是輸出和對(duì)象管理器。這些選項(xiàng)卡用于查看和管理各種 Clementine 對(duì)象。“流”選項(xiàng)卡包含了當(dāng)前會(huì)話中打開的所有流。可以將這些流保存并關(guān)閉,也可將其添加到工程中。“輸出”選項(xiàng)卡包含了由 Clementine 中的流操作產(chǎn)生的各類文件??梢燥@示、重命名和關(guān)閉此處所列的表格、圖形和報(bào)告?!澳P汀边x項(xiàng)卡是一個(gè)功能強(qiáng)大的工具,包含了在一次會(huì)話中產(chǎn)生的所有模型(即,已在 Clementine 中構(gòu)建完畢的模型)。通過它,可以對(duì)模型作更深入的查看、將其添加至

12、流中、導(dǎo)出或?yàn)槠浼幼⒔?。窗口右?cè)底部的部分是工程工具,它用來創(chuàng)建和管理數(shù)據(jù)挖掘工程。查看在 Clementine 中創(chuàng)建的工程有兩種方式 - 類視圖或 CRISP-DM 視圖。 “CRISP-DM”選項(xiàng)卡提供了一種組織工程的方式?!邦悺边x項(xiàng)卡提供了一種在 Clementine 中按類別(即,按照所創(chuàng)建對(duì)象的類別)組織工作的方式。當(dāng)要獲取數(shù)據(jù)、流、模型等對(duì)象的詳盡目錄時(shí),這種視圖十分有用。 實(shí)驗(yàn)二、SPSS Clementine 數(shù)據(jù)可視化【實(shí)驗(yàn)?zāi)康摹?、熟悉SPSS Clementine 繪圖。2、了解SPSS Clementine 圖形選項(xiàng)面板各節(jié)點(diǎn)的使用方法。3、熟練掌握SPSS Clem

13、entine 數(shù)據(jù)可視化流程。【實(shí)驗(yàn)內(nèi)容】1、打開SPSS Clementine 軟件,逐一操作各圖形選項(xiàng)面板,熟悉軟件功能。2、打開一有數(shù)據(jù)庫、或新建數(shù)據(jù)文件,讀入SPSS Clementine,并使用各種輸出節(jié)點(diǎn),熟悉數(shù)據(jù)輸入輸出。(要求:至少做分布圖、直方圖、收集圖、多重散點(diǎn)圖、時(shí)間散點(diǎn)圖)【實(shí)驗(yàn)步驟】1、啟動(dòng) Clementine:請(qǐng)從 Windows 的“開始”菜單中選擇: 所有程序PSS Clementine 11.1SPSS Clementine client 11.12、建立一個(gè)流、導(dǎo)入相關(guān)數(shù)據(jù),打開圖形選項(xiàng)面板3、繪制以下各類圖形(1)以顏色為層次的圖(2)以大小為層次的圖(

14、3)以顏色、大小、形狀和透明度為層次的圖(4)以面板圖為層次的圖(5)三維收集圖(6)動(dòng)畫散點(diǎn)圖(7)分布圖(8)直方圖(9)收集圖(10)多重散點(diǎn)圖未標(biāo)準(zhǔn)化時(shí)的多重散點(diǎn)圖標(biāo)準(zhǔn)化后的多重散點(diǎn)圖(11)網(wǎng)絡(luò)圖實(shí)驗(yàn)三、決策樹C5.0 建模【實(shí)驗(yàn)?zāi)康摹?、熟悉SPSS Clementine建模方法。2、掌握SPSS Clementine分布圖、散點(diǎn)圖、網(wǎng)絡(luò)圖的創(chuàng)建方法。3、掌握決策樹C5.0決策方法?!緦?shí)驗(yàn)內(nèi)容】1、創(chuàng)建散點(diǎn)圖。2、創(chuàng)建分布圖。3、創(chuàng)建網(wǎng)絡(luò)圖。【實(shí)驗(yàn)步驟】假設(shè)你是一位正在匯總研究數(shù)據(jù)的醫(yī)學(xué)研究員。已收集了一組患有同一疾病的患者的數(shù)據(jù)。在治療過程中,每位患者均對(duì)五種藥物中的一種有明顯反

15、應(yīng)。的任務(wù)就是通過數(shù)據(jù)挖掘找出適合治療此疾病的藥物。此示例使用名為 druglearn.str 的流,此流引用名為 DRUG1n 的數(shù)據(jù)文件??梢詮娜魏?Clementine Client 安裝軟件的 Demos 目錄下找到這些文件,也可以通過從 Windows 的“開始”菜單選擇 Start All Programs SPSS Clementine 11.1 Demos訪問這些文件。文件 druglearn.str 位于 Classification_Module 目錄中。此 demo 中使用的數(shù)據(jù)字段包括: 年齡(數(shù)值)性別M 或 FBP血壓:高、正?;虻湍懝檀佳褐械哪懝檀己浚赫;蚋?/p>

16、Na血液中鈉的濃度K血液中鉀的濃度藥品對(duì)患者有效的處方藥1、讀取文本數(shù)據(jù)使用變量文件節(jié)點(diǎn)讀取定界文本數(shù)據(jù)??梢詮倪x項(xiàng)板中添加變量文件節(jié)點(diǎn),方法是單擊源選項(xiàng)卡找到此節(jié)點(diǎn),或者使用收藏夾選項(xiàng)卡(默認(rèn)情況下,其中包含此節(jié)點(diǎn))。然后,雙擊新添加的節(jié)點(diǎn)以打開相應(yīng)的對(duì)話框。單擊緊挨“文件”框右邊以省略號(hào)“.”標(biāo)記的按鈕,瀏覽到系統(tǒng)中的 Clementine 安裝目錄。打開 demos 目錄,然后選擇名為 DRUG1n 的文件。選擇從文件讀取字段名,并注意已載入此對(duì)話框中的字段和值。單擊數(shù)據(jù)選項(xiàng)卡,覆蓋和更改某個(gè)字段的存儲(chǔ)。注意,存儲(chǔ)不同于類型或數(shù)據(jù)字段的用途。類型選項(xiàng)卡可幫助了解數(shù)據(jù)中的更多字段類型。還可

17、以選擇讀取值來查看各個(gè)字段的實(shí)際值,具體取決于在值列中的選擇。此過程稱為實(shí)例化。類型選項(xiàng)卡可幫助了解數(shù)據(jù)中的更多字段類型。還可以選擇讀取值來查看各個(gè)字段的實(shí)際值,具體取決于在值列中的選擇。此過程稱為實(shí)例化。2、添加表。現(xiàn)在已載入數(shù)據(jù)文件,可以瀏覽一下某些記錄的值。其中一個(gè)方法就是構(gòu)建一個(gè)包含表節(jié)點(diǎn)的流。要將表節(jié)點(diǎn)添加到流中,可雙擊選項(xiàng)板中的表節(jié)點(diǎn)圖標(biāo)或?qū)⑵渫戏诺焦ぷ鲄^(qū)。雙擊選項(xiàng)板中的某個(gè)節(jié)點(diǎn)后,該節(jié)點(diǎn)將自動(dòng)與流工作區(qū)中的選定節(jié)點(diǎn)相連接。此外,如果尚未連接節(jié)點(diǎn),則可以使用鼠標(biāo)中鍵將源節(jié)點(diǎn)與表節(jié)點(diǎn)相連接。要模擬鼠標(biāo)中鍵操作,請(qǐng)?jiān)谑褂檬髽?biāo)時(shí)按下 Alt 鍵。要查看表,請(qǐng)單擊工具欄上的綠色箭頭按鈕執(zhí)行

18、流,或者右鍵單擊表節(jié)點(diǎn),然后選擇執(zhí)行。3、創(chuàng)建分布圖數(shù)據(jù)挖掘過程中,創(chuàng)建匯總視圖通常有助于研究數(shù)據(jù)。Clementine 提供了若干不同類型的圖表供您選擇,具體取決于要匯總分析的數(shù)據(jù)類型。例如,要找出每種藥物的對(duì)癥患者的比例,請(qǐng)使用分布節(jié)點(diǎn)。將分布節(jié)點(diǎn)添加到流,并將其與源節(jié)點(diǎn)相連接,然后雙擊該節(jié)點(diǎn)以編輯要顯示的選項(xiàng)。選擇藥品作為要顯示其分布的目標(biāo)字段。然后,在對(duì)話框中單擊執(zhí)行最終圖表將有助于查看數(shù)據(jù)的“結(jié)構(gòu)”。結(jié)果表明,藥品 Y 的對(duì)癥患者最多,而藥品 B 和藥品 C 的對(duì)癥患者最少。此外,還可以添加并執(zhí)行數(shù)據(jù)審核節(jié)點(diǎn),同時(shí)快速瀏覽所有字段的分布圖和直方圖。可以在“輸出”選項(xiàng)卡中找到數(shù)據(jù)審核節(jié)

19、點(diǎn)。4、創(chuàng)建散點(diǎn)圖現(xiàn)在我們來看一下有哪些因素會(huì)對(duì)藥品(目標(biāo)變量)產(chǎn)生影響。作為研究員,您一定知道鈉和鉀的濃度在血液中有著重要的影響。由于兩者都是數(shù)值,您可以用顏色區(qū)分藥品,創(chuàng)建一個(gè)關(guān)于鈉和鉀的散點(diǎn)圖。將散點(diǎn)圖節(jié)點(diǎn)放在工作區(qū)中,并將其與源節(jié)點(diǎn)相連接,然后雙擊該節(jié)點(diǎn)對(duì)其進(jìn)行編輯在“散點(diǎn)圖”選項(xiàng)卡中,選擇 Na 作為 X 字段,選擇 K 作為 Y 字段,并選擇藥品作為交疊字段。然后單擊執(zhí)行。此散點(diǎn)圖清楚地顯示一個(gè)閾值,在此閾值上方,對(duì)癥藥品始終是 Y,在此閾值下方,對(duì)癥藥品均不是 Y。此閾值是一個(gè)比率,即鈉(Na)和鉀(K)的比率。5、創(chuàng)建網(wǎng)絡(luò)圖因?yàn)楹芏鄶?shù)據(jù)字段均可分類,也可嘗試?yán)L制網(wǎng)絡(luò)圖,此圖表將

20、反映不同類別之間的聯(lián)系。首先,將網(wǎng)絡(luò)節(jié)點(diǎn)與您工作區(qū)中的源節(jié)點(diǎn)相連接。在“網(wǎng)絡(luò)節(jié)點(diǎn)”對(duì)話框中,選擇 BP(血壓)和藥品。然后單擊執(zhí)行。此圖顯示,藥品 Y 與三種級(jí)別的血壓均相關(guān)。Y 是最佳藥品。實(shí)驗(yàn)四、關(guān)聯(lián)規(guī)則挖掘【實(shí)驗(yàn)?zāi)康摹?、熟悉C5.0 規(guī)則歸納2、掌握購物籃分析的方法。【實(shí)驗(yàn)內(nèi)容】1、字段和記錄的篩選。2、規(guī)則歸納 (C5.0)分類。3、購物籃分析?!緦?shí)驗(yàn)步驟】本示例處理描述超級(jí)市場(chǎng)購物籃內(nèi)容(即,所購買的全部商品的集合)的虛構(gòu)數(shù)據(jù),以及購買者的相關(guān)個(gè)人數(shù)據(jù)(可通過忠誠卡方案獲得)。目的是尋找購買相似產(chǎn)品并且可按人口統(tǒng)計(jì)學(xué)方式(如按年齡、收入等)刻畫其特征的客戶群。本示例說明了數(shù)據(jù)挖掘的

21、兩個(gè)階段: 關(guān)聯(lián)規(guī)則建模和一個(gè)揭示所購買商品之間聯(lián)系的 Web 顯示 C5.0 規(guī)則歸納(描繪已標(biāo)識(shí)產(chǎn)品組的購買者的特征) 注意:此應(yīng)用不直接使用預(yù)測(cè)建模,因此,不對(duì)最終模型進(jìn)行準(zhǔn)確性度量,在數(shù)據(jù)挖掘過程中也不存在與之相關(guān)的訓(xùn)練/檢驗(yàn)兩個(gè)步驟的區(qū)分。本例使用名為 baskrule 的流,該流引用名為 BASKETS1n 的數(shù)據(jù)文件。任何 Clementine Client 安裝的 Demos 目錄中都具有這些文件,通過從 Windows 的“開始”菜單中選擇 Start All Programs SPSS Clementine 11.1 Demos 可訪問這些文件。文件 baskrule 位于

22、 Classification_Module 目錄下。1、訪問數(shù)據(jù)使用“變量文件”節(jié)點(diǎn)連接到數(shù)據(jù)集 BASKETS1n,選擇要從該文件讀取的字段名稱。將“類型”節(jié)點(diǎn)連接到數(shù)據(jù)源,然后將該節(jié)點(diǎn)連接到“表”節(jié)點(diǎn)。將字段卡 ID 的類型設(shè)置為無類型(因?yàn)槊總€(gè)忠誠卡 ID 在數(shù)據(jù)集中只出現(xiàn)一次,因此對(duì)于建模沒有用處)。選擇集作為字段性別的類型(這是為了確保 GRI 建模算法不會(huì)將性別視為標(biāo)志)?,F(xiàn)在,執(zhí)行該流以將“類型”節(jié)點(diǎn)實(shí)例化并顯示表。數(shù)據(jù)集包含 18 個(gè)字段,其中每條記錄表示一個(gè)購物籃。下列標(biāo)題中會(huì)顯示 18 個(gè)字段。購物籃摘要: l cardid.購買此籃商品的客戶的忠誠卡標(biāo)識(shí)符。l valu

23、e.購物籃的總購買價(jià)格。l pmethod.購物籃的支付方法??ǔ钟姓叩膫€(gè)人詳細(xì)信息: l sex l homeown.卡持有者是否擁有住房。l 收入 l age 購物籃內(nèi)容產(chǎn)品類別的出現(xiàn)標(biāo)志: l fruitveg l freshmeat l dairy l cannedveg l cannedmeat l frozenmeal l beer l wine l softdrink l fish l confectionery 3、發(fā)現(xiàn)購物籃內(nèi)容的關(guān)系首先,需要使用一般規(guī)則歸納 (GRI) 大致了解購物籃內(nèi)容的關(guān)系(關(guān)聯(lián))以生成關(guān)聯(lián)規(guī)則。選擇要在此建模過程中使用的字段,方法是:編輯“類型”節(jié)點(diǎn)

24、,將所有產(chǎn)品類別的方向設(shè)置為雙向,并將所有其他方向設(shè)置為無。(雙向表示該字段可以是結(jié)果模型的輸入或輸出。)注意:通過按住 Shift 鍵并單擊以選擇多個(gè)字段,然后指定列中的選項(xiàng),可為多個(gè)字段設(shè)置選項(xiàng)。指定了用于建模的字段后,請(qǐng)將 GRI 節(jié)點(diǎn)附加到“類型”節(jié)點(diǎn),編輯它,選擇選項(xiàng)只顯示值為真的標(biāo)志變量,然后執(zhí)行 GRI 節(jié)點(diǎn)。結(jié)果(管理器窗口右上角“模型”選項(xiàng)卡上的非精練模型)包含您可以查看(使用上下文菜單,然后選擇瀏覽)的關(guān)聯(lián)規(guī)則。這些規(guī)則顯示凍肉、罐裝蔬菜和啤酒之間存在多種關(guān)聯(lián);酒和糖果也具有關(guān)聯(lián)。出現(xiàn)雙向關(guān)聯(lián)規(guī)則(如:frozenmeal beer beer frozenmeal)Web

25、顯示(只顯示雙向關(guān)聯(lián))可能會(huì)突出顯示此數(shù)據(jù)中的一些模式。將 Web 節(jié)點(diǎn)附加到“類型”節(jié)點(diǎn),編輯 Web 節(jié)點(diǎn),選擇所有購物籃內(nèi)容字段,選擇僅顯示 true 標(biāo)志,然后執(zhí)行 Web 節(jié)點(diǎn)。因?yàn)榇蠖鄶?shù)產(chǎn)品類別組合都會(huì)出現(xiàn)在多個(gè)購物籃中,所以此 Web 上的強(qiáng)鏈接太多,無法顯示 GRI 模型表示的客戶群。要提高臨界值以便只顯示最強(qiáng)的鏈接,請(qǐng)使用工具欄上的滑塊來實(shí)現(xiàn)最多只顯示 50 個(gè)連接。要指定弱連接和強(qiáng)連接,請(qǐng)單擊工具欄上的黃色雙箭頭按鈕。這會(huì)展開顯示 Web 輸出摘要和控件的對(duì)話框。選擇大小表示強(qiáng)/正常/弱。將弱鏈接設(shè)置為低于 90。將強(qiáng)鏈接設(shè)置為高于 100。在最終顯示中,會(huì)有三個(gè)客戶群突出

26、顯示:l 購買魚和果蔬的客戶,可將這類客戶稱為“健康食客”l 購買酒和糧果的客戶l 購買啤酒、凍肉和罐裝蔬菜(“啤酒、豆類和比薩”)的客戶請(qǐng)注意,GRI 僅標(biāo)識(shí)這些客戶群中的最后兩個(gè);健康食客未形成足夠強(qiáng)的模式,GRI 無法發(fā)現(xiàn)它。4、描繪客戶群的特征現(xiàn)在,已經(jīng)根據(jù)客戶購買的產(chǎn)品類型標(biāo)識(shí)了三個(gè)客戶群,但是還要知道這些客戶是誰,即,他們的人口統(tǒng)計(jì)學(xué)特征。通過為每個(gè)群中的每名客戶添加標(biāo)志,并使用規(guī)則歸納 (C5.0) 來基于規(guī)則描繪這些標(biāo)志的特征,可以實(shí)現(xiàn)這一點(diǎn)。首先,必須獲取每個(gè)群的標(biāo)志。使用剛剛創(chuàng)建的 Web 顯示,可以自動(dòng)生成每個(gè)群的標(biāo)志。使用鼠標(biāo)右鍵,單擊fruitveg和fish之間的鏈

27、接,并選擇為鏈接生成“派生”節(jié)點(diǎn)。編輯最終的“派生”節(jié)點(diǎn)以將“派生”字段名稱更改為健康。使用從wine到confectionery的鏈接重復(fù)該練習(xí),并將最終的“派生”字段命名為 wine_chocs。對(duì)于第三個(gè)群(涉及三個(gè)鏈接),首先要確保未選擇任何鏈接。然后,在按住 shift 鍵的同時(shí)單擊鼠標(biāo)左鍵,從而選擇cannedveg、beer和frozenmeal中的全部三個(gè)鏈接。(一定要處于“交互”模式而不是“編輯”模式。)然后,從 Web 顯示菜單中選擇:生成:導(dǎo)出節(jié)點(diǎn)(“和”)將最終“派生”字段的名稱更改為 beer_beans_pizza。要描繪這些客戶群的特征,請(qǐng)連續(xù)將現(xiàn)有的類型節(jié)點(diǎn)連接

28、到這三個(gè)導(dǎo)出節(jié)點(diǎn),然后附加另一個(gè)類型節(jié)點(diǎn)。在新類型節(jié)點(diǎn)中,請(qǐng)將除以下字段外的所有字段的方向都設(shè)置為無:value、pmethod、sex、homeown、income和age(這些字段的方向應(yīng)該設(shè)置為輸入),以及相關(guān)的客戶群(例如,beer_beans_pizza,它們的方向應(yīng)該設(shè)置為輸出)。附加 C5.0 節(jié)點(diǎn),將輸出類型設(shè)置為規(guī)則集,然后執(zhí)行它。最終模型(用于 beer_beans_pizza)包含此客戶群的明確人口統(tǒng)計(jì)學(xué)特征:Rule 1 for T:if income T通過在第二個(gè)類型節(jié)點(diǎn)中選擇其他客戶群標(biāo)志作為輸出,可將同一方法應(yīng)用到這些標(biāo)志。通過在此上下文中使用 GRI 代替 C

29、5.0,可生成更多替代特征描繪;GRI 也可用于同時(shí)描繪所有客戶群標(biāo)志的特征,原因是,GRI 并非被限制到一個(gè)輸出字段。示例說明如何使用 Clementine 通過建模(使用 GRI)和直觀化(使用 Web 顯示)發(fā)現(xiàn)數(shù)據(jù)庫中的關(guān)系(即鏈接)。這些鏈接與數(shù)據(jù)中的案例組相對(duì)應(yīng),并且,通過建模(使用 C5.0 規(guī)則集)可詳細(xì)研究這些組并描繪其特征。例如,在零售領(lǐng)域,可能會(huì)使用這種客戶組確定特殊優(yōu)惠目標(biāo),以提高直接郵寄的響應(yīng)率,或自定義某分部的存貨產(chǎn)品范圍以與其人口統(tǒng)計(jì)學(xué)基礎(chǔ)的需求匹配。1、2、。3、。實(shí)驗(yàn)五、欺詐屏蔽/異常檢測(cè)/神經(jīng)網(wǎng)絡(luò)【實(shí)驗(yàn)?zāi)康摹?、 熟悉各種聚類分析方法2、 了解神經(jīng)網(wǎng)絡(luò)分析方

30、法與過程3、 掌握異常檢測(cè)的方法?!緦?shí)驗(yàn)內(nèi)容】1、聚類分析。2、神經(jīng)網(wǎng)絡(luò)建模。3、異常檢測(cè)?!緦?shí)驗(yàn)步驟】此示例顯示了 Clementine 在檢測(cè)詐欺行為方面的應(yīng)用。這一領(lǐng)域涉及農(nóng)業(yè)發(fā)展財(cái)政補(bǔ)貼申請(qǐng)。有兩種財(cái)政補(bǔ)貼類型在考慮之列:耕地開發(fā)財(cái)政補(bǔ)貼和退役田地財(cái)政補(bǔ)貼。本例使用虛擬數(shù)據(jù)演示如何通過分析方法來發(fā)現(xiàn)與標(biāo)準(zhǔn)數(shù)據(jù)的偏差,同時(shí)突出了有必要進(jìn)一步調(diào)查的異常記錄。財(cái)政補(bǔ)貼申請(qǐng)金額取決于田地的類型和大小,您會(huì)特別關(guān)注其中的不合理部分。分析通過兩個(gè)階段執(zhí)行:先使用“異常檢測(cè)”進(jìn)行預(yù)篩選,然后使用“神經(jīng)網(wǎng)絡(luò)”模型進(jìn)行深入分析。本例使用名為 fraud_anomalies.str 的流,該流引用名為 g

31、rantfraudN.db 的數(shù)據(jù)文件。可以從任何 Clementine Client 安裝軟件的 Demos 目錄下找到這些文件,也可以通過從 Windows 的“開始”菜單選擇 Start All Programs SPSS Clementine 11.1 Demos訪問這些文件。文件 fraud_anomalies.str 位于 Classification_Module 目錄下。此示例顯示了 Clementine 在檢測(cè)詐欺行為方面的應(yīng)用。這一領(lǐng)域涉及農(nóng)業(yè)發(fā)展財(cái)政補(bǔ)貼申請(qǐng)。有兩種財(cái)政補(bǔ)貼類型在考慮之列:耕地開發(fā)財(cái)政補(bǔ)貼和退役田地財(cái)政補(bǔ)貼。本例使用虛擬數(shù)據(jù)演示如何通過分析方法來發(fā)現(xiàn)與標(biāo)準(zhǔn)

32、數(shù)據(jù)的偏差,同時(shí)突出了有必要進(jìn)一步調(diào)查的異常記錄。財(cái)政補(bǔ)貼申請(qǐng)金額取決于田地的類型和大小,您會(huì)特別關(guān)注其中的不合理部分。分析通過兩個(gè)階段執(zhí)行:先使用“異常檢測(cè)”進(jìn)行預(yù)篩選,然后使用“神經(jīng)網(wǎng)絡(luò)”模型進(jìn)行深入分析。本例使用名為 fraud_anomalies.str 的流,該流引用名為 grantfraudN.db 的數(shù)據(jù)文件??梢詮娜魏?Clementine Client 安裝軟件的 Demos 目錄下找到這些文件,也可以通過從 Windows 的“開始”菜單選擇 Start All Programs SPSS Clementine 11.1 Demos訪問這些文件。文件 fraud_anoma

33、lies.str 位于 Classification_Module 目錄下。此數(shù)據(jù)包含 9 個(gè)字段: ID。唯一標(biāo)識(shí)符。 姓名。申請(qǐng)人姓名。 區(qū)域。地理位置(中部北部西南部東南部)。 田地質(zhì)量。以整數(shù)為計(jì)量單位 - 農(nóng)戶申報(bào)的田地質(zhì)量。 降雨量。以整數(shù)為計(jì)量單位 - 田地年降雨量。 田地收入。以實(shí)數(shù)為計(jì)量單位 - 申報(bào)的田地年收入。 主要農(nóng)作物。主產(chǎn)農(nóng)作物(玉米小麥馬鈴薯油菜籽)。 申請(qǐng)類型。申請(qǐng)的財(cái)政補(bǔ)貼類型 (decommission_land/arable_dev)。 申請(qǐng)金額。以實(shí)數(shù)為計(jì)量單位 - 申請(qǐng)的財(cái)政補(bǔ)貼額。1、預(yù)篩選要快速篩選異常記錄,可以使用異常檢測(cè)節(jié)點(diǎn)(如樣本文件 fra

34、ud_anomalies.str 中所示)。首先使用變量文件節(jié)點(diǎn)連接到數(shù)據(jù)集 grantfraudN.db。此數(shù)據(jù)集包含字段名稱,因此可以將表節(jié)點(diǎn)添加到流并執(zhí)行以檢查其構(gòu)成。此外,還可以通過單擊源節(jié)點(diǎn)中的類型選項(xiàng)卡并讀取值對(duì)數(shù)據(jù)有一些初步了解。在類型選項(xiàng)卡中,單擊讀取值讀取數(shù)據(jù),然后將姓名和 ID 字段的方向設(shè)置為無,因?yàn)榻_^程中不使用這些字段。所有其他字段的方向應(yīng)設(shè)置為輸入,這樣他們將作為輸入內(nèi)容包含在異常檢測(cè)模型中。在異常檢測(cè)節(jié)點(diǎn)的“模型”選項(xiàng)卡中,選擇訓(xùn)練數(shù)據(jù)中大多數(shù)異常記錄的數(shù)目,然后輸入值 10。然后執(zhí)行此節(jié)點(diǎn),并將生成的節(jié)點(diǎn)添加到流。在已生成模型的“設(shè)置”選項(xiàng)卡中,可以選擇相應(yīng)選

35、項(xiàng)放棄非異常記錄,這樣在評(píng)分過程中,只有標(biāo)記為潛在異常的記錄才保留在流中。添加表節(jié)點(diǎn)并執(zhí)行,以查看得分?jǐn)?shù)據(jù)。模型生成的 $0-Anomaly 字段表明哪些記錄為潛在異常記錄。由于在“設(shè)置”選項(xiàng)卡中選中了放棄記錄選項(xiàng),所以僅列出標(biāo)記為潛在異常的記錄。還列出了每條記錄的整體異常指數(shù)值,同時(shí)給出了對(duì)等組和最有可能造成記錄異常的三個(gè)字段。您可以使用圖表更方便地查看要標(biāo)記的記錄。例如,您可以針對(duì)申請(qǐng)金額繪制田地大小,并附上 $0-Anomaly 字段來查看異常記錄。(將散點(diǎn)圖節(jié)點(diǎn)添加到生成的異常檢測(cè)模型中。要查看顯示所有記錄(不僅僅是異常記錄)的完整散點(diǎn)圖,請(qǐng)取消選擇已生成模型中“設(shè)置”選項(xiàng)卡上的放棄記

36、錄選項(xiàng)。)如您所期望的那樣,將標(biāo)志出金額最高的申請(qǐng)。不過,還標(biāo)志出了許多其他金額的申請(qǐng),其中包括某些金額最低的申請(qǐng)。要弄清事情緣由,有必要進(jìn)一步觀察數(shù)據(jù)。2、數(shù)據(jù)調(diào)查。要繼續(xù)分析詐欺數(shù)據(jù),可以使用勘察表來調(diào)查數(shù)據(jù)(如樣本文件 fraud.str 中所示)。此操作可幫您設(shè)立對(duì)建模很有用的假設(shè)條件。在本例中,我們將逐步講解從訪問數(shù)據(jù)到訓(xùn)練神經(jīng)網(wǎng)絡(luò)的具體操作步驟。首先,思考數(shù)據(jù)中可能存在的詐欺類型。一種可能是一塊田地同時(shí)出現(xiàn)多份財(cái)政補(bǔ)貼資助申請(qǐng)表。要檢查重復(fù)申請(qǐng),請(qǐng)將分布節(jié)點(diǎn)連接至數(shù)據(jù)集,然后選擇姓名字段(假定該字段具有識(shí)別每塊田地的唯一值)。最終的分布圖將顯示一些進(jìn)行了多次申請(qǐng)的田地。(要查看結(jié)果

37、,請(qǐng)單擊計(jì)數(shù)列標(biāo)題,按計(jì)數(shù)對(duì)行進(jìn)行降序排列。)要繼續(xù)分析詐欺數(shù)據(jù),可以使用勘察表來調(diào)查數(shù)據(jù)(如樣本文件 fraud.str 中所示)。此操作可幫您設(shè)立對(duì)建模很有用的假設(shè)條件。在本例中,我們將逐步講解從訪問數(shù)據(jù)到訓(xùn)練神經(jīng)網(wǎng)絡(luò)的具體操作步驟。首先,思考數(shù)據(jù)中可能存在的詐欺類型。一種可能是一塊田地同時(shí)出現(xiàn)多份財(cái)政補(bǔ)貼資助申請(qǐng)表。 要檢查重復(fù)申請(qǐng),請(qǐng)將分布節(jié)點(diǎn)連接至數(shù)據(jù)集,然后選擇姓名字段(假定該字段具有識(shí)別每塊田地的唯一值)。最終的分布圖將顯示一些進(jìn)行了多次申請(qǐng)的田地。(要查看結(jié)果,請(qǐng)單擊計(jì)數(shù)列標(biāo)題,按計(jì)數(shù)對(duì)行進(jìn)行降序排列。)以此為基礎(chǔ),您可以使用選擇節(jié)點(diǎn)放棄具有多個(gè)記錄的田地所對(duì)應(yīng)的記錄。然后,您

38、只需關(guān)注申請(qǐng)資助的單塊田地的特征就可以了。您可以使用 Clementine 構(gòu)建一個(gè)模型,根據(jù)田地的大小、主要農(nóng)作物類型、土壤類型等來評(píng)估該田地的期望收入。要準(zhǔn)備建模,您需要在導(dǎo)出節(jié)點(diǎn)中使用 CLEM 語言導(dǎo)出新字段。例如,您可以通過 farmsize * rainfall * landquality 這一簡(jiǎn)單公式評(píng)估收入。要查明偏差,需要繪制 diff 的直方圖。通過疊加申請(qǐng)類型來檢查其會(huì)不會(huì)影響評(píng)估收入之間的差距很有意思。既然所有大偏差都發(fā)生在 arable_dev 財(cái)政補(bǔ)貼上,就可以只選擇 arable_dev 財(cái)政補(bǔ)貼申請(qǐng)。為此,將選擇節(jié)點(diǎn)添加到名為 diff 的導(dǎo)出節(jié)點(diǎn),然后使用 C

39、LEM 表達(dá)式 claimtype = arable_dev 選擇記錄。3、訓(xùn)練神經(jīng)網(wǎng)絡(luò)在最初的數(shù)據(jù)調(diào)查中,在考慮各種因素的情況下將實(shí)際申請(qǐng)金額與期望金額進(jìn)行比較很有用。這就是神經(jīng)網(wǎng)絡(luò)的意義所在。在數(shù)據(jù)中使用變量,神經(jīng)網(wǎng)絡(luò)可以根據(jù)目標(biāo)變量或相關(guān)變量來進(jìn)行預(yù)測(cè)。通過這些預(yù)測(cè)變量,您可以查明偏差的記錄或記錄組。在最初的數(shù)據(jù)調(diào)查中,在考慮各種因素的情況下將實(shí)際申請(qǐng)金額與期望金額進(jìn)行比較很有用。這就是神經(jīng)網(wǎng)絡(luò)的意義所在。在數(shù)據(jù)中使用變量,神經(jīng)網(wǎng)絡(luò)可以根據(jù)目標(biāo)變量或相關(guān)變量來進(jìn)行預(yù)測(cè)。通過這些預(yù)測(cè)變量,您可以查明偏差的記錄或記錄組。 建模準(zhǔn)備過程中,應(yīng)首先將類型節(jié)點(diǎn)添加到當(dāng)前流中。由于要使用數(shù)據(jù)中的其他

40、變量來預(yù)測(cè)申請(qǐng)值,您可以使用類型節(jié)點(diǎn)將申請(qǐng)金額的方向設(shè)置為輸出。添加神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)并執(zhí)行。一旦神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)束,可以將已生成模型添加到流,然后繪制一張預(yù)期申請(qǐng)金額與實(shí)際申請(qǐng)金額的比較圖。大多數(shù)案例的預(yù)期申請(qǐng)金額與實(shí)際申請(qǐng)金額都基本相符。導(dǎo)出另一個(gè) claimdiff 字段(與之前導(dǎo)出的“收入差額”字段類似)。此導(dǎo)出節(jié)點(diǎn)使用 CLEM 表達(dá)式(abs(claimvalue - $N-claimvalue) / claimvalue) * 100為了說明實(shí)際申請(qǐng)金額與預(yù)估申請(qǐng)金額之間的差異,請(qǐng)使用 claimdiff 直方圖。您主要想了解申請(qǐng)金額比預(yù)估金額(由神經(jīng)網(wǎng)絡(luò)判斷)高的人。通過在直方圖劃出區(qū)

41、域,您可以右鍵單擊劃出的區(qū)域,然后生成一個(gè)選擇節(jié)點(diǎn)以進(jìn)一步調(diào)查 claimdiff 值相對(duì)較大(如大于 50%)的人。這些申請(qǐng)有待進(jìn)一步調(diào)查。實(shí)驗(yàn)六、分類和回歸樹節(jié)點(diǎn)(C&RT)【實(shí)驗(yàn)?zāi)康摹?、掌握C&RT分類算法。2、掌握決策樹的建立和修剪3、了解C&RT分類算法在管理決策中的應(yīng)用【實(shí)驗(yàn)內(nèi)容】1、C&RT分類算法建立決策樹【實(shí)驗(yàn)步驟】分類和回歸樹節(jié)點(diǎn) (C&RT) 是一種基于樹的分類和預(yù)測(cè)方法,此方法使用遞歸分區(qū)將訓(xùn)練記錄分割為多個(gè)具有相似的輸出字段值的段。在本示例中,將 C&RT 應(yīng)用于某市場(chǎng)研究,其中的目標(biāo)字段為有意預(yù)訂有線電視交互服務(wù)。預(yù)測(cè)變量字段包括年齡、性別、教育、收入類別、每天看

42、電視的時(shí)間和子女?dāng)?shù)(按有序集合編碼,因?yàn)橹?8 表示 8 個(gè)或更多)。此示例使用名為 Newschancart.str 的流,此流引用名為 NewsChan.sav 的數(shù)據(jù)文件。可以從任何 Clementine Client 安裝軟件的 Demos 目錄下找到這些文件,也可以通過從 Windows 的開始菜單下選擇 Start All Programs SPSS Clementine 11.1 Demos 來訪問這些文件。文件 Newschancart.str 位于 Base_Module 目錄下。1、創(chuàng)建樹要?jiǎng)?chuàng)建流,可執(zhí)行下列操作:在 Demos 文件夾中添加指向 NewsChan.sav

43、的 SPSS 文件源節(jié)點(diǎn)。為流添加類型節(jié)點(diǎn)。在類型節(jié)點(diǎn)中選擇讀取值以實(shí)例化字段。選擇 NEWSCHAN 并將其類型設(shè)置為標(biāo)志,將其方向設(shè)置為輸出。其他所有字段用作預(yù)測(cè)變量(輸入)。將 C&RT 節(jié)點(diǎn)連接到類型節(jié)點(diǎn)。在“模型”選項(xiàng)卡上,選擇啟動(dòng)交互會(huì)話作為構(gòu)建選項(xiàng)。這樣,在執(zhí)行節(jié)點(diǎn)時(shí)將啟動(dòng)“交互樹”窗口,通過該窗口可以在生成模型之前生成并編輯樹。在“專家”選項(xiàng)卡上選擇專家模式并選擇修剪樹和使用標(biāo)準(zhǔn)誤規(guī)則。將最小雜質(zhì)改變值設(shè)置為 0.003。增加此值可避免進(jìn)行改進(jìn)意義十分微小的分割,從而傾向于生成較簡(jiǎn)單的樹。要指定停止標(biāo)準(zhǔn),可在“專家”選項(xiàng)卡上單擊停止。在“停止標(biāo)準(zhǔn)”對(duì)話框中選擇使用絕對(duì)值。將最小

44、絕對(duì)臨界值更改為 25 和 10,然后單擊確定。行節(jié)點(diǎn)。此時(shí)將出現(xiàn)交互樹窗口,在其中可以生成并編輯樹。 最初,僅顯示根節(jié)點(diǎn)。統(tǒng)計(jì)顯示訓(xùn)練數(shù)據(jù)中有 442 個(gè)記錄。因?yàn)樯形捶指顦?,因此所有的記?(100%) 都落在此節(jié)點(diǎn)中。在整個(gè)示例中,有 215 個(gè)記錄對(duì)預(yù)訂的響應(yīng)為是,其總響應(yīng)率為 48.6%。使用樹模型,我們可以嘗試是否能夠通過找到最有可能作出積極響應(yīng)的子組來提高此匹配率。提示:要查看字段標(biāo)簽,例如否和是響應(yīng)的標(biāo)簽,可單擊菜單欄上的顯示字段和值的標(biāo)簽按鈕在“查看器”選項(xiàng)卡上,單擊根節(jié)點(diǎn)以選中它并從菜單中選擇以下項(xiàng): 樹 生成樹和修剪生成的樹具有五層和五個(gè)終端節(jié)點(diǎn)。(要查看整個(gè)樹,可使用縮

45、放工具或單擊工具欄右側(cè)的圖窗口工具按鈕。)如果尚未選中修剪選項(xiàng),則樹可能會(huì)復(fù)雜得多。修剪操作基于成本復(fù)雜性算法,此算法可根據(jù)終端節(jié)點(diǎn)數(shù)調(diào)整風(fēng)險(xiǎn)評(píng)估。 2、生成模型和節(jié)點(diǎn)以便評(píng)分使用決策樹時(shí),共有幾個(gè)選項(xiàng)可用于生成或?qū)С鰰?huì)話結(jié)果。其中兩個(gè)常用的選項(xiàng)為根據(jù)當(dāng)前樹生成模型或根據(jù)當(dāng)前樹生成選擇節(jié)點(diǎn)。這些選項(xiàng)會(huì)在下面各節(jié)中進(jìn)行說明。有關(guān)其他選項(xiàng)的說明,例如過濾節(jié)點(diǎn)和規(guī)則集,請(qǐng)參閱 Clementine 幫助。根據(jù)當(dāng)前樹生成模型可使用此流生成模型,該模型可根據(jù)分配到節(jié)點(diǎn)的記錄的積極響應(yīng)率對(duì)這些記錄進(jìn)行評(píng)分。在交互樹窗口的“查看器”選項(xiàng)卡上,從“生成”菜單中選擇生成模型。此時(shí)將出現(xiàn)“生成新模型”對(duì)話框。 在

46、“生成新模型”對(duì)話框中,輸入新模型的名稱(可選),然后單擊確定。 該模型位于流工作區(qū)中。在流工作區(qū)中,將生成的 NEWSCHAN1 模型連接到類型節(jié)點(diǎn)。在生成的 NEWSCHAN1 模型中,單擊設(shè)置選項(xiàng)卡,選擇計(jì)算置信度和規(guī)則 ID,然后單擊確定。連接表節(jié)點(diǎn)并執(zhí)行流。已執(zhí)行的表中顯示了可能接受有線電視服務(wù)預(yù)訂的用戶的記錄。$R-NEWSCHAN 列顯示了對(duì)這些記錄的預(yù)測(cè)結(jié)果。如果某記錄顯示的值為 1,則可以預(yù)測(cè)該用戶對(duì)預(yù)訂的響應(yīng)為是。如果需要,可將此生成的模型保存到模型選項(xiàng)板上以備將來的數(shù)據(jù)使用。右鍵單擊流中的 NEWSCHAN1 模型并選擇添加到模型選項(xiàng)板。然后單擊模型選項(xiàng)板上的模型并選擇保

47、存模型。生成選擇節(jié)點(diǎn)還可以生成選擇節(jié)點(diǎn),該節(jié)點(diǎn)包括所有落在節(jié)點(diǎn) 2 和 13 中的記錄。然后,可以使用具有新數(shù)據(jù)的選擇節(jié)點(diǎn)確定哪些用戶最有可能對(duì)預(yù)訂做出積極的響應(yīng)。 在交互樹窗口中,使用按住 Ctrl 鍵并單擊的方法選中節(jié)點(diǎn) 2 和 13。 從“生成”菜單中,選擇選擇節(jié)點(diǎn)。生成的選擇節(jié)點(diǎn)位于流工作區(qū)中。該生成的選擇節(jié)點(diǎn)可根據(jù)在交互樹窗口中為節(jié)點(diǎn) 2 和 13 選擇的標(biāo)準(zhǔn)來構(gòu)建表達(dá)式。 將生成的選擇節(jié)點(diǎn)連接到流中的類型節(jié)點(diǎn)上。 將表連接到選擇節(jié)點(diǎn)并執(zhí)行該表以查看記錄。注意,此次僅選中 226 個(gè)記錄而不是原來的 442 個(gè)記錄。今后還可將此選擇節(jié)點(diǎn)應(yīng)用于其他數(shù)據(jù)集中;可根據(jù)同樣的已定義的年齡、收

48、入、教育和性別屬性過濾這些新數(shù)據(jù)。本示例演示了如何在市場(chǎng)研究中應(yīng)用 C&RT 節(jié)點(diǎn)和決策樹來確定那些愿意預(yù)訂有線電視交互服務(wù)的用戶。通過使用預(yù)測(cè)變量,例如年齡、性別、教育、收入類別、每天看電視的時(shí)間和子女?dāng)?shù),我們可以預(yù)測(cè)和分類響應(yīng)以便在商業(yè)競(jìng)爭(zhēng)中獲取最高響應(yīng)率。樹模型使用簡(jiǎn)單,易于理解。系統(tǒng)將構(gòu)建樹并遞歸分割每個(gè)分支直到符合一個(gè)或多個(gè)停止標(biāo)準(zhǔn)為止。然后,可根據(jù)使用的建模方法在每個(gè)分割處自動(dòng)選擇最合適的預(yù)測(cè)變量。如本示例所示,可使用樹生成模型或選擇節(jié)點(diǎn)并將其應(yīng)用到以后的數(shù)據(jù)集中。實(shí)驗(yàn)七、多項(xiàng) Logistic 回歸【實(shí)驗(yàn)?zāi)康摹?、熟悉Logistic 回歸。2、掌握Clementine 中Log

49、istic 回歸建模方法?!緦?shí)驗(yàn)內(nèi)容】1、在Clementine 中建立多項(xiàng)Logistic 回歸【實(shí)驗(yàn)步驟】Logistic 回歸是一種統(tǒng)計(jì)方法,它可根據(jù)輸入字段的值對(duì)記錄進(jìn)行分類。這種統(tǒng)計(jì)方法類似于線性回歸,但是它使用的是分類目標(biāo)字段而非數(shù)值目標(biāo)字段。例如,假設(shè)某個(gè)電信服務(wù)提供商已按照服務(wù)使用模式對(duì)其客戶群進(jìn)行了劃分,將這些客戶分類到四個(gè)組中。如果可使用人口數(shù)據(jù)預(yù)測(cè)組成員,則可以為單個(gè)預(yù)期客戶定制服務(wù)使用模式。此示例使用名為 telco_custcat.str 的流,此流引用名為 telco.sav 的數(shù)據(jù)文件。可以從任何 Clementine Client 安裝軟件的 Demos 目錄下

50、找到這些文件,也可以通過從 Windows 的“開始”菜單下選擇 Start All Programs SPSS Clementine 11.1 Demos 來訪問這些文件。文件 telco_custcat.str 位于 Classification_Module 目錄下。本示例將焦點(diǎn)集中于使用人口數(shù)據(jù)預(yù)測(cè)使用模式。目標(biāo)字段 custcat 有四個(gè)可能的值對(duì)應(yīng)于四個(gè)客戶組,如下所示:值標(biāo)簽1基本服務(wù)2電子服務(wù)3附加服務(wù)4全套服務(wù)因?yàn)槟繕?biāo)含有多個(gè)類別,因此將使用多項(xiàng)模型。如果目標(biāo)含有兩個(gè)截然不同的分類,例如是/否,真/假,或流失/保持,則會(huì)轉(zhuǎn)而創(chuàng)建二項(xiàng)模型。 1、構(gòu)建流在 Demos 文件夾中添

51、加指向 telco.sav 的 SPSS 文件源節(jié)點(diǎn)。添加一個(gè)用來定義字段的類型節(jié)點(diǎn),確保所有類型均設(shè)置正確。例如,可以將值為 0 和 1 的大多數(shù)字段視為標(biāo)志字段,但對(duì)于某些字段(如性別),將其視為具有兩個(gè)值的集合字段更為準(zhǔn)確。提示:要更改具有相似值(如 0/1)的多個(gè)字段,請(qǐng)單擊值列標(biāo)題,以便按值對(duì)字段進(jìn)行排序,然后按住 Shift 鍵的同時(shí)使用鼠標(biāo)或箭頭鍵選擇所有要更改的字段。然后您可以右鍵單擊這些選擇,以更改所選字段的類型或其他特性。因?yàn)閷⑿詣e視為集合比視為標(biāo)志更精確一些,所以請(qǐng)單擊其“類型”值,然后將其更改為集合。將客戶類別字段的方向設(shè)置為輸出。所有其他字段的方向都應(yīng)設(shè)置為輸入。因?yàn)榇耸纠饕P(guān)注人口統(tǒng)計(jì),所以請(qǐng)使用過濾節(jié)點(diǎn)以選取相關(guān)字段(地區(qū)、年齡、婚姻狀況、地址、收入、教育程度、行業(yè)、退休、性別、居住地和客戶類別)。其他字段可以排除在此分析之外。(另外,您可以將這些字段的方向更改為無,而不要排除這些字段,或者選擇要在建模節(jié)點(diǎn)中使用的字段。)2、瀏覽模型在 L

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論