版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、商務(wù)數(shù)據(jù)分析實驗指導書適用于國際經(jīng)濟與貿(mào)易專業(yè))江西財經(jīng)大學國際經(jīng)貿(mào)學院編寫人:戴愛明目錄TOC o 1-5 h z前言1 HYPERLINK l bookmark16 o Current Document 實驗一、SPSSClementine軟件功能演練5 HYPERLINK l bookmark30 o Current Document 實驗二、SPSSClementine數(shù)據(jù)可視化9 HYPERLINK l bookmark44 o Current Document 實驗三、決策樹C5.0建模17 HYPERLINK l bookmark46 o Current Document 實驗四
2、、關(guān)聯(lián)規(guī)則挖掘30 HYPERLINK l bookmark88 o Current Document 實驗五、聚類分析(異常值檢測)38 前言一、課程簡介商務(wù)數(shù)據(jù)分析充分利用數(shù)據(jù)挖掘技術(shù)從大量商務(wù)數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘的廣義觀點:數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的數(shù)據(jù)中“挖掘”有趣知識的過程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),因此,數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的協(xié)同工作,一方面,可以迎合和簡化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中
3、數(shù)據(jù)來源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉庫應(yīng)用中極為重要和相對獨立的方面和工具。數(shù)據(jù)挖掘有機結(jié)合了來自多學科技術(shù),其中包括:數(shù)據(jù)庫、數(shù)理統(tǒng)計、機器學習、高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索、圖像與信號處理、空間數(shù)據(jù)分析等,這里我們強調(diào)商務(wù)數(shù)據(jù)分析所處理的是大規(guī)模數(shù)據(jù),且其算法應(yīng)是高效的和可擴展的。通過數(shù)據(jù)分析,可從數(shù)據(jù)庫中挖掘出有意義的知識、規(guī)律,或更高層次的信息,并可以從多個角度對其進行瀏覽察看。所挖掘出的知識可以幫助進行商務(wù)決策支持。當前商務(wù)數(shù)據(jù)分析應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行等方面。二、課程的任務(wù)和實驗的教學目標課程編號:課程屬性:
4、專業(yè)任選課實驗學時:8適用專業(yè):國際經(jīng)濟與貿(mào)易先修課程:數(shù)據(jù)庫技術(shù)、概率論與數(shù)理統(tǒng)計、統(tǒng)計學商務(wù)數(shù)據(jù)分析是一門理論和實踐相結(jié)合的課程,其上機實驗的目的主要是實現(xiàn)數(shù)據(jù)挖掘的主要算法,訓練學生實際動手進行數(shù)據(jù)挖掘設(shè)計和軟件應(yīng)用的能力,加深對數(shù)據(jù)挖掘相關(guān)概念和算法的理解。本課程具有技術(shù)性和實踐性較強的特點,因此,配合基本原理的講授,應(yīng)當安排相應(yīng)的實習操作。通過實驗和操作,使學生鞏固和加深數(shù)據(jù)倉庫與數(shù)據(jù)挖掘理論知識,進一步加強學生獨立分析問題和解決問題的能力、綜合設(shè)計及創(chuàng)新能力的培養(yǎng),為今后工作打下良好的基礎(chǔ)。經(jīng)過多層次、多方式的全面訓練后,學生應(yīng)達到下列要求:1進一步鞏固和加深數(shù)據(jù)挖掘基本知識的理解
5、,提高綜合運用所學知識,建立、管理和分析商務(wù)數(shù)據(jù)的能力。2能根據(jù)需要選學參考書,查閱相關(guān)的工具,通過獨立思考,深入鉆研有關(guān)問題,學會自己獨立分析問題、解決問題,具有一定的創(chuàng)新能力。3能正確處理大規(guī)模數(shù)據(jù),選擇數(shù)據(jù)挖掘工具的開發(fā)平臺和相關(guān)的軟件解決實踐問題。4能獨立撰寫實驗報告,準確分析實驗結(jié)果,總結(jié)有關(guān)的問題提出相關(guān)的建議。三、實驗教材及參考書理論課教材及參考書:肯數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程(叢書名:高等院校信息管理與信息系統(tǒng)專業(yè)系列教材)作者:陳文偉編著,清華大學出版社,2006.8肯數(shù)據(jù)倉庫和數(shù)據(jù)挖掘,蘇新寧等編著,清華大學出版社,2006.4肯數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)(第2版),陳京民編著,電
6、子工業(yè)出版社,2007.11肯JiaweiHan,MichelineKamber.DataMining:ConceptsandTechniques.高等教育出版社(影印版),2001.5.肯IanH.Witten,EibeFrank.DataMining:PracticalMachineLearningToolsandTechniques(第二版).機械工業(yè)出版社(影印版),2005.肯RichardJ.Roiger,MichaelW.Geatz.DataMining:ATutorial-BasedPrimer清華大學出版社,2003.實驗教材:肯數(shù)據(jù)挖掘Clementine應(yīng)用實務(wù),謝邦昌主
7、編,機械工業(yè)出版社,2008.4肯數(shù)據(jù)挖掘原理與SPSSClementine應(yīng)用寶典,元昌安主編,電子工業(yè)出版社,2009.8四、實驗基本內(nèi)容及學時分配按照商務(wù)數(shù)據(jù)分析實驗教學大綱的要求,共設(shè)立實驗4個,總計20學時。試驗基本內(nèi)容與學時分配如下表:序號實驗名稱實驗學時每組人數(shù)實驗屬性實驗者類別開出要求1SPSSClementine軟件功能演練11演練本科必開2實驗一、SPSSClementine數(shù)據(jù)可視化11演練本科必開3分類發(fā)現(xiàn)21驗證綜合本科必開4關(guān)聯(lián)規(guī)則21驗證綜合本科必開5聚類分析(異常檢測)21驗證綜合本科必開五、實驗方式與基本要求1、本課程的實驗為非單獨設(shè)課,因此,應(yīng)該課程的內(nèi)容安
8、排和進度,配合技術(shù)原理的講授,進行相應(yīng)的操作和實驗。2、該課以綜合性實驗為主,教師給出實驗題目,實驗前學生必須進行預習,3、在規(guī)定的時間內(nèi),由學生獨立完成,出現(xiàn)問題,教師要引導學生獨立分析、解決,不得包辦代替。4、實驗中按要求做好學生實驗情況及結(jié)果記錄,實驗后認真填寫實驗記錄。5、實驗指導書僅作為上機時的參考步驟,不能作為唯一的依據(jù)以教材和課堂講授為準。實驗一、SPSSClementine軟件功能演練【實驗?zāi)康摹?、熟悉SPSSClementine軟件功能和操作特點。2、了解SPSSClementine軟件的各選項面板和操作方法。3、熟練掌握SPSSClementine工作流程?!緦嶒瀮?nèi)容】1
9、、打開SPSSClementine軟件,逐一操作各選項,熟悉軟件功能。2、打開一有數(shù)據(jù)庫、或新建數(shù)據(jù)文件,讀入SPSSClementine,并使用各種輸出節(jié)點,熟悉數(shù)據(jù)輸入輸出。(要求:至少做access數(shù)據(jù)庫文件、excel文件、txt文件、可變文件的導入、導出)【實驗步驟】1、啟動Clementine:請從Windows的“開始”菜單中選擇:所有程序SPSSClementine11.1飼SPSSClementine11.1SPSSClementineclient11.1DhFTi0EDocijjtimtatiunLii:erLEeAuthurii:=ltiunWii:=Lt_dSFSSCl
10、emerLtine:Client11.1SFSSLichtlshUtility2、Clementine窗口當?shù)谝淮螁覥lementine時,工作區(qū)將以默認視圖打開。中間的區(qū)域稱作流工作區(qū)。在Clementine中,這將是用來工作的主要區(qū)域。Clementine中絕大部分的數(shù)據(jù)和建模工具都在選項板中,該區(qū)域位于流工作區(qū)的下方。每個選項卡都包含一組以圖形表示數(shù)據(jù)挖掘任務(wù)的節(jié)點,例如訪問和過濾數(shù)據(jù),創(chuàng)建圖形和構(gòu)建模型。E收藏夾(F)數(shù)據(jù)源(U)記錄選項(尺)字段選項(D)A圖形(G)|建模訓)數(shù)據(jù)庫建模(B)輸出(0)導出(E)|麺據(jù)理變項女件選匿抽樣忙總導腔類里辻總割臣圈殺闿圈且古圈命念HQ神竪
11、阿貉Kohonen05.0C&RTK-MeansS平田B服務(wù)器:本地服務(wù)器|128MB/14OMB要將節(jié)點添加到工組區(qū),可在節(jié)點選項板中雙擊圖標或?qū)⑵渫献е凉ぷ鲄^(qū)后釋放。隨后可將各個圖標連接以創(chuàng)建一個表示數(shù)據(jù)流動的流。窗口的右上方是輸出和對象管理器。這些選項卡用于查看和管理各種Clementine對象?!傲鳌边x項卡包含了當前會話中打開的所有流??梢詫⑦@些流保存并關(guān)閉也可將其添加到工程中。流輸出模型豹疣1越drug:也drugplot曲druglearn:也fraud納drugreport輸出”選項卡包含了由Clementine中的流操作產(chǎn)生的各類文件。可以顯示、重命名和關(guān)閉此處所列的表格、圖形
12、和報告。疣輸出模型陽)Table(13于字段,1,000條記錄)Drug的分布Na_to_K的直方圖PatientRecords(8個字段,200.怛訊日認K的散點圖HDrug的分析“模型”選項卡是一個功能強大的工具,包含了在一次會話中產(chǎn)生的所有模型(即,已在Clementine中構(gòu)建完畢的模型)。通過它,可以對模型作更深入的查看、將其添加至流中、導出或為其加注解。窗口右側(cè)底部的部分是工程工具,它用來創(chuàng)建和管理數(shù)據(jù)挖掘工程。查看在Clementine中創(chuàng)建的工程有兩種方式-類視圖或CRISP-DM視圖?!癈RISP-DM”選項卡提供了一種組織工程的方式。“類”選項卡提供了一種在Clementi
13、ne中按類別(即,按照所創(chuàng)建對象的類別)組織工作的方式。當要獲取數(shù)據(jù)、流、模型等對象的詳盡目錄時,這種視圖十分有用。實驗二、SPSSClementine數(shù)據(jù)可視化實驗?zāi)康摹?、熟悉SPSSClementine繪圖。2、了解SPSSClementine圖形選項面板各節(jié)點的使用方法3、熟練掌握SPSSClementine數(shù)據(jù)可視化流程?!緦嶒瀮?nèi)容】1、打開SPSSClementine軟件,逐一操作各圖形選項面板,熟悉軟件功能。2、打開一有數(shù)據(jù)庫、或新建數(shù)據(jù)文件,讀入SPSSClementine,并使用各種輸出節(jié)點,熟悉數(shù)據(jù)輸入輸出。(要求:至少做分布圖、直方圖、收集圖、多重散點圖、時間散點圖)實驗
14、步驟】1、啟動Clementine:請從Windows的“開始”菜單中選擇所有程序PSSClementine11.1SPSSClementineclient11.1SPSSClementine11.1DhFTi0EIlociurienor.Lii:erLEehutherizationWii:=Lt_dSFSSClementineClient11.1SFSSLichtlshUtility2、建立一個流、導入相關(guān)數(shù)據(jù),打開圖形選項面板3、繪制以下各類圖形1)以顏色為層次的圖2)以大小為層次的圖nnonu.uou-0.070-iJt*1*J*VtIO.OBO-I*AllProgramsSPSSCle
15、mentine11.1Demos訪問這些文件。文件druglearn.str位于Classification_Module目錄中。此demo中使用的數(shù)據(jù)字段包括:年齡(數(shù)值)性別M或FBP血壓:高、正?;虻湍懝檀佳褐械哪懝檀己浚赫;騿JNa血液中鈉的濃度K血液中鉀的濃度藥品對患者有效的處方藥1、讀取文本數(shù)據(jù)使用變量文件節(jié)點讀取定界文本數(shù)據(jù)??梢詮倪x項板中添加變量文件節(jié)點,方法是單擊源選項卡找到此節(jié)點,或者使用收藏夾選項卡(默認情況下,其中包含此節(jié)點)。然后,雙擊新添加的節(jié)點以打開相應(yīng)的對話框。c|)E文件軽收藏夾(F)數(shù)據(jù)源(U)記錄選項(尺)字段選項Q)圖刑(0)逹模(M)輸出(1)(D
16、數(shù)據(jù)理可童文件A/0/0逸匿抽樣匯總導出蟄型辻詩般點圈井帝圈_&方圈神經(jīng)網(wǎng)絡(luò)單擊緊挨“文件”框右邊以省略號“.”標記的按鈕,瀏覽到系統(tǒng)中的Clementine安裝目錄。打開demos目錄,然后選擇名為DRUG1n的文件。選擇從文件讀取字段名,并注意已載入此對話框中的字段和值。單擊數(shù)據(jù)選項卡,覆蓋和更改某個字段的存儲。注意,存儲不同于類型或數(shù)據(jù)字段的用途。類型選項卡可幫助了解數(shù)據(jù)中的更多字段類型。還可以選擇讀取值來查看各個字段的實際值,具體取決于在值列中的選擇。此過程稱為實例化。Var.File|g|刷新|C:ProgramFileslSPSSClementine1,1DEMOSDRUG1n字段
17、覆蓋存儲類型輸入格式AgeSexBP-CholesterolNa乞Drugtaptaputrutr數(shù)符符整字字(未知)IAI子骨申數(shù)據(jù)過濾類型注辭查看當前字段查看未使用的字段設(shè)置類型選項卡可幫助了解數(shù)據(jù)中的更多字段類型。還可以選擇讀取值來查看各個字段的實際值,具體取決于在值列中的選擇。此過程稱為實例化。DRUGln魚I刷新)lIVk讀取值清除值渚際所有值字段類型值缺失檢查方向AgeSexBPCholesterol746M/FHIGH.LODNORMAU.0.500169,.0.020022,.drugA.dru.數(shù)據(jù)過濾類型注解查看當前字段查看未使用的字段設(shè)置$CLEO_DEMOS/DRUG1
18、n2、添加表?,F(xiàn)在已載入數(shù)據(jù)文件,可以瀏覽一下某些記錄的值。其中一個方法就是構(gòu)建一個包含表節(jié)點的流。要將表節(jié)點添加到流中,可雙擊選項板中的表節(jié)點圖標或?qū)⑵渫戏诺焦ぷ鲄^(qū)。雙擊選項板中的某個節(jié)點后,該節(jié)點將自動與流工作區(qū)中的選定節(jié)點相連接。此外,如果尚未連接節(jié)點,則可以使用鼠標中鍵將源節(jié)點與表節(jié)點相連接要模擬鼠標中鍵操作,請在使用鼠標時按下Alt鍵。要查看表,請單擊工具欄上的綠色箭頭按鈕執(zhí)行流,或者右鍵單擊表節(jié)點,然后選擇執(zhí)行。druigleaz-n*-Cleaeiitine文件(E)編輯插入d)視圖兇工具超節(jié)點窗口Q幫助匾表IT亍字段-200條記錄)-inlxi12文件編輯生成回x|AgeSex
19、BPCholesterolNaKDrug17825MNORMALHIGH0.780.04drugY17939MNORMALHIGH0.610.04drugY18067FNORMALHIGH0.790.05drugY18122FHIGHNORMAL0.820.04drugY18259FNORMALHIGH0.880.06drugX18320FLOWNORMAL0.810.07drugX18436FHIGHNORMAL0.580.04drugY18518FHIGHHIGH0.890.02drugY18657FNORMALNORMAL0.550.02drugY18770MHIGHHIGH0.590.
20、06drugE18847MHIGHHIGH0.560.05drugA18965MHIGHNORMAL0.860.02drugY19064MHIGHNORMAL0.740.04drugY19158MHIGHHIGH0.770.04drugY19223MHIGHHIGH0.530.07drugA19372MLOWHIGH0.550.03drugY19472MLOWHIGH0.500.07drugC19546FHIGHHIGH0.770.02drugY19656FLOWHIGH0.850.07drugC19716MLOWHIGH0.740.06drugC19852MNORMALHIGH0.550.0
21、6drug/19923MNORMALNORMAL0.780.06drug/20040FLOWNORMAL0.680.06cirugX:3、創(chuàng)建分布圖數(shù)據(jù)挖掘過程中,創(chuàng)建匯總視圖通常有助于研究數(shù)據(jù)。Clementine提供了若干不同類型的圖表供您選擇,具體取決于要匯總分析的數(shù)據(jù)類型。例如,要找出每種藥物的對癥患者的比例,請使用分布節(jié)點。將分布節(jié)點添加到流,并將其與源節(jié)點相連接,然后雙擊該節(jié)點以編輯要顯示的選項。選擇藥品作為要顯示其分布的目標字段。然后,在對話框中單擊執(zhí)行最終圖表將有助于查看數(shù)據(jù)的“結(jié)構(gòu)”。結(jié)果表明,藥品Y的對癥患者最多,而藥品B和藥品C的對癥患者最少。此外,還可以添加并執(zhí)行數(shù)據(jù)審
22、核節(jié)點,同時快速瀏覽所有字段的分布圖和直方圖??梢栽凇拜敵觥边x項卡中找到數(shù)據(jù)審核節(jié)點。4、創(chuàng)建散點圖現(xiàn)在我們來看一下有哪些因素會對藥品(目標變量)產(chǎn)生影響。作為研究員您一定知道鈉和鉀的濃度在血液中有著重要的影響。由于兩者都是數(shù)值,您可以用顏色區(qū)分藥品,創(chuàng)建一個關(guān)于鈉和鉀的散點圖。將散點圖節(jié)點放在工作區(qū)中,并將其與源節(jié)點相連接,然后雙擊該節(jié)點對其進行編輯在“散點圖”選項卡中,選擇Na作為X字段,選擇K作為Y字段,并選擇藥品作為交疊字段。然后單擊執(zhí)行。此散點圖清楚地顯示一個閾值,在此閾值上方,對癥藥品始終是Y,在此閾值下方,對癥藥品均不是Y。此閾值是一個比率,即鈉(Na)和鉀(K)的比率。Odru
23、QAdruciBOdruciCOdruqXDtliq0.05-0.04-0.03-0.02-Na0.80.95、創(chuàng)建網(wǎng)絡(luò)圖因為很多數(shù)據(jù)字段均可分類,也可嘗試繪制網(wǎng)絡(luò)圖,此圖表將反映不同類別之間的聯(lián)系。首先,將網(wǎng)絡(luò)節(jié)點與您工作區(qū)中的源節(jié)點相連接。Na-to-KNa-to-K?在“網(wǎng)絡(luò)節(jié)點”對話框中,選擇BP(血壓)和藥品。然后單擊執(zhí)行。此圖顯示,藥品Y與三種級別的血壓均相關(guān)。Y是最佳藥品。 實驗四、關(guān)聯(lián)規(guī)則挖掘【實驗?zāi)康摹?、熟悉C5.0規(guī)則歸納2、掌握購物籃分析的方法。【實驗內(nèi)容】1、字段和記錄的篩選。2、規(guī)則歸納(C5.0)分類。3、購物籃分析?!緦嶒灢襟E】本示例處理描述超
24、級市場購物籃內(nèi)容(即,所購買的全部商品的集合)的虛構(gòu)數(shù)據(jù),以及購買者的相關(guān)個人數(shù)據(jù)(可通過忠誠卡方案獲得)。目的是尋找購買相似產(chǎn)品并且可按人口統(tǒng)計學方式(如按年齡、收入等)刻畫其特征的客戶群。本示例說明了數(shù)據(jù)挖掘的兩個階段:關(guān)聯(lián)規(guī)則建模和一個揭示所購買商品之間聯(lián)系的Web顯示C5.0規(guī)則歸納(描繪已標識產(chǎn)品組的購買者的特征)注意:此應(yīng)用不直接使用預測建模,因此,不對最終模型進行準確性度量,在數(shù)據(jù)挖掘過程中也不存在與之相關(guān)的訓練/檢驗兩個步驟的區(qū)分。本例使用名為baskrule的流,該流引用名為BASKETS1n的數(shù)據(jù)文件。任何ClementineClient安裝的Demos目錄中都具有這些文件
25、,通過從Windows的“開始”菜單中選擇StartAllProgramsSPSSClementine11.1Demos可訪問這些文件。文件baskrule位于Classification_Module目錄下。1、訪問數(shù)據(jù)使用“變量文件”節(jié)點連接到數(shù)據(jù)集BASKETSln,選擇要從該文件讀取的字段名稱。將“類型”節(jié)點連接到數(shù)據(jù)源,然后將該節(jié)點連接到“表”節(jié)點。將字段卡ID的類型設(shè)置為無類型(因為每個忠誠卡ID在數(shù)據(jù)集中只出現(xiàn)一次,因此對于建模沒有用處)。選擇集作為字段性別的類型(這是為了確保GRI建模算法不會將性別視為標志)。fruitveg&freshmeat.webtypebeer_bea
26、ns_pizzm現(xiàn)在,執(zhí)行該流以將“類型”節(jié)點實例化并顯示表。數(shù)據(jù)集包含18個字段其中每條記錄表示一個購物籃。下列標題中會顯示18個字段。購物籃摘要:cardid.購買此籃商品的客戶的忠誠卡標識符。value.購物籃的總購買價格。pmethod.購物籃的支付方法。卡持有者的個人詳細信息:sexhomeown.卡持有者是否擁有住房。收入age購物籃內(nèi)容產(chǎn)品類別的出現(xiàn)標志:fruitvegfreshmeatdairycannedvegcannedmeatfrozenmealbeerwinesoftdrinkfishconfectionery3、發(fā)現(xiàn)購物籃內(nèi)容的關(guān)系首先,需要使用一般規(guī)則歸納(GRI
27、)大致了解購物籃內(nèi)容的關(guān)系(關(guān)聯(lián))以生成關(guān)聯(lián)規(guī)則。選擇要在此建模過程中使用的字段,方法是:編輯“類型”節(jié)點,將所有產(chǎn)品類別的方向設(shè)置為雙向,并將所有其他方向設(shè)置為無。(雙向表示該字段可以是結(jié)果模型的輸入或輸出。)注意:通過按住Shift鍵并單擊以選擇多個字段,然后指定列中的選項,可為多個字段設(shè)置選項。IVII恵回讀取值渚除值渚除所雀type字段類型值缺失檢查方向cardidvaluepmethodsexhomeownincome10.007,4.CARD.CA.F,MYES/NO10200,30.16,50fruitvegfreshmeatdairy-cannedvegcannedmeatfr
28、ozenmealFFFFFFT/T/T/T/T/T/向無無無無無無無孜0OOOOOO、輸入輸出歡向查看當前字段查看未使用的字段設(shè)置類型格式注解確定(0)取消(C)應(yīng)用追)重置指定了用于建模的字段后,請將GRI節(jié)點附加到“類型”節(jié)點,編輯它,選擇選項只顯示值為真的標志變量,然后執(zhí)行GRI節(jié)點。結(jié)果(管理器窗口右上角“模型”選項卡上的非精練模型)包含您可以查看(使用上下文菜單,然后選擇瀏覽)的關(guān)聯(lián)規(guī)則。這些規(guī)則顯示凍肉、罐裝蔬菜和啤酒之間存在多種關(guān)聯(lián);酒和糖果也具有關(guān)聯(lián)。出現(xiàn)雙向關(guān)聯(lián)規(guī)則(如:frozenmealbeerbeerfrozenmeal)Web顯示(只顯示雙向關(guān)聯(lián))可能會突出顯示此數(shù)據(jù)
29、中的一些模式。將Web節(jié)點附加到“類型”節(jié)點,編輯Web節(jié)點,選擇所有購物籃內(nèi)容字段,選擇僅顯示true標志,然后執(zhí)行Web節(jié)點。fruitvegno130150170因為大多數(shù)產(chǎn)品類別組合都會出現(xiàn)在多個購物籃中,所以此Web上的強鏈OconfectioneryOfrozenmealOcannedveQfreshmeatwineooocannedmeatOfishOsoftdrink接,請使用工具欄上的滑塊來實現(xiàn)最多只顯示50個連接。接太多,無法顯示GRI模型表示的客戶群。要提高臨界值以便只顯示最強的鏈要指定弱連接和強連接,請單擊工具欄上的黃色雙箭頭按鈕。這會展開顯示W(wǎng)eb輸出摘要和控件的對話
30、框。選擇大小表示強/正常/弱。將弱鏈接設(shè)置為低于90。將強鏈接設(shè)置為高于100。在最終顯示中,會有三個客戶群突出顯示:購買魚和果蔬的客戶,可將這類客戶稱為“健康食客”購買酒和糧果的客戶購買啤酒、凍肉和罐裝蔬菜(“啤酒、豆類和比薩”)的客戶請注意,GRI僅標識這些客戶群中的最后兩個;健康食客未形成足夠強的模式,GRI無法發(fā)現(xiàn)它。4、描繪客戶群的特征現(xiàn)在,已經(jīng)根據(jù)客戶購買的產(chǎn)品類型標識了三個客戶群,但是還要知道這些客戶是誰,即,他們的人口統(tǒng)計學特征。通過為每個群中的每名客戶添加標志,并使用規(guī)則歸納(C5.0)來基于規(guī)則描繪這些標志的特征,可以實現(xiàn)這一點。首先,必須獲取每個群的標志。使用剛剛創(chuàng)建的W
31、eb顯示,可以自動生成每個群的標志。使用鼠標右鍵,單擊fruitveg和fish之間的鏈接,并選擇為鏈接生成“派生”節(jié)點。編輯最終的“派生”節(jié)點以將“派生”字段名稱更改為健康。使用從wine到confectionery的鏈接重復該練習,并將最終的“派生”字段命名為wine_chocs。對于第三個群(涉及三個鏈接),首先要確保未選擇任何鏈接。然后,在按住shift鍵的同時單擊鼠標左鍵,從而選擇cannedveg、beer和frozenmeal中的全部三個鏈接。(一定要處于“交互”模式而不是“編輯”模式。)然后,從Web顯示菜單中選擇:生成:導出節(jié)點(“和”)將最終“派生”字段的名稱更改為beer
32、_beans_pizza。要描繪這些客戶群的特征,請連續(xù)將現(xiàn)有的類型節(jié)點連接到這三個導出節(jié)點,然后附加另一個類型節(jié)點。在新類型節(jié)點中,請將除以下字段外的所有字段的方向都設(shè)置為無:value、pmethod、sex、homeown、income和age(這些字段的方向應(yīng)該設(shè)置為輸入),以及相關(guān)的客戶群(例如,beer_beans_pizza,它們的方向應(yīng)該設(shè)置為輸出)。附加C5.0節(jié)點,將輸出類型設(shè)置為規(guī)則集,然后執(zhí)行它。最終模型(用于beer_beans_pizza)包含此客戶群的明確人口統(tǒng)計學特征:Rule1forT:ifincomeT通過在第二個類型節(jié)點中選擇其他客戶群標志作為輸出,可將同
33、一方法應(yīng)用到這些標志。通過在此上下文中使用GRI代替C5.0,可生成更多替代特征描繪;GRI也可用于同時描繪所有客戶群標志的特征,原因是,GRI并非被限制到一個輸出字段。示例說明如何使用Clementine通過建模(使用GRI)和直觀化(使用Web顯示)發(fā)現(xiàn)數(shù)據(jù)庫中的關(guān)系(即鏈接)。這些鏈接與數(shù)據(jù)中的案例組相對應(yīng),并且,通過建模(使用C5.0規(guī)則集)可詳細研究這些組并描繪其特征。例如,在零售領(lǐng)域,可能會使用這種客戶組確定特殊優(yōu)惠目標,以提高直接郵寄的響應(yīng)率,或自定義某分部的存貨產(chǎn)品范圍以與其人口統(tǒng)計學基礎(chǔ)的需求匹配。1、2、。3、。實驗五、聚類分析(異常值檢測)【實驗?zāi)康摹?、熟悉各種聚類分析
34、方法2、了解神經(jīng)網(wǎng)絡(luò)分析方法與過程3、掌握異常檢測的方法。【實驗內(nèi)容】1、聚類分析。2、神經(jīng)網(wǎng)絡(luò)建模。3、異常檢測?!緦嶒灢襟E】此示例顯示了Clementine在檢測詐欺行為方面的應(yīng)用。這一領(lǐng)域涉及農(nóng)業(yè)發(fā)展財政補貼申請。有兩種財政補貼類型在考慮之列:耕地開發(fā)財政補貼和退役田地財政補貼。本例使用虛擬數(shù)據(jù)演示如何通過分析方法來發(fā)現(xiàn)與標準數(shù)據(jù)的偏差,同時突出了有必要進一步調(diào)查的異常記錄。財政補貼申請金額取決于田地的類型和大小,您會特別關(guān)注其中的不合理部分。分析通過兩個階段執(zhí)行:先使用“異常檢測”進行預篩選,然后使用“神經(jīng)網(wǎng)絡(luò)”模型進行深入分析。本例使用名為fraud_anomalies.str的流,
35、該流引用名為grantfraudN.db的數(shù)據(jù)文件??梢詮娜魏蜟lementineClient安裝軟件的Demos目錄下找到這些文件,也可以通過從Windows的“開始”菜單選擇StartAllProgramsSPSSClementine11.1Demos訪問這些文件。文件fraud_anomalies.str位于Classification_Module目錄下。此示例顯示了Clementine在檢測詐欺行為方面的應(yīng)用。這一領(lǐng)域涉及農(nóng)業(yè)發(fā)展財政補貼申請。有兩種財政補貼類型在考慮之列:耕地開發(fā)財政補貼和退役田地財政補貼。本例使用虛擬數(shù)據(jù)演示如何通過分析方法來發(fā)現(xiàn)與標準數(shù)據(jù)的偏差,同時突出了有必要
36、進一步調(diào)查的異常記錄。財政補貼申請金額取決于田地的類型和大小,您會特別關(guān)注其中的不合理部分。分析通過兩個階段執(zhí)行:先使用“異常檢測”進行預篩選,然后使用“神經(jīng)網(wǎng)絡(luò)”模型進行深入分析。本例使用名為fraud_anomalies.str的流,該流引用名為grantfraudN.db的數(shù)據(jù)文件。可以從任何ClementineClient安裝軟件的Demos目錄下找到這些文件,也可以通過從Windows的“開始”菜單選擇StartAllProgramsSPSSClementine11.1Demos訪問這些文件。文件fraud_anomalies.str位于Classification_Module目錄
37、下。此數(shù)據(jù)包含9個字段:ID。唯一標識符。姓名。申請人姓名。區(qū)域。地理位置(中部北部西南部東南部)。田地質(zhì)量。以整數(shù)為計量單位-農(nóng)戶申報的田地質(zhì)量。降雨量。以整數(shù)為計量單位-田地年降雨量。田地收入。以實數(shù)為計量單位-申報的田地年收入。主要農(nóng)作物。主產(chǎn)農(nóng)作物(玉米小麥馬鈴薯油菜籽)。申請類型。申請的財政補貼類型(decommission_land/arable_dev)。申請金額。以實數(shù)為計量單位-申請的財政補貼額。1、預篩選要快速篩選異常記錄,可以使用異常檢測節(jié)點(如樣本文件fraud_anomalies.str中所示)。首先使用變量文件節(jié)點連接到數(shù)據(jù)集grantfraudN.db。此數(shù)據(jù)集包
38、含字段名稱,因此可以將表節(jié)點添加到流并執(zhí)行以檢查其構(gòu)成。此外,還可以通過單擊源節(jié)點中的類型選項卡并讀取值對數(shù)據(jù)有一些初步了解。farmsizev.claimval在類型選項卡中,單擊讀取值讀取數(shù)據(jù),然后將姓名和ID字段的方向設(shè)置為無,因為建模過程中不使用這些字段。所有其他字段的方向應(yīng)設(shè)置為輸入,這樣他們將作為輸入內(nèi)容包含在異常檢測模型中。grajitfraudH_db回刷新ll$CLEO_DEMOS/grantfraudN.dbIVI6-(ynk讀取值清除值渚除所有值字段類型值缺失檢查方向ldnameregionfarmsizerainfall47093.5,1maize.pot.decomm
39、is9371.14,6id601,601midlands,.400,193015,109farmincomemaincropJa|claimtype觀claimvalue查看當前字段查看未使用的字段設(shè)置數(shù)據(jù)過濾類型注解文件取消(C)應(yīng)用重置(H)在異常檢測節(jié)點的“模型”選項卡中,選擇訓練數(shù)據(jù)中大多數(shù)異常記錄的數(shù)目,然后輸入值10。然后執(zhí)行此節(jié)點,并將生成的節(jié)點添加到流。在已生成模型的“設(shè)置”選項卡中,可以選擇相應(yīng)選項放棄非異常記錄,這樣在評分過程中,只有標記為潛在異常的記錄才保留在流中。添加表節(jié)點并執(zhí)行,以查看得分數(shù)據(jù)。模型生成的$0-Anomaly字段表明哪些記錄為潛在異常
40、記錄。由于在“設(shè)置”選項卡中選中了放棄記錄選項,所以僅列出標記為潛在異常的記錄。還列出了每條記錄的整體異常指數(shù)值,同時給出了對等組和最有可能造成記錄異常的三個字段。您可以使用圖表更方便地查看要標記的記錄。例如,您可以針對申請金額繪制田地大小,并附上$0-Anomaly字段來查看異常記錄。(將散點圖節(jié)點添加到生成的異常檢測模型中。要查看顯示所有記錄(不僅僅是異常記錄)的完整散點圖,請取消選擇已生成模型中“設(shè)置”選項卡上的放棄記錄選項。)如您所期望的那樣,將標志出金額最高的申請。不過,還標志出了許多其他金額的申請,其中包括某些金額最低的申請。要弄清事情緣由,有必要進一步觀察數(shù)據(jù)。2、數(shù)據(jù)調(diào)查。要繼續(xù)分析詐欺數(shù)據(jù),可以使用勘察表來調(diào)查數(shù)據(jù)(如樣本文件fraud.str中所示)。此操作可幫您設(shè)立對建模很有用的假設(shè)條件。在本例中,我們將逐步講解從訪問數(shù)據(jù)到訓練神經(jīng)網(wǎng)絡(luò)的具體操作步驟。tablenameclairalue首先,思考數(shù)據(jù)中可能存在的詐欺類型。一種可能是一塊田地同時出現(xiàn)多份財政補貼資助申請表。要檢查重復申請,請將分布節(jié)點連接至數(shù)據(jù)集,然后選擇姓名字段(假定該字段具有識別每塊田地的唯一值)。最終的分布圖將顯示一些進行了多次申請的田地。(要查看結(jié)果,請單擊計數(shù)列標題,按
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版汽車售后服務(wù)銷售提成協(xié)議2篇
- 軟件系統(tǒng)采購合同
- 租賃合同機械設(shè)備租賃合同
- 代理銷售的合同范本
- 采購協(xié)議書和采購合同范文
- 二零二五年度并購基金股權(quán)收購協(xié)議示范文本3篇
- 二零二五版休閑農(nóng)業(yè)示范園區(qū)土地承包協(xié)議書3篇
- 二零二五年度企業(yè)內(nèi)部員工提成獎勵協(xié)議樣本3篇
- 正規(guī)勞務(wù)派遣合同范本
- 二零二五版物流園區(qū)柴油發(fā)電機組供應(yīng)與環(huán)保協(xié)議3篇
- 巡察檔案培訓課件
- 酒店人防管理制度
- 油田酸化工藝技術(shù)
- 上海高考英語詞匯手冊列表
- 移動商務(wù)內(nèi)容運營(吳洪貴)任務(wù)五 其他內(nèi)容類型的生產(chǎn)
- 上海石油化工股份有限公司6181乙二醇裝置爆炸事故調(diào)查報告
- 家譜人物簡介(優(yōu)選12篇)
- 例說相機誘導在語文教學中的運用 相機誘導
- 浙江省紹興市2023年中考科學試題(word版-含答案)
- 《核心素養(yǎng)下初中足球教學研究3700字(論文)》
- 2023年中智集團下屬中智股份公司招聘筆試題庫及答案解析
評論
0/150
提交評論