版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
PAGEPAGE43實驗一Clementine12.0數(shù)據(jù)挖掘分析方法與應(yīng)用
一、[實驗?zāi)康腯熟悉Clementine12.0進(jìn)行數(shù)據(jù)挖掘的基本操作方法與流程,對實際的問題能熟練利用Clementine12.0開展數(shù)據(jù)挖掘分析工作。二、[知識要點]1、數(shù)據(jù)挖掘概念;2、數(shù)據(jù)挖掘流程;3、Clementine12.0進(jìn)行數(shù)據(jù)挖掘的基本操作方法。三、[實驗內(nèi)容與要求]1、熟悉Clementine12.0操作界面;2、理解工作流的模型構(gòu)建方法;3、安裝、運行Clementine12.0軟件;4、構(gòu)建挖掘流。四、[實驗條件]Clementine12.0軟件。五、[實驗步驟]1、主要數(shù)據(jù)挖掘模式分析;2、數(shù)據(jù)挖掘流程分析;3、Clementine12.0下載與安裝;4、Clementine12.0功能分析;5、Clementine12.0決策分析實例。六、[思考與練習(xí)]1、Clementine12.0軟件進(jìn)行數(shù)據(jù)挖掘的主要特點是什么?2、利用Clementine12.0構(gòu)建一個關(guān)聯(lián)挖掘流(購物籃分析)。
實驗部分一、Clementine簡述Clementine是ISL(IntegralSolutionsLimited)公司開發(fā)的數(shù)據(jù)挖掘工具平臺。1999年SPSS公司收購了ISL公司,對Clementine產(chǎn)品進(jìn)行重新整合和開發(fā),現(xiàn)在Clementine已經(jīng)成為SPSS公司的又一亮點。作為一個數(shù)據(jù)挖掘平臺,Clementine結(jié)合商業(yè)技術(shù)可以快速建立預(yù)測性模型,進(jìn)而應(yīng)用到商業(yè)活動中,幫助人們改進(jìn)決策過程。強(qiáng)大的數(shù)據(jù)挖掘功能和顯著的投資回報率使得Clementine在業(yè)界久負(fù)盛譽。同那些僅僅著重于模型的外在表現(xiàn)而忽略了數(shù)據(jù)挖掘在整個業(yè)務(wù)流程中的應(yīng)用價值的其它數(shù)據(jù)挖掘工具相比,Clementine其功能強(qiáng)大的數(shù)據(jù)挖掘算法,使數(shù)據(jù)挖掘貫穿業(yè)務(wù)流程的始終,在縮短投資回報周期的同時極大提高了投資回報率。為了解決各種商務(wù)問題,企業(yè)需要以不同的方式來處理各種類型迥異的數(shù)據(jù),相異的任務(wù)類型和數(shù)據(jù)類型就要求有不同的分析技術(shù)。Clementine提供最出色、最廣泛的數(shù)據(jù)挖掘技術(shù),確??捎米钋‘?dāng)?shù)姆治黾夹g(shù)來處理相應(yīng)的問題,從而得到最優(yōu)的結(jié)果以應(yīng)對隨時出現(xiàn)的商業(yè)問題。即便改進(jìn)業(yè)務(wù)的機(jī)會被龐雜的數(shù)據(jù)表格所掩蓋,Clementine也能最大限度地執(zhí)行標(biāo)準(zhǔn)的數(shù)據(jù)挖掘流程,為您找到解決商業(yè)問題的最佳答案。為了推廣數(shù)據(jù)挖掘技術(shù),以解決越來越多的商業(yè)問題,SPSS和一個從事數(shù)據(jù)挖掘研究的全球性企業(yè)聯(lián)盟制定了關(guān)于數(shù)據(jù)挖掘技術(shù)的行業(yè)標(biāo)準(zhǔn)--CRISP-DM(Cross-IndustryStandardProcessforDataMining)。與以往僅僅局限在技術(shù)層面上的數(shù)據(jù)挖掘方法論不同,CRISP-DM把數(shù)據(jù)挖掘看作一個商業(yè)過程,并將其具體的商業(yè)目標(biāo)映射為數(shù)據(jù)挖掘目標(biāo)。最近一次調(diào)查顯示,50%以上的數(shù)據(jù)挖掘工具采用的都是CRISP-DM的數(shù)據(jù)挖掘流程,它已經(jīng)成為事實上的行業(yè)標(biāo)準(zhǔn)。Clementine完全支持CRISP-DM標(biāo)準(zhǔn),這不但規(guī)避了許多常規(guī)錯誤,而且其顯著的智能預(yù)測模型有助于快速解決出現(xiàn)的問題。在數(shù)據(jù)挖掘項目中使用Clementine應(yīng)用模板(CATs)可以獲得更優(yōu)化的結(jié)果。應(yīng)用模板完全遵循CRISP-DM標(biāo)準(zhǔn),借鑒了大量真實的數(shù)據(jù)挖掘?qū)嵺`經(jīng)驗,是經(jīng)過理論和實踐證明的有效技術(shù),為項目的正確實施提供了強(qiáng)有力的支撐。Clementine中的應(yīng)用模板包括:(1)CRMCAT--針對客戶的獲取和增長,提高反饋率并減少客戶流失;(2)WebCAT--點擊順序分析和訪問行為分析;(3)cTelcoCAT--客戶保持和增加交叉銷售;(4)CrimeCAT--犯罪分析及其特征描述,確定事故高發(fā)區(qū),聯(lián)合研究相關(guān)犯罪行為;(5)FraudCAT--發(fā)現(xiàn)金融交易和索賠中的欺詐和異常行為;(6)MicroarrayCAT--研究和疾病相關(guān)的基因序列并找到治愈手段。利用Clementine,可以在如下幾方面提供解決方案:(1)公共部門。各國政府都使用數(shù)據(jù)挖掘來探索大規(guī)模數(shù)據(jù)存儲,改善群眾關(guān)系,偵測欺詐行為(譬如洗黑錢和逃稅),檢測犯罪行為和恐怖分子行為模式以及進(jìn)一步擴(kuò)展電子政務(wù)領(lǐng)域。(2)CRM??蛻絷P(guān)系管理可以通過對客戶類型的智能分類和客戶流失的準(zhǔn)確預(yù)測而得到提高。Clementine已成功幫助許多行業(yè)的企業(yè)吸引并始終保有最有價值的客戶。(3)Web挖掘。Clementine包含的相關(guān)工具具有強(qiáng)大的順序確定和預(yù)測算法,對于準(zhǔn)確發(fā)現(xiàn)網(wǎng)站瀏覽者的行為以及提供精確滿足瀏覽者需求的產(chǎn)品或信息而言,這些工具是不可或缺的。從數(shù)據(jù)準(zhǔn)備到構(gòu)建模型,全部的數(shù)據(jù)挖掘過程均可在Clementine內(nèi)部操控。(4)藥物發(fā)現(xiàn)和生物信息學(xué)。通過對由試驗室自動操作獲得的大量數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)挖掘有助于藥物和基因組的研究。聚類和分類模型幫助從化合物庫中找出線索,與此同時順序檢測則有助于模式的發(fā)現(xiàn)。Clementine數(shù)據(jù)挖掘的基本思想數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,它是一種深層次的數(shù)據(jù)分析方法。隨著科技的發(fā)展,數(shù)據(jù)挖掘不再只依賴在線分析等傳統(tǒng)的分析方法。它結(jié)合了人工智能(AI)和統(tǒng)計分析的長處,利用人工智能技術(shù)和統(tǒng)計的應(yīng)用程序,并把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。Clementine為我們提供了大量的人工智能、統(tǒng)計分析的模型(神經(jīng)網(wǎng)絡(luò),關(guān)聯(lián)分析,聚類分析、因子分析等),并用基于圖形化的界面為我們認(rèn)識、了解、熟悉這個軟件提供了方便。除了這些,Clementine還擁有優(yōu)良的數(shù)據(jù)挖掘設(shè)計思想,正是因為有了這個工作思想,我們每一步的工作也變得很清晰。Clementine遵循CRISP-DMModel(CrossIndustryStandardProcessforDataMining,數(shù)據(jù)挖掘跨行業(yè)標(biāo)準(zhǔn)流程),具體如圖所示。圖4.1CRISP-DMprocessmodel如圖可知,CRISP-DMModel包含了六個步驟,并用箭頭指示了步驟間的執(zhí)行順序。這些順序并不嚴(yán)格,用戶可以根據(jù)實際的需要反向執(zhí)行某個步驟,也可以跳過某些步驟不予執(zhí)行。通過對該步驟的執(zhí)行,我們也涵蓋了數(shù)據(jù)挖掘的關(guān)鍵部分。1.商業(yè)理解商業(yè)理解階段應(yīng)算是數(shù)據(jù)挖掘中最重要的一個部分,在這個階段里我們需要明確商業(yè)目標(biāo)、評估商業(yè)環(huán)境、確定挖掘目標(biāo)以及產(chǎn)生一個項目計劃。Clementine的可視化操作界面使得企業(yè)可以更容易地把業(yè)務(wù)知識應(yīng)用到數(shù)據(jù)挖掘項目中。此外,使用針對特定商業(yè)目標(biāo)的Clementine應(yīng)用模板(CATs),可以在數(shù)據(jù)挖掘工作中使用成熟的、最佳的方法。CATs使用的樣本數(shù)據(jù)可以以平面文件或者關(guān)系型數(shù)據(jù)庫表的形式安裝?!隹蛻絷P(guān)系管理(CRM)CAT*■電信CAT*■欺詐探測CAT*■微陣列CAT*■網(wǎng)頁挖掘CAT*(需要購買WebMiningforClementine)2.數(shù)據(jù)理解數(shù)據(jù)是我們挖掘過程的“原材料”,在數(shù)據(jù)理解過程中我們要知道都有些什么數(shù)據(jù),這些數(shù)據(jù)的特征是什么,可以通過對數(shù)據(jù)的描述性分析得到數(shù)據(jù)的特點。使用Clementine,可以做到:■使用Clementine的數(shù)據(jù)審核節(jié)點獲取對數(shù)據(jù)的初步認(rèn)識;■通過圖形、統(tǒng)計匯總或數(shù)據(jù)質(zhì)量評估快速瀏覽數(shù)據(jù);■創(chuàng)建基本的圖表類型,如直方圖、分布圖、線形圖和點狀圖;■在圖形面板節(jié)點中通過自動幫助方式創(chuàng)建比過去更多的基本圖形及高級圖形;■通過表格定制節(jié)點輕松創(chuàng)建復(fù)雜的交叉表;■編輯圖表使分析結(jié)果交流變得更容易;■通過可視化聯(lián)接技術(shù)分析數(shù)據(jù)的相關(guān)性;■與數(shù)據(jù)可視化互動,可在圖形中選擇某個區(qū)域或部分?jǐn)?shù)據(jù),然后對選擇的數(shù)據(jù)部分再進(jìn)行觀察或在后續(xù)分析中使用這些信息;■在Clementine中直接使用SPSS統(tǒng)計分析、圖形以及報表功能。3.數(shù)據(jù)準(zhǔn)備在數(shù)據(jù)準(zhǔn)備階段我們需要對數(shù)據(jù)作出選擇、清洗、重建、合并等工作。選出要進(jìn)行分析的數(shù)據(jù),并對不符合模型輸入要求的數(shù)據(jù)進(jìn)行規(guī)范化操作。運用Clementine,可以做到:(1)訪問數(shù)據(jù)–結(jié)構(gòu)化(表格)數(shù)據(jù)■通過SPSSDataAccessPack訪問支持ODBC的數(shù)據(jù)源,包括IBMDB2,Oracle,MicrosoftSQLServer,Informix和Sybase數(shù)據(jù)庫;■導(dǎo)入用分隔符分隔和固定寬度的文件,任何SPSS的文件,SAS6,7,8,和9文件;■在讀取Excel文件時,可以限定工作表和數(shù)據(jù)范圍。–非結(jié)構(gòu)化(原文)數(shù)據(jù)■使用TextMiningforClementine自動從任何類型的文本中提取各種概念。–網(wǎng)站數(shù)據(jù)■使用WebMiningforClementine自動從網(wǎng)絡(luò)日志中提取網(wǎng)站上的事件。–調(diào)查數(shù)據(jù)■直接訪問存儲在Dimensions數(shù)據(jù)模型或Dimensions*產(chǎn)品中的數(shù)據(jù)文件。–數(shù)據(jù)輸出■可以輸出為分隔符分隔,固定寬度的文件,所有主流數(shù)據(jù)庫數(shù)據(jù),MicrosoftExcel,SPSS,和SAS6,7,8和9文件;■使用Excel導(dǎo)出節(jié)點導(dǎo)出成XLS格式;■為市場調(diào)研輸出數(shù)據(jù)到Dimensions中。(2)各種數(shù)據(jù)清洗選項–移出或者替換無效數(shù)據(jù)–使用預(yù)測模型自動填充缺失值–自動偵測及處理異常值或極值(3)數(shù)據(jù)處理–完整的記錄和字段操作,包括:■字段過濾、命名、導(dǎo)出、分段、重新分類、值填充以及字段重排;■對記錄進(jìn)行選擇、抽樣(包括簇與分層抽樣)、合并(內(nèi)連接、完全外連接、部分外連接以及反連接)和追求;排序、聚合和平衡;■數(shù)據(jù)重新結(jié)構(gòu)化,包括轉(zhuǎn)置;■分段節(jié)點能夠根據(jù)預(yù)測值對數(shù)字值進(jìn)行最優(yōu)分段;■使用新的字符串函數(shù):字符串創(chuàng)建、取子字符串、替換、查詢和匹配、空格移除以及截斷;■使用時間區(qū)間節(jié)點為時間序列分析做準(zhǔn)備;–將數(shù)據(jù)拆分成訓(xùn)練、測試和驗證集。–對多個變量自動進(jìn)行數(shù)據(jù)轉(zhuǎn)換?!隹梢暬臉?biāo)準(zhǔn)數(shù)據(jù)轉(zhuǎn)換–數(shù)據(jù)轉(zhuǎn)換在Clementine中直接使用SPSS數(shù)據(jù)管理和轉(zhuǎn)換功能;■RFM評分:對客戶交易進(jìn)行匯總,生成與最近交易日期、交易頻度以及交易金額相關(guān)的評分,并對這些評分進(jìn)行組合,從而完成完整的RFM分析過程。4.建模建模過程也是數(shù)據(jù)挖掘中一個比較重要的過程。需要根據(jù)分析目的選出適合的模型工具,通過樣本建立模型并對模型進(jìn)行評估。Clementine提供了非常廣泛的數(shù)據(jù)挖掘算法以及更多高級功能,從而幫助企業(yè)從數(shù)據(jù)中得到盡可能最優(yōu)的結(jié)果?!鎏峁┙换ナ浇!⒎匠淌綖g覽器及專業(yè)統(tǒng)計輸出;■圖形化顯示不同變量對預(yù)測目標(biāo)影響的重要程度;■用元建模合并模型–合并多個模型或者將一個模型的預(yù)測應(yīng)用于建立另外一個模型;–模型合并節(jié)點能夠自動整合預(yù)測值從而優(yōu)化預(yù)測結(jié)果的準(zhǔn)確性及穩(wěn)定性;■用PMML導(dǎo)入其它工具生成的模型,例如AnswerTree和SPSSforWindows■使用Clementine擴(kuò)展性架構(gòu)客戶化算法。Clementine提供的數(shù)據(jù)挖掘算法包括:■C&RT、CHAID&QUEST—決策樹算法包括交互式?jīng)Q策樹創(chuàng)建;■決策列表—交互式業(yè)務(wù)規(guī)則創(chuàng)建算法能夠讓分析人員把業(yè)務(wù)知識集成在預(yù)測模型中■C5.0決策樹及規(guī)則集算法■神經(jīng)網(wǎng)絡(luò)—向后傳播的多層感知器以及徑向基函數(shù)■支持向量機(jī)—為寬表提供更準(zhǔn)確的分析結(jié)果■貝葉斯網(wǎng)絡(luò)—可視化的概率模型■二元及多元回歸■自學(xué)習(xí)響應(yīng)模型—增量學(xué)習(xí)的貝因斯模型■線性回歸—最佳擬和線性方程式模型■廣義線性模型(GLM)■Cox回歸—分析某類事件的發(fā)展趨勢■時間序列—自動生成時間序列預(yù)測模型■K-means—聚類■Kohonen—神經(jīng)元網(wǎng)絡(luò)聚類算法■兩步聚類—自動選擇合適的聚類數(shù)■異常偵測—基于聚類算法偵測那些異常記錄■兩步聚類—自動選擇合適的聚類數(shù)■主成分/因子分析—通過主成分/因子分析對數(shù)據(jù)降維■GRI—規(guī)則歸納相關(guān)性探索算法■Apriori—提供高級評估功能的演繹關(guān)聯(lián)算法■CARMA—提供多后項的關(guān)聯(lián)算法■時序分析—針對順序相關(guān)性分析的時序關(guān)聯(lián)算法■二元分類器和數(shù)值型預(yù)測器—自動化創(chuàng)建及評估多個模型。5.評估并不是每一次建模都能與我們的目的吻合,評價階段旨在對建模結(jié)果進(jìn)行評估,對效果較差的結(jié)果我們需要分析原因,有時還需要返回前面的步驟對挖掘過程重新定義。通過Clementine可以做到:■使用提升、收益、利潤和響應(yīng)圖表可以方便地評估模型–使用一步到位的流程評估多個模型,縮短項目用時;–定義命中和得分條件來評估模型的性能?!鍪褂靡恢滦跃仃囈约捌渌詣釉u估工具分析模型的總體精度■使用傾向性評分來簡化部署及多模型比較6.發(fā)布該階段是用建立的模型去解決實際中遇到的問題,它還包括了監(jiān)督、維持、產(chǎn)生最終報表、重新評估模型等過程。Clementine提供多種部署方式從而滿足企業(yè)不同的需要?!鯟lementineSolutionPublisher(可選*)–自動導(dǎo)出所有操作,包括數(shù)據(jù)訪問、數(shù)據(jù)處理、文本挖掘、模型評分(包括模型組合)以及后加工過程;–使用runtime在給定的平臺上執(zhí)行圖像文件。■將生成的模型導(dǎo)出為SQL或PMML(針對預(yù)測模型的標(biāo)準(zhǔn)XML文件)■自動把Clementine數(shù)據(jù)流導(dǎo)入到SPSS企業(yè)級預(yù)測服務(wù)器中–合并導(dǎo)出的Clementine數(shù)據(jù)流以及隱含業(yè)務(wù)規(guī)則的預(yù)測模型,從而優(yōu)化企業(yè)運營過程?!鯟leo(可選*)–基于網(wǎng)頁的快速模型部署;–通過可定制的瀏覽器界面,允許多個用戶同時訪問并立即評估單個記錄、多個記錄甚至整個數(shù)據(jù)庫?!鯟lementine批處理–在用戶界面之外自動進(jìn)行工作,使用Clementine批處理模式您可以:■從其它應(yīng)用或者調(diào)度系統(tǒng)中自動啟動Clementine流程■生成編碼密碼■使用命令行執(zhí)行Clementine的數(shù)據(jù)挖掘過程■腳本–自動執(zhí)行命令行腳本或者與Clementine流程相關(guān)的腳本,以自動執(zhí)行用戶界面重復(fù)工作。腳本通常執(zhí)行與鼠標(biāo)和鍵盤同樣的工作?!鍪褂霉ぞ邫谥械膱D標(biāo)執(zhí)行Clementine流中選定的行、超級節(jié)點或者獨立的腳本。■用單獨的腳本更新流參數(shù)■將生成的模型導(dǎo)出為PMML2.1–對數(shù)據(jù)庫內(nèi)對數(shù)據(jù)進(jìn)行評分,減少在客戶端代價昂貴的數(shù)據(jù)轉(zhuǎn)移和計算工作;–將ClementinePMML模型部署到IBMDB2IntelligentMiner?可視化和IntelligentMiner打分中。■使用數(shù)據(jù)庫的大批量輸入程序–在數(shù)據(jù)導(dǎo)出時,使用為每個特定數(shù)據(jù)庫定制的大批量輸入程序。您可以調(diào)整各種選項,包括為使用ODBC的載入進(jìn)程確定行或列的約束條件,以及為數(shù)據(jù)庫中執(zhí)行的批處理調(diào)整其規(guī)模。三、數(shù)據(jù)挖掘主要模式1.分類(Classification)首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進(jìn)行分類。例子:(1)信用卡申請者,分類為低、中、高風(fēng)險;(2)故障診斷:中國寶鋼集團(tuán)與上海天律信息技術(shù)有限公司合作,采用數(shù)據(jù)挖掘技術(shù)對鋼材生產(chǎn)的全流程進(jìn)行質(zhì)量監(jiān)控和分析,構(gòu)建故障地圖,實時分析產(chǎn)品出現(xiàn)瑕疵的原因,有效提高了產(chǎn)品的優(yōu)良率。注意:類的個數(shù)是確定的,預(yù)先定義好的。2.估計(Estimation)估計與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。例子:(1)根據(jù)購買模式,估計一個家庭的孩子個數(shù);(3)根據(jù)購買模式,估計一個家庭的收入;(3)估計realestate的價值;一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類。例如:銀行對家庭貸款業(yè)務(wù),運用估值,給各個客戶記分(Score0~1)。然后,根據(jù)閾值,將貸款級別分類。3.預(yù)測(Prediction)通常,預(yù)測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預(yù)言。從這種意義上說,預(yù)言其實沒有必要分為一個單獨的類。預(yù)言其目的是對未來未知變量的預(yù)測,這種預(yù)測是需要時間來驗證的,即必須經(jīng)過一定時間后,才知道預(yù)言準(zhǔn)確性是多少?!は嚓P(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules)決定哪些事情將一起發(fā)生。例子:(1)超市中客戶在購買A的同時,經(jīng)常會購買B,即A=>B(關(guān)聯(lián)規(guī)則)(2)客戶在購買A后,隔一段時間,會購買B(序列分析)4.聚類(Clustering)聚類是對記錄分組,把相似的記錄在一個聚集里。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。例子:(1)一些特定癥狀的聚集可能預(yù)示了一個特定的疾?。?)租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群聚集通常作為數(shù)據(jù)挖掘的第一步。例如,"哪一種類的促銷對客戶響應(yīng)最好?",對于這一類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。5.描述和可視化(DescriptionandVisualization)是對數(shù)據(jù)挖掘結(jié)果的。四、Clementine的基本操作方法1、操作界面的介紹在數(shù)據(jù)挖掘過程中的每一個階段,均可通過Clementine易于使用的界面來邀請?zhí)囟I(yè)務(wù)的專家。建模算法(如預(yù)測、分類、細(xì)分和關(guān)聯(lián)檢測)可確保得到強(qiáng)大而準(zhǔn)確的模型。模型結(jié)果可以方便地部署和讀入到數(shù)據(jù)庫、SPSS和各種其他應(yīng)用程序中。圖4.2Clementine操作界面1.1數(shù)據(jù)流程區(qū)Clementine在進(jìn)行數(shù)據(jù)挖掘時是基于數(shù)據(jù)流程形式,從讀入數(shù)據(jù)到最后的結(jié)果顯示都是由流程圖的形式顯示在數(shù)據(jù)流程區(qū)內(nèi)。數(shù)據(jù)的流向通過箭頭表示,每一個結(jié)點都定義了對數(shù)據(jù)的不同操作,將各種操作組合在一起便形成了一條通向目標(biāo)的路徑。數(shù)據(jù)流程區(qū)是整個操作界面中最大的部分(上右大部分),整個建模過程以及對模型的操作都將在這個區(qū)域內(nèi)執(zhí)行。我們可以通過文件-新建流新建一個空白的數(shù)據(jù)流,也可以打開已有的數(shù)據(jù)流。圖4.3數(shù)據(jù)流使用Clementine處理數(shù)據(jù)的三個步驟。?首先,將數(shù)據(jù)讀入Clementine,?然后,然后通過一系列操作運行數(shù)據(jù),?最后,將數(shù)據(jù)發(fā)送到目標(biāo)位置。這一操作序列稱為數(shù)據(jù)流,因為數(shù)據(jù)以一條條記錄的形式,從數(shù)據(jù)源開始,依次經(jīng)過各種操作,最終到達(dá)目標(biāo)(模型或某種數(shù)據(jù)輸出)。所有在一個運行期內(nèi)打開的數(shù)據(jù)流都將保存在管理器的流欄下。圖4.4數(shù)據(jù)流程區(qū)窗口1.2選項面板選項面板橫跨于Clementine操作界面的下部,它被分為收藏夾、源、記錄選項、字段選項、圖形、建模、輸出、導(dǎo)出8個欄,其中每個欄目包含了具有相關(guān)功能的結(jié)點。結(jié)點是數(shù)據(jù)流的基本組成部分,每一個結(jié)點擁有不同的數(shù)據(jù)處理功能。設(shè)置不同的欄是為了將不同功能的結(jié)點分組,下面我們介紹各個欄的作用。圖4.5選項面板源:該欄包含了能讀入數(shù)據(jù)到Clementine的結(jié)點。例如Var.File結(jié)點讀取自由格式的文本文件到Clementine,SPSSFile讀取spss文件到Clementine。記錄選項:該欄包含的結(jié)點能對數(shù)據(jù)記錄進(jìn)行操作。例如篩選出滿足條件的記錄(select)、將來自不同數(shù)據(jù)源的數(shù)據(jù)合并在一起(merge)、向數(shù)據(jù)文件中添加記錄(append)等。字段選項:該欄包含了能對字段進(jìn)行操作的結(jié)點。例如過濾字段(filter)能讓被過濾的字段不作為模型的輸入、derive結(jié)點能根據(jù)用戶定義生成新的字段,同時我們還可以定義字段的數(shù)據(jù)格式。圖形:該欄包含了縱多的圖形結(jié)點,這些結(jié)點用于在建模前或建模后將數(shù)據(jù)由圖形形式輸出。建模:該欄包含了各種已封裝好的模型,例如神經(jīng)網(wǎng)絡(luò)(NeuralNet)、決策樹(C5.0)等。這些模型能完成預(yù)測(NeuralNet,Regression,Logistic)、分類(C5.0,C&RTree,Kohonen,K-means,Twostep)、關(guān)聯(lián)分析(Apriori,GRI,Sequece)等功能。輸出:該欄提供了許多能輸出數(shù)據(jù)、模型結(jié)果的結(jié)點,用戶不僅可以直接在Clementine中查看輸出結(jié)果,也可以輸出到其他應(yīng)用程序中查看,例如SPSS和Excel。收藏夾:該欄放置了用戶經(jīng)常使用的結(jié)點,方便用戶操作。用戶可以自定義其收藏夾欄,操作方法為:選中菜單欄的工具,在下拉菜單中選擇管理選項板,在彈出的選項板管理器中雙擊收藏夾,出現(xiàn)下圖,可以從左邊選擇要加入收藏夾的節(jié)點,點擊中間箭頭,節(jié)點自動加入到右邊收藏夾中。圖4.6收藏夾欄的設(shè)置1.3管理器管理器(圖4.1中右邊上部分)中共包含了流、輸出、模型三個欄。其中流中放置了運行期內(nèi)打開的所有數(shù)據(jù)流,可以通過右鍵單擊數(shù)據(jù)流名對數(shù)據(jù)流進(jìn)行保存、設(shè)置屬性等操作。輸出中包含了運行數(shù)據(jù)流時所有的輸出結(jié)果,可以通過雙擊結(jié)果名查看輸出的結(jié)果。模型中包含了模型的運行結(jié)果,我們可以右鍵單擊該模型從彈出的Browse中查看模型結(jié)果,也可以將模型結(jié)果加入到數(shù)據(jù)流中。圖4.7管理器流窗口圖4.8管理器輸出窗口圖4.9管理器輸出窗口1.4項目窗口的介紹項目窗口含有兩個選項欄,一個是CRISP-DM,一個是類。CRISP-DM的設(shè)置是基于CRISP-DMModel的思想,它方便用戶存放在挖掘各個階段形成的文件。由右鍵單擊階段名,可以選擇生成該階段要擁有的文件,也可以打開已存在的文件將其放入該階段。這樣做的好處是使用戶對數(shù)據(jù)挖掘過程一目了然,也有利于對它進(jìn)行修改。圖4.10CRISP-DM項目窗口圖4.11類項目窗口Classes窗口具有同CRISP-DM窗口相似的作用,它的分類不是基于挖掘的各個過程,而是基于存儲的文件類型。例如數(shù)據(jù)流文件、結(jié)點文件、圖表文件等。五、數(shù)據(jù)流基本操作的介紹5.數(shù)據(jù)流是由一系列的結(jié)點組成,當(dāng)數(shù)據(jù)通過每個結(jié)點時,結(jié)點對它進(jìn)行定義好的操作。我們在建立數(shù)據(jù)流是通常遵循以下四步:①向數(shù)據(jù)流程區(qū)增添新的結(jié)點;②將這些結(jié)點連接到數(shù)據(jù)流中;③設(shè)定數(shù)據(jù)結(jié)點或數(shù)據(jù)流的功能;④運行數(shù)據(jù)流。5.4.2向數(shù)據(jù)流程區(qū)添/當(dāng)向數(shù)據(jù)流程區(qū)添加新的結(jié)點時,我們有下面三種方法遵循:①雙擊結(jié)點面板中待添加的結(jié)點;②左鍵按住待添加結(jié)點,將其拖到數(shù)據(jù)流程區(qū)內(nèi);③選中結(jié)點面板中待添加的結(jié)點,將鼠標(biāo)放入數(shù)據(jù)流程區(qū),在鼠標(biāo)變?yōu)槭中螘r單擊數(shù)據(jù)流程區(qū)。通過上面三種方法我們都將發(fā)現(xiàn)選中的結(jié)點出現(xiàn)在了數(shù)據(jù)流程區(qū)內(nèi)。當(dāng)我們不再需要數(shù)據(jù)流程區(qū)內(nèi)的某個結(jié)點時,可以通過以下兩種方法來刪除:①左鍵單擊待刪除的結(jié)點,用delete刪除;②右鍵單擊待刪除的結(jié)點,在出現(xiàn)的菜單中選擇delete。5.4.3上面我們介紹了將結(jié)點添加到數(shù)據(jù)流程區(qū)的方法,然而要使結(jié)點真正發(fā)揮作用,我們需要把結(jié)點連接到數(shù)據(jù)流中。以下有三種可將結(jié)點連接到數(shù)據(jù)流中的方法:①雙擊結(jié)點。左鍵選中數(shù)據(jù)流中要連接新結(jié)點的結(jié)點(起始結(jié)點),雙擊結(jié)點面板中要連接入數(shù)據(jù)流的結(jié)點(目標(biāo)結(jié)點),這樣便將數(shù)據(jù)流中的結(jié)點與新結(jié)點相連接了;圖4.12雙擊目標(biāo)結(jié)點以加入數(shù)據(jù)流②通過鼠標(biāo)滑輪連接。在工作區(qū)內(nèi)選擇兩個待連接的結(jié)點,用左鍵選中連接的起始結(jié)點,按住鼠標(biāo)滑輪將其拖曳到目標(biāo)結(jié)點放開,連接便自動生成。(如果鼠標(biāo)沒有滑輪也選用alt鍵代替)圖4.13由滑輪連接兩結(jié)點③手動連接。右鍵單擊待連接的起始結(jié)點,從彈出的菜單欄中選擇Connect。選中Connect后鼠標(biāo)和起始結(jié)點都出現(xiàn)了連接的標(biāo)記,用鼠標(biāo)單擊數(shù)據(jù)流程區(qū)內(nèi)要連接的目標(biāo)結(jié)點,連接便生成。圖4.14選擇菜單欄中的connect圖4.15點擊要連入的結(jié)點注意:①第一種連接方法是將選項面板中的結(jié)點與數(shù)據(jù)流相連接,后兩種方法是將已在數(shù)據(jù)流程區(qū)中的結(jié)點加入到數(shù)據(jù)流中;②數(shù)據(jù)讀取結(jié)點(如SPSSFile)不能有前向結(jié)點,即在連接時它只能作為起始結(jié)點而不能作為目標(biāo)結(jié)點。5.4.4當(dāng)我們暫時不需要數(shù)據(jù)流中的某個結(jié)點時我們可以繞過該結(jié)點。在繞過它時,如果該結(jié)點既有輸入結(jié)點又有輸出結(jié)點那么它的輸入節(jié)點和輸出結(jié)點便直接相連;如果該結(jié)點沒有輸出結(jié)點,那么繞過該結(jié)點時與這個結(jié)點相連的所有連接便被取消。方法:用鼠標(biāo)滑輪雙擊需要繞過的結(jié)點或者選擇按住alt鍵,通過用鼠標(biāo)左鍵雙擊該結(jié)點來完成。圖4.16繞過數(shù)據(jù)流中的結(jié)點5.4.5當(dāng)我們需要在兩個已連接的結(jié)點中再加入一個結(jié)點時,我們可以采用這種方法將原來的連接變成兩個新的連接。方法:用鼠標(biāo)滑輪單擊欲插入新結(jié)點的兩結(jié)點間的連線,按住它并把他拖到新結(jié)點時放手,新的連接便生成。(在鼠標(biāo)沒有滑輪時亦可用alt鍵代替)圖4.17將連線拖向新結(jié)點圖4.18生成兩個新的連接5.4.6當(dāng)某個連接不再需要時,我們可以通過以下三種方法將它刪除:①選擇待刪除的連接,單擊右鍵,從彈出菜單中選擇DeleteConnection;②選擇待刪除連接的結(jié)點,按F3鍵,刪除了所有連接到該結(jié)點上的連接;③選擇待刪除連接的結(jié)點,從主菜單中選擇EditNodeDisconnect。圖4.19用右鍵刪除連接5.4.7數(shù)據(jù)流結(jié)構(gòu)構(gòu)建好后要通過執(zhí)行數(shù)據(jù)流數(shù)據(jù)才能從讀入開始流向各個數(shù)據(jù)結(jié)點。執(zhí)行數(shù)據(jù)流的方法有以下三種:選擇菜單欄中的按鈕,數(shù)據(jù)流區(qū)域內(nèi)的所有數(shù)據(jù)流將被執(zhí)行;先選擇要輸出的數(shù)據(jù)流,再選擇菜單欄中的按鈕,被選的數(shù)據(jù)流將被執(zhí)行;③選擇要執(zhí)行的數(shù)據(jù)流中的輸出結(jié)點,單擊鼠標(biāo)右鍵,在彈出的菜單欄中選擇Execute選項,執(zhí)行被選中的數(shù)據(jù)流。圖4.20執(zhí)行數(shù)據(jù)流的方法5.5案例模型建立以藥物治療為例,了解Clementine建模過程。假設(shè)你是一位正在匯總研究數(shù)據(jù)的醫(yī)學(xué)研究員。你已收集了一組患有同一疾病的患者的數(shù)據(jù)。在治療過程中,每位患者均對五種藥物中的一種有明顯反應(yīng)。你的任務(wù)就是通過數(shù)據(jù)挖掘找出適合治療此疾病的藥物。此示例使用名為druglearn.str的流,此流引用名為DRUG1n的數(shù)據(jù)文件。這些文件可在任何ClementineClient安裝程序的Demos目錄中找到。此目錄可通過Windows“開始”菜單的Clementine程序組進(jìn)行訪問。文件druglearn.str位于Classification_Module目錄中。圖4.21Demos目錄案例中用到的字段如下:表4.1案例字段表下面給出詳細(xì)的步驟:Step1:讀取文本。你可以使用變量文件節(jié)點讀取定界文本數(shù)據(jù)??梢詮倪x項板中添加變量文件節(jié)點,方法是單擊源選項卡找到此節(jié)點,或者使用收藏夾選項卡(默認(rèn)情況下,其中包含此節(jié)點)。然后,雙擊新添加的節(jié)點以打開相應(yīng)的對話框。圖4.22向流工作區(qū)添加節(jié)點單擊緊挨“文件”框右邊以省略號“...”標(biāo)記的按鈕,瀏覽到您系統(tǒng)中的Clementine安裝目錄。打開Demos目錄,然后選擇名為DRUG1n的文件。選擇從文件讀取字段名,并注意已載入此對話框中的字段和值。圖4.23載入字段操作單擊數(shù)據(jù)選項卡,覆蓋和更改某個字段的存儲。注意,存儲不同于類型或數(shù)據(jù)字段的用途。圖4.24設(shè)置字段值類型類型選項卡可幫助你了解數(shù)據(jù)中的更多字段類型。還可以選擇讀取值來查看各個字段的實際值,具體取決于您在值列中的選擇。此過程稱為實例化。圖4.25設(shè)置字段實際值Step2:添加表格現(xiàn)在你已載入數(shù)據(jù)文件,可以瀏覽一下某些記錄的值。其中一個方法就是構(gòu)建一個包含表節(jié)點的流。要將表節(jié)點添加到流中,可雙擊選項板中的表節(jié)點圖標(biāo)或?qū)⑵渫戏诺焦ぷ鲄^(qū)。圖4.26表格在節(jié)點欄位置雙擊選項板中的某個節(jié)點后,該節(jié)點將自動與流工作區(qū)中的選定節(jié)點相連接。此外,如果尚未連接節(jié)點,則可以使用鼠標(biāo)中鍵將源節(jié)點與表節(jié)點相連接。要模擬鼠標(biāo)中鍵操作,請在使用鼠標(biāo)時按下Alt鍵。圖4.27節(jié)點之間連接要查看表,請單擊工具欄上的綠色箭頭按鈕執(zhí)行流,或者右鍵單擊表節(jié)點,然后選擇執(zhí)行。圖4.28查看表節(jié)點數(shù)據(jù)Step3:創(chuàng)建分布圖數(shù)據(jù)挖掘過程中,創(chuàng)建匯總視圖通常有助于研究數(shù)據(jù)。Clementine提供了若干不同類型的圖表供您選擇,具體取決于您要匯總分析的數(shù)據(jù)類型。例如,要找出每種藥物的對癥患者的比例,請使用分布節(jié)點。圖4.29分布節(jié)點結(jié)果圖4.30選擇要顯示分布圖的字段將分布節(jié)點添加到流,并將其與源節(jié)點相連接,然后雙擊該節(jié)點以編輯要顯示的選項。選擇藥品作為要顯示其分布的目標(biāo)字段。然后,在對話框中單擊執(zhí)行。圖4.31選定字段節(jié)點值分布圖最終圖表將有助于您查看數(shù)據(jù)的“結(jié)構(gòu)”。結(jié)果表明,藥品Y的對癥患者最多,而藥品B和藥品C的對癥患者最少。此外,您還可以添加并執(zhí)行數(shù)據(jù)審核節(jié)點,可以在“輸出”選項卡中找到數(shù)據(jù)審核節(jié)點。同時快速瀏覽所有字段的分布圖和直方圖。圖4.32數(shù)據(jù)審計節(jié)點位置圖4.33各字段值描述圖Step4:創(chuàng)建散點圖圖4.34流圖現(xiàn)在我們來看一下有哪些因素會對藥品(目標(biāo)變量)產(chǎn)生影響。作為研究員,你一定知道鈉和鉀的濃度在血液中有著重要的影響。由于兩者都是數(shù)值,你可以用顏色區(qū)分藥品,創(chuàng)建一個關(guān)于鈉和鉀的散點圖。圖4.35在流中添加散點圖節(jié)點將散點圖節(jié)點放在工作區(qū)中,并將其與源節(jié)點相連接,然后雙擊該節(jié)點對其進(jìn)行編輯。圖4.36選擇要散點的字段在“散點圖”選項卡中,選擇Na作為X字段,選擇K作為Y字段,并選擇藥品作為交疊字段。然后單擊執(zhí)行。圖4.37字段散點圖此散點圖清楚地顯示了一個閾值,在此閾值上方,對癥藥品始終是Y,在此閾值下方,對癥藥品均不是Y。此閾值等于鈉(Na)和鉀(K)的比。Step5:創(chuàng)建網(wǎng)絡(luò)圖因為很多數(shù)據(jù)字段均可分類,你也可嘗試?yán)L制網(wǎng)絡(luò)圖,此圖表將反映不同類別之間的聯(lián)系。首先,將網(wǎng)絡(luò)節(jié)點與您工作區(qū)中的源節(jié)點相連接。圖4.38流中添加網(wǎng)絡(luò)節(jié)點在“網(wǎng)絡(luò)節(jié)點”對話框中,選擇BP(血壓)和藥品。然后單擊執(zhí)行。圖4.39添加字段此圖顯示,藥品Y與三種級別的血壓均相關(guān)。這并不奇怪,因為你早已看出Y是最佳藥品。要關(guān)注其他藥品,你可以隱藏此藥品。右鍵單擊藥品Y,然后選擇隱藏并重新計劃。圖4.40藥物與血壓網(wǎng)絡(luò)圖簡圖中隱藏了藥品Y及其所有鏈接。現(xiàn)在你可以清楚地看到,只有藥品A和B與高血壓有關(guān)。只有藥品C和X與低血壓有關(guān)。而藥品X與正常血壓有關(guān)。此時,您仍然無法在藥品A和B或藥品C和X之間為指定患者作出選擇。這時,建模可以助你一臂之力。圖4.41藥物與血壓關(guān)系Step6:導(dǎo)出新字段由于鈉與鉀的比似乎可以用來預(yù)測何時可以使用藥品Y,因此你可以為每條記錄導(dǎo)出一個包含此比值的字段。該字段稍后可用于構(gòu)建模型以預(yù)測何時可使用五種藥品中的每一種藥品。圖4.42散點圖首先,在流中插入一個導(dǎo)出節(jié)點,然后雙擊此節(jié)點對其進(jìn)行編輯。圖4.43添加導(dǎo)出節(jié)點將新字段命名為Na_to_K。由于是通過將鈉值除以鉀值獲取新字段,所以請在公式中輸入Na/K。你還可通過單擊緊挨該字段右側(cè)的圖標(biāo)來創(chuàng)建公式。圖4.44建立新字段此操作將打開表達(dá)式構(gòu)建器,這是一種使用函數(shù)、操作數(shù)、字段及其字段值的內(nèi)置列表交互式創(chuàng)建表達(dá)式的方式。圖4.45表達(dá)式構(gòu)建器您可以通過將直方圖節(jié)點添加到導(dǎo)出節(jié)點來檢查新字段的分布情況。在直方圖節(jié)點對話框中,將Na_to_K指定為要繪制的字段,并將藥品指定為交疊字段。圖4.46編制直方圖執(zhí)行流時,將在此顯示圖表。您可以根據(jù)顯示結(jié)果得出以下結(jié)論:當(dāng)Na_to_K字段的值等于或大于15時,應(yīng)選擇藥品Y。圖4.47藥物直方圖Step7:構(gòu)建模型通過研究和操作數(shù)據(jù),您能夠得出某些假設(shè)結(jié)論。血液中鈉與鉀的比例以及血壓似乎都會影響藥品的選擇。但您還不能完全解釋清楚所有關(guān)系。此時似乎可以通過建模找出某些答案。此種情況下,您可以嘗試使用規(guī)則構(gòu)建模型(C5.0)來擬合數(shù)據(jù)。由于使用的是導(dǎo)出字段Na_to_K,您可以過濾掉原始字段Na和K,以避免在建模算法中重復(fù)操作。上述操作可通過過濾節(jié)點完成。在“過濾”選項卡上,單擊Na和K旁邊的箭頭。如果箭頭上顯示紅色的X,則表示該字段已被過濾。圖4.48過濾然后,將類型節(jié)點連接到過濾節(jié)點。類型節(jié)點允許您指出要使用的字段類型以及如何使用這些字段預(yù)測結(jié)果。在“類型”選項卡上,將藥品字段的方向設(shè)置為輸出,表明您要預(yù)測該藥品字段。將其他字段的方向設(shè)置為輸入,表示這些字段將用作預(yù)測變量。圖4.49設(shè)置預(yù)測變量要評估此模型,請將節(jié)點C5.0置于工作空間,然后將此節(jié)點附加到流的末端(如圖所示)。單擊綠色“執(zhí)行”按鈕執(zhí)行流。圖4.50添加模型節(jié)點Step8:瀏覽模型執(zhí)行C5.0節(jié)點時,生成的模型節(jié)點(帶有g(shù)em圖標(biāo))將被添加到窗口右上角的“模型”選項卡中。要瀏覽模型,請右鍵單擊此圖標(biāo),然后從上下文菜單中選擇瀏覽。圖4.51模型結(jié)果瀏覽“規(guī)則”瀏覽器以決策樹形式顯示C5.0節(jié)點所生成的規(guī)則集。最初,決策樹處于折疊狀態(tài)。要展開決策樹,請單擊所有按鈕顯示所有層。圖4.52規(guī)則結(jié)果謎團(tuán)將因此而解開。對于Na與K的比小于14.642的高血壓患者,年齡將決定如何選擇藥品。對于低血壓患者,膽固醇含量似乎是最有力的預(yù)測變量。圖4.53規(guī)則展開通過單擊查看器選項卡,還可以更復(fù)雜的圖表形式查看同一決策樹。通過此圖表形式,您可以更輕松地查看各個血壓類別的觀測值數(shù)量以及各個觀測值的百分比。圖4.54決策樹結(jié)果圖Step9:使用分析節(jié)點可以使用分析節(jié)點評估模型的精確度。首先,將C5.0模型添加到流,然后添加分析節(jié)點(從輸出節(jié)點選項板中)并執(zhí)行該節(jié)點。圖4.55添加分析節(jié)點分析節(jié)點輸出顯示,使用該假設(shè)數(shù)據(jù)集,此模型已正確預(yù)測該數(shù)據(jù)集中大部分記錄的藥品選擇。在真正的數(shù)據(jù)集中,未必能做到完全準(zhǔn)確,但分析節(jié)點可幫您確定模型的精確度能否滿足特殊使用要求。圖4.56分析結(jié)果5.7幾種常用模型構(gòu)建這部分我們將介紹五種分析方法的建立過程,它們分別是因子分析、關(guān)聯(lián)分析、聚類分析、決策樹分析和神經(jīng)網(wǎng)絡(luò)。為了方便大家練習(xí),我們將采用Clementine自帶的示例,這些示例在demos文件夾中均可找到,它們的數(shù)據(jù)文件也在demos文件夾中。在模型建立過程中我們將介紹各個結(jié)點的作用。1、因子分析(factor.str)研究從變量群中提取共性因子的統(tǒng)計技術(shù)。最早由英國心理學(xué)家C.E.斯皮爾曼提出。他發(fā)現(xiàn)學(xué)生的各科成績之間存在著一定的相關(guān)性,一科成績好的學(xué)生,往往其他各科成績也比較好,從而推想是否存在某些潛在的共性因子,或稱某些一般智力條件影響著學(xué)生的學(xué)習(xí)成績。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質(zhì)的變量歸入一個因子,可減少變量的數(shù)目,還可檢驗變量間關(guān)系的假設(shè)。因子分析的主要目的是用來描述隱藏在一組測量到的變量中的一些更基本的,但又無法直接測量到的隱性變量(latentvariable,latentfactor)。比如,如果要測量學(xué)生的學(xué)習(xí)積極性(motivation),課堂中的積極參與,作業(yè)完成情況,以及課外閱讀時間可以用來反應(yīng)積極性。而學(xué)習(xí)成績可以用期中,期末成績來反應(yīng)。在這里,學(xué)習(xí)積極性與學(xué)習(xí)成績是無法直接用一個測度(比如一個問題)測準(zhǔn),它們必須用一組測度方法來測量,然后把測量結(jié)果結(jié)合起來,才能更準(zhǔn)確地來把握。換句話說,這些變量無法直接測量??梢灾苯訙y量的可能只是它所反映的一個表征(manifest),或者是它的一部分。在這里,表征與部分是兩個不同的概念。表征是由這個隱性變量直接決定的。隱性變量是因,而表征是果,比如學(xué)習(xí)積極性是課堂參與程度(表征測度)的一個主要決定因素。那么如何從顯性的變量中得到因子呢?因子分析的方法有兩類。一類是探索性因子分析,另一類是驗證性因子分析。探索性因子分析不事先假定因子與測度項之間的關(guān)系,而讓數(shù)據(jù)“自己說話”。主成分分析是其中的典型方法。驗證性因子分析假定因子與測度項的關(guān)系是部分知道的,即哪個測度項對應(yīng)于哪個因子,雖然我們尚且不知道具體的系數(shù)。示例factor.str是對孩童的玩具使用情況的描述,它一共有76個字段。過多的字段不僅增添了分析的復(fù)雜性,而且字段之間還可能存在一定的相關(guān)性,于是我們無需使用全部字段來描述樣本信息。下面我們將介紹用Clementine進(jìn)行因子分析的步驟:Step1:讀入數(shù)據(jù)數(shù)據(jù)源(Source)欄中的結(jié)點提供了讀入數(shù)據(jù)的功能,由于玩具的信息存儲為toy_train.sav,所以我們需要使用SPSS文件(SPSSFile)結(jié)點來讀入數(shù)據(jù)。雙擊SPSS文件(SPSSFile)結(jié)點使之添加到數(shù)據(jù)流程區(qū)內(nèi),雙擊添加到數(shù)據(jù)流程區(qū)里的SPSS文件(SPSSFile)結(jié)點,由此來設(shè)置該結(jié)點的屬性。在屬性設(shè)置時,單擊導(dǎo)入文件(Importfile)欄右側(cè)的按鈕,選擇要加載到數(shù)據(jù)流中進(jìn)行分析的文件,這里選擇toy_train.sav。單擊注解(Annotations)頁,在名稱(name)欄中選擇定制(custom)選項并在其右側(cè)的文本框中輸入自定義的結(jié)點名稱。這里我們按照原示例輸入toy_train。Step2:設(shè)置字段屬性進(jìn)行因子分析時我們需要了解字段間的相關(guān)性,但并不是所有字段都需要進(jìn)行相關(guān)性分析,比如“序號”字段,所以需要我們將要進(jìn)行因子分析的字段挑選出來。字段選項(FieldOps)欄中的類型(Type)結(jié)點具有設(shè)置各字段數(shù)據(jù)類型、選擇字段在機(jī)器學(xué)習(xí)中的的輸入/輸出屬性等功能,我們利用該結(jié)點選擇要進(jìn)行因子分析的字段。首先,將類型(Type)結(jié)點加入到數(shù)據(jù)流中,雙擊該結(jié)點對其進(jìn)行屬性設(shè)置:由上圖可看出數(shù)據(jù)文件中所有的字段名顯示在了字段(Field)欄中,類型(Type)表示了每個字段的數(shù)據(jù)類型。我們不需要為每個字段設(shè)定數(shù)據(jù)類型,只需從Values欄中的下拉菜單中選擇<Read>項,然后選擇讀取值(ReadValue)鍵,軟件將自動讀入數(shù)據(jù)和數(shù)據(jù)類型;缺失(Missing)欄是在數(shù)據(jù)有缺失時選擇是否用空(Blank)填充該字段;檢查(Check)欄選擇是否判斷該字段數(shù)據(jù)的合理性;而方向(Direction)欄在機(jī)器學(xué)習(xí)模型的建立中具有相當(dāng)重要的作用,通過對它的設(shè)置我們可將字段設(shè)為輸入/輸出/輸入且輸出/非輸入亦非輸出四種類型。在這里我們將前19個字段的方向(Direction)設(shè)置為無(none),這表明在因子分析我們不將這前19個字段列入考慮,從第20個字段起我們將以后字段的方向(direction)設(shè)置為輸入(In),對這些字段進(jìn)行因子分析。Step3:對數(shù)據(jù)行因子分析因子分析模型在建模(Modeling)欄中用主成分/因子分析(PCA/Factor)表示。在分析過程中模型需要有大于或等于兩個的字段輸入,上一步的Type結(jié)點中我們已經(jīng)設(shè)置好了將作為模型輸入的字段,這里我們將主成分/因子分析(PCA/Factor)結(jié)點連接在類型(Type)結(jié)點之后不修改它的屬性,默認(rèn)采用主成分分析方法。在建立好這條數(shù)據(jù)流后我們便可以將它執(zhí)行。右鍵單擊主成分/因子分析(PCA/Factor)結(jié)點,在彈出的菜單欄中選擇執(zhí)行(Execute)命令。執(zhí)行結(jié)束后,模型結(jié)果放在管理器的模型(Models)欄中,其標(biāo)記為名稱為主成分/因子分析PCA/Factor)的黃色結(jié)點。右鍵單擊該結(jié)果結(jié)點,從彈出的菜單中選擇瀏覽(Browse)選項查看輸出結(jié)果。由結(jié)果可知參與因子分析的字段被歸結(jié)為了五個因子變量,其各個樣本在這五個因子變量里的得分也在結(jié)果中顯示。Step4:顯示經(jīng)過因子分析后的數(shù)據(jù)表模型的結(jié)果結(jié)點也可以加入到數(shù)據(jù)流中對數(shù)據(jù)進(jìn)行操作。我們在數(shù)據(jù)流程區(qū)內(nèi)選中類型(Type)結(jié)點,然后雙擊管理器模型(Models)欄中的主成分/因子分析PCA/Factor結(jié)點,該結(jié)點便加入到數(shù)據(jù)流中。為了顯示經(jīng)過因子分析后的數(shù)據(jù)我們可以采用表格(Table)結(jié)點,該結(jié)點將數(shù)據(jù)由數(shù)據(jù)表的形式輸出。(1)為因子變量命名在將PCA/Factor(結(jié)果)結(jié)點連接到表格(Table)結(jié)點之前,用戶可以設(shè)置不需要顯示的字段,也可以更改因子變量名,為了達(dá)到這個目的我們可以添加字段選項(FieldOps)欄中的過濾(filter)結(jié)點。在對過濾(filter)結(jié)點進(jìn)行屬性設(shè)置時,過濾(filter)項顯示了字段的過濾與否,如果需要將某個字段過濾,只需用鼠標(biāo)單擊Filter欄中的箭頭,當(dāng)箭頭出現(xiàn)紅“×”時該字段便被過濾。第一個字段(Field)欄結(jié)點表明數(shù)據(jù)在讀入過濾(filter)結(jié)點時的字段名,第二個字段(Field)欄表示數(shù)據(jù)經(jīng)過過濾(filter)結(jié)點后的字段名。由于因子分析生成的因子變量都由系統(tǒng)自動命名,用戶可以通過修改這些因子變量的第二個字段(Field)的值來重新設(shè)定其字段名。(2)數(shù)據(jù)輸出顯示,在對數(shù)據(jù)進(jìn)行輸出時我們選擇了輸出(Output)欄中的表格(Table)結(jié)點和圖形(Graph)欄中的柱狀圖(Histogram)結(jié)點。這兩個結(jié)點一個通過數(shù)據(jù)表的形式輸出,一個通過柱裝圖的形式輸出。對柱裝圖我們設(shè)置其顯示storeplay字段的數(shù)據(jù)(store_play為第五個因子變量的新名)。通過“執(zhí)行”按鈕分別執(zhí)行兩條數(shù)據(jù)流,將經(jīng)過因子分析后的數(shù)據(jù)顯示。注意:在這個因子分析的案例中我們用到了SPSS文件(SPSSFile)、類型(Type)、過濾(Filter)、表格(Table)、柱狀圖(Histogram)、PCA/Factor結(jié)點。2.關(guān)聯(lián)分析、決策樹分析(baskrule.str)關(guān)聯(lián)分析是指如果兩個或多個事物之間存在一定的聯(lián)系,那么其中一個事物就能通過其他事物進(jìn)行預(yù)測.它的目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系在數(shù)據(jù)挖掘的基本任務(wù)中關(guān)聯(lián)(association)和順序序貫?zāi)P?sequnencing)關(guān)聯(lián)分析是指搜索事務(wù)數(shù)據(jù)庫(transactionaldatabases)中的所有細(xì)節(jié)或事務(wù),從中尋找重復(fù)出現(xiàn)概率很高的模式或規(guī)則。示例baskrule.str是針對某商場的購物資料對數(shù)據(jù)進(jìn)行分析。為了找出商品在出售時是否存在某種聯(lián)系,我們將使用關(guān)聯(lián)分析方法;為了得到購買某種商品的顧客特征,我們將采用決策樹方法對顧客分類。Step1:讀入數(shù)據(jù)該模型的數(shù)據(jù)文件存儲為BASKETS1n。我們選擇Source欄的Var.File(自由格式文本文件)結(jié)點作為數(shù)據(jù)讀入結(jié)點,雙擊該結(jié)點進(jìn)行屬性設(shè)置。Step2:關(guān)聯(lián)分析從數(shù)據(jù)源讀入數(shù)據(jù)后我們需要根據(jù)要進(jìn)行的分析對字段進(jìn)行設(shè)置。關(guān)聯(lián)分析是分析多個量之間的關(guān)系,所以需要將進(jìn)行分析的字段既設(shè)置為模型的輸入又設(shè)置為模型的輸出,對字段的設(shè)置可以通過Type結(jié)點進(jìn)行。(1)為數(shù)據(jù)設(shè)置字段格式在數(shù)據(jù)流程區(qū)內(nèi)選中已存在的Var.File結(jié)點,雙擊文件選擇(FileOPs)欄中的類型(Type)結(jié)點,將類型(Type)結(jié)點加入到數(shù)據(jù)流中。由于我們的分析是對商品進(jìn)行,與顧客的個人信息無關(guān),所以在類型(Type)中將顧客個人信息字段的方向(Direction)設(shè)為空(none),其他商品字段的方向(Direction)設(shè)為雙向(Both)。同時我們也將讀入字段類型和字段取值。(2)生成關(guān)聯(lián)分析數(shù)據(jù)流Clementine提供了三個可以進(jìn)行關(guān)聯(lián)分析的模型,他們分別是Apriori、GRI、Sequence,在這里我們選擇GRI結(jié)點加入到數(shù)據(jù)流中。執(zhí)行該數(shù)據(jù)流,它的結(jié)果將在在管理器的Models欄中以與模型同名的結(jié)點顯示,右鍵選擇瀏覽該結(jié)點,結(jié)果如下圖:結(jié)果數(shù)據(jù)表顯示了各種商品間的關(guān)系,該表的每一行表明了當(dāng)某種商品被購買時還有哪些產(chǎn)品可能被同時購買,它是居于關(guān)聯(lián)分析中的支持度和可信度來分析的。Step3:網(wǎng)狀展示結(jié)果圖形化顯示各商品之間的關(guān)系對數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析除了利用模型外,我們還可以利用Graphs欄中的Web結(jié)點將它們之間的關(guān)系通過網(wǎng)狀圖顯示。選中Web結(jié)點將它連接到Type結(jié)點上,對Web結(jié)點的屬性設(shè)置如下圖所示:選擇Fields欄右邊的打開對話框按鈕,彈出如上圖所示的選擇字段(SelectFields)對話框。選出將要作關(guān)聯(lián)分析的項,確定后返回Web屬性菜單。在plot面板中選中“僅顯示真值標(biāo)志(showtruetagonly)”欄可幫我們簡化輸出網(wǎng)絡(luò)。在Web結(jié)點的屬性設(shè)置好后,我們可以運行這條數(shù)據(jù)流,運行結(jié)果如下圖所示。各色的結(jié)點代表了各種不同的商品,任兩點的連線越粗表明這兩點間的關(guān)系越強(qiáng)烈。我們還可以通過改變浮標(biāo)值設(shè)置不同的顯示,當(dāng)浮標(biāo)值越大時web圖將顯示擁有越強(qiáng)關(guān)系的點(如下右圖所示)。決策樹(decisiontree)一般都是自上而下的來生成的。每個決策或事件(即自然狀態(tài))都可能引出兩個或多個事件,導(dǎo)致不同的結(jié)果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。決策樹就是將決策過程各個階段之間的結(jié)構(gòu)繪制成一張箭線圖。選擇分割的方法有好幾種,但是目的都是一致的:對目標(biāo)類嘗試進(jìn)行最佳的分割。從根到葉子節(jié)點都有一條路徑,這條路徑就是一條“規(guī)則”。決策樹可以是二叉的,也可以是多叉的。對每個節(jié)點的衡量:1)通過該節(jié)點的記錄數(shù);2)如果是葉子節(jié)點的話,分類的路徑;3)對葉子節(jié)點正確分類的比例。有些規(guī)則的效果可以比其他的一些規(guī)則要好。決策樹對于常規(guī)統(tǒng)計方法的優(yōu)缺點。優(yōu)點:1)可以生成可以理解的規(guī)則;2)計算量相對來說不是很大;3)可以處理連續(xù)和種類字段;4)決策樹可以清晰的顯示哪些字段比較重要。缺點:1)對連續(xù)性的字段比較難預(yù)測;2)對有時間順序的數(shù)據(jù),需要很多預(yù)處理的工作;3)當(dāng)類別太多時,錯誤可能就會增加的比較快;4)一般的算法分類的時候,只是根據(jù)一個字段來分類。Step4:用決策樹進(jìn)行分類分析在本例中我們運用決策樹對購買某樣商品的客戶進(jìn)行分類,通過分析他的個人信息(例如年齡、收入等)判斷怎樣的人會購買健康食品。在用決策樹建模時我們需要設(shè)置一個輸出結(jié)點,模型根據(jù)樣本在該結(jié)點的不同取值構(gòu)造出決策樹。(1)將導(dǎo)出(Derive)結(jié)點連接到Type結(jié)點后,Derive結(jié)點在字段選項(FieldOPs)欄中,可選用任何一種結(jié)點連入數(shù)據(jù)流的方法將這個結(jié)點連接;(2)設(shè)置Drive結(jié)點的屬性雙擊Drive結(jié)點打開屬性對話框,如下圖所示:在DriveField欄中將該結(jié)點命名為health_food,在導(dǎo)出為(Driveas)欄中選擇Flag,這表明新生成的health_food字段將存儲兩值類型的數(shù)據(jù)。在真值(Truevalue)和假值(Falsevalue)欄中分別填寫新字段的兩種數(shù)據(jù)值,其中真值(Truevalue)表示當(dāng)條件滿足時該字段的值,假值(Falsevalue)表明當(dāng)條件不滿足時該字段的值。對判斷條件的設(shè)置我們可以通過單擊Truewhen欄右邊的按鈕進(jìn)行。在表達(dá)式構(gòu)建器(ExpressionBuilder)中我們可以選擇數(shù)據(jù)的任一字段,通過設(shè)計表達(dá)式建立結(jié)果為真時的條件。這里我們設(shè)置表達(dá)式為fruitveg='T'andfish='T',這表明當(dāng)顧客購買了fruitveg和fish時該顧客便購買了健康食物。(3)設(shè)置字段的輸入/輸出方向要用決策樹模型建模就需要在數(shù)據(jù)載入模型前定義一個輸出字段,這里我們通過在health_food結(jié)點后添加一Type結(jié)點來定制字段的輸入/輸出方向。由于我們要分析購買健康食物的顧客特征,所以我們將health_food字段的Direction選項設(shè)置為輸出(Out),將顧客的各個特征設(shè)置為輸入(In),將其他商品設(shè)置為無(None)。(4)數(shù)據(jù)流的最終建立在對字段定義結(jié)束后,我們將C5.0(決策樹模型)結(jié)點加入到數(shù)據(jù)流。其數(shù)據(jù)流建立如下圖:運行建立了決策樹的數(shù)據(jù)流,我們可得到輸出結(jié)果如下樹形圖所示。該樹的葉結(jié)點表明了怎樣的顧客將選擇健康食品,怎樣的顧客將拒絕健康食品,我們也可以根據(jù)該樹的將客戶按是否購買健康食品進(jìn)行分類。注意:在這個關(guān)聯(lián)分析/決策樹分析的案例中我們用到了Var.File、Derive、Web、GRI和C5.0結(jié)點。3.聚類分析(cluster.str)聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計算機(jī)科學(xué),統(tǒng)計學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。從統(tǒng)計學(xué)的觀點看,聚類分析是通過數(shù)據(jù)建模簡化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統(tǒng)計分析軟件包中,如SPSS、SAS等。從機(jī)器學(xué)習(xí)的角度講,簇相當(dāng)于隱藏模式。聚類是搜索簇的無監(jiān)督學(xué)習(xí)過程。與分類不同,無監(jiān)督學(xué)習(xí)不依賴預(yù)先定義的類或帶類標(biāo)記的訓(xùn)練實例,需要由聚類學(xué)習(xí)算法自動確定標(biāo)記,而分類學(xué)習(xí)的實例或數(shù)據(jù)對象有類別標(biāo)記。聚類是觀察式學(xué)習(xí),而不是示例式的學(xué)習(xí)。從實際應(yīng)用的角度看,聚類分析是數(shù)據(jù)挖掘的主要任務(wù)之一。而且聚類能夠作為一個獨立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇數(shù)據(jù)的特征,集中對特定的聚簇集合作進(jìn)一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預(yù)處理步驟。Clementine提供了多種可用于聚類分析的模型,包括Kohonen,Kmeans,TwoStep方法。示例Cluster.str是對人體的健康情況進(jìn)行分析,通過測量人體類膽固醇、Na、Ka等的含量將個體歸入不同類別。示例中采用了三種方法對數(shù)據(jù)進(jìn)行分類,這里我們重點討論Kmeans聚類方法。Step1:讀入數(shù)據(jù)讀入數(shù)據(jù)和前兩步一樣,在建立數(shù)據(jù)流時首先應(yīng)讀入數(shù)據(jù)文件。該示例中數(shù)據(jù)文件存儲為DRUG1n,我們向數(shù)據(jù)流程區(qū)內(nèi)添加可變文件(Var.File)結(jié)點讀入數(shù)據(jù)。Step2:設(shè)置為數(shù)據(jù)設(shè)置字段格式將Type結(jié)點連入數(shù)據(jù)流,通過編輯該結(jié)點對數(shù)據(jù)字段進(jìn)行設(shè)置。在機(jī)器學(xué)習(xí)方法中聚類被稱為無導(dǎo)師的學(xué)習(xí)。所謂無導(dǎo)師的學(xué)習(xí)是指事先并不知道數(shù)據(jù)的分類情況,就像在決策樹方法中我們通過已知的某個結(jié)點值來建立模型,在聚類方法中所有參與聚類的字段在設(shè)置字段格式時其方向(Direction)都將被設(shè)置為輸入(In)。Step3:生成聚類分析數(shù)據(jù)流設(shè)置好字段格式后我們將Kmeans結(jié)點加入到數(shù)據(jù)流。在編輯Kmeans結(jié)點時我們重點需要定義將要其分成的類別數(shù),這個屬性在聚類數(shù)(Specifiednumberofcluster)中設(shè)定。數(shù)據(jù)流建立好后,右鍵單擊Kmeans結(jié)點選擇執(zhí)行該數(shù)據(jù)流。執(zhí)行結(jié)果以與Kmean同名的結(jié)點顯示在管理器的Models窗口中,瀏覽
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年合作種植農(nóng)作物合同
- 質(zhì)押式回購合同三篇
- 生產(chǎn)數(shù)據(jù)分析與決策計劃
- 公司生產(chǎn)工作計劃改善生產(chǎn)流水線
- 2024年實驗室科研項目資助與合作協(xié)議
- 2024年復(fù)雜股權(quán)激勵計劃協(xié)議
- 2024年工程門質(zhì)量保證合同
- 2024年室內(nèi)裝飾風(fēng)格定制合同
- 2024年廠房改建項目木工施工監(jiān)理合同書(第三方監(jiān)理)
- 2024年實驗室租賃合同
- 電動閥門調(diào)試記錄
- 預(yù)防校園欺凌小學(xué)生課件
- 空乘人員職業(yè)形象設(shè)計與化妝(169張課件)
- 頭發(fā)及頭皮知識講述課件
- 壓縮機(jī)潤滑油過濾循環(huán)專題方案
- 教師對幼兒園管理工作的滿意度調(diào)查問卷
- 電動葫蘆吊裝施工方案
- 蘇菲的杰作課件
- 碎石組織供應(yīng)及運輸售后服務(wù)保障方案
- 不良事件報告與分析課件
- 小學(xué)語文人教二年級上冊(統(tǒng)編)第五單元-二年級《我要的是葫蘆》第二課時教學(xué)設(shè)計
評論
0/150
提交評論