![數(shù)據(jù)挖掘項目實施概述_第1頁](http://file4.renrendoc.com/view11/M02/0D/2A/wKhkGWWBmyKAR4G3AACjyggKzc8220.jpg)
![數(shù)據(jù)挖掘項目實施概述_第2頁](http://file4.renrendoc.com/view11/M02/0D/2A/wKhkGWWBmyKAR4G3AACjyggKzc82202.jpg)
![數(shù)據(jù)挖掘項目實施概述_第3頁](http://file4.renrendoc.com/view11/M02/0D/2A/wKhkGWWBmyKAR4G3AACjyggKzc82203.jpg)
![數(shù)據(jù)挖掘項目實施概述_第4頁](http://file4.renrendoc.com/view11/M02/0D/2A/wKhkGWWBmyKAR4G3AACjyggKzc82204.jpg)
![數(shù)據(jù)挖掘項目實施概述_第5頁](http://file4.renrendoc.com/view11/M02/0D/2A/wKhkGWWBmyKAR4G3AACjyggKzc82205.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)挖掘項目實施概述
2023/12/19本章包括:數(shù)據(jù)挖掘項目實施步驟123數(shù)據(jù)挖掘項目周期單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容建立項目和報告處理缺失值導入和導出PMML模型3452023/12/19
23.1數(shù)據(jù)挖掘項目實施步驟
23.1.1一般實施步驟
一般而言,數(shù)據(jù)挖掘項目要經(jīng)歷的過程包括:問題理解和提出、
數(shù)據(jù)準備、數(shù)據(jù)整理
、建立模型、評價和解釋等一系列任務,其流程如圖23-1所示。2023/12/19企業(yè)解決方案23.1.2.1SEMMA模式2023/12/19
23.1.2.2SPSS-5A模型
2023/12/19標準過程模型
商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準備建立模型模型評估模型發(fā)布2023/12/1923.2數(shù)據(jù)挖掘項目周期2023/12/1923.3建立項目和報告項目概述表面上,Clementine項目只是一種組織輸出的簡單方式,但實際上它能做更多的工作,主要包括以下工作:(1)注釋項目文件中的每個對象。(2)使用CRISP-DM方法指導數(shù)據(jù)挖掘工作。項目還包含CRISP-DM幫助系統(tǒng),該系統(tǒng)針對使用CRISP-DM進行的數(shù)據(jù)挖掘提供詳細信息以及現(xiàn)實示例。(3)將非Clementine項目添加到Clementine項目,如用于展現(xiàn)數(shù)據(jù)挖掘目標的PowerPoint幻燈片或與計劃使用的算法相關的文檔等。(4)根據(jù)注解生成全面更新報告和簡單更新報告。為了便于在局域網(wǎng)上發(fā)布,可以用HTML的形式生成這些報告。2023/12/19視圖2023/12/19類視圖2023/12/19建立項目
新建項目在Clementine窗口中新建項目非常簡單??梢詮臉嫿ㄐ马椖块_始(如果沒有項目打開),也可以關閉現(xiàn)有項目并重新開始。從流工作區(qū)菜單中,選擇“文件”→“工程”→“新建工程...”命令。2023/12/19添加到項目
創(chuàng)建或打開項目后,便可以使用多種方法來添加對象,如數(shù)據(jù)流、節(jié)點和報告等。(1)用管理器添加對象使用Clementine窗口右上角的管理器,可以添加流或輸出。從其中一個管理器選項卡中選擇一個對象(如表或流)。右鍵單擊,然后選擇“添加到工程”命令。如果以前保存過該對象,則會自動將它添加到適當?shù)膶ο笪募A(在類視圖中)或默認的階段文件夾(在CRISP-DM視圖中)?;蛘?,可以將對象從管理器拖放到項目工作區(qū)中。將項目添加到項目工程中,如圖23-7從項目管理器中加入項目項到工程中所示。2023/12/19(2)從工作區(qū)添加節(jié)點可以使用“保存”對話框從流工作區(qū)添加單個節(jié)點。在工作區(qū)中選擇一個節(jié)點。單擊右鍵,然后選擇“保存節(jié)點”命令;或者,從菜單中選擇“編輯”→“節(jié)點”→“保存節(jié)點...”命令。在“保存”對話框中,選中“將文件添加到工程”命令。為節(jié)點創(chuàng)建名稱,然后單擊“保存”命令。從流工作區(qū)中加入節(jié)點的主要操作對話框如圖23-8從流工作區(qū)中加入節(jié)點所示,這樣會保存文件并將其添加到項目中,同時節(jié)點會被添加到類視圖中的Nodes文件夾以及CRISP-DM視圖中的默認階段文件夾。2023/12/19(3)添加外部文件將外部文件添加到項目的一般步驟如下:Step1.將文件從桌面上直接拖到項目中;或右鍵單擊CRISP-DM視圖或類視圖中的目標文件夾。Step2.從菜單中,選擇“添加到文件夾”命令。Step3.在對話框中選擇一個文件,然后單擊“打開”命令。這將會在Clementine項目內(nèi)添加對所選對象的引用。2023/12/19設置項目屬性
可以使用項目屬性對話框來自定義項目的內(nèi)容和文檔。要訪問項目屬性,一般執(zhí)行以下操作:
Step1.右鍵單擊項目工具中的根文件夾,然后選擇“工程屬性”命令;或者右鍵單擊項目工具中的非根文件夾,然后選擇“工程”→“工程屬性”命令。工程選項卡對話框如圖23-9工程選項卡對話框所示。
Step2.單擊“工程”選項卡以指定項目的相關信息。
2023/12/19
在工程選項卡中包含下列信息,如圖23-9工程選項卡對話框所示。創(chuàng)建時間:顯示項目的創(chuàng)建時間(此項內(nèi)容不可編輯)。摘要:可以輸入將在項目報告中顯示的數(shù)據(jù)挖掘項目的摘要。內(nèi)容:列出項目文件引用的組成文件的類型和數(shù)量(此項內(nèi)容不可編輯)。將未保存的對象保另存為單選項:指定是應將未保存的對象保存到本地文件系統(tǒng)還是存儲在PredictiveEnterpriseRepository中。載入項目時更新對象引用復選框:選中此選項可更新項目對其組成文件的引用。2023/12/19注解項目
項目工具提供了多種方式來注解數(shù)據(jù)挖掘工作。項目級注解常用于跟蹤宏觀目標和決策,而文件夾或節(jié)點注解提供其他詳細信息。“注解”選項卡提供了足夠空間記錄項目級詳細信息,比如具有不可恢復丟失數(shù)據(jù)的數(shù)據(jù)排除、數(shù)據(jù)探索過程中形成的可能假設等。2023/12/19對象屬性可以查看對象屬性并選擇是否在項目報告中納入單個對象。要訪問對象屬性,需要執(zhí)行以下操作:Step1.右鍵單擊項目窗口中的對象。Step2.從菜單中,選擇“對象屬性”命令。對象屬性的設置,如圖23-12對象屬性對話框所示。
2023/12/19
關閉項目
關閉項目文件的操作步驟一般如下:Step1.從“文件”菜單中,選擇關閉項目。Step2.如果系統(tǒng)詢問是關閉所有與項目關聯(lián)的文件還是讓其保持打開,請單擊“保持打開”命令,將關閉工程文件(.cpj)本身而讓所有關聯(lián)文件(如流、節(jié)點或圖形等)保持打開。
2023/12/19
建立報告
項目最有用的一項功能是能夠根據(jù)項目項和注解生成報告??梢灾苯由扇舾煞N文件類型的報告,也可以直接輸出到屏幕窗口以便立即查看。從輸出窗口中,可以打印、保存或查看Web瀏覽器中的報告。還可以將保存的報告分發(fā)給組織中的其他人。2023/12/19設置報告選項
2023/12/19
生成報告
2023/12/19保存和輸出報告在屏幕上生成的報告顯示在新輸出窗口中,此報告中包括的所有圖形都會顯示為內(nèi)嵌圖像。保存報告的一般步驟如下:Step1.從“文件”菜單中,選擇“保存”命令。Step2.指定文件名。導出報告的一般步驟如下:Step1.從“文件”菜單中,選擇導出以及要導出為的文件類型。Step2.指定文件名??梢詫蟾鎸С鰹槿缦骂愋偷奈募篐TML文本MicrosoftWordMicrosoftExcelMicrosoftPowerPoint2023/12/19
23.4處理缺失值
指定缺失值用戶可以用類型節(jié)點或者來源節(jié)點的類型選項卡來指定某個特定的值為缺失值,也可以決定是否把系統(tǒng)的缺失值或空白看作空格。在“缺失”欄上,從下拉菜單中選擇“指定…”來打開一個對話框,然后確定缺失值選項。如圖23-16確定連續(xù)變量的缺失值所示。2023/12/19圖23-16確定連續(xù)變量的缺失值2023/12/19
處理缺失值
用戶應根據(jù)所從事的專業(yè)領域知識來確定如何處理缺失值。為了減少訓練時間以及提高精度,可能需要除去數(shù)據(jù)集中的空值。此外,空值的出現(xiàn)還可能會帶來新的業(yè)務機會或其他靈感。在Clementine中有許多技巧來處理缺失值,可以根據(jù)數(shù)據(jù)的以下特征來選擇最佳方法:數(shù)據(jù)集的大小包含空值的字段數(shù)缺失信息量一旦分析了上述因素,就可以選擇下述兩種方法來處理:忽略帶有缺失值的字段或記錄可以使用各種方法歸因、替換或強制賦值缺失值2023/12/19
處理帶缺失值的記錄
如果大部分缺失值都集中在少量記錄中,只需排除這些記錄即可。例如,銀行通常會保存詳細而完整的貸款客戶的記錄。但是,如果銀行在審批內(nèi)部職員的貸款時管制不嚴,則所收集的員工貸款數(shù)據(jù)可能會存在空白字段。此種情況下,有兩種方法可以處理缺失值:可以使用選擇節(jié)點刪除員工記錄。如果數(shù)據(jù)集很大,使用者可以在一個選擇節(jié)點上,使用@BLANK和@NULL函數(shù)來剔除帶有空格的所有記錄。
2023/12/19處理帶缺失值的字段如大部分缺失值都集中在少量字段中,可通過字段而不是記錄查找這些缺失值。確定要采用的方法時,還應考慮帶有缺失值的字段類型。數(shù)值字段對于數(shù)值字段類型(如范圍),應在構建模型前清除所有非數(shù)字值,因為如果數(shù)值字段中包含空值,很多模型將無效。分類字段對于分類字段(如集合和標志),雖然不必更改缺失值,但更改后可以提高模型的精度。2023/12/19要篩選或刪除帶有大量缺失值的字段,可以采用以下幾種方法:使用數(shù)據(jù)審核節(jié)點根據(jù)質(zhì)量過濾字段。可以使用特征選擇節(jié)點來篩選缺失值超過指定百分比的字段,并根據(jù)相對于特定目標的重要性來對字段進行排序。除刪除字段以外,還可以使用類型節(jié)點將字段方向設置為無。此操作可將字段保留在數(shù)據(jù)集中,但不會對其進行建模操作。2023/12/19
歸因或填充缺失值
在僅有少量缺失值的情況下,可以用插入值來替換空值。下列方法可用于輸入缺失值:替換為固定值(可以選用字段平均值、范圍中間值或者指定的常數(shù))。替換為基于正態(tài)分布或均勻分布產(chǎn)生的隨機值。用于指定定制表達式。例如,可以使用設置全局量節(jié)點創(chuàng)建的全局變量進行替換?;贑&RT算法替換為模型預測的值。對于使用此方法輸入的每個字段,都會有一個單獨的C&RT模型,還有一個填充節(jié)點會使用該模型預測的值替換空白值和Null值。然后使用過濾節(jié)點刪除該模型生成的預測字段。如果還要為特定字段強制賦值,則可以使用類型節(jié)點來確保字段類型僅包含合法值,然后將需要替換空值字段的檢查列設置為強制。2023/12/19
用CLEM函數(shù)處理缺失值
表達式操作語言CLEM全名為ClementineLanguageforExpressionManipulation,是在Clementine中執(zhí)行函數(shù)運算時的專用語法,用于分析和操縱在Clementine流中流動的數(shù)據(jù),是一個功能強大的語言。2023/12/19有多個CLEM函數(shù)可用于處理缺失值。選擇節(jié)點和填充節(jié)點中經(jīng)常會用以下函數(shù)來刪除或填充缺失值:count_nulls(LIST)@BLANK(FIELD)@NULL(FIELD)undef@函數(shù)可以與@FIELD函數(shù)一起使用,來識別一個或多個字段中是否存在空值或非Null值。當出現(xiàn)空值或非Null值時,一般會對此類字段進行標記,也可以用替換值填充或者在各種其他操作中使用此類字段。如下所示,可以計算字段列表中的非Null值的數(shù)量:count_nulls([‘cardtenure’‘card2tenure’‘card3tenure'])如果要使用接受輸入類型的字段列表的函數(shù),則可以使用特定的@FIELDS_BETWEEN和@FIELDS_MATCHING函數(shù),如下所示:count_nulls(@FIELDS_MATCHING(‘card*'))在選擇字段中用填充節(jié)點把缺失值替換成0,如圖23-18用填充節(jié)點將選定字段中的非Null值替換為0所示。
2023/12/19
23.5導入和導出PMML模型
PMML(predictivemodelmarkuplanguage,稱為預測模型標記語言)是一個XML基礎的標準,以XML文件類型定義DTD形式,用于描述數(shù)據(jù)挖掘和統(tǒng)計模型,包括模型的輸入、用于為數(shù)據(jù)挖掘準備數(shù)據(jù)的變換、以及定義模型自身的參數(shù)。Clementine可導入和導出PMML模型,使其能夠與其他支持此格式的應用程序(例如,SPSS、SPSSCategorize)共享模型。2023/12/19支持PMML的模型類型23.5.1.1PMML3.1導入Clementine可以導入并評分由SPSS所有產(chǎn)品生成的PMML3.1模型,包括從Clementine導出的模型和由SPSS15.0生成的模型或變換PMML模型。實質(zhì)上,這包括了SPSSSmartscore組件可以評分的所有PMML模型,但以下幾種情況例外:(1)無法導入Apriori、CARMA及異常檢測模型。(2)將PMML模型導入到Clementine后,雖然可以對其進行評分,但不能進行瀏覽。(3)不能導入無法評分的模型。(4)以PMML格式導出的IBMIntelligentMiner模型,無法重新導入到Clementine中。2023/12/19
導入PMML的較早版本
對于從Clementine較早版本(11.0之前版本)中導出的遺存模型,只有某些模型類型(而不是所有類型)支持PMML導入,模型支持PMML導入關系如表23-1所示:模型類型PMML導入(2.1或3.0)神經(jīng)網(wǎng)絡不可用C&R樹是CHAID樹是QUEST樹是C5.0樹不可用規(guī)則集不可用Kohonen網(wǎng)絡不可用K-Means不可用兩步是線性回歸是Logistic回歸是因子/主成分分析不可用序列不可用CARMA不可用Apriori不可用文本提取不可用特征選擇不可用異常檢測不可用非精練(GRI,CEMI)不可用2023/12/1923.5.1.3Clementine模型PMML導出Clementine中的所有模型,除了CHAID、Anomaly、GRI、Factor/PCA、特征選擇等少數(shù)幾個模型以外,都可以用PMML編碼的XML文件的方式輸出。對于PMML模型輸出,應該選擇一個XML文件名。Clementine中的模型是否支持PMML輸出類型,模型支持PMML輸出關系如表23-2所示.模型類型支持PMML輸出類型神經(jīng)網(wǎng)絡是建立C5.0是Kohonen是線性回歸是GRI否Apriori是K-Means是邏輯回歸是兩步是分類和回歸(C&R)樹是序列探測是QUEST
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年風冷式交流弧焊機項目可行性研究報告
- 2025年新聯(lián)縐項目可行性研究報告
- 2025年可編程直流電子負載項目可行性研究報告
- 2025至2030年長焰煤項目投資價值分析報告
- 2025至2030年蠶蛹氨基酸項目投資價值分析報告
- 提升教學效率的實踐探索-校園實驗設施優(yōu)化方案研究報告
- 分布式能源在能源互聯(lián)網(wǎng)中的應用-深度研究
- 2025至2030年中國居家、旅游百寶箱數(shù)據(jù)監(jiān)測研究報告
- 2025年直流電流面板表項目可行性研究報告
- 2025年大幅面激光標志機項目可行性研究報告
- 中央2025年公安部部分直屬事業(yè)單位招聘84人筆試歷年參考題庫附帶答案詳解
- 三年級數(shù)學(上)計算題專項練習附答案
- 中醫(yī)診療方案腎病科
- 2025年安慶港華燃氣限公司招聘工作人員14人高頻重點提升(共500題)附帶答案詳解
- 人教版(2025新版)七年級下冊數(shù)學第七章 相交線與平行線 單元測試卷(含答案)
- 2025年供電所所長個人工作總結(2篇)
- 玩具有害物質(zhì)風險評估-洞察分析
- 春節(jié)節(jié)后復工全員安全意識提升及安全知識培訓
- 2024年河南省公務員錄用考試《行測》真題及答案解析
- 2023年上海鐵路局集團有限公司招聘筆試真題
評論
0/150
提交評論