數(shù)據(jù)挖掘第三部分SPSSclementine11數(shù)據(jù)處理cindy_第1頁
數(shù)據(jù)挖掘第三部分SPSSclementine11數(shù)據(jù)處理cindy_第2頁
數(shù)據(jù)挖掘第三部分SPSSclementine11數(shù)據(jù)處理cindy_第3頁
數(shù)據(jù)挖掘第三部分SPSSclementine11數(shù)據(jù)處理cindy_第4頁
數(shù)據(jù)挖掘第三部分SPSSclementine11數(shù)據(jù)處理cindy_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Clementine的數(shù)據(jù)處理介紹Clementine的數(shù)據(jù)處理技術,學習如何合并和處理文件,樣本數(shù)據(jù),處理缺失值和時序數(shù)據(jù)培訓內容 第一章 合并多個數(shù)據(jù)源數(shù)據(jù)第二章 抽取樣本,選擇和緩存數(shù)據(jù)第三章 處理缺失數(shù)據(jù)第四章 處理日期第五章 處理時序數(shù)據(jù)第六章 文件操作第七章 效率2第一章合并多個數(shù)據(jù)源數(shù)據(jù)3第一章 合并多個數(shù)據(jù)源數(shù)據(jù)內容:使用追加節(jié)點串聯(lián)包含相似字段的記錄集的文件使用合并節(jié)點把不同數(shù)據(jù)源的信息加入到現(xiàn)有數(shù)據(jù)源使用超級節(jié)點簡化數(shù)據(jù)流區(qū)域的內容數(shù)據(jù):acct97.txt, accounts98.sav, customer.dat4追加節(jié)點合并數(shù)據(jù)文件不同組記錄的相似信息有可能存儲在不同

2、數(shù)據(jù)文件不同財政年度的銀行帳目信息不同學年的考試結果不同部門的欺詐信息不同周的事務辦理數(shù)據(jù)追加節(jié)點可以合并兩個或者更多的數(shù)據(jù)源,可以分析和比較不同記錄組的相似信息。5文件讀入追加節(jié)點讀取并下傳來自同一數(shù)據(jù)源的所有記錄直至該數(shù)據(jù)源不再有記錄為止,然后讀取下一個數(shù)據(jù)源的記錄。第一個讀入的數(shù)據(jù)源的數(shù)據(jù)結構(記錄和字段數(shù)目等)默認為輸出數(shù)據(jù)的數(shù)據(jù)結構。追加節(jié)點假定讀入的數(shù)據(jù)源和最初輸入源有相似的數(shù)據(jù)結構,根據(jù)不同數(shù)據(jù)文件的字段名合并數(shù)據(jù)。6字段數(shù)目不同時的讀入規(guī)則如果一個輸入的字段數(shù)目比最初數(shù)據(jù)源少,輸入源記錄缺失的字段用未定義值($null$)填補。如果一個輸入的字段數(shù)目比最初數(shù)據(jù)源多,默認為從流中

3、過濾掉多余的字段,有一個選項可以允許輸入所有數(shù)據(jù)集的字段,所有記錄缺失的字段用未定義值($null$)填補。7追加文件使用變量文件節(jié)點讀入文件acct97.txt確定選中“從文件讀取字段名”使用SPSS文件節(jié)點讀入文件accounts98.sav使用追加節(jié)點連接兩個數(shù)據(jù)源節(jié)點使用制表節(jié)點分別輸出表格8輸入條目改變主數(shù)據(jù)集9條目設置10處理字段使用導出節(jié)點和子鏈函數(shù)提取字段substring (1, 2, ACCTNO)提取字段ACCTsubstring (4, 5, ACCTNO)提取字段CUSTREF substring (10, 5, ACCTNO)提取字段ACCTREF使用過濾節(jié)點過濾字

4、段ACCTNO11數(shù)據(jù)流和追加文件12合并節(jié)點合并數(shù)據(jù)文件在很多企業(yè)里,個體的信息存放于不同數(shù)據(jù)源中消費者信息和購買信息賬目詳細資料和事務辦理數(shù)據(jù)房產(chǎn)商的信息按照個體和財產(chǎn)水平同樣本調查中每隔一段時間收集的個體的信息合并節(jié)點可以合并兩個或者更多的數(shù)據(jù)源,可以整體分析個體存放于不同數(shù)據(jù)源中的信息。13合并文件使用變量文件節(jié)點讀入文件customer.dat確認選中從文件讀取字段名分隔符選中制表符,取消逗號分隔符使用合并節(jié)點連接變量文件節(jié)點和追加節(jié)點選中按照關鍵字段包括匹配和不匹配記錄使用制表節(jié)點輸出表格14合并方法按照順序合并數(shù)據(jù):如每一輸入的第n 個記錄被合并生成第n 個輸出記錄。只要任一記錄

5、缺少匹配的輸入記錄,則不會生成任何輸出記錄。按照關鍵字段合并數(shù)據(jù):如果某一關鍵字段值不止一次的出現(xiàn),則返回所有可能的組合。只包括匹配記錄(內部合并)包括匹配和不匹配記錄(完全外部合并)包括匹配和選中的不匹配記錄(部分全外部合并)包括第一個數(shù)據(jù)集中且不與其它數(shù)據(jù)集匹配的記錄(反向合并)合并相同的關鍵字段:每個輸出字段都有不同的字段名15外部合并選擇數(shù)據(jù)集16超級節(jié)點簡化數(shù)據(jù)流超級節(jié)點在流中用星型圖標表示,圖標的明暗程度表示超級節(jié)點的類型和流的方向(流向或者流出)總共有三種類型的超級節(jié)點: 源超級節(jié)點 過程超級節(jié)點 終端超級節(jié)點17超級節(jié)點規(guī)則兩個選中的節(jié)點之間必須有路徑通過。一個完整的流不能壓縮

6、為一個超級節(jié)點。要壓縮的部分流不能包括分叉路徑(終端超級節(jié)點在每個分叉路徑包含終端節(jié)點除外)。操作創(chuàng)建超級節(jié)點編輯超級節(jié)點保存超級節(jié)點18練習custtravel1.dat,custtravel2.dat 記錄旅游公司顧客的信息,holtravel.dat記錄不同假期,公司提供的旅游信息,合并三個數(shù)據(jù)文件。使用變量文件節(jié)點分別讀入這三個數(shù)據(jù)文件。 連接三個制表節(jié)點,檢查數(shù)據(jù)文件的讀入是否正確。用Append節(jié)點,追加兩個記錄顧客信息的數(shù)據(jù)文件。編輯節(jié)點,并檢查節(jié)點設置是否正確(確保custtravel1.dat是第一個數(shù)據(jù)文件),用制表節(jié)點,查看追加結果。用Merge節(jié)點,合并holtrave

7、l.dat和生成的數(shù)據(jù)文件,選擇包括匹配和不匹配記錄。用制表節(jié)點,查看合并結果。19第二章抽取樣本,選擇和緩存數(shù)據(jù)20第二章 抽取樣本,選擇和緩存數(shù)據(jù)內容:使用區(qū)分節(jié)點刪除副本使用抽樣和選擇節(jié)點抽取樣本使用分割節(jié)點分割數(shù)據(jù)為訓練和測試樣本使用緩存數(shù)據(jù)加速數(shù)據(jù)處理和凍結樣本目的:介紹一系列對數(shù)據(jù)進行預處理的方法數(shù)據(jù):前一章合并生成的數(shù)據(jù),存儲于文件fulldata.txt21使用區(qū)分節(jié)點刪除副本打開分割數(shù)據(jù).str使用變量文件節(jié)點讀入文件fulldata.txt確定選中“從文件讀取字段名”使用制表節(jié)點輸出表格使用區(qū)分節(jié)點連接變量文件節(jié)點在字段ID選擇副本使用制表節(jié)點輸出表格22使用抽樣節(jié)點抽取樣

8、本使用抽樣節(jié)點連接變量文件節(jié)點設定抽樣節(jié)點選項包括樣本random值為60設定隨機種子數(shù)54321使用制表節(jié)點輸出表格23使用導出、選擇節(jié)點抽取樣本使用導出節(jié)點連接變量文件節(jié)點導出字段flag規(guī)則random0 (2) 使用制表節(jié)點輸出表格使用分布節(jié)點連接導出節(jié)點選擇字段flag輸出分布圖使用選擇節(jié)點連接導出節(jié)點條件flag=0 使用制表節(jié)點輸出表格24使用分割節(jié)點分割樣本使用分割節(jié)點連接數(shù)據(jù)文件節(jié)點選擇分成兩部分分割部分的和少于100%,丟棄剩余的數(shù)據(jù)設定隨機種子123使用分布節(jié)點連接分割節(jié)點選擇字段Partition輸出分布圖25數(shù)據(jù)緩存為了最優(yōu)化的執(zhí)行,用戶可以對任何沒有結束的節(jié)點建立一

9、個緩存。當對一個節(jié)點建立一個緩存的時候,緩存區(qū)會被下一次執(zhí)行數(shù)據(jù)流時要通過節(jié)點的數(shù)據(jù)所填滿。以后數(shù)據(jù)就從該緩存區(qū)中讀取而不是從數(shù)據(jù)源中讀取。緩存的主要作用:避免預處理過程的重復,提高速度凍結樣本,例如導出和分割節(jié)點中使用隨機函數(shù)選擇樣本26分割節(jié)點中使用緩存啟用緩存帶有緩沖區(qū)的節(jié)點能夠以一個小的文件圖標被顯示在右上角。當數(shù)據(jù)在節(jié)點處被緩存時,這個文件圖標是綠色的。刷新緩存保存緩存以SPSS 文件的形式來保存一個緩存區(qū)的內容讀取緩存可以通過SPSS 文件節(jié)點在流中讀入可以恢復到最初生成緩存的節(jié)點27練習使用變量文件節(jié)點,讀入數(shù)據(jù)文件custandhol.dat。使用區(qū)分節(jié)點移除重復記錄,區(qū)分字段

10、為CUSTID。使用制表節(jié)點查看數(shù)據(jù)文件對上述數(shù)據(jù)文件,用抽樣節(jié)點隨機抽取70%的記錄 在抽樣節(jié)點,設置隨機種子值執(zhí)行該流,觀察每次的結果是否相同使用分割節(jié)點把數(shù)據(jù)文件分割成兩部分,70訓練集,30測試集。分別使用制表節(jié)點和分布節(jié)點查看結果在抽樣節(jié)點,緩存數(shù)據(jù)再次執(zhí)行數(shù)據(jù)流,觀察數(shù)據(jù)流是從數(shù)據(jù)源節(jié)點,還是從抽樣節(jié)點執(zhí)行28第三章處理缺失數(shù)據(jù)29第三章 處理缺失數(shù)據(jù)內容:使用質量節(jié)點產(chǎn)生過濾和選擇節(jié)點包含和排除具有缺失數(shù)據(jù)的字段和記錄使用填充節(jié)點刪除空白使用類型節(jié)點自動檢查空白處理缺失數(shù)據(jù)的建議目的:這一章引入一系列方法處理缺失數(shù)據(jù)數(shù)據(jù):數(shù)據(jù)文件SmallSampleMissing.txt30使

11、用質量節(jié)點提高數(shù)據(jù)質量使用變量文件節(jié)點讀入數(shù)據(jù)SmallSampleMissing.txt 確定選中“讀取字段名”使用類型節(jié)點連接變量文件節(jié)點CHILDREN值99設定空白使用制表節(jié)點輸出表格使用質量節(jié)點選中未定義值,空格,空白和空字符串輸出質量報告31生成選擇節(jié)點和過濾節(jié)點質量報告產(chǎn)生菜單生成選擇節(jié)點和過濾節(jié)點,插入類型節(jié)點和制表節(jié)點之間使用制表節(jié)點輸出表格生成選擇節(jié)點選擇帶有至少一個缺失值的記錄生成過濾節(jié)點過濾帶有缺失值的字段32數(shù)據(jù)流和輸出33使用填充節(jié)點移除空白使用類型節(jié)點指定空白三個填充節(jié)點插入類型節(jié)點和制表節(jié)點之間字段CHILDREN替換為0字段INCOME替換為23407 字段S

12、EX 替換為“unknown”使用制表節(jié)點輸出表格34自動檢查缺失和超出邊界的值類型節(jié)點包含一種自動檢查過程,自動檢查數(shù)據(jù)是否符合當前的類型和邊界設置。檢查過程會忽略空白自動檢查設置:無,無效,強制,丟棄,警告,中止強制設置選項35強制設定結果36處理缺失數(shù)據(jù)的建議使用生成的選擇節(jié)點丟棄有問題的記錄使用生成的過濾節(jié)點丟棄有問題的字段使用填充節(jié)點填充值使用自動檢查強制或丟棄不合規(guī)定的值可以用預測模型(例如神經(jīng)網(wǎng)絡)導出的值填充缺失值37練習變量文件節(jié)點讀入數(shù)據(jù)文件custandhol.dat。類型節(jié)點連接數(shù)據(jù)源節(jié)點,指定空白。 GENDER 字段White Space指定為空白HOLCOST字段

13、null指定為空白在類型節(jié)點上連接質量節(jié)點,計算空白值數(shù)目。從質量節(jié)點自動生成選擇節(jié)點,選擇沒有缺失值的記錄統(tǒng)計節(jié)點連接生成選擇節(jié)點,計算HOLCOST 字段的均值。填充節(jié)點連接類型節(jié)點,均值填充HOLCOST字段缺失值。用制表節(jié)點查看輸出結果。用超級節(jié)點封裝填充節(jié)點和制表節(jié)點保存流mystream.str,以后的練習將會用到這個流。38第四章處理日期39第四章 處理日期內容:介紹如何設定流中的日期格式介紹日期函數(shù)處理涉及日期字段的計算介紹字符串函數(shù)處理日期的格式介紹如何使用導出節(jié)點的多重模式目的:這一章我們介紹在Clementine中如何處理日期字段數(shù)據(jù):fulldata.txt, Acco

14、unt_DateProb.dat ,MultDate.txt 40在Clementine中指定日期格式41計算時間長度使用變量文件節(jié)點讀入數(shù)據(jù)fulldata.txt確定選中“從文件讀取字段名”使用導出節(jié)點導出字段LENGTH_WAIT導出規(guī)則date_months_difference(STARTDT,OPENDATE)使用過濾節(jié)點過濾除STARTDT,OPENDATE和 LENGTH_WAIT以外的字段使用制表節(jié)點輸出表格42日期格式化的字符串處理實例打開流日期格式化.str 流基本上由一些導出節(jié)點組成,把字段中不正常的格式轉換成Clementine支持的日期格式。43表格顯示有問題的日期

15、字段可以看出Open_Date 字段有兩個問題有些記錄中部分字段名“Open_” 前綴于日期值有些記錄中只有月和年解決辦法移除前綴“Open_” 缺失天數(shù)值的記錄,填補1544從字段中提取日期部分45填補天數(shù)值46多重字段的處理打開數(shù)據(jù)流 多重時間.str 加入導出節(jié)點選擇多重模式導出字段Pur1, Pur2, Pur3, Pur4 和 Pur5 字段名后綴_Time 導出規(guī)則date_days_difference(AcctEst, FIELD)47練習打開數(shù)據(jù)流ex4.str通過數(shù)據(jù)流特征對話框更改日期顯示的格式為dd/mm/yy2-digit date設置為2005導出節(jié)點連接生成選擇節(jié)

16、點導出兩個字段分別表示顧客年齡和開始旅游的月份。字段age,導出規(guī)則date_years_difference(date1,date2) 字段hol_month,導出規(guī)則substring(position, length, field)使用制表節(jié)點查看結果。保存流。48第五章處理時序數(shù)據(jù)49第五章 處理時序數(shù)據(jù)內容:介紹一些CLEM時序函數(shù)介紹導出節(jié)點的計數(shù)和狀態(tài)選項介紹使用歷史節(jié)點重構時序數(shù)據(jù)目的:這一章中我們介紹在Clementine中可用的一些處理時序數(shù)據(jù)的方法數(shù)據(jù):year_balances.txt ,year_balances.sav50數(shù)據(jù)變量文件節(jié)點讀入數(shù)據(jù)文件year_bal

17、ances.txt 確定選中“從文件讀取字段名”使用類型節(jié)點實例化數(shù)據(jù)使用排序節(jié)點按照ACCTNO,MONTH 排序使用制表節(jié)點輸出表格51CLEM時序函數(shù)使用INDEX記錄索引使用OFFSET重新得到字段的值OFFSET(ACCTNO,1)OFFSET(ACCTNO,-3)平均,求和,比較值MIN MAX MEAN SUM SDEVSUM(BALANCE)MEAN(BALANCE,3) 52計算每個賬目字段余額3月平均 53導出節(jié)點的計數(shù)選項54導出節(jié)點的狀態(tài)選項55圖解數(shù)據(jù)經(jīng)過歷史節(jié)點56使用歷史節(jié)點重構時序數(shù)據(jù)使用歷史節(jié)點連接排序節(jié)點選擇字段BALANCE 偏差1,間隔11使用制表節(jié)點輸

18、出表格使用抽樣樣本包括樣本抽樣1-in-12使用制表節(jié)點輸出表格57練習首先,創(chuàng)建新的字段表示假日消費的累積總額。在創(chuàng)建新的字段前,我們必須對數(shù)據(jù)根據(jù)日期進行排序。排序節(jié)點連接導出節(jié)點hol_month 。設置Sort節(jié)點,根據(jù)hol_month和TRAVDATE字段的升序排序導出節(jié)點連接排序節(jié)點。導出一個字段用以表示字段HOL_COST的累積值。導出規(guī)則SUM(field)使用制表節(jié)點查看數(shù)據(jù)。附加題:對字段HOLCODE,hol_month和TRAVDATE進行升序排序后生成新的字段。從1開始,每次遇到新的度假地點時增加1可以利用OFFSET和導出節(jié)點的計數(shù)形式58第六章文件操作59第六章

19、 文件操作內容介紹聚合節(jié)點總結記錄介紹設計標記節(jié)點轉換一個集字段為一組標記字段使用合并節(jié)點合并聚合節(jié)點和設計標記節(jié)點的輸出目的這一章介紹兩個能改變數(shù)據(jù)整體結構的節(jié)點數(shù)據(jù)fulldata.txt60圖解數(shù)據(jù)經(jīng)過聚合節(jié)點61聚合數(shù)據(jù)打開流排序節(jié)點連接選擇節(jié)點按字段ID排序聚合節(jié)點連接排序節(jié)點關鍵字段ID,關鍵字段相鄰聚合字段:AGE, INCOME和 CHILDREN 聚合模式:Max聚合字段OPEN_BAL和 CURR_BAL聚合模式:Sum使用制表節(jié)點輸出表格62圖解數(shù)據(jù)經(jīng)過設計標記字段和聚合字段63設為標志節(jié)點設為標記節(jié)點連接排序節(jié)點集字段ACCOUNT 排序節(jié)點連接設計標記節(jié)點按ID排序設計標記節(jié)點中選中聚合關鍵詞ID使用制表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論