![SPSSClementine節(jié)點(diǎn)_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/10/d3f3eafe-c84d-4a8a-9dd3-2bd4087a980d/d3f3eafe-c84d-4a8a-9dd3-2bd4087a980d1.gif)
![SPSSClementine節(jié)點(diǎn)_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/10/d3f3eafe-c84d-4a8a-9dd3-2bd4087a980d/d3f3eafe-c84d-4a8a-9dd3-2bd4087a980d2.gif)
![SPSSClementine節(jié)點(diǎn)_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/10/d3f3eafe-c84d-4a8a-9dd3-2bd4087a980d/d3f3eafe-c84d-4a8a-9dd3-2bd4087a980d3.gif)
![SPSSClementine節(jié)點(diǎn)_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/10/d3f3eafe-c84d-4a8a-9dd3-2bd4087a980d/d3f3eafe-c84d-4a8a-9dd3-2bd4087a980d4.gif)
![SPSSClementine節(jié)點(diǎn)_第5頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/10/d3f3eafe-c84d-4a8a-9dd3-2bd4087a980d/d3f3eafe-c84d-4a8a-9dd3-2bd4087a980d5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、SPSS Clementine節(jié)點(diǎn)節(jié)點(diǎn)劉喜平江西財(cái)經(jīng)大學(xué)數(shù)據(jù)挖掘技術(shù)講座之Page 2目錄目錄源選項(xiàng)卡源選項(xiàng)卡記錄選項(xiàng)卡記錄選項(xiàng)卡圖形選項(xiàng)卡圖形選項(xiàng)卡輸出選項(xiàng)卡輸出選項(xiàng)卡導(dǎo)出選項(xiàng)卡導(dǎo)出選項(xiàng)卡字段選項(xiàng)卡字段選項(xiàng)卡Page 3源選項(xiàng)卡源選項(xiàng)卡n Clementine 提供了簡單有效的獲取不同數(shù)據(jù)來源的方法提供了簡單有效的獲取不同數(shù)據(jù)來源的方法Page 4n 資料來源選項(xiàng)板包含以下節(jié)點(diǎn)資料來源選項(xiàng)板包含以下節(jié)點(diǎn): n 數(shù)據(jù)庫數(shù)據(jù)庫用于通過用于通過 ODBC 導(dǎo)入資料。導(dǎo)入資料。 n 可變文件可變文件用于無限制字段的用于無限制字段的 ASC資料。資料。 n 固定文件固定文件用于固定字段的用于固定字段的
2、 ASC資料。資料。 n SPSS 文件文件用于導(dǎo)入用于導(dǎo)入 SPSS 文件。文件。 n SAS 文件文件用于導(dǎo)入用于導(dǎo)入 SAS 格式的文件。格式的文件。 n Excel用于導(dǎo)入用于導(dǎo)入Excel電子表格電子表格n 用戶輸入用戶輸入用于替代已存在的來源節(jié)點(diǎn),也可通過在已存在節(jié)用于替代已存在的來源節(jié)點(diǎn),也可通過在已存在節(jié)點(diǎn)上點(diǎn)擊鼠標(biāo)右鍵的方式使用該節(jié)點(diǎn)。點(diǎn)上點(diǎn)擊鼠標(biāo)右鍵的方式使用該節(jié)點(diǎn)。 n 企業(yè)視圖企業(yè)視圖n DimensionsPage 5可變文件可變文件n 特點(diǎn):特點(diǎn):n 通常一行數(shù)據(jù)為一個(gè)樣本通常一行數(shù)據(jù)為一個(gè)樣本n 每行數(shù)據(jù)有相同的列,分別依次對應(yīng)不同的變量每行數(shù)據(jù)有相同的列,分別依
3、次對應(yīng)不同的變量n 列之間以逗號等分隔符分隔列之間以逗號等分隔符分隔n 變量名一般存儲在第一行變量名一般存儲在第一行Page 6節(jié)點(diǎn)參數(shù)設(shè)置節(jié)點(diǎn)參數(shù)設(shè)置文件文件n 指定所讀入數(shù)據(jù)指定所讀入數(shù)據(jù)的基本格式的基本格式Page 7節(jié)點(diǎn)參數(shù)設(shè)置節(jié)點(diǎn)參數(shù)設(shè)置數(shù)據(jù)數(shù)據(jù)n 指定所讀入數(shù)據(jù)的基本類型等指定所讀入數(shù)據(jù)的基本類型等覆蓋覆蓋:查看目前儲存:查看目前儲存類型和是否需要重新類型和是否需要重新儲存。儲存。 存儲存儲:可修改每一:可修改每一字字段段存儲類型的列表。存儲類型的列表。Clementine中其他的中其他的存儲類型有:實(shí)數(shù)型存儲類型有:實(shí)數(shù)型、 字符型、時(shí)間型、字符型、時(shí)間型、日期型。日期型。Pag
4、e 8節(jié)點(diǎn)參數(shù)設(shè)置節(jié)點(diǎn)參數(shù)設(shè)置過濾過濾n 指定讀數(shù)據(jù)時(shí)不讀哪些變量指定讀數(shù)據(jù)時(shí)不讀哪些變量,并可重新修改變量名并可重新修改變量名Page 9節(jié)點(diǎn)參數(shù)設(shè)置節(jié)點(diǎn)參數(shù)設(shè)置類型類型n 指定所讀數(shù)據(jù)的變量類型指定所讀數(shù)據(jù)的變量類型n 對變量的缺省值和取值合理性等進(jìn)行檢查對變量的缺省值和取值合理性等進(jìn)行檢查實(shí)例化后的窗口實(shí)例化后的窗口實(shí)例化前的窗口實(shí)例化前的窗口Page 10節(jié)點(diǎn)參數(shù)設(shè)置節(jié)點(diǎn)參數(shù)設(shè)置類型類型n Clementine中變量的類型中變量的類型n 范圍型:如年齡范圍型:如年齡n 離散型:如家庭人口數(shù)離散型:如家庭人口數(shù)n 標(biāo)志型:如性別標(biāo)志型:如性別n 集合型:如職業(yè)集合型:如職業(yè)n 有序集型:
5、如學(xué)歷和收入水平有序集型:如學(xué)歷和收入水平n 缺省型:未明確的變量類型缺省型:未明確的變量類型n 無類型:不屬于上述類型無類型:不屬于上述類型Page 11節(jié)點(diǎn)參數(shù)設(shè)置節(jié)點(diǎn)參數(shù)設(shè)置注解注解n 給節(jié)點(diǎn)命名和添加注釋性的文字給節(jié)點(diǎn)命名和添加注釋性的文字Page 12讀取讀取Excel電子表格電子表格Page 13讀取讀取Excel電子表格電子表格Page 14讀取讀取SPSS格式文件格式文件n 數(shù)據(jù)文件擴(kuò)展名為數(shù)據(jù)文件擴(kuò)展名為.savPage 15讀取數(shù)據(jù)庫文件讀取數(shù)據(jù)庫文件n Clementine支持支持ODBC方式訪問數(shù)據(jù)庫方式訪問數(shù)據(jù)庫n 兩個(gè)步驟:兩個(gè)步驟:n 建立數(shù)據(jù)源建立數(shù)據(jù)源n 通過
6、該數(shù)據(jù)源訪問數(shù)據(jù)庫通過該數(shù)據(jù)源訪問數(shù)據(jù)庫Page 16讀取數(shù)據(jù)庫文件讀取數(shù)據(jù)庫文件n 選擇相應(yīng)的數(shù)據(jù)源和數(shù)據(jù)庫中的表選擇相應(yīng)的數(shù)據(jù)源和數(shù)據(jù)庫中的表Page 17固定格式文件固定格式文件n 使用固定文件節(jié)點(diǎn)從使用固定文件節(jié)點(diǎn)從固定字段的文本文件固定字段的文本文件中讀入數(shù)據(jù)(字段未中讀入數(shù)據(jù)(字段未被分隔,但是始于相被分隔,但是始于相同的位置,并有固定同的位置,并有固定長度)。長度)。 n 將數(shù)據(jù)導(dǎo)入將數(shù)據(jù)導(dǎo)入 Clementine,并指定,并指定列的位置和記錄長度。列的位置和記錄長度。Page 18用戶輸入數(shù)據(jù)用戶輸入數(shù)據(jù)Page 19變量的說明變量的說明n 變量說明是對讀入數(shù)據(jù)流中變量取值的有
7、效性進(jìn)行限定、變量說明是對讀入數(shù)據(jù)流中變量取值的有效性進(jìn)行限定、檢查和修正,同時(shí)指明各個(gè)變量在未來建模中的角色檢查和修正,同時(shí)指明各個(gè)變量在未來建模中的角色Page 20記錄選項(xiàng)卡記錄選項(xiàng)卡n 記錄操作節(jié)點(diǎn)用于在記錄層次修改資料集。這些操作在數(shù)記錄操作節(jié)點(diǎn)用于在記錄層次修改資料集。這些操作在數(shù)據(jù)挖掘的數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備階段很重要。據(jù)挖掘的數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備階段很重要。n 記錄選項(xiàng)卡包括以下節(jié)點(diǎn):記錄選項(xiàng)卡包括以下節(jié)點(diǎn):n 選擇(選擇(select) n 樣本(樣本(sample) n 平衡(平衡(balance) n 匯總(匯總(aggregate) n RFM匯總匯總n 排序(排序(sort
8、) n 合并(合并(merge) n 追加(追加(append) n 區(qū)分(區(qū)分(distinct)Page 21選擇節(jié)點(diǎn)選擇節(jié)點(diǎn)n 用戶可以使用選擇節(jié)點(diǎn)根據(jù)具體條件從數(shù)據(jù)流中選擇或排用戶可以使用選擇節(jié)點(diǎn)根據(jù)具體條件從數(shù)據(jù)流中選擇或排除某一記錄子集,如符合除某一記錄子集,如符合ClassDrink條件的記錄條件的記錄子集。子集。 n 選擇節(jié)點(diǎn)也用于選擇一定比例的記錄,用戶可以使用選擇選擇節(jié)點(diǎn)也用于選擇一定比例的記錄,用戶可以使用選擇節(jié)點(diǎn)來創(chuàng)建自己的條件。例如,用戶可以創(chuàng)建如下條件:節(jié)點(diǎn)來創(chuàng)建自己的條件。例如,用戶可以創(chuàng)建如下條件: Class=Drinkand random(10)=4 這一條
9、件將從這一條件將從 Class 為為“Drink”的記錄中,選擇大約的記錄中,選擇大約40,并向流程的下游傳遞這些記錄以用于進(jìn)一步分析,并向流程的下游傳遞這些記錄以用于進(jìn)一步分析Page 22Page 23樣本節(jié)點(diǎn)樣本節(jié)點(diǎn)n 用戶可以使用樣本節(jié)點(diǎn)來選取一定比例的記錄。其作用是:用戶可以使用樣本節(jié)點(diǎn)來選取一定比例的記錄。其作用是: n 提高數(shù)據(jù)挖掘工具的性能。提高數(shù)據(jù)挖掘工具的性能。 n 大量削減一個(gè)大型的數(shù)據(jù)集,比如擁有上百萬記錄的數(shù)據(jù)集。使大量削減一個(gè)大型的數(shù)據(jù)集,比如擁有上百萬記錄的數(shù)據(jù)集。使用抽樣節(jié)點(diǎn),使用者可以通過隨機(jī)抽樣來生成模型,該模型通常用抽樣節(jié)點(diǎn),使用者可以通過隨機(jī)抽樣來生成模
10、型,該模型通常和從整個(gè)數(shù)據(jù)集中導(dǎo)出的模型一樣精確。和從整個(gè)數(shù)據(jù)集中導(dǎo)出的模型一樣精確。 n 訓(xùn)練類神經(jīng)網(wǎng)絡(luò)。使用者應(yīng)該為訓(xùn)練和測試各保留一個(gè)樣本。訓(xùn)練類神經(jīng)網(wǎng)絡(luò)。使用者應(yīng)該為訓(xùn)練和測試各保留一個(gè)樣本。Page 24Page 25平衡節(jié)點(diǎn)平衡節(jié)點(diǎn)n 用戶可以使用平衡節(jié)點(diǎn)來修正數(shù)據(jù)集中的不均勻性,以便用戶可以使用平衡節(jié)點(diǎn)來修正數(shù)據(jù)集中的不均勻性,以便能夠符合特定的測試原則。能夠符合特定的測試原則。n 如:某次健康調(diào)查的數(shù)據(jù)中如:某次健康調(diào)查的數(shù)據(jù)中1%為病患兒童,為病患兒童,99%為健康為健康兒童兒童Page 26匯總節(jié)點(diǎn)匯總節(jié)點(diǎn)n 可以使用匯總節(jié)點(diǎn),把一系列輸入記錄變換成總括性的、可以使用匯總節(jié)
11、點(diǎn),把一系列輸入記錄變換成總括性的、聚合的輸出記錄聚合的輸出記錄Page 27排序節(jié)點(diǎn)排序節(jié)點(diǎn)n 可以使用排序節(jié)點(diǎn)根據(jù)一個(gè)或多個(gè)字段值對記錄進(jìn)行升序可以使用排序節(jié)點(diǎn)根據(jù)一個(gè)或多個(gè)字段值對記錄進(jìn)行升序或降序排列?;蚪敌蚺帕?。 n 排序節(jié)點(diǎn)經(jīng)常用于瀏覽和選擇帶有最常見資料值的記錄,排序節(jié)點(diǎn)經(jīng)常用于瀏覽和選擇帶有最常見資料值的記錄,有助于探索分析資料并作出決策,比如選擇前十名最好的有助于探索分析資料并作出決策,比如選擇前十名最好的顧客的記錄。顧客的記錄。 Page 28合并節(jié)點(diǎn)合并節(jié)點(diǎn)n 合并節(jié)點(diǎn)的功能是接受多重輸入記錄,并生成包含部分或合并節(jié)點(diǎn)的功能是接受多重輸入記錄,并生成包含部分或全部輸入字段
12、的單一輸出記錄,這一操作在合并來自不同全部輸入字段的單一輸出記錄,這一操作在合并來自不同資料來源的資料時(shí)很有用。資料來源的資料時(shí)很有用。 Page 29Page 30追加節(jié)點(diǎn)追加節(jié)點(diǎn)n 追加節(jié)點(diǎn)是在數(shù)據(jù)尾部不斷追加樣本的過程追加節(jié)點(diǎn)是在數(shù)據(jù)尾部不斷追加樣本的過程n 追加節(jié)點(diǎn)用于合并有相似結(jié)構(gòu)而數(shù)據(jù)不同的數(shù)據(jù)集,假定追加節(jié)點(diǎn)用于合并有相似結(jié)構(gòu)而數(shù)據(jù)不同的數(shù)據(jù)集,假定它們具有同樣的數(shù)據(jù)結(jié)構(gòu)(同樣的字段,同樣的順序),它們具有同樣的數(shù)據(jù)結(jié)構(gòu)(同樣的字段,同樣的順序),追加節(jié)點(diǎn)將會它們合并成一個(gè)大的數(shù)據(jù)集追加節(jié)點(diǎn)將會它們合并成一個(gè)大的數(shù)據(jù)集Page 31Page 32區(qū)分節(jié)點(diǎn)區(qū)分節(jié)點(diǎn)n 可以使用區(qū)分節(jié)
13、點(diǎn)來清除重復(fù)性記錄。如果想在數(shù)據(jù)集中可以使用區(qū)分節(jié)點(diǎn)來清除重復(fù)性記錄。如果想在數(shù)據(jù)集中每一項(xiàng)對應(yīng)一個(gè)單一記錄,如客戶、帳號、產(chǎn)品等,則這每一項(xiàng)對應(yīng)一個(gè)單一記錄,如客戶、帳號、產(chǎn)品等,則這項(xiàng)操作將很有用的。項(xiàng)操作將很有用的。Page 33字段選項(xiàng)卡字段選項(xiàng)卡n 字段選項(xiàng)卡實(shí)現(xiàn)對字段的說明、重新計(jì)算、類別調(diào)整等目字段選項(xiàng)卡實(shí)現(xiàn)對字段的說明、重新計(jì)算、類別調(diào)整等目標(biāo)標(biāo)n 字段選項(xiàng)卡包含以下節(jié)點(diǎn):字段選項(xiàng)卡包含以下節(jié)點(diǎn): n類型類型 n過濾過濾n導(dǎo)出導(dǎo)出 n整體整體n填充填充 n匿名化匿名化n重新分類重新分類n分箱分箱n分區(qū)分區(qū)n設(shè)置成標(biāo)記(設(shè)置成標(biāo)記(Set to Flag) n重新結(jié)構(gòu)化重新結(jié)構(gòu)化
14、n轉(zhuǎn)置轉(zhuǎn)置n時(shí)間區(qū)間時(shí)間區(qū)間n歷史歷史nSPSS變換變換n字段重排字段重排 Page 34類型節(jié)點(diǎn)類型節(jié)點(diǎn)n 用于指定字段的一系列重要屬性用于指定字段的一系列重要屬性Page 35類型節(jié)點(diǎn)類型節(jié)點(diǎn)n “缺失缺失”選項(xiàng)選項(xiàng)n 開:表示允許相應(yīng)變量取用開:表示允許相應(yīng)變量取用戶缺失值戶缺失值n 關(guān):不允許相應(yīng)變量取用戶關(guān):不允許相應(yīng)變量取用戶缺失值缺失值n 指定:定義變量取值范圍、指定:定義變量取值范圍、用戶缺失值等信息用戶缺失值等信息指定對變量值的修指定對變量值的修正方法正方法視下列值為空白視下列值為空白此處輸入的離散值此處輸入的離散值當(dāng)空白處理當(dāng)空白處理此處輸入的范圍值此處輸入的范圍值當(dāng)空白處
15、理當(dāng)空白處理系統(tǒng)缺失值系統(tǒng)缺失值$null$和空格當(dāng)空白處理和空格當(dāng)空白處理Page 36類型節(jié)點(diǎn)類型節(jié)點(diǎn)n “檢查檢查”項(xiàng)項(xiàng)n 對超出取值范圍的不合理取值或系統(tǒng)缺失值進(jìn)行修正對超出取值范圍的不合理取值或系統(tǒng)缺失值進(jìn)行修正n 修正方式:修正方式:n 無:不進(jìn)行修正無:不進(jìn)行修正n 無效:用系統(tǒng)缺失值無效:用系統(tǒng)缺失值($null$)替代替代n 強(qiáng)制:根據(jù)下述規(guī)則被轉(zhuǎn)化為一個(gè)該種類型的合法值:強(qiáng)制:根據(jù)下述規(guī)則被轉(zhuǎn)化為一個(gè)該種類型的合法值: n 對于標(biāo)志型,用對于標(biāo)志型,用“假假” 值替代值替代n 對于集類型,用集值的第一個(gè)元素替代對于集類型,用集值的第一個(gè)元素替代n 對于數(shù)值型,超過區(qū)間上限的
16、數(shù)字用上限替代,低于區(qū)間下限的數(shù)字用對于數(shù)值型,超過區(qū)間上限的數(shù)字用上限替代,低于區(qū)間下限的數(shù)字用下限替代,其余值用該區(qū)間的中位數(shù)代替下限替代,其余值用該區(qū)間的中位數(shù)代替 n 丟棄:剔除相應(yīng)樣本數(shù)據(jù)丟棄:剔除相應(yīng)樣本數(shù)據(jù)n 警告:給出警告信息警告:給出警告信息n 中止:中止流的執(zhí)行中止:中止流的執(zhí)行Page 37過濾節(jié)點(diǎn)過濾節(jié)點(diǎn)n 三個(gè)功能:三個(gè)功能: n (1)從記錄中過濾或剔除從記錄中過濾或剔除字段字段 n (2)重命名字段重命名字段 n (3)把字段從一個(gè)來源節(jié)把字段從一個(gè)來源節(jié)點(diǎn)映像到另一個(gè)點(diǎn)映像到另一個(gè) Page 38導(dǎo)出節(jié)點(diǎn)導(dǎo)出節(jié)點(diǎn)n 從原始字段中導(dǎo)出新從原始字段中導(dǎo)出新字段字段P
17、age 39導(dǎo)出節(jié)點(diǎn)導(dǎo)出節(jié)點(diǎn)n 選項(xiàng)選項(xiàng)n 模式:模式:“單個(gè)單個(gè)” 還是還是 “多個(gè)多個(gè)”,取決于使用者是否想導(dǎo)出多重字,取決于使用者是否想導(dǎo)出多重字段。段。n 導(dǎo)出為:選擇導(dǎo)出節(jié)點(diǎn)的類型。導(dǎo)出為:選擇導(dǎo)出節(jié)點(diǎn)的類型。n 公式:其新字段是任一個(gè)公式:其新字段是任一個(gè) CLEM 表達(dá)式的結(jié)果。表達(dá)式的結(jié)果。 n 標(biāo)志:其新字段是一個(gè)標(biāo)記,顯示了指定的條件。標(biāo)志:其新字段是一個(gè)標(biāo)記,顯示了指定的條件。 n 集:其新字段是一個(gè)集,即它的元素是一組指定值。集:其新字段是一個(gè)集,即它的元素是一組指定值。 n 狀態(tài):其新字段是兩種狀態(tài)的一種。在兩種狀態(tài)之間的轉(zhuǎn)換狀態(tài):其新字段是兩種狀態(tài)的一種。在兩種狀態(tài)
18、之間的轉(zhuǎn)換 是根據(jù)是根據(jù)指定的條件來決定的。指定的條件來決定的。 n 計(jì)數(shù):其新字段是基于條件正確的次數(shù)。計(jì)數(shù):其新字段是基于條件正確的次數(shù)。 n 條件:其新字段是兩種表達(dá)式之一的值,取決于條件的值。條件:其新字段是兩種表達(dá)式之一的值,取決于條件的值。 n 字段類型:新導(dǎo)出字段的類型字段類型:新導(dǎo)出字段的類型 Page 40填充節(jié)點(diǎn)填充節(jié)點(diǎn)n 填充節(jié)點(diǎn)用來替換字段值填充節(jié)點(diǎn)用來替換字段值以及改變存儲。用戶可以以及改變存儲。用戶可以用一個(gè)指定的用一個(gè)指定的 CLEM 條條件,比如件,比如BLANK(FIELD),來替換字,來替換字段值。也可以用一個(gè)指定段值。也可以用一個(gè)指定的值替換所有的空缺和無
19、的值替換所有的空缺和無效值。填充節(jié)點(diǎn)通常與類效值。填充節(jié)點(diǎn)通常與類型節(jié)點(diǎn)結(jié)合起來替換遺漏型節(jié)點(diǎn)結(jié)合起來替換遺漏值。值。Page 41Page 42設(shè)為標(biāo)記節(jié)點(diǎn)設(shè)為標(biāo)記節(jié)點(diǎn)n 根據(jù)一個(gè)類型為集合的字段創(chuàng)建若干個(gè)標(biāo)志類型的字段根據(jù)一個(gè)類型為集合的字段創(chuàng)建若干個(gè)標(biāo)志類型的字段Page 43重新分類節(jié)點(diǎn)重新分類節(jié)點(diǎn)n 用于對類別值進(jìn)行調(diào)整用于對類別值進(jìn)行調(diào)整Page 44分箱節(jié)點(diǎn)分箱節(jié)點(diǎn)n 用于將數(shù)據(jù)離散化用于將數(shù)據(jù)離散化n 分箱方法:分箱方法:n 固定寬度固定寬度n 分位數(shù)(同等計(jì)數(shù)):每個(gè)箱的分位數(shù)(同等計(jì)數(shù)):每個(gè)箱的計(jì)數(shù)相同計(jì)數(shù)相同n 等級:數(shù)據(jù)樣本的等級等級:數(shù)據(jù)樣本的等級n 平均值平均值/
20、標(biāo)準(zhǔn)差:根據(jù)均值的若干標(biāo)準(zhǔn)差:根據(jù)均值的若干個(gè)標(biāo)準(zhǔn)差范圍分組個(gè)標(biāo)準(zhǔn)差范圍分組n 最優(yōu):根據(jù)最短描述長度原則分最優(yōu):根據(jù)最短描述長度原則分組組Page 45Page 46分區(qū)節(jié)點(diǎn)分區(qū)節(jié)點(diǎn)n 將樣本集分割為訓(xùn)練、檢驗(yàn)和驗(yàn)證集將樣本集分割為訓(xùn)練、檢驗(yàn)和驗(yàn)證集Page 47分區(qū)節(jié)點(diǎn)分區(qū)節(jié)點(diǎn)n 分區(qū)后分區(qū)后Page 48重新結(jié)構(gòu)化重新結(jié)構(gòu)化n 調(diào)整數(shù)據(jù)集的組織調(diào)整數(shù)據(jù)集的組織Page 49圖形選項(xiàng)卡圖形選項(xiàng)卡n 數(shù)據(jù)挖掘過程的某些階段使用圖形來對數(shù)據(jù)作探索性分析。數(shù)據(jù)挖掘過程的某些階段使用圖形來對數(shù)據(jù)作探索性分析。 n 圖形的另一個(gè)常見用途是檢查新導(dǎo)出字段的分布和關(guān)聯(lián)。圖形的另一個(gè)常見用途是檢查新導(dǎo)出字
21、段的分布和關(guān)聯(lián)。n 圖形選項(xiàng)卡包括以下節(jié)點(diǎn)圖形選項(xiàng)卡包括以下節(jié)點(diǎn)n 圖圖 (散點(diǎn)圖)(散點(diǎn)圖)n 分布圖(條形圖)分布圖(條形圖) n 直方圖(柱形圖)直方圖(柱形圖) n 集合集合 n 多重散點(diǎn)圖多重散點(diǎn)圖 n 網(wǎng)絡(luò)圖網(wǎng)絡(luò)圖n 時(shí)間散點(diǎn)圖時(shí)間散點(diǎn)圖n 評估圖評估圖Page 50散點(diǎn)圖散點(diǎn)圖n 散點(diǎn)圖節(jié)點(diǎn)顯示出了數(shù)值型字段之間的關(guān)系散點(diǎn)圖節(jié)點(diǎn)顯示出了數(shù)值型字段之間的關(guān)系觀察這一變觀察這一變量的取值情量的取值情況況Page 51n 從圖中可以看出什么信息?從圖中可以看出什么信息?Page 52多重散點(diǎn)圖多重散點(diǎn)圖n 多點(diǎn)圖是一種特殊類型的散點(diǎn)圖,它顯示的是一個(gè)單獨(dú)的多點(diǎn)圖是一種特殊類型的散點(diǎn)圖,
22、它顯示的是一個(gè)單獨(dú)的 X 字段對應(yīng)多個(gè)字段對應(yīng)多個(gè) Y 字段的情況字段的情況Page 53Page 54分布節(jié)點(diǎn)分布節(jié)點(diǎn)n 展現(xiàn)在一個(gè)數(shù)據(jù)集中,兩個(gè)分類變量值的發(fā)生情況展現(xiàn)在一個(gè)數(shù)據(jù)集中,兩個(gè)分類變量值的發(fā)生情況Page 55Page 56使用分布圖使用分布圖n 用戶可以使用彈出菜單上的選項(xiàng)來選擇數(shù)據(jù)的一個(gè)子集,用戶可以使用彈出菜單上的選項(xiàng)來選擇數(shù)據(jù)的一個(gè)子集,導(dǎo)出一個(gè)標(biāo)記字段,或?qū)Ρ绕胶鈹?shù)據(jù)。導(dǎo)出一個(gè)標(biāo)記字段,或?qū)Ρ绕胶鈹?shù)據(jù)。Page 57生成的選擇節(jié)生成的選擇節(jié)點(diǎn)點(diǎn)對應(yīng)的選擇條件對應(yīng)的選擇條件Page 58生成的導(dǎo)出節(jié)點(diǎn)生成的導(dǎo)出節(jié)點(diǎn)對應(yīng)的設(shè)置對應(yīng)的設(shè)置Page 59直方圖節(jié)點(diǎn)直方圖節(jié)點(diǎn)n
23、 直方圖節(jié)點(diǎn)顯示的是數(shù)值型字段變量值直方圖節(jié)點(diǎn)顯示的是數(shù)值型字段變量值Page 60Page 61集合節(jié)點(diǎn)集合節(jié)點(diǎn)n 集合圖顯示的是一個(gè)數(shù)值型字段變量值與另一個(gè)字段變集合圖顯示的是一個(gè)數(shù)值型字段變量值與另一個(gè)字段變量值相對比結(jié)果的分布,而不是顯示一個(gè)單獨(dú)字段變量值量值相對比結(jié)果的分布,而不是顯示一個(gè)單獨(dú)字段變量值的發(fā)生率;此外,堆積圖與直方圖是很相似的。的發(fā)生率;此外,堆積圖與直方圖是很相似的。n 一個(gè)集合圖對于闡明變量值隨時(shí)間變化的變量或字段來說一個(gè)集合圖對于闡明變量值隨時(shí)間變化的變量或字段來說是十分有用的是十分有用的n 收集(收集(Collect):選擇一個(gè)字段,其變量值被聚集,并):選擇
24、一個(gè)字段,其變量值被聚集,并顯示在下面給定字段的變量值范圍中。顯示在下面給定字段的變量值范圍中。 n 超出(在超出(在上上,Over):選擇一個(gè)字段,其變量值將被):選擇一個(gè)字段,其變量值將被用來顯示上面指定的收集字段。用來顯示上面指定的收集字段。 n 操作(操作(Operation):選擇堆積圖中的每個(gè)條柱都分別代):選擇堆積圖中的每個(gè)條柱都分別代表什么。表什么。Page 62Page 63網(wǎng)絡(luò)圖節(jié)點(diǎn)網(wǎng)絡(luò)圖節(jié)點(diǎn)n 網(wǎng)絡(luò)圖節(jié)點(diǎn)顯示的是兩個(gè)網(wǎng)絡(luò)圖節(jié)點(diǎn)顯示的是兩個(gè)或兩個(gè)以上分類字段之間或兩個(gè)以上分類字段之間關(guān)系的強(qiáng)弱程度。這種圖關(guān)系的強(qiáng)弱程度。這種圖像通過使用各種不同類型像通過使用各種不同類型的線
25、條指示聯(lián)系的強(qiáng)度來的線條指示聯(lián)系的強(qiáng)度來顯示關(guān)系顯示關(guān)系Page 64Page 65評估圖節(jié)點(diǎn)評估圖節(jié)點(diǎn)n 評估圖節(jié)點(diǎn)提供了一種能夠很輕松地評估和比較模型、并評估圖節(jié)點(diǎn)提供了一種能夠很輕松地評估和比較模型、并從中選擇最有利于應(yīng)用的模型的方法。多個(gè)模型在圖中被從中選擇最有利于應(yīng)用的模型的方法。多個(gè)模型在圖中被表示為多條相互獨(dú)立的線。表示為多條相互獨(dú)立的線。n 一共有五種評估圖表,其中每一個(gè)都強(qiáng)調(diào)了一個(gè)不同的評一共有五種評估圖表,其中每一個(gè)都強(qiáng)調(diào)了一個(gè)不同的評估準(zhǔn)則。估準(zhǔn)則。n 增益:增益:n 響應(yīng):響應(yīng):n 提升:提升:n 利潤利潤n 投資回報(bào)率投資回報(bào)率n 將結(jié)合模型講解將結(jié)合模型講解Page
26、 66輸出選項(xiàng)卡輸出選項(xiàng)卡n 輸出選項(xiàng)卡提供各種方式獲得關(guān)于數(shù)據(jù)和模型的信息。輸出選項(xiàng)卡提供各種方式獲得關(guān)于數(shù)據(jù)和模型的信息。n 包含的節(jié)點(diǎn):包含的節(jié)點(diǎn):n 表表 n 矩陣矩陣 n 分析分析 n 數(shù)據(jù)審核數(shù)據(jù)審核n 變換變換 n 統(tǒng)計(jì)量統(tǒng)計(jì)量 n 均值均值 n 報(bào)告報(bào)告n SPSS輸出輸出 Page 67表節(jié)點(diǎn)表節(jié)點(diǎn)n 以表格的形式顯示數(shù)據(jù)內(nèi)容以表格的形式顯示數(shù)據(jù)內(nèi)容Page 68矩陣節(jié)點(diǎn)矩陣節(jié)點(diǎn)n 矩陣節(jié)點(diǎn)允許用戶建立一個(gè)顯示字段之間關(guān)系的表。最常矩陣節(jié)點(diǎn)允許用戶建立一個(gè)顯示字段之間關(guān)系的表。最常見的使用方式是被用來顯示兩個(gè)分類字段之間的關(guān)系,但見的使用方式是被用來顯示兩個(gè)分類字段之間的關(guān)系,但是它也能夠被用來顯示標(biāo)志字段之間或者數(shù)值型字段之間是它也能夠被用來顯示標(biāo)志字段之間或者數(shù)值型字段之間的關(guān)系。的關(guān)系。Page 69分析節(jié)點(diǎn)分析節(jié)點(diǎn)n 分析節(jié)點(diǎn)允許用戶分析預(yù)分析節(jié)點(diǎn)允許用戶分析預(yù)測模型來評估它們產(chǎn)生精測模型來評估它們產(chǎn)生精確預(yù)測值的能力。對一個(gè)確預(yù)測值的能力。對一個(gè)或更多個(gè)產(chǎn)生的模型節(jié)點(diǎn),或更多個(gè)產(chǎn)生的模型節(jié)點(diǎn),分析節(jié)點(diǎn)可以進(jìn)行各種各分析節(jié)點(diǎn)可以進(jìn)行各種各樣的在預(yù)測值和實(shí)際值之樣的在預(yù)測值和實(shí)際值之間的比較。分析節(jié)點(diǎn)也可間的比較。分析節(jié)點(diǎn)也可以被用來比較不同的預(yù)測以被用來比較不同的預(yù)測模型。模型。 Page 70數(shù)據(jù)審核節(jié)點(diǎn)數(shù)據(jù)審核節(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國變速箱第一軸市場調(diào)查研究報(bào)告
- 2025年中國兩用拉力器市場調(diào)查研究報(bào)告
- 2025至2031年中國閉路監(jiān)控器材行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025年聚氨酯耐用油底漆項(xiàng)目可行性研究報(bào)告
- 2025年石油公司油票管理系統(tǒng)項(xiàng)目可行性研究報(bào)告
- 2025年燃?xì)獬瑝呵袛嚅y項(xiàng)目可行性研究報(bào)告
- 2025年橫梁總成項(xiàng)目可行性研究報(bào)告
- 惠州2025年廣東惠州龍門縣總醫(yī)院第一批招聘編外人員25人筆試歷年參考題庫附帶答案詳解
- 2025年平紋桃皮絨面料項(xiàng)目可行性研究報(bào)告
- 2025年沖壓模具項(xiàng)目可行性研究報(bào)告
- 掛靠免責(zé)協(xié)議書范本
- 2024年浙江省五校聯(lián)盟高考地理聯(lián)考試卷(3月份)
- 在線心理健康咨詢行業(yè)現(xiàn)狀分析及未來三至五年行業(yè)發(fā)展報(bào)告
- 電動(dòng)三輪車購銷合同
- 淋巴瘤的免疫靶向治療
- 炎癥性腸病的自我管理
- 國防動(dòng)員課件教學(xué)課件
- 《地理信息系統(tǒng)GIS》全套教學(xué)課件
- 技術(shù)序列學(xué)習(xí)地圖(2023年)
- 中國銀行(香港)有限公司招聘筆試真題2023
- 15萬噸水廠安裝工程施工組織設(shè)計(jì)方案
評論
0/150
提交評論