SPSSModeler培訓(xùn)(2)_第1頁
SPSSModeler培訓(xùn)(2)_第2頁
SPSSModeler培訓(xùn)(2)_第3頁
SPSSModeler培訓(xùn)(2)_第4頁
SPSSModeler培訓(xùn)(2)_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、SPSS Modeler培訓(xùn)培訓(xùn)(2)(2)培訓(xùn)內(nèi)容培訓(xùn)內(nèi)容 第一章第一章 高級數(shù)據(jù)準(zhǔn)備技術(shù)高級數(shù)據(jù)準(zhǔn)備技術(shù)第二章第二章 PASW Modeler預(yù)測分類技術(shù)預(yù)測分類技術(shù)決策樹技術(shù)決策樹技術(shù)Logistics回歸回歸神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)第三章第三章 PASW Modeler聚類技術(shù)聚類技術(shù)2第一章第一章 高級數(shù)據(jù)準(zhǔn)備技術(shù)高級數(shù)據(jù)準(zhǔn)備技術(shù)RFM匯總及匯總及RFM分析分析建模數(shù)據(jù)準(zhǔn)備及優(yōu)化建模數(shù)據(jù)準(zhǔn)備及優(yōu)化其他建模前數(shù)據(jù)處理其他建模前數(shù)據(jù)處理34RFM評分評分交易型數(shù)據(jù)交易型數(shù)據(jù)格式化數(shù)據(jù)格式化數(shù)據(jù)RFM匯總節(jié)點(diǎn)匯總節(jié)點(diǎn)計(jì)算相對于以下內(nèi)容的近因計(jì)算相對于以下內(nèi)容的近因:指定計(jì)算交易近因的日期。ID 為

2、連續(xù):為連續(xù):如果數(shù)據(jù)按ID預(yù)排序,則可以加快處理速度。丟棄具有以下值的記錄:丟棄具有以下值的記錄:如果指定一個(gè)最小值,凡低于該值的交易詳細(xì)信息都不再被使用。只包含最近交易:只包含最近交易:如果分析的是大型數(shù)據(jù)庫,則可以指定只使用最近的記錄。保存第二個(gè)最近交易的日期保存第二個(gè)最近交易的日期5RFM分析節(jié)點(diǎn)分析節(jié)點(diǎn)RFM 得分的計(jì)算方法如下:得分的計(jì)算方法如下:(近因分值 x 近因權(quán)重)+(頻數(shù)分值 x 頻數(shù)權(quán)重)+(貨幣分值 x 貨幣權(quán)重)。分級閾:分級閾:指定在執(zhí)行節(jié)點(diǎn)時(shí)是始終重新計(jì)算 RFM 分值和分級分配,還是僅在需要時(shí)進(jìn)行計(jì)算(如在添加了新數(shù)據(jù)時(shí))。67建模數(shù)據(jù)準(zhǔn)備及優(yōu)化建模數(shù)據(jù)準(zhǔn)備及

3、優(yōu)化內(nèi)容介紹分析節(jié)點(diǎn)介紹使用RFM匯總生成最近交易天數(shù)、頻度、金額介紹使用RFM分析生成RFM評分8建模數(shù)據(jù)準(zhǔn)備及優(yōu)化建模數(shù)據(jù)準(zhǔn)備及優(yōu)化內(nèi)容介紹分箱節(jié)點(diǎn)介紹自動(dòng)數(shù)據(jù)準(zhǔn)備節(jié)點(diǎn)分箱節(jié)點(diǎn)分箱節(jié)點(diǎn)最優(yōu)最優(yōu)預(yù)分級字段以增強(qiáng)大型數(shù)據(jù)集的性能:預(yù)分級字段以增強(qiáng)大型數(shù)據(jù)集的性能:采用簡單的非監(jiān)督式分級方法將尺度值分組為大量分級,以均值表示每個(gè)分級中的值,并在繼續(xù)監(jiān)督式分級之前對觀測值權(quán)重進(jìn)行相應(yīng)調(diào)整。將觀測值計(jì)數(shù)相對較小的分級與較大的相鄰分級將觀測值計(jì)數(shù)相對較小的分級與較大的相鄰分級進(jìn)行合并:進(jìn)行合并:當(dāng)該分級大小與相鄰分級大小的比值小于指定的閾值時(shí),將合并分級。9分箱節(jié)點(diǎn)分箱節(jié)點(diǎn)其他其他固定寬度固定寬度分位

4、數(shù)分位數(shù)等級等級根據(jù)取值進(jìn)行排序,記錄每條記錄的順序,所占順序的百分比平均值平均值/標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差101111自動(dòng)數(shù)據(jù)準(zhǔn)備自動(dòng)數(shù)據(jù)準(zhǔn)備快速有效地?cái)?shù)據(jù)準(zhǔn)備快速有效地?cái)?shù)據(jù)準(zhǔn)備提高新用戶的工作效提高新用戶的工作效率率12l一般數(shù)據(jù)清理一般數(shù)據(jù)清理在可行的情況下修正錯(cuò)誤,或者將其篩選出來,以避免錯(cuò)誤,增在可行的情況下修正錯(cuò)誤,或者將其篩選出來,以避免錯(cuò)誤,增加生成有效模型的幾率,包括:加生成有效模型的幾率,包括: 處理缺失值、離散值和極值。 篩選出在建模中可能無用的字段。例如,類別太多或太少,缺失值太多等。 解決編碼和收集錯(cuò)誤。 規(guī)范或重新編碼數(shù)據(jù)以便保持一致。 衍生變量或?qū)傩?,例如輸入組合或復(fù)合變量。

5、l增強(qiáng)增強(qiáng)通過多種方式執(zhí)行或建議對數(shù)據(jù)的增強(qiáng):通過多種方式執(zhí)行或建議對數(shù)據(jù)的增強(qiáng): 數(shù)值字段的最優(yōu)離散化以便更好提升(針對目標(biāo)); 變量組合(如比率)用于所有數(shù)值組合;l性能性能 重要的修正/增強(qiáng)屬性的特征選擇。自動(dòng)數(shù)據(jù)準(zhǔn)備自動(dòng)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)處理優(yōu)化簡介數(shù)據(jù)處理優(yōu)化簡介連續(xù)變量處理連續(xù)變量處理標(biāo)準(zhǔn)化連續(xù)自變量Z-SCORE規(guī)范法:基于平均值和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理最小/最大轉(zhuǎn)換:將原始值通過該變量的最小最大值距離標(biāo)準(zhǔn)化在新定義的數(shù)值區(qū)間中的值。標(biāo)準(zhǔn)化連續(xù)因變量:BOX-COX轉(zhuǎn)換修正因變量的非正態(tài)性根據(jù)顯著性閥值,對連續(xù)自變量進(jìn)行離散化分類變量處理分類變量處理根據(jù)顯著性閥值,合并稀疏類別1314其他建

6、模前數(shù)據(jù)處理內(nèi)容其他建模前數(shù)據(jù)處理內(nèi)容n 簡要討論建模前的數(shù)據(jù)準(zhǔn)備和清洗n 使用條形圖和平衡節(jié)點(diǎn)平衡數(shù)據(jù)n 使用分割節(jié)點(diǎn)分割數(shù)據(jù)為訓(xùn)練和測試樣本n 通過分布圖節(jié)點(diǎn)轉(zhuǎn)換數(shù)據(jù)n 運(yùn)行神經(jīng)網(wǎng)絡(luò)前使用轉(zhuǎn)換到連續(xù)變量15清洗數(shù)據(jù)清洗數(shù)據(jù) 簡評估數(shù)據(jù)質(zhì)量:使用源節(jié)點(diǎn)的類型條目或類型節(jié)點(diǎn)實(shí)例化數(shù)據(jù)使用源節(jié)點(diǎn)或類型節(jié)點(diǎn)指定空白值使用質(zhì)量節(jié)點(diǎn)檢查和計(jì)數(shù)無效數(shù)據(jù)使用數(shù)據(jù)審核節(jié)點(diǎn)檢查數(shù)據(jù)的分布和統(tǒng)計(jì)性質(zhì) 提高數(shù)據(jù)質(zhì)量:使用質(zhì)量報(bào)告生成選擇節(jié)點(diǎn)移除帶有缺失字段的記錄使用質(zhì)量節(jié)點(diǎn)生成過濾節(jié)點(diǎn)移除帶有大量缺失的字段使用填充節(jié)點(diǎn)替換空白值使用使用源節(jié)點(diǎn)的類型條目或類型節(jié)點(diǎn)自動(dòng)檢查過程16平衡數(shù)據(jù)平衡數(shù)據(jù) 簡檢查建模中所要使

7、用的關(guān)鍵字段的分布:數(shù)據(jù)審核節(jié)點(diǎn)條形圖節(jié)點(diǎn)(字符字段)直方圖節(jié)點(diǎn)(數(shù)值字段)使用平衡節(jié)點(diǎn)來修正數(shù)據(jù)集中的不均勻性:由分布圖和直方圖自動(dòng)生成增加或減少記錄建議使用減少記錄:增加記錄擴(kuò)大了數(shù)據(jù)中的問題和不規(guī)則性小數(shù)據(jù)集使用減少記錄是不可行的17舉例說明平衡數(shù)據(jù)舉例說明平衡數(shù)據(jù)使用使用分布圖節(jié)點(diǎn)生成字段分布圖節(jié)點(diǎn)生成字段 CHURNED 的分布圖的分布圖 使用分布圖自動(dòng)生成均衡使用分布圖自動(dòng)生成均衡 節(jié)點(diǎn)(減少記錄)節(jié)點(diǎn)(減少記錄) 平衡數(shù)據(jù)后字段平衡數(shù)據(jù)后字段 CHURNED 的分布圖的分布圖均衡數(shù)據(jù)均衡數(shù)據(jù).str18數(shù)據(jù)分割數(shù)據(jù)分割 使用導(dǎo)出節(jié)點(diǎn)和選擇節(jié)點(diǎn)分割數(shù)據(jù)使用導(dǎo)出節(jié)點(diǎn)和選擇節(jié)點(diǎn)分割數(shù)據(jù)

8、 分割節(jié)點(diǎn)可以直接分割數(shù)據(jù)為訓(xùn)練、測試(和分割節(jié)點(diǎn)可以直接分割數(shù)據(jù)為訓(xùn)練、測試(和驗(yàn)證)數(shù)據(jù)驗(yàn)證)數(shù)據(jù) 使用抽樣節(jié)點(diǎn)分割數(shù)據(jù)(緩存)使用抽樣節(jié)點(diǎn)分割數(shù)據(jù)(緩存) SPSS Modeler 所有建模節(jié)點(diǎn)都有一個(gè)選項(xiàng)可所有建模節(jié)點(diǎn)都有一個(gè)選項(xiàng)可以啟用分割,自動(dòng)認(rèn)可一個(gè)字段方向?yàn)榉指钜詥⒂梅指睿詣?dòng)認(rèn)可一個(gè)字段方向?yàn)榉指?9數(shù)值數(shù)據(jù)轉(zhuǎn)換數(shù)值數(shù)據(jù)轉(zhuǎn)換 對于數(shù)值數(shù)據(jù),不適合使用均衡數(shù)據(jù)的方法,一般通過對于數(shù)值數(shù)據(jù),不適合使用均衡數(shù)據(jù)的方法,一般通過數(shù)據(jù)轉(zhuǎn)換把有偏數(shù)據(jù)的分布轉(zhuǎn)換為平坦的分布數(shù)據(jù)轉(zhuǎn)換把有偏數(shù)據(jù)的分布轉(zhuǎn)換為平坦的分布 可以使用導(dǎo)出節(jié)點(diǎn)完成對數(shù)據(jù)的轉(zhuǎn)換,通常轉(zhuǎn)換為正態(tài)可以使用導(dǎo)出節(jié)點(diǎn)完成對數(shù)據(jù)的

9、轉(zhuǎn)換,通常轉(zhuǎn)換為正態(tài)分布或均勻分布常用數(shù)字轉(zhuǎn)換公式:分布或均勻分布常用數(shù)字轉(zhuǎn)換公式: Exp(x) 、Log(x+a) 、Log(x-a)/(b-x) 、Log10(x+a)、Sqrt(x) 、1 / Exp(GLOBAL_AVE (x)-x)20標(biāo)記變量轉(zhuǎn)換成連續(xù)變量標(biāo)記變量轉(zhuǎn)換成連續(xù)變量 使用神經(jīng)網(wǎng)絡(luò)預(yù)測一個(gè)簡單的使用神經(jīng)網(wǎng)絡(luò)預(yù)測一個(gè)簡單的“是是/否否”標(biāo)記字段時(shí)變標(biāo)記字段時(shí)變換標(biāo)記字段為連續(xù)字段換標(biāo)記字段為連續(xù)字段 使用使用“是是/否否”標(biāo)記字段作為輸出時(shí),神經(jīng)網(wǎng)絡(luò)內(nèi)部轉(zhuǎn)標(biāo)記字段作為輸出時(shí),神經(jīng)網(wǎng)絡(luò)內(nèi)部轉(zhuǎn)化這兩個(gè)值為化這兩個(gè)值為“0/1”,輸出仍為,輸出仍為“是是/否否” 使用變換后的連

10、續(xù)字段作為輸出時(shí),結(jié)果是使用變換后的連續(xù)字段作為輸出時(shí),結(jié)果是0到到1 之間之間的數(shù)值在接近邊界時(shí)看成比較強(qiáng)的結(jié)果,在接近中間時(shí)的數(shù)值在接近邊界時(shí)看成比較強(qiáng)的結(jié)果,在接近中間時(shí)看成邊界結(jié)果看成邊界結(jié)果第二章第二章 SPSS Modeler預(yù)測分類技術(shù)預(yù)測分類技術(shù)內(nèi)容內(nèi)容決策樹技術(shù)決策樹技術(shù)Logistics回歸回歸神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)2122決策樹技術(shù)決策樹技術(shù) 介紹介紹C5.0、CHAID、C&RT 和和QUEST 節(jié)點(diǎn)節(jié)點(diǎn)的高級特性的高級特性 介紹交互樹的特點(diǎn)介紹交互樹的特點(diǎn) 了解了解CHAID 和和C&RT 在建模中處理數(shù)值輸出在建模中處理數(shù)值輸出 使用拆分?jǐn)?shù)據(jù)測試模型使用拆

11、分?jǐn)?shù)據(jù)測試模型23決策樹模型比較決策樹模型比較模型準(zhǔn)則模型準(zhǔn)則C5.0CHAIDQUESTC&RT字符預(yù)測器拆分類型多重多重二元二元連續(xù)目標(biāo)否是否是連續(xù)預(yù)測器是否是是預(yù)測器選擇準(zhǔn)則信息度量卡方檢驗(yàn)和F 檢驗(yàn)統(tǒng)計(jì)雜質(zhì)(離差)度量能否使用缺失預(yù)測器值是,缺失分成幾部分是,缺失成為一個(gè)分類是,使用代理是,使用代理先驗(yàn)否否是是修剪準(zhǔn)則交互式建立樹否是是是支持推進(jìn)是否否否24C5.0 建模(字符輸出)建模(字符輸出)25增益率選擇標(biāo)準(zhǔn)增益率選擇標(biāo)準(zhǔn) C5.0 中的增益率選擇標(biāo)準(zhǔn)以信息論為基礎(chǔ),用來決中的增益率選擇標(biāo)準(zhǔn)以信息論為基礎(chǔ),用來決定如何分割數(shù)據(jù)定如何分割數(shù)據(jù) GAIN(X) = INFO

12、(DATA) INFOX(DATA) GAIN RATIO(X) = GAIN(X) / SPLIT INFOX(DATA) C5.0 算法:使用最大化信息增益率的字段分割數(shù)據(jù)算法:使用最大化信息增益率的字段分割數(shù)據(jù)26高級選項(xiàng)高級選項(xiàng) 修剪純度:修剪純度:決定生成決策樹或規(guī)則集被修剪的程度。提高純度值將獲得更小、更簡潔的決策樹;降低純度值將獲得更加精確的決策樹 子分支最少記錄數(shù):子分支最少記錄數(shù):子群大小可以用于限制決策樹任一分支的拆分?jǐn)?shù),只有當(dāng)兩個(gè)或以上的后序子分支包括來自訓(xùn)練集的記錄不少于最小記錄數(shù)時(shí),決策樹才會(huì)繼續(xù)拆分,提高該值將有助于避免噪聲數(shù)據(jù)的過度訓(xùn)練 辨別屬性:辨別屬性:如果選

13、擇了該選項(xiàng),C5.0 會(huì)在建立模型前檢驗(yàn)預(yù)測字段的有用性,與分析無關(guān)的預(yù)測字段將不參與建模過程。這一選項(xiàng)對有許多預(yù)測字段的模型非常有用,并且有助于避免過度擬合27如何使用修剪和子分支最少記錄數(shù)如何使用修剪和子分支最少記錄數(shù)C5.0 簡單模式:如果算法選擇偏向精確性,修剪純度設(shè)定為 75 ,子分支最少記錄數(shù)設(shè)定為 2 如果算法選擇偏向一般性,修剪純度設(shè)定為 85 ,子分支最少記錄數(shù)設(shè)定為 5 如果選擇期望噪聲百分?jǐn)?shù),子分支最少記錄數(shù)設(shè)定為這個(gè)值的二分之一可以使用專家模式精煉簡單模式生成的樹如果樹很大,有很多分支,提高修剪純度如果有期望噪聲百分?jǐn)?shù)的估計(jì),設(shè)定子分支最少記錄數(shù)為這個(gè)值的二分之一28其

14、它選項(xiàng)其它選項(xiàng)使用推進(jìn):使用推進(jìn):這種方法按序列建立多重模型第一個(gè)模型以通常的方式建立隨后,建立第二個(gè)模型,聚焦于被第一個(gè)模型錯(cuò)誤分類的記錄然后第三個(gè)模型聚焦于第二個(gè)模型的錯(cuò)誤,等等最后,應(yīng)用整個(gè)模型集對樣本進(jìn)行分類,使用加權(quán)投票過程把分散的預(yù)測合并成綜合預(yù)測使用推進(jìn)可以顯著提高C5.0 模型的精確度,但是同時(shí)也需要更長的訓(xùn)練時(shí)間誤分類成本:誤分類成本:設(shè)定誤分類的成本在某些情況下,特定類型的錯(cuò)誤比其他類錯(cuò)誤所引起的損失更大,誤分類成本允許指定不同類型預(yù)測錯(cuò)誤之間的相對重要性29CHAID 建模(字符輸出)建模(字符輸出)30選項(xiàng)設(shè)置選項(xiàng)設(shè)置兩種模式:兩種模式:CHAID 和 Exhausti

15、ve CHAIDExhaustive CHAID 檢查更多的預(yù)測器拆分,從而提高找到最佳預(yù)測器的機(jī)會(huì),需要更多的時(shí)間最大樹狀圖深度(樹生長的層數(shù))最大樹狀圖深度(樹生長的層數(shù))由于 CHAID 并不修剪過于茂密的樹,用戶可以通過 “根以下的層”設(shè)定樹的深度CHAID 可以通過標(biāo)準(zhǔn)模式創(chuàng)建一個(gè)完整的樹或者建立一個(gè)交互樹31高級選項(xiàng)高級選項(xiàng)CHAID 使用卡方檢驗(yàn)選擇用來分割的預(yù)測器如果預(yù)測器有超過兩個(gè)分類,CHAID 將會(huì)合并那些在結(jié)果中相差很小的分類當(dāng)剩余分類在指定檢驗(yàn)水平下(合并顯著性值)一致時(shí)停止合并過程對于連續(xù)預(yù)測器,數(shù)值將會(huì)被分為最大十個(gè)分組CHAID 中允許分割合并的分類由于執(zhí)行許多

16、卡方檢驗(yàn),當(dāng)檢驗(yàn)預(yù)測器時(shí)CHAID 通過 “Bonferroni 調(diào)整” 選項(xiàng)自動(dòng)調(diào)整顯著性閥值32停止標(biāo)準(zhǔn)停止標(biāo)準(zhǔn)33C&RT 建模(字符輸出)建模(字符輸出)34高級選項(xiàng)高級選項(xiàng)修剪樹:簡單模式下會(huì)自動(dòng)調(diào)用修剪修剪樹:簡單模式下會(huì)自動(dòng)調(diào)用修剪標(biāo)準(zhǔn)差原則允許 C&RT 選擇最簡單的樹,其風(fēng)險(xiǎn)估計(jì)接近于風(fēng)險(xiǎn)最小的子樹的風(fēng)險(xiǎn)估計(jì)值乘數(shù)表明修剪樹與具有最小估計(jì)風(fēng)險(xiǎn)的子樹之間的允許估計(jì)風(fēng)險(xiǎn)差異程度雜質(zhì)指樹所定義子群的輸出字段的變化范圍雜質(zhì)指樹所定義子群的輸出字段的變化范圍最小雜質(zhì)改變指定在樹中進(jìn)行新的拆分所需的最小雜質(zhì)改變量分類目標(biāo)字段的雜質(zhì)度量選擇度量樹的雜質(zhì)的方法Gini 是基于

17、分支類別概率的一般雜質(zhì)度量方法兩分是加重二元拆分的雜質(zhì)度量方法,更易在拆分中生成大致等規(guī)模的分支有序添加了額外的限制,即只有連續(xù)的目標(biāo)類才可以組成一組,此選項(xiàng)僅適用于順序目標(biāo)。數(shù)值目標(biāo)字段總是使用最小平方偏差雜質(zhì)度量方法35高級選項(xiàng)高級選項(xiàng)代理:處理缺失值代理:處理缺失值對于樹中的每一次拆分,分類回歸樹識別與拆分字段最相似的輸入字段,這些字段是該拆分字段的代理如果必須對某一記錄分類,而該記錄拆分字段有缺失值,則該記錄拆分字段的代理字段值可用于拆分先驗(yàn)概率先驗(yàn)概率基于訓(xùn)練數(shù)據(jù)集對于所有類都相等定制使用誤分類成本調(diào)整先驗(yàn)概率誤分類成本誤分類成本36QUEST 建模(符號輸出)建模(符號輸出)37高

18、級選項(xiàng)高級選項(xiàng)QUEST 采取統(tǒng)計(jì)檢驗(yàn)的方法選擇預(yù)測器對于連續(xù)和順序預(yù)測器變量,使用 F 檢驗(yàn)對于名義預(yù)測器變量(標(biāo)記和集合),使用卡方檢驗(yàn)自動(dòng)使用 Bonferroni 調(diào)整(不受用戶控制)選擇預(yù)測器后,QUEST 通過二次方程判別式分析,拆分選定的預(yù)測器為兩組拆分顯著性值默認(rèn)為 0.05對于大數(shù)據(jù)集,可以減少為 0.01修剪、停止和代理38交互式樹創(chuàng)建工具交互式樹創(chuàng)建工具39預(yù)測數(shù)值字段預(yù)測數(shù)值字段C&RT 和 CHAID 可以預(yù)測數(shù)值字段C&RT 高級模式中的先驗(yàn)選項(xiàng)和錯(cuò)誤分類損失選項(xiàng)與連續(xù)性的輸出無關(guān)CHAID 的誤分類成本選項(xiàng)與連續(xù)性的輸出無關(guān)40使用分區(qū)數(shù)據(jù)檢驗(yàn)?zāi)P?/p>

19、使用分區(qū)數(shù)據(jù)檢驗(yàn)?zāi)P痛蜷_數(shù)據(jù)流:Chapter1-Partition.str類型節(jié)點(diǎn)中設(shè)置字段CHURNE 方向?yàn)檩敵鯟5.0 節(jié)點(diǎn)連接分割節(jié)點(diǎn)生成的 C5.0 節(jié)點(diǎn)連接分割節(jié)點(diǎn)分析節(jié)點(diǎn)連接生成的 C5.0 節(jié)點(diǎn)41分析輸出結(jié)果分析輸出結(jié)果42Logistic 回歸回歸回顧回顧 Logistic 回歸的概念回歸的概念 對于字符輸出字段的統(tǒng)計(jì)預(yù)測模型對于字符輸出字段的統(tǒng)計(jì)預(yù)測模型使用使用 Logistic 節(jié)點(diǎn)進(jìn)行信用風(fēng)險(xiǎn)建模節(jié)點(diǎn)進(jìn)行信用風(fēng)險(xiǎn)建模43Logisitic 模型簡介模型簡介Logistic 不同于線性回歸,預(yù)測字符字段包含不同于線性回歸,預(yù)測字符字段包含兩個(gè)或多個(gè)分類兩個(gè)或多個(gè)分類在

20、輸出概率的基礎(chǔ)上做出預(yù)測在輸出概率的基礎(chǔ)上做出預(yù)測二元回歸時(shí)輸出概率二元回歸時(shí)輸出概率其他表達(dá)方式:其他表達(dá)方式:kkkkXBXBXBXBXBXBee.221122111 = )Prob(eventkkXBXBXBe.2211event) (no Prob(event) Probor (event) Prob 1(event) Prob(event) Odds44多重多重 Logistic 回歸回歸45模型類型模型類型二項(xiàng):二項(xiàng):當(dāng)目標(biāo)字段是具有兩個(gè)離散(二分)值(如是/否、啟動(dòng)/關(guān)閉 或 男/女)時(shí)使用。 多項(xiàng)式:多項(xiàng)式:當(dāng)目標(biāo)字段是具有兩個(gè)以上值的集合字段時(shí),使用此選項(xiàng)。默認(rèn)為主效應(yīng):默認(rèn)

21、為主效應(yīng): 模型只包含因子(字符輸入)和協(xié)變量 (數(shù)值輸入)的主效應(yīng),不檢驗(yàn)輸入字段之間的交互作用全析因:全析因: 模型除了包括各輸入字段的主要效應(yīng)外,還包括所有的交互作用能夠更好的捕捉復(fù)雜關(guān)系,但是也更難解釋,更容易出現(xiàn)過度擬和問題用戶自定義用戶自定義二項(xiàng)式模型類型二項(xiàng)式模型類型分類輸入分類輸入:列出標(biāo)識為分類字段的字段。對比:對比:分類字段的回歸系數(shù)的解釋取決于所用的對比。指示。對比指示類別成員是否存在。這是默認(rèn)方法。 簡單。將預(yù)測字段的每個(gè)類別(參考類別除外)與參考類別進(jìn)行比較。 差分。將預(yù)測字段的每個(gè)類別(第一個(gè)類別除外)與前面類別的平均效果進(jìn)行比較。也稱為逆 Helmert 對比。

22、Helmert。將預(yù)測字段的每個(gè)類別(最后一個(gè)類別除外)與后續(xù)類別的平均效果進(jìn)行比較。 重復(fù)。將預(yù)測字段的每個(gè)類別(第一個(gè)類別除外)與前一個(gè)類別進(jìn)行比較。 多項(xiàng)式。正交多項(xiàng)式對比。假定類別間距相等。多項(xiàng)式對比僅適用于數(shù)值字段。 偏差。將預(yù)測字段的每個(gè)類別(參考類別除外)與總體效果進(jìn)行比較。目標(biāo)的基準(zhǔn)類別:目標(biāo)的基準(zhǔn)類別:指定如何確定參考類別。 4647高級選項(xiàng)高級選項(xiàng)尺度:一個(gè)離散度量值,用于修正參數(shù)協(xié)方差矩陣的估計(jì)值Pearson 卡方統(tǒng)計(jì)量偏差函數(shù)似然率卡方自定義,必須為正值追加所有概率收斂度:最大迭代次數(shù)最大逐步二分法對數(shù)似然收斂參數(shù)收斂Delta48高級輸出選項(xiàng)高級輸出選項(xiàng)摘要統(tǒng)計(jì)量似

23、然率檢驗(yàn)漸近相關(guān)系數(shù)概率單元格擬和優(yōu)度卡方統(tǒng)計(jì)量迭代歷史紀(jì)錄參數(shù)估計(jì):置信區(qū)間漸近協(xié)方差分類表49模型結(jié)果模型結(jié)果50解釋系數(shù)解釋系數(shù)51預(yù)測預(yù)測52神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò) SPSS Modeler中不同類型神經(jīng)網(wǎng)絡(luò)的訓(xùn)練模式中不同類型神經(jīng)網(wǎng)絡(luò)的訓(xùn)練模式 舉例說明神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)中的專家選項(xiàng)舉例說明神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)中的專家選項(xiàng) 討論敏感性分析和避免過度訓(xùn)練討論敏感性分析和避免過度訓(xùn)練 回顧神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)中如何處理缺失值回顧神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)中如何處理缺失值53訓(xùn)練、測試和驗(yàn)證樣本訓(xùn)練、測試和驗(yàn)證樣本 一般來說:一般來說:訓(xùn)練樣本用來訓(xùn)練模型,測試樣本用來驗(yàn)證模型訓(xùn)練樣本用來訓(xùn)練模型,測試樣本用來驗(yàn)證模型兩部分?jǐn)?shù)據(jù)互

24、斥兩部分?jǐn)?shù)據(jù)互斥 BP 神經(jīng)網(wǎng)絡(luò)模型中:神經(jīng)網(wǎng)絡(luò)模型中:訓(xùn)練樣本用來估計(jì)模型系數(shù),測試樣本用來決定何時(shí)終訓(xùn)練樣本用來估計(jì)模型系數(shù),測試樣本用來決定何時(shí)終止訓(xùn)練,驗(yàn)證樣本用來評估模型止訓(xùn)練,驗(yàn)證樣本用來評估模型“測試測試”樣本兩種不同的含義:樣本兩種不同的含義:在這一章的神經(jīng)網(wǎng)絡(luò)模型中,在這一章的神經(jīng)網(wǎng)絡(luò)模型中,“測試測試”樣本決定訓(xùn)練何樣本決定訓(xùn)練何時(shí)終止,時(shí)終止, “驗(yàn)證驗(yàn)證”樣本在訓(xùn)練中沒有用到的數(shù)據(jù)的基礎(chǔ)樣本在訓(xùn)練中沒有用到的數(shù)據(jù)的基礎(chǔ)上評估模型上評估模型54訓(xùn)練模式訓(xùn)練模式 基本單位:神經(jīng)元基本單位:神經(jīng)元 輸入層、隱藏層、輸出層輸入層、隱藏層、輸出層 全局最優(yōu)解和局部最優(yōu)解全局最優(yōu)解

25、和局部最優(yōu)解 訓(xùn)練方法訓(xùn)練方法監(jiān)督型(輸入、輸出)監(jiān)督型(輸入、輸出)四個(gè)多層感知器方法(四個(gè)多層感知器方法(MLP)一個(gè)徑向基函數(shù)方法(一個(gè)徑向基函數(shù)方法(RBF)55多層感知器(多層感知器(MLPMLP) 優(yōu)點(diǎn):優(yōu)點(diǎn): 很多類型的問題中都有效很多類型的問題中都有效 能夠得到很好的推廣能夠得到很好的推廣 如果數(shù)據(jù)在輸入字段上沒有很好的聚如果數(shù)據(jù)在輸入字段上沒有很好的聚類,會(huì)在極端的區(qū)域下分群樣本類,會(huì)在極端的區(qū)域下分群樣本 目前最常用的一種神經(jīng)網(wǎng)絡(luò)并且在學(xué)目前最常用的一種神經(jīng)網(wǎng)絡(luò)并且在學(xué)術(shù)界對之研究較多術(shù)界對之研究較多 缺點(diǎn):缺點(diǎn): 時(shí)間訓(xùn)練過長時(shí)間訓(xùn)練過長 不能保證找到全局最優(yōu)解不能保證找

26、到全局最優(yōu)解 四種四種MLP 算法:算法: 快速、動(dòng)態(tài)、多重、修剪(徹底修剪)快速、動(dòng)態(tài)、多重、修剪(徹底修剪) 選擇何種方法選擇何種方法 計(jì)算時(shí)間計(jì)算時(shí)間 精度精度兩個(gè)輸入字段預(yù)測兩個(gè)輸入字段預(yù)測兩分類變量兩分類變量56徑向基函數(shù)(徑向基函數(shù)(RBFRBF)優(yōu)點(diǎn):優(yōu)點(diǎn): 訓(xùn)練速度快于訓(xùn)練速度快于MLP 可以對在輸入空間上進(jìn)行了聚類的可以對在輸入空間上進(jìn)行了聚類的數(shù)據(jù)進(jìn)行建模數(shù)據(jù)進(jìn)行建模缺點(diǎn):缺點(diǎn): 難點(diǎn)在于決定函數(shù)中心的最優(yōu)位置難點(diǎn)在于決定函數(shù)中心的最優(yōu)位置 產(chǎn)生的神經(jīng)網(wǎng)絡(luò)通常很難代表數(shù)據(jù)產(chǎn)生的神經(jīng)網(wǎng)絡(luò)通常很難代表數(shù)據(jù)的全局特征的全局特征RBFN 算法:算法:使用使用K-means 聚類算法

27、來決定輸聚類算法來決定輸入空間中心的數(shù)量和位置入空間中心的數(shù)量和位置兩個(gè)輸入字段預(yù)測兩個(gè)輸入字段預(yù)測兩分類變量兩分類變量57專家選項(xiàng)專家選項(xiàng) Alpha :更新訓(xùn)練權(quán)值的參數(shù),:更新訓(xùn)練權(quán)值的參數(shù),確保權(quán)值沿著一致的方向變動(dòng),確保權(quán)值沿著一致的方向變動(dòng),它在它在0 到到1之間變動(dòng),默認(rèn)值為之間變動(dòng),默認(rèn)值為0.9,較高的,較高的alpha 值有助于避值有助于避免網(wǎng)絡(luò)的局部極小值。免網(wǎng)絡(luò)的局部極小值。兩個(gè)輸入字段預(yù)測兩個(gè)輸入字段預(yù)測兩分類變量兩分類變量58專家選項(xiàng)專家選項(xiàng) Eta :學(xué)習(xí)比率,控制每次網(wǎng)絡(luò)更新時(shí)權(quán)值的調(diào)整幅度專家選項(xiàng)中,初:學(xué)習(xí)比率,控制每次網(wǎng)絡(luò)更新時(shí)權(quán)值的調(diào)整幅度專家選項(xiàng)中,初

28、始始Eta 值是值是Eta 的起始值,然后以指數(shù)衰減到的起始值,然后以指數(shù)衰減到Eta 低值,接著重置為低值,接著重置為Eta 高值,反復(fù)循環(huán);高值,反復(fù)循環(huán); Eta 衰減:指定衰減:指定eta 開始降低時(shí)的比率,表示為從開始降低時(shí)的比率,表示為從Eta 高值到高值到Eta 低值的低值的循環(huán)數(shù);循環(huán)數(shù); 持續(xù)次數(shù):指定未進(jìn)行改進(jìn)時(shí)網(wǎng)絡(luò)訓(xùn)練的次數(shù),較高的持續(xù)次數(shù)可以避持續(xù)次數(shù):指定未進(jìn)行改進(jìn)時(shí)網(wǎng)絡(luò)訓(xùn)練的次數(shù),較高的持續(xù)次數(shù)可以避免神經(jīng)網(wǎng)絡(luò)的局部最小值,但是會(huì)增加訓(xùn)練時(shí)間。免神經(jīng)網(wǎng)絡(luò)的局部最小值,但是會(huì)增加訓(xùn)練時(shí)間。59不同的反饋圖和可能的解決方法不同的反饋圖和可能的解決方法60神經(jīng)網(wǎng)絡(luò)算法神經(jīng)

29、網(wǎng)絡(luò)算法 快速快速 動(dòng)態(tài)動(dòng)態(tài) 多重多重 修剪修剪 徹底修剪徹底修剪 RBFN61快速快速 默認(rèn)只包含一個(gè)隱藏層默認(rèn)只包含一個(gè)隱藏層62動(dòng)態(tài)動(dòng)態(tài) 動(dòng)態(tài)增長網(wǎng)絡(luò)動(dòng)態(tài)增長網(wǎng)絡(luò) 初始包含兩個(gè)隱藏層,每層有兩個(gè)神經(jīng)元初始包含兩個(gè)隱藏層,每層有兩個(gè)神經(jīng)元 每次每層增加一個(gè)神經(jīng)元每次每層增加一個(gè)神經(jīng)元 訓(xùn)練速度較慢,模型比較好訓(xùn)練速度較慢,模型比較好 沒有專家選項(xiàng)沒有專家選項(xiàng)63多重多重生成不同拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)生成不同拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)(不同隱藏層或神經(jīng)元)(不同隱藏層或神經(jīng)元) 網(wǎng)絡(luò)網(wǎng)絡(luò)1;網(wǎng)絡(luò);網(wǎng)絡(luò)2;網(wǎng)絡(luò);網(wǎng)絡(luò)3 層層1,層,層2,層,層3 n m inc訓(xùn)練速度慢,結(jié)果較好訓(xùn)練速度慢,結(jié)果較好64修剪修剪

30、敏感度分析敏感度分析 修剪順序修剪順序 隱藏神經(jīng)元、輸入神經(jīng)元隱藏神經(jīng)元、輸入神經(jīng)元 隱藏層、輸入層隱藏層、輸入層 隱藏率隱藏率 輸入率輸入率65RBFN K-means方法確定隱藏方法確定隱藏層的中心層的中心 輸出層被作為一個(gè)單層輸出層被作為一個(gè)單層的感知器訓(xùn)練,使用的感知器訓(xùn)練,使用LMS法法66何時(shí)選擇何種算法何時(shí)選擇何種算法如果時(shí)間有限如果時(shí)間有限 使用默認(rèn)的快速算法使用默認(rèn)的快速算法如果主要關(guān)心的是準(zhǔn)確性而時(shí)間沒有限制如果主要關(guān)心的是準(zhǔn)確性而時(shí)間沒有限制 使用修剪算法,或者徹底修剪算法使用修剪算法,或者徹底修剪算法如果認(rèn)為一些輸入字段有可能是不必要的如果認(rèn)為一些輸入字段有可能是不必要

31、的 修剪或徹底修剪網(wǎng)絡(luò)將會(huì)刪除比較弱的神經(jīng)元修剪或徹底修剪網(wǎng)絡(luò)將會(huì)刪除比較弱的神經(jīng)元如果對找到一個(gè)全局最優(yōu)點(diǎn)表示懷疑如果對找到一個(gè)全局最優(yōu)點(diǎn)表示懷疑 使用使用RBFN 算法算法很少使用多重方法很少使用多重方法67敏感性分析和避免過度訓(xùn)練敏感性分析和避免過度訓(xùn)練 敏感性分析:判斷哪些輸入字段對于預(yù)測輸出字段是敏感性分析:判斷哪些輸入字段對于預(yù)測輸出字段是很重要的很重要的 可以選擇重要的輸入字段訓(xùn)練新的神經(jīng)網(wǎng)絡(luò)可以選擇重要的輸入字段訓(xùn)練新的神經(jīng)網(wǎng)絡(luò) 可以檢查輸入字段的重要順序是否和決策樹的拆分字段一致可以檢查輸入字段的重要順序是否和決策樹的拆分字段一致 更好的理解神經(jīng)網(wǎng)絡(luò)的預(yù)測方式更好的理解神經(jīng)網(wǎng)

32、絡(luò)的預(yù)測方式 避免過度訓(xùn)練:分割數(shù)據(jù)為訓(xùn)練集和測試集避免過度訓(xùn)練:分割數(shù)據(jù)為訓(xùn)練集和測試集 防止模型過度依賴某個(gè)數(shù)據(jù)集防止模型過度依賴某個(gè)數(shù)據(jù)集 如果過度訓(xùn)練一個(gè)模型,模型將會(huì)最終如果過度訓(xùn)練一個(gè)模型,模型將會(huì)最終“學(xué)習(xí)學(xué)習(xí)”到訓(xùn)練數(shù)據(jù)到訓(xùn)練數(shù)據(jù)中所有的模式,模型的誤差將會(huì)接近于中所有的模式,模型的誤差將會(huì)接近于0 數(shù)據(jù)中通常包含噪聲(誤差),模型將會(huì)學(xué)習(xí)到噪聲的特性,數(shù)據(jù)中通常包含噪聲(誤差),模型將會(huì)學(xué)習(xí)到噪聲的特性,而降低模型在其它數(shù)據(jù)上的表現(xiàn)而降低模型在其它數(shù)據(jù)上的表現(xiàn) 用測實(shí)集監(jiān)督模型的訓(xùn)練過程用測實(shí)集監(jiān)督模型的訓(xùn)練過程68神經(jīng)網(wǎng)絡(luò)算法如何轉(zhuǎn)換缺失和異常值神經(jīng)網(wǎng)絡(luò)算法如何轉(zhuǎn)換缺失和異

33、常值字段類型字段類型缺失值缺失值轉(zhuǎn)換為轉(zhuǎn)換為標(biāo)記對錯(cuò)之外的值0.5(神經(jīng)網(wǎng)絡(luò)中標(biāo)記字段以0 和1表示)集合任何未知值0(神經(jīng)網(wǎng)絡(luò)中集合字段轉(zhuǎn)化為0,1 字段輸入)連續(xù)大于上界上界連續(xù)小于下界下界連續(xù)非數(shù)值中點(diǎn)69第四章第四章 SPSS Modeler聚類技術(shù)聚類技術(shù)回顧 SPSS Modeler 中的三種聚類算法討論 K-Means 節(jié)點(diǎn)的操作和選項(xiàng)討論 Kohonen 節(jié)點(diǎn)的高級選項(xiàng)介紹兩步聚類節(jié)點(diǎn)70聚類時(shí)的原則聚類時(shí)的原則聚類的記錄數(shù)較小時(shí)(聚類的記錄數(shù)較小時(shí)(5-10% 為合理為合理 )合并距離上相鄰的聚類丟棄很小的聚類兩步聚類中選項(xiàng)排除異常值聚類數(shù)(最大聚類數(shù)(最大 12)嘗試不同的

34、聚類數(shù),從中選擇最優(yōu)的兩步聚類從用戶指定的范圍內(nèi)自動(dòng)選擇最優(yōu)聚類數(shù)驗(yàn)證方法:驗(yàn)證方法:首先應(yīng)該研究每個(gè)類之間的區(qū)別,使用類中包括的字段和其它重要的字段建模中使用訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)同一組數(shù)據(jù)使用不同的聚類算法71聚類聚類模型展現(xiàn)模型展現(xiàn)量化評估聚類模型結(jié)果量化評估聚類模型結(jié)果用用模型視圖,輕易模型視圖,輕易查看各聚類的變量差異查看各聚類的變量差異聚類模型評估方法簡述聚類模型評估方法簡述Silhouette測量測量基于距離矩陣的評估方法?;诰嚯x矩陣的評估方法。對于每一個(gè)樣本i,定義指數(shù) s(i)(值在-1,1之間)來衡量b(i),a(i)之間的標(biāo)準(zhǔn)差,a(i)是樣本到同組樣本的平均距離;b(i)

35、是樣本到最近的組中所有樣本的平均距離。如果s(i)接近1,那么樣本i離自己的組比離其他鄰近的組近,所以是分類良好的,反之如果接近-1,則是被錯(cuò)分的,但如果在0附近則難以判斷是否分類正確。將s(i)用水平條表示,并按照各個(gè)樣本在組內(nèi)的s(i)從高到低排列。這樣有助于找出那些分類不佳的樣本。對于不同的分組,可以作不同的Silhouette plot,并比較它們的平均 silhouette Wideth值,越趨向1則分類越好。Kaufman 和和Rousseeuw認(rèn)為,超過認(rèn)為,超過0.5的的silhouette值就是好的分類結(jié)值就是好的分類結(jié)果,果,0.2以下是缺少實(shí)質(zhì)聚類結(jié)構(gòu)的。以下是缺少實(shí)質(zhì)聚

36、類結(jié)構(gòu)的。7273K-Means 聚類聚類使用“最大化”方法選擇一組初始聚類中心根據(jù)記錄和聚類中心的歐氏距離把每個(gè)記錄分到與其最相近的類群重新計(jì)算每個(gè)類群的中迭代直到達(dá)到最大迭代次數(shù)或者前后兩次迭代之間差異不超過指定閥值注意:注意:生成模型在一定程生成模型在一定程上取決于訓(xùn)練數(shù)據(jù)的順序上取決于訓(xùn)練數(shù)據(jù)的順序74選擇聚類選擇聚類字段字段 本例中選擇的字段都有相同的度量不是必須的選擇字段應(yīng)該是明顯的聚類結(jié)果盡可能簡單人口統(tǒng)計(jì)學(xué)字段一般并不用來聚類,而是用來驗(yàn)證和探索聚類的特征高度相關(guān)的字段不要全部用在聚類中使用統(tǒng)計(jì)量節(jié)點(diǎn),相關(guān)系數(shù)大于0.875選項(xiàng)設(shè)置選項(xiàng)設(shè)置聚類數(shù):指定生成的聚類個(gè)數(shù),默認(rèn)值為 5生成距離字段:生成模型將包括一個(gè)具有每個(gè)記錄與其所屬類群中心距離的字段顯示類鄰近距離:在生成模型的輸出結(jié)果中包含類中心距離終止標(biāo)準(zhǔn):默認(rèn)是迭代 20 次或者差異0.000001,達(dá)到任一標(biāo)準(zhǔn)就終止最大迭代次數(shù):允許在迭代指定次數(shù)后終止訓(xùn)練差異容忍度允許在一次迭代中,聚類中心之間的最大差異小于指定水平時(shí)終止訓(xùn)練76K-Means 計(jì)算距離計(jì)算距

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論