第6講樹類分析及其在金融運(yùn)用

上傳人：q*** IP屬地：山東上傳時間：2023-10-12 格式：PPTX 頁數(shù)：40 大小：4.88MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩35頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

樹類分析及其在金融領(lǐng)域的應(yīng)用第六講樹類分析是數(shù)據(jù)挖掘技術(shù)領(lǐng)域的一種重要方法，能夠從一系列具有眾多特征和標(biāo)簽的數(shù)據(jù)中總結(jié)出決策規(guī)則，并用樹狀圖的結(jié)構(gòu)呈現(xiàn)這些規(guī)則。作為金融平臺來說，為了把控風(fēng)險，保證資金的流動性，就要提前預(yù)測未來一段時間內(nèi)的用戶購買和提現(xiàn)金額。準(zhǔn)確預(yù)測用戶到期是否復(fù)投就變得至關(guān)重要。章前導(dǎo)讀12345了解樹類分析方法的基本原理熟悉決策樹方法和隨機(jī)森林的原理與代碼熟練運(yùn)用回歸決策樹和分析決策樹等熟悉各種模型的優(yōu)缺點(diǎn)與評價指標(biāo)掌握各種模型的具體應(yīng)用情景，特別是金融領(lǐng)域的應(yīng)用學(xué)習(xí)目標(biāo)樹類分析方法概述及其應(yīng)用場景隨機(jī)森林算法原理決策樹算法原理樹類分析方法在金融領(lǐng)域的應(yīng)用本講內(nèi)容一、樹類分析方法概述及其應(yīng)用場景第一節(jié)樹類分析方法概述及其運(yùn)用場景樹類分析主要包括決策樹隨機(jī)森林梯度提升決策樹樹類分析的應(yīng)用場景臨床醫(yī)學(xué)非金融領(lǐng)域：企業(yè)營銷企業(yè)決策天文學(xué)基因研究……金融領(lǐng)域：資產(chǎn)定價風(fēng)險預(yù)測股票市場樹類方法概述與比較最早產(chǎn)生于20世紀(jì)60年代，是由亨特（Hunt）等人研究人類概念建模時建立的學(xué)習(xí)系統(tǒng)（ConceptLearningSystem）優(yōu)點(diǎn)計算復(fù)雜度不高，輸出結(jié)果易于理解，對中間值的缺失不敏感，可以直接處理分類型變量而不需要創(chuàng)建啞變量關(guān)鍵難點(diǎn)建立決策樹不足存在過擬合的問題，泛化能力差決策樹隨機(jī)選擇特征構(gòu)建決策樹隨機(jī)森林投票在數(shù)據(jù)噪音比較大的情況下會過擬合基本流程：相比決策樹的優(yōu)點(diǎn)：不足：隨機(jī)選擇樣本解決了模型的抗干擾能力易于實(shí)現(xiàn)；訓(xùn)練速度快；突出優(yōu)良特征數(shù)據(jù)量大的情況下預(yù)算量大的問題樹類方法概述與比較隨機(jī)森林樹類方法概述與比較優(yōu)點(diǎn)：訓(xùn)練效果好、適合低維稠密數(shù)據(jù)，模型可解釋性好，不需要做特征的歸一化、可以自動選擇特征、不易過擬合以決策樹為基分類器（一般是CART樹）進(jìn)行迭代的決策樹算法不足：弱學(xué)習(xí)器之間相互依賴，難以并行訓(xùn)練數(shù)據(jù)、不適用高維稀疏特征等梯度提升決策樹樹類分析方法在金融領(lǐng)域的應(yīng)用在風(fēng)險預(yù)測中的應(yīng)用B在資產(chǎn)定價中的應(yīng)用A二項式期權(quán)定價模型：使用離散概率來確定期權(quán)到期時的價值在股票市場中的應(yīng)用C決策樹預(yù)測用戶違約：獲取用戶的歷史數(shù)據(jù)，將貸款客戶不斷分類，簡化樹的復(fù)雜度，評估客戶的信用等級充分利用龐大的交易數(shù)據(jù)進(jìn)行股票漲跌預(yù)測二、決策樹算法原理基本概念1.父節(jié)點(diǎn)、子節(jié)點(diǎn)2.根節(jié)點(diǎn)3.葉子節(jié)點(diǎn)4.節(jié)點(diǎn)分裂最小樣本數(shù)5.葉子節(jié)點(diǎn)最小樣本數(shù)6.樹最大深度（垂直深度）第二節(jié)決策樹算法原理決策樹算法流程是否（if-else）規(guī)則的集合決策樹的構(gòu)造：1.由訓(xùn)練樣本集生成決策樹2.用新的樣本數(shù)據(jù)集校驗并進(jìn)行決策樹的剪枝定義在特征空間與類空間上的條件概率分布根節(jié)點(diǎn)分支節(jié)點(diǎn)決策結(jié)果（葉子節(jié)點(diǎn)）分支節(jié)點(diǎn)決策結(jié)果（葉子節(jié)點(diǎn)）決策結(jié)果（葉子節(jié)點(diǎn)）決策結(jié)果（葉子節(jié)點(diǎn)）條件1條件2條件3決策樹算法——ID3算法主要特點(diǎn)：根據(jù)“最大信息增益”來選擇分裂節(jié)點(diǎn)的屬性，從而可以獲得有關(guān)于每個節(jié)點(diǎn)的最大類別信息ID3決策樹算法是其他決策樹算法的基礎(chǔ)其中，i代表X的n種離散取值，而pi則表示取X值為i的概率，log為以2或以e為底的對數(shù)。熵：度量事物的不確定程度隨機(jī)變量的熵的表達(dá)式：信息增益（InformationGain）信息增益：原信息熵值與條件熵值之差02條件熵：當(dāng)引入某個用于分類的變量，則將根據(jù)分類條件劃分后的信息熵稱之為條件熵，其公式為：01信息增益越大，分類后混亂程度越低，該條件分類的效果越好。03通過不斷選取信息增益最大的條件作為首先劃分的依據(jù)，依據(jù)該邏輯進(jìn)行分裂，不斷重復(fù)該過程最終構(gòu)建出決策樹。原理簡單，降低了個別異常數(shù)據(jù)的敏感度，大樣本數(shù)據(jù)集計算速度也較快。傾向于選擇取值較多的屬性而非最佳分裂屬性；未考慮缺失值的情況和特征屬性之間的關(guān)聯(lián)，只適用于離散型數(shù)據(jù)，只能用于分類不能用于回歸。ID3算法的主要原理優(yōu)勢不足主要原理01020102優(yōu)勢：不足：將連續(xù)的特征離散化解決離散數(shù)據(jù)問題改進(jìn)改善了ID3算法的幾個主要問題，分類準(zhǔn)確率較高計算機(jī)運(yùn)算效率低未考慮特征屬性間的相關(guān)性，只能用于分類C4.5算法——以最大信息增益率作為標(biāo)準(zhǔn)信息增益率：信息增益與條件熵的比值決策樹算法——CART分類樹CART分類樹引入基尼系數(shù)（Gini）作為選擇分裂節(jié)點(diǎn)的特征，其表達(dá)式為與熵一樣，基尼系數(shù)表征的也是事件的不確定性

決策樹算法——CART分類樹引入某個用于分類的變量后，分割后的基尼系數(shù)公式為：基尼增益（Gain）的公式為：度量目標(biāo)：選擇誤差平方和最小的劃分特征與切分點(diǎn)作為最優(yōu)特征和最優(yōu)切分點(diǎn)預(yù)測結(jié)果：采用最終葉子的均值或者中位數(shù)來預(yù)測輸出結(jié)果決策樹算法——CART回歸樹

ID3、C4.5、CART算法總結(jié)算法支持模型樹結(jié)構(gòu)特征選擇標(biāo)準(zhǔn)連續(xù)值處理缺失值處理剪枝特征多次使用ID3分類多叉樹信息增益不支持不支持不支持不支持C4.5分類多叉樹信息增益率支持支持支持不支持CART分類、回歸二叉樹基尼系數(shù)、均方差支持支持支持支持決策樹剪枝YUJIANZHI預(yù)剪枝：HOUJIANZHI后剪枝：指定每一節(jié)點(diǎn)包含的最小樣本數(shù)目指定決策樹的深度指定節(jié)點(diǎn)的熵/基尼系數(shù)小于某個值時，停止分裂在構(gòu)建決策樹的過程中同時伴隨著剪枝先生成與訓(xùn)練樣本集完全擬合的決策樹再利用測試樣本集來檢測決策樹的預(yù)測精度決策樹完全生成之后再進(jìn)行剪枝#改變參數(shù)實(shí)現(xiàn)預(yù)剪枝決策樹的預(yù)剪枝代碼決策樹的后剪枝方法在剪枝的過程中，對于決策樹的任意子樹,其代價函數(shù)為：后剪枝通常比預(yù)剪枝保留更多的分支，其欠擬合風(fēng)險很小；泛化性能更優(yōu)；但訓(xùn)練時間開銷更大決策樹的評估評估方法ROC曲線AUC指標(biāo)均方誤差（MSE）交叉驗證法評估內(nèi)容模型的準(zhǔn)確性模型的穩(wěn)定性三、隨機(jī)森林算法原理010203用隨機(jī)的方式構(gòu)造多棵決策樹，形成決策樹的“森林”原理：根據(jù)決策樹的算法，通過擬合算法，將分散的決策樹進(jìn)行整合，大量樹體融合后，通過分類結(jié)果進(jìn)行統(tǒng)計后的運(yùn)算?？朔藳Q策樹過擬合問題對噪聲和異常值有較好的容忍性對高維數(shù)據(jù)分類問題具有良好的可擴(kuò)展性和并行性隨機(jī)森林算法優(yōu)勢隨機(jī)森林隨機(jī)森林算法基本步驟一二三四自助抽樣法（Bootstrap）從全部訓(xùn)練樣本單元中抽取個樣本單元構(gòu)成Bootstrap數(shù)據(jù)集基于數(shù)據(jù)集構(gòu)造一棵樹，對于樹上的每個節(jié)點(diǎn)，重復(fù)選取最佳分分枝變量并分裂，直到節(jié)點(diǎn)的樣本數(shù)達(dá)到指定的最小限定值獲得決策樹聚合決策樹做出最終決策29隨機(jī)森林代碼隨機(jī)森林的泛化誤差能夠正確分類訓(xùn)練樣本之外的樣本數(shù)據(jù)的能力模型的泛化能力泛化誤差的上界模型未能對其進(jìn)行正確分類的概率泛化誤差袋外數(shù)據(jù)泛化誤差估計方式大數(shù)據(jù)是指數(shù)據(jù)的集合，其大小超出了現(xiàn)有典型數(shù)據(jù)庫獲取、存儲管理和分析數(shù)據(jù)的能力。平均基尼指數(shù)下降法：通過計算變量導(dǎo)致的基尼系數(shù)不純度下降程度，得到各特征對分類樹每個節(jié)點(diǎn)上觀測值的異質(zhì)性的影響，從而衡量特征的重要性。隨機(jī)森林的參數(shù)調(diào)試四、樹類分析方法在金融領(lǐng)域的應(yīng)用面對充滿不確定性的新常態(tài)，未來銀行需要不斷借助大數(shù)據(jù)和機(jī)器學(xué)習(xí)，優(yōu)化自身的風(fēng)險管理水平，提高核心競爭力樹類分析方法在金融領(lǐng)域的應(yīng)用案例一：客戶違約預(yù)測——基于決策樹分類模型得益于決策樹的可解釋性強(qiáng)等特點(diǎn)，通過決策樹搭建客戶違約預(yù)測模型，可以更科學(xué)高效地預(yù)測客戶是否會出現(xiàn)違約情況。1.提取特征變量和目標(biāo)變量2.劃分訓(xùn)練集和測試集3.模型搭建和評估決策樹模型的搭建案例一：客戶違約預(yù)測——基于決策樹分類模型模型的預(yù)測及效果分析案例一：客戶違約預(yù)測——基于決策樹分類模型股市的暴漲暴跌直接影響到金融市場的穩(wěn)定，增加發(fā)生系統(tǒng)性金融風(fēng)險的可能性，進(jìn)一步影響經(jīng)濟(jì)的健康發(fā)展。樹類分析方法在金融領(lǐng)域的運(yùn)用案例二：股票漲跌預(yù)測——基于隨機(jī)森林分類模型傳統(tǒng)的預(yù)測方法都無法十分準(zhǔn)確的模擬股票預(yù)測的非線性關(guān)系。隨機(jī)森林算法作為多個決策樹算法的集成，它的泛化能力更強(qiáng)，并且不存在過擬合的問題，因此通常使用隨機(jī)森林算法預(yù)測股票價格的變動。案例二：股票漲跌預(yù)測——基于隨機(jī)森林分類模型openclosehighlowvolumecode2012-03-0111.9411.9011.9911.861543166000312012-03-0211.9012.2012.2111.893563756000312012-03-0512.2412.2212.5112.194069196000312012-03-0612.1711.7812.1711.762788626000312012-03-0711.6411.4511.7111.41363519600031股票數(shù)據(jù)的獲取與處理模型訓(xùn)練與預(yù)測結(jié)果分析38dateclosevolumehigh_low…rsiY_testY_predict2020-03-1913.5618570220.09…32.21112020-03-2014.4416215150.07…42.20112020-03-2314.5114334760.08…42.93112020-03-2415.2612364280.03…50.27112020-03-2515.5410904880.05…52.75-112020-03-2615.345534630.04…50.7811序號特征名稱特征重要度1close_open0.242

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第6講樹類分析及其在金融運(yùn)用

文檔簡介

溫馨提示

最新文檔

評論

第6講 樹類分析及其在金融運(yùn)用

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

第6講樹類分析及其在金融運(yùn)用