第6講 樹類分析及其在金融運(yùn)用_第1頁
第6講 樹類分析及其在金融運(yùn)用_第2頁
第6講 樹類分析及其在金融運(yùn)用_第3頁
第6講 樹類分析及其在金融運(yùn)用_第4頁
第6講 樹類分析及其在金融運(yùn)用_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

樹類分析及其在金融領(lǐng)域的應(yīng)用第六講樹類分析是數(shù)據(jù)挖掘技術(shù)領(lǐng)域的一種重要方法,能夠從一系列具有眾多特征和標(biāo)簽的數(shù)據(jù)中總結(jié)出決策規(guī)則,并用樹狀圖的結(jié)構(gòu)呈現(xiàn)這些規(guī)則。作為金融平臺來說,為了把控風(fēng)險,保證資金的流動性,就要提前預(yù)測未來一段時間內(nèi)的用戶購買和提現(xiàn)金額。準(zhǔn)確預(yù)測用戶到期是否復(fù)投就變得至關(guān)重要。章前導(dǎo)讀12345了解樹類分析方法的基本原理熟悉決策樹方法和隨機(jī)森林的原理與代碼熟練運(yùn)用回歸決策樹和分析決策樹等熟悉各種模型的優(yōu)缺點(diǎn)與評價指標(biāo)掌握各種模型的具體應(yīng)用情景,特別是金融領(lǐng)域的應(yīng)用學(xué)習(xí)目標(biāo)樹類分析方法概述及其應(yīng)用場景隨機(jī)森林算法原理決策樹算法原理樹類分析方法在金融領(lǐng)域的應(yīng)用本講內(nèi)容一、樹類分析方法概述及其應(yīng)用場景第一節(jié)樹類分析方法概述及其運(yùn)用場景樹類分析主要包括決策樹隨機(jī)森林梯度提升決策樹樹類分析的應(yīng)用場景臨床醫(yī)學(xué)非金融領(lǐng)域:企業(yè)營銷企業(yè)決策天文學(xué)基因研究……金融領(lǐng)域:資產(chǎn)定價風(fēng)險預(yù)測股票市場樹類方法概述與比較最早產(chǎn)生于20世紀(jì)60年代,是由亨特(Hunt)等人研究人類概念建模時建立的學(xué)習(xí)系統(tǒng)(ConceptLearningSystem)優(yōu)點(diǎn)計算復(fù)雜度不高,輸出結(jié)果易于理解,對中間值的缺失不敏感,可以直接處理分類型變量而不需要創(chuàng)建啞變量關(guān)鍵難點(diǎn)建立決策樹不足存在過擬合的問題,泛化能力差決策樹隨機(jī)選擇特征構(gòu)建決策樹隨機(jī)森林投票在數(shù)據(jù)噪音比較大的情況下會過擬合基本流程:相比決策樹的優(yōu)點(diǎn):不足:隨機(jī)選擇樣本解決了模型的抗干擾能力易于實(shí)現(xiàn);訓(xùn)練速度快;突出優(yōu)良特征數(shù)據(jù)量大的情況下預(yù)算量大的問題樹類方法概述與比較隨機(jī)森林樹類方法概述與比較優(yōu)點(diǎn):訓(xùn)練效果好、適合低維稠密數(shù)據(jù),模型可解釋性好,不需要做特征的歸一化、可以自動選擇特征、不易過擬合以決策樹為基分類器(一般是CART樹)進(jìn)行迭代的決策樹算法不足:弱學(xué)習(xí)器之間相互依賴,難以并行訓(xùn)練數(shù)據(jù)、不適用高維稀疏特征等梯度提升決策樹樹類分析方法在金融領(lǐng)域的應(yīng)用在風(fēng)險預(yù)測中的應(yīng)用B在資產(chǎn)定價中的應(yīng)用A二項式期權(quán)定價模型:使用離散概率來確定期權(quán)到期時的價值在股票市場中的應(yīng)用C決策樹預(yù)測用戶違約:獲取用戶的歷史數(shù)據(jù),將貸款客戶不斷分類,簡化樹的復(fù)雜度,評估客戶的信用等級充分利用龐大的交易數(shù)據(jù)進(jìn)行股票漲跌預(yù)測二、決策樹算法原理基本概念1.父節(jié)點(diǎn)、子節(jié)點(diǎn)2.根節(jié)點(diǎn)3.葉子節(jié)點(diǎn)4.節(jié)點(diǎn)分裂最小樣本數(shù)5.葉子節(jié)點(diǎn)最小樣本數(shù)6.樹最大深度(垂直深度)第二節(jié)決策樹算法原理決策樹算法流程是否(if-else)規(guī)則的集合決策樹的構(gòu)造:1.由訓(xùn)練樣本集生成決策樹2.用新的樣本數(shù)據(jù)集校驗并進(jìn)行決策樹的剪枝定義在特征空間與類空間上的條件概率分布根節(jié)點(diǎn)分支節(jié)點(diǎn)決策結(jié)果(葉子節(jié)點(diǎn))分支節(jié)點(diǎn)決策結(jié)果(葉子節(jié)點(diǎn))決策結(jié)果(葉子節(jié)點(diǎn))決策結(jié)果(葉子節(jié)點(diǎn))條件1條件2條件3決策樹算法——ID3算法主要特點(diǎn):根據(jù)“最大信息增益”來選擇分裂節(jié)點(diǎn)的屬性,從而可以獲得有關(guān)于每個節(jié)點(diǎn)的最大類別信息ID3決策樹算法是其他決策樹算法的基礎(chǔ)其中,i代表X的n種離散取值,而pi則表示取X值為i的概率,log為以2或以e為底的對數(shù)。熵:度量事物的不確定程度隨機(jī)變量的熵的表達(dá)式:信息增益(InformationGain)信息增益:原信息熵值與條件熵值之差02條件熵:當(dāng)引入某個用于分類的變量,則將根據(jù)分類條件劃分后的信息熵稱之為條件熵,其公式為:01信息增益越大,分類后混亂程度越低,該條件分類的效果越好。03通過不斷選取信息增益最大的條件作為首先劃分的依據(jù),依據(jù)該邏輯進(jìn)行分裂,不斷重復(fù)該過程最終構(gòu)建出決策樹。原理簡單,降低了個別異常數(shù)據(jù)的敏感度,大樣本數(shù)據(jù)集計算速度也較快。傾向于選擇取值較多的屬性而非最佳分裂屬性;未考慮缺失值的情況和特征屬性之間的關(guān)聯(lián),只適用于離散型數(shù)據(jù),只能用于分類不能用于回歸。ID3算法的主要原理優(yōu)勢不足主要原理01020102優(yōu)勢:不足:將連續(xù)的特征離散化解決離散數(shù)據(jù)問題改進(jìn)改善了ID3算法的幾個主要問題,分類準(zhǔn)確率較高計算機(jī)運(yùn)算效率低未考慮特征屬性間的相關(guān)性,只能用于分類C4.5算法——以最大信息增益率作為標(biāo)準(zhǔn)信息增益率:信息增益與條件熵的比值決策樹算法——CART分類樹CART分類樹引入基尼系數(shù)(Gini)作為選擇分裂節(jié)點(diǎn)的特征,其表達(dá)式為與熵一樣,基尼系數(shù)表征的也是事件的不確定性

決策樹算法——CART分類樹引入某個用于分類的變量后,分割后的基尼系數(shù)公式為:基尼增益(Gain)的公式為:度量目標(biāo):選擇誤差平方和最小的劃分特征與切分點(diǎn)作為最優(yōu)特征和最優(yōu)切分點(diǎn)預(yù)測結(jié)果:采用最終葉子的均值或者中位數(shù)來預(yù)測輸出結(jié)果決策樹算法——CART回歸樹

ID3、C4.5、CART算法總結(jié)算法支持模型樹結(jié)構(gòu)特征選擇標(biāo)準(zhǔn)連續(xù)值處理缺失值處理剪枝特征多次使用ID3分類多叉樹信息增益不支持不支持不支持不支持C4.5分類多叉樹信息增益率支持支持支持不支持CART分類、回歸二叉樹基尼系數(shù)、均方差支持支持支持支持決策樹剪枝YUJIANZHI預(yù)剪枝:HOUJIANZHI后剪枝:指定每一節(jié)點(diǎn)包含的最小樣本數(shù)目指定決策樹的深度指定節(jié)點(diǎn)的熵/基尼系數(shù)小于某個值時,停止分裂在構(gòu)建決策樹的過程中同時伴隨著剪枝先生成與訓(xùn)練樣本集完全擬合的決策樹再利用測試樣本集來檢測決策樹的預(yù)測精度決策樹完全生成之后再進(jìn)行剪枝#改變參數(shù)實(shí)現(xiàn)預(yù)剪枝決策樹的預(yù)剪枝代碼決策樹的后剪枝方法在剪枝的過程中,對于決策樹的任意子樹,其代價函數(shù)為:后剪枝通常比預(yù)剪枝保留更多的分支,其欠擬合風(fēng)險很小;泛化性能更優(yōu);但訓(xùn)練時間開銷更大決策樹的評估評估方法ROC曲線AUC指標(biāo)均方誤差(MSE)交叉驗證法評估內(nèi)容模型的準(zhǔn)確性模型的穩(wěn)定性三、隨機(jī)森林算法原理010203用隨機(jī)的方式構(gòu)造多棵決策樹,形成決策樹的“森林”原理:根據(jù)決策樹的算法,通過擬合算法,將分散的決策樹進(jìn)行整合,大量樹體融合后,通過分類結(jié)果進(jìn)行統(tǒng)計后的運(yùn)算??朔藳Q策樹過擬合問題對噪聲和異常值有較好的容忍性對高維數(shù)據(jù)分類問題具有良好的可擴(kuò)展性和并行性隨機(jī)森林算法優(yōu)勢隨機(jī)森林隨機(jī)森林算法基本步驟一二三四自助抽樣法(Bootstrap)從全部訓(xùn)練樣本單元中抽取個樣本單元構(gòu)成Bootstrap數(shù)據(jù)集基于數(shù)據(jù)集構(gòu)造一棵樹,對于樹上的每個節(jié)點(diǎn),重復(fù)選取最佳分分枝變量并分裂,直到節(jié)點(diǎn)的樣本數(shù)達(dá)到指定的最小限定值獲得決策樹聚合決策樹做出最終決策29隨機(jī)森林代碼隨機(jī)森林的泛化誤差能夠正確分類訓(xùn)練樣本之外的樣本數(shù)據(jù)的能力模型的泛化能力泛化誤差的上界模型未能對其進(jìn)行正確分類的概率泛化誤差袋外數(shù)據(jù)泛化誤差估計方式大數(shù)據(jù)是指數(shù)據(jù)的集合,其大小超出了現(xiàn)有典型數(shù)據(jù)庫獲取、存儲管理和分析數(shù)據(jù)的能力。平均基尼指數(shù)下降法:通過計算變量導(dǎo)致的基尼系數(shù)不純度下降程度,得到各特征對分類樹每個節(jié)點(diǎn)上觀測值的異質(zhì)性的影響,從而衡量特征的重要性。隨機(jī)森林的參數(shù)調(diào)試四、樹類分析方法在金融領(lǐng)域的應(yīng)用面對充滿不確定性的新常態(tài),未來銀行需要不斷借助大數(shù)據(jù)和機(jī)器學(xué)習(xí),優(yōu)化自身的風(fēng)險管理水平,提高核心競爭力樹類分析方法在金融領(lǐng)域的應(yīng)用案例一:客戶違約預(yù)測——基于決策樹分類模型得益于決策樹的可解釋性強(qiáng)等特點(diǎn),通過決策樹搭建客戶違約預(yù)測模型,可以更科學(xué)高效地預(yù)測客戶是否會出現(xiàn)違約情況。1.提取特征變量和目標(biāo)變量2.劃分訓(xùn)練集和測試集3.模型搭建和評估決策樹模型的搭建案例一:客戶違約預(yù)測——基于決策樹分類模型模型的預(yù)測及效果分析案例一:客戶違約預(yù)測——基于決策樹分類模型股市的暴漲暴跌直接影響到金融市場的穩(wěn)定,增加發(fā)生系統(tǒng)性金融風(fēng)險的可能性,進(jìn)一步影響經(jīng)濟(jì)的健康發(fā)展。樹類分析方法在金融領(lǐng)域的運(yùn)用案例二:股票漲跌預(yù)測——基于隨機(jī)森林分類模型傳統(tǒng)的預(yù)測方法都無法十分準(zhǔn)確的模擬股票預(yù)測的非線性關(guān)系。隨機(jī)森林算法作為多個決策樹算法的集成,它的泛化能力更強(qiáng),并且不存在過擬合的問題,因此通常使用隨機(jī)森林算法預(yù)測股票價格的變動。案例二:股票漲跌預(yù)測——基于隨機(jī)森林分類模型openclosehighlowvolumecode2012-03-0111.9411.9011.9911.861543166000312012-03-0211.9012.2012.2111.893563756000312012-03-0512.2412.2212.5112.194069196000312012-03-0612.1711.7812.1711.762788626000312012-03-0711.6411.4511.7111.41363519600031股票數(shù)據(jù)的獲取與處理模型訓(xùn)練與預(yù)測結(jié)果分析38dateclosevolumehigh_low…rsiY_testY_predict2020-03-1913.5618570220.09…32.21112020-03-2014.4416215150.07…42.20112020-03-2314.5114334760.08…42.93112020-03-2415.2612364280.03…50.27112020-03-2515.5410904880.05…52.75-112020-03-2615.345534630.04…50.7811序號特征名稱特征重要度1close_open0.242

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論