版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第
五
講回歸分析及其在金融運用章前導讀章前導讀TWO當傳統的回歸方法不能展現出很好的分類效果和預測能力,應當如何處理這些問題呢?ONE回歸分析在經濟、金融、商業(yè)領域有著廣泛的應用:資產定價宏觀經濟預測、債券評級、信用風險預測、客戶畫像……了解回歸模型在不同場景下的應用01掌握多元定性響應變量回歸模型的原理及統計推斷方法02了解傳統多元線性回歸模型的改進方法,并能在不同金融場景下靈活應用03學習目標CONTENT回歸類分析方法及其運用場景概述多元定性響應變量的回歸模型回歸模型的選擇、正則化與降維回歸類分析方法在金融領域的運用目
錄PART01回歸類分析方法及其運用場景概述Overviewofregressionclassanalysismethodsandtheirapplicationscenarios回歸分析的定義及分類01回歸分析(RegressionAnalysis):確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。03
02
分類標準類
別特征變量的個數一元回歸模型、多元回歸模型特征變量與響應變量的關系線性回歸模型、非線性回歸模型回歸方程的個數單方程回歸模型、聯立方程回歸模型數據類型的特點橫截面模型、時間序列模型、面板模型回歸分析的定義及分類多元線性回歸模型(MultipleLinearRegressionModel)請輸入標題請輸入標題請輸入標題請輸入標題請輸入標題
該回歸模型也可表示為矩陣形式(更常用):Y=Xβ+?
(3)估計量的性質:
最小二乘法(OLS)原理:找到使得模型殘差平方和最小的參數向量β
多元線性回歸模型回顧回歸分析:計量經濟學vs機器學習領域重視統計推斷(包括參數的點估計、區(qū)間估計以及假設檢驗)尤其重視如何借助回歸模型推斷變量之間的因果關系計
量
經
濟
學更重視模型的預測準確率(accuracy)和解釋力(interpretation)預測準確率指在訓練集上得到的回歸模型在測試集上的預測表現模型解釋力指回歸系數能否直觀簡潔描繪特征變量對響應變量的影響機
器
學
習回歸分析在金融領域的應用場信用風險,市場風險、操作風險、流動性風險、管理風險等二分類Logistic/Probit回歸模型,Cox比例風險回歸模型風險評估與識別量化投資,預測未來資產價格和收益率采用系數壓縮、變量篩選等方法對回歸模型改進價格與收益率預測實現對不同類型客戶的精準營銷多分類Logistic回歸模型用戶畫像與精準營銷PART02多元定性響應變量的回歸模型Regressionmodelofmultiplequalitativeresponsevariables多元線性回歸模型的缺陷變量的無意義排序當定性響應變量有m個種類時(m>2),通常會給各個種類進行編號排序,但這些種類僅在邏輯上僅具有平行關系,并不具有順序關系。但是編號本身則天然代表了某種大小關系或順序關系,不同的排序方式會產生完全不同的線性模型及參數估計,給人們帶來混淆。參數估計的有效性不再滿足
預測值的經濟含義模糊在響應變量為二元離散取值的情況下,如果使用普通的多元線性回歸模型進行建模,預測的結果則可能大于1或小于0,這樣的結果與現實相悖。二分類多元Logistic/Probit回歸廣義線性模型(generalizedlinearmodel)組成部分:隨機部分、系統部分(或線性部分)、聯系函數隨機部分
系統部分
聯系函數
當聯系函數為g(a)=a時,廣義線性回歸模型退化為普通線性回歸模型。普通線性模型可以看作廣義線性模型的一個特例。二分類多元Logistic/Probit回歸在利用廣義線性模型做二分類建模時,這兩類函數可以將系統部分給出z_i的轉化為在0到1之間的變量E(y_i│X),使得模型可以更好地擬合二項分布的數據。
二分類響應變量的多元Logistic/Probit模型
二分類多元Logistic/Probit回歸二分類多元Logistic回歸模型二分類多元Probit回歸模型二分類多元Logistic/Probit回歸參數估計方法非線性最小二乘法(nonlinearleastsquare)使離差平方和最小化以Probit模型為例,參數估計量
數值優(yōu)化算法來求得數值解,如梯度下降法和牛頓法二分類多元Logistic/Probit回歸特征變量的顯著性檢驗與擬合優(yōu)度評估
真
實
值預測值真陽性(TP)假陽性(FP)假陰性(FN)真陰性(TN)預測準確度評估機器學習中的分類問題通常用混淆矩陣來表示分類結果預測結果的靈敏度或真陽率:預測結果的假陽率:
參數估計方法二分類多元Logistic/Probit回歸Python代碼#調用sklearn模塊和matplotlib模塊importmatplotlib.pyplotaspltfromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportconfusion_matrix,classification_report,plot_roc_curve,cohen_kappa_score#構建Logistic回歸模型并進行擬合(不設系數懲罰項)reg1=LogisticRegression(penalty=‘none’,fit_intercept=False)reg1_result=reg1.fit(X_train,Y_train)#輸出回歸系數reg1.coef_#用該模型做預測,得到每個觀測屬于不同類別的概率Probability=reg1.predict_proba(X_test)#選擇一:用模塊中自帶的predict函數直接輸出分類值(閾值自動設定)Prediction=reg1.predict(X_test)#選擇二:手動設定閾值(例如0.5),得到分類值Prediction#輸出混淆矩陣confusion_matrix(Y_test,Prediction)#畫出ROC曲線并計算AUC值plot_roc_curve(reg1,X_test,Y_test)多類別Logistic模型
如果響應變量的取值大于兩類時,可以使用多類別Logistic模型。基線Logistic模型:多類別Logistic模型
定序Logistic模型:
PART03回歸模型的選擇、正則化與降維Regressionmodelselection,regularizationanddimensionalityreduction選擇回歸模型的動機多重共線性存在問題:完全多重共線性導致OLS方法的失效,無法得到唯一的參數估計;不完全的多重共線性的有效性會大大減弱。檢驗方法:特征變量的相關系數矩陣、方差膨脹因子檢驗。過擬合問題過擬合:模型對訓練集的擬合程度比對真實總體的擬合程度更好,導致該模型在預測集上表現較差。過擬合體現在兩個方面:引入過多無關特征變量、引入過多特征變量的高次項(因而模型高度非線性化)。維數災難當特征變量的個數大于觀測數時(K>n),回歸分析將得不到唯一的參數估計。即使K<n時,特征變量具有過高的維數也會導致多重共線性與過擬合問題的出現,進而大大削弱回歸系數的解釋力與模型的預測能力。交叉檢驗法為了解決上述困擾,必須對回歸模型進行選擇或約束,在不同模型之間進行比較,進而選出最優(yōu)的模型。模型評價指標:調整R2、AIC準則、BIC準則等以及ROC曲線、AUC指標等,還有模型在預測集上的均方誤差(即Mean-SquareError,MSE)。k折交叉檢驗法(k-foldcross-validation,簡記CV):01第一步:將總觀測集隨機地分為k個樣本數量基本一致的折(fold),找其中一折作為預測集,剩下的作為訓練集。02第二步:對訓練集進行(同一)回歸模型的擬合,然后用該模型對測試集進行預測,并計算測試集上的均方誤差。03第三步:選擇另一折作為測試集,重復第一步和第二步,直到所有折都曾作過測試集(即重復k次)。交叉檢驗法2在如何選擇折數k的問題上,需要考慮“偏差—方差”的權衡。一般而言,留一交叉檢驗法的方差要比k折交叉檢驗法(k<N)的方差更大。從經驗上講,選擇k=5或是k=10比較合適的(N>>10)。3不同回歸模型進行交叉檢驗后會得到關于不同模型的CV值,這些值可以構成測試誤差估計值曲線。1k折交叉檢驗法的平均均方誤差:當折數k等于觀測樣本總數量n時,為留一交叉檢驗法(leave-one-outCV)
子集選擇的回歸模型子集選擇的回歸模型:
回歸模型選擇中一個直觀的想法是對特征變量的集合進行篩選,篩選出合適的特征變量子集來構建回歸模型。1.最優(yōu)子集選擇模型最優(yōu)子集選擇模型是對個特征變量的所有可能組合分別進行回歸擬合,其算法步驟如下表:步驟操作第一步第二步(a)(b)第三步這種方法需要檢索的回歸模型的總個數為:
(1)這種方法簡單直觀,但計算效率低,需檢索模型數量隨特征變量個數的增加而迅速增加;(2)該方法也只適用于樣本量N>K的情況,一旦特征變量個數超過樣本量,方法失效。
子集選擇的回歸模型2.向后逐步選擇模型
步驟操作第一步第二步(a)(b)第三步(1)這種方法需要檢索的回歸模型的總個數為:優(yōu)勢在于計算量要遠小于最優(yōu)子集選擇模型;
(2)但是仍需要保證特征變量個數小于樣本量(即N>K),否則模型將無法進行參數估計。子集選擇的回歸模型3.向前逐步選擇模型
步驟操作第一步第二步(a)(b)第三步(1)這種方法需要檢索的模型個數與向后逐步選擇模型相同,因此其計算量也要遠遠小于最優(yōu)子集選擇模型;(2)這種方法也適用于樣本量小于特征變量數的情況,即N<K,因此它要優(yōu)于向后逐步選擇模型。具體而言,當出現N<K的情況時,該算法會在回歸模型特征變量數等于N的時候停止,然后從備選模型中進行挑選。回歸模型的正則化嶺回歸嶺回歸方法是將OLS無約束最優(yōu)化問題轉化為如下有約束的最優(yōu)化問題:如果將上述問題的拉格朗日方程列出,嶺回歸的目標函數還可以等價地寫成:AB回歸模型的正則化1.嶺回歸嶺回歸的幾何意義:在嶺回歸中,RSS函數的等高線會與懲罰約束所代表的球形等高線相切(大概率情況下二者不會切于坐標軸),進而使得OLS估計量收縮至嶺回歸估計量。通過目標函數的一階條件可以求解嶺回歸的參數估計滿足下式:
嶺回歸估計量在小樣本下是有偏估計量(因為OLS估計量在一定假設下是無偏估計量),但是它使得參數估計的方差大大縮小。然而,由于嶺回歸中很難將參數估計嚴格限制到0,因此這個方法并不能起到篩選變量的目的。在高維問題中,嶺回歸仍不是最優(yōu)選擇?;貧w模型的正則化2.套索回歸與嶺回歸類似,套索回歸下的約束最優(yōu)化問題為:
套索回歸幾何意義:套索回歸中RSS的等高線與約束條件的八面體等高線很容易相切于坐標軸。這樣一來,某一個特征變量的參數就會完全變成0,進而達到篩選變量的目的。由于目標函數中存在絕對值(函數存在不可導的點),所以套索回歸的求解過程較為復雜,常見的方法有最小角回歸以及坐標下降法?;貧w模型的正則化3.彈性網絡回歸彈性網絡回歸是嶺回歸和套索回歸的折中。
由于彈性網絡約束的等高線圖也具有尖角,因此該方法也具備篩選變量的功能。彈性網絡回歸目標函數可以表示為:
回歸模型的正則化回歸正則化的Python代碼1.數據的標準化#調用相關模塊及命令fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()X_std=scaler.fit_transform(X)#其中X是原始特征變量矩陣,X_std是標準化后的特征變量矩陣回歸模型的正則化2.嶺回歸、套索回歸和彈性網絡回歸的構建與估計(1)嶺回歸的構建(3)彈性網絡回歸(2)套索回歸的構建#調用相關模塊及命令fromsklearn.linear_modelimportRidge#嶺回歸(設置調節(jié)參數lambda為1)并輸出截距項和系數reg2=Ridge(alpha=1)reg2.fit(X_std,Y)ercept_reg2.coef_#調用相關模塊及命令fromsklearn.linear_modelimportLasso#套索回歸(設置調節(jié)參數lambda為0.2)并輸出截距項和系數reg3=Lasso(alpha=0.2)reg3.fit(X_std,Y)ercept_reg3.coef_#調用相關模塊及命令fromsklearn.linear_modelimportElasticNet#彈性網絡回歸(設置參數lambda為0.1,L1占比50%)并輸出截距項和系數reg4=ElasticNet(alpha=0.1,l1_ratio=0.5)reg4.fit(X_std,Y)ercept_reg4.coef_回歸模型的正則化3.回歸正則化的最優(yōu)參數選擇首先,調用相關模塊并設置交叉檢驗的基本參數:#調用相關模塊及命令fromsklearn.model_selectionimportKFoldfromsklearn.linear_modelimportRidgeCVfromsklearn.linear_modelimportLassoCVfromsklearn.linear_modelimportElasticNetCV#設置k折交叉檢驗(例如k=10)kfold=KFold(n_splits=10,shuffle=True,random_state=1)#設置選擇參數的范圍(該范圍較粗)alpha_set=np.logspace(-5,7,100)#在確定大致范圍后,選擇更細的參數范圍alpha_set=np.linspace(1,10,1000)#k折交叉檢驗下的最優(yōu)嶺回歸(自動選擇最優(yōu)alpha)reg2=RidgeCV(alphas=alpha_set,cv=kfold)reg2.fit(X_std,Y)reg2.alpha_#k折交叉檢驗下的最優(yōu)套索回歸(自動選擇最優(yōu)alpha)reg3=LassoCV(alphas=alpha_set,cv=kfold)reg3.fit(X_std,Y)reg3.alpha_#k折交叉檢驗下的最優(yōu)嶺回歸(自動選擇最優(yōu)alpha)reg2=RidgeCV(alphas=alpha_set,cv=kfold)reg2.fit(X_std,Y)reg2.alpha_#k折交叉檢驗下的最優(yōu)套索回歸(自動選擇最優(yōu)alpha)reg3=LassoCV(alphas=alpha_set,cv=kfold)reg3.fit(X_std,Y)reg3.alpha_然后,分別對嶺回歸、套索回歸和彈性網絡回歸選擇最優(yōu)參數:降維回歸方法1.主成分回歸2.偏最小二乘回歸
偏最小二乘回歸的Python代碼#調用相關模塊及命令fromsklearn.cross_decompositionimportPLSRegression#偏最小二乘法回歸的構建與估計(標準化,并保留兩個主成分)reg5=PLSRegression(n_components=2,scale=True)reg5.fit(X_std,Y)reg5.coef_PART04回歸類分析方法在金融領域的運用Theapplicationofregressionclassanalysismethodinfinancialfield案例1:個人違約風險評估數據來源:美國網絡借貸平臺LendingClub,橫截面數據,樣本量39萬余;響應變量y為借款人的違約情況(“ChargedOff”表示已違約,“FullyPaid”表示未違約)。變量名稱內容單位gradeLendingClub平臺給出的信用評級(分為A~G七個等級),A表示信用極好,G表示信用極差。—loan_amnt借款人申請的借款數量美元term貸款期限(分為36個月和60個月)—home_ownership借款人住房情況(分為3類)—annual_inc借款人年收入美元dti債務收入比=月債務總額/月收入%delinq_2yrs借款人過去兩年內的違約次數次inq_last_6mths借款人過去六個月被信用調查的次數次total_acc借款人總賬戶數個
已違約(觀測數:66510)未違約(觀測數:325237)均值標準差均值標準差loan_amnt15731.78374.00114397.448247.615annual_inc68735.3550832.3575911.3954839.61dti19.067.8817.157.75delinq_2yrs0.320.860.290.81inq_last_6mths0.911.100.761.02total_acc25.2811.6725.4211.551.數據簡介與描述性統計案例1:個人違約風險評估由于本案例中的響應變量為定性二分類變量,首先應考慮采用二分類多元Logistic/Probit回歸模型進行建模訓練變量名稱模型1:Logistic模型2:Probitdti-0.0164***-0.0095***(0.001)(0.000)delinq_2yrs-0.0278***-0.0159***(0.006)(0.003)inq_last_6mths-0.0652***-0.037***(0.005)(0.003)total_acc0.0016***0.001***(0.000)(0.000)偽R20.077200.07699該模型中,已違約樣本的響應變量為0,未違約樣本的響應變量為1。因此從回歸結果中可以看出:-負債收入比越高-兩年內違約次數越多-六個月內接受信用調查越多-賬戶數量越少的個體其違約的可能性越大。2.基于訓練集的回歸模型結果案例1:個人違約風險評估3.樣本外預測能力評估與樣本分類非平衡問題ROC曲線幾乎緊貼45度線,說明之前構造的Logistic回歸模型并不具有很好的預測能力?,F這種情況的原因主要在于響應變量具有非平衡的分類;描述性統計顯示,已違約樣本有6萬多個,未違約的樣本量超過了30萬;即使模型把預測集上的樣本全部預測為未違約樣本,其平均預測準確率也約等于30/36=5/6;而Logistic模型本身的預測能力可能無法達到該數值。為了解決這個問題,本案例將刪除部分未違約樣本,使得分類變得較為平衡。調整后的樣本中,已違約和未違約的個體均大約有2700個左右;再次將該樣本分為訓練集和預測集,并在訓練集上進行建模;在預測集上進行樣本外預測,ROC曲線如右圖(AUC=0.57):案例2:原油價格預測數據:時間序列數據(月度數據),樣本量從1987年1月至2021年10月(共418個觀測樣本)響應變量為美國西德克薩斯中質原油(WTI)的時點價格,取自美國能源信息部門(EIA),時間趨勢圖如下:1.數據簡介與描述性統計案例2:原油價格預測特征變量X共包含45個(宏觀經濟指標33個,技術指標12個)??紤]到部分指標的時滯性,每個宏觀經濟指標的1期滯后項和2期滯后項均被納入回歸模型(因此宏觀指標共33個)。移動平均策略指標包含6種不同測度下的短期與長期移動平均,動量策略指標也包含6種不同時間間隔(因此技術指標共12個)。
變量名稱內容單位TBR美國三個月國庫券當期利率%LTY美國十年期政府債券當期利率%IF美國通貨膨脹率(由城市居民CPI計算得到)%EPU美國經濟政策不確定性指數—KI全球實體經濟活動Kilian指數—GOP美國原油生產增長率%GOS美國原油儲蓄增長率%GOI美國原油進口增長率%MS美國貨幣供應量M2十億美元UR美國失業(yè)率%CU美國產能利用率%MA移動平均策略指標布爾值MOM動量策略指標布爾值1.數據簡介與描述性統計案例2:原油價格預測研究方法與實證
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年婚禮化妝造型合同
- 2024大數據中心存儲設備采購合同
- 2024年度分包合作協議書
- 中考狀語課件教學課件
- 2024年度版權返租及授權使用協議
- 2024年國際皮毛市場交易合同
- 鄉(xiāng)鎮(zhèn)防汛抗旱救災的應急預案(5篇)
- (2024版)灑水車團隊租賃合同(2024版)
- 2024年度軟件許可及技術支持服務合同
- 2024年度互聯網金融服務平臺合作協議
- 《西方經濟學》-完整全套課件
- 中華律師協會 風險代理合同
- 鋰離子電池儲能電站熱失控預警與防護研究進展
- RIGOL-DS1102CD數字示波器的使用方法課件
- 自閉兒童創(chuàng)業(yè)計劃書
- 解決員工沖突和問題的方法
- 公共機構節(jié)能知識講座
- 幼小銜接那些事兒
- 代人貸款免責協議
- 質子泵抑制劑用藥參考匯總
- 江蘇省南通市海門四校2023-2024學年八年級上學期期中生物試題
評論
0/150
提交評論