金融數(shù)據(jù)分析 課件 第9、10章 空間計量模型與檢驗、機器學習與數(shù)據(jù)分析ppt_第1頁
金融數(shù)據(jù)分析 課件 第9、10章 空間計量模型與檢驗、機器學習與數(shù)據(jù)分析ppt_第2頁
金融數(shù)據(jù)分析 課件 第9、10章 空間計量模型與檢驗、機器學習與數(shù)據(jù)分析ppt_第3頁
金融數(shù)據(jù)分析 課件 第9、10章 空間計量模型與檢驗、機器學習與數(shù)據(jù)分析ppt_第4頁
金融數(shù)據(jù)分析 課件 第9、10章 空間計量模型與檢驗、機器學習與數(shù)據(jù)分析ppt_第5頁
已閱讀5頁,還剩142頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第九章

空間計量模型與檢驗

學習目標

掌握空間計量模型的概念、內(nèi)容

區(qū)分空間計量模型的使用范圍與適用條件

了解空間計量模型的計量程序與實際應用了解中國金融風險的空間集聚和溢出效應

空間計量經(jīng)濟學的研究不斷深入、應用領域不斷擴大,逐漸發(fā)展為計量經(jīng)濟學的主流,它的應用涉及眾多領域:從普遍應用于區(qū)域科學、城市以及房地產(chǎn)經(jīng)濟學、經(jīng)濟地理等專門化領域,拓展到勞動經(jīng)濟學、國際經(jīng)濟學、資源環(huán)境經(jīng)濟學、政治學以及發(fā)展經(jīng)濟學等領域。當今世界經(jīng)濟一體化和全球化程度不斷加深,更有必要使用空間計量經(jīng)濟學分析經(jīng)濟體之間的空間相關程度,從系統(tǒng)性視角看問題。9.1

空間權(quán)重矩陣9.2

空間自回歸模型9.3

空間杜賓模型9.4

空間誤差模型專題9中國金融風險的空間集聚與溢出效應目錄CONTENTS空間權(quán)重矩陣

9.1

空間權(quán)重矩陣的定義空間權(quán)重矩陣(SpatialWeightingMatrix)最簡單的定義如下:其中,每個元素的定義為:(9.2)式中,N(i)為地點j的鄰近集。通過定義,我們有

。(9.1)(9.2)9.1.1鄰接矩陣根據(jù)空間相鄰關系,相鄰既可以是有共同邊界又可以是有共同頂點。根據(jù)類型,可分以下幾種:

(1)象相鄰(BishopContiguity):兩個相鄰的區(qū)域有共同的頂點,但沒有共同的邊。

(2)車相鄰(RockContiguity):兩個相鄰的區(qū)域有共同的邊。

(3)后相鄰(QueenContiguity):兩個相鄰的區(qū)域有共同的頂點或邊。舉一個簡單的例子,假設有如下四個區(qū)域,其變量取值分別為

,參照圖9.1。x4x1x2x3圖9.1

假想的四個區(qū)域9.1.1鄰接矩陣針對圖8.1中的四個區(qū)域,其空間權(quán)重矩陣為:矩陣(9.3)的第一行表示,區(qū)域1與三個區(qū)域均相鄰;第二行表示,區(qū)域2只與區(qū)域4不相鄰;以此類推。(9.3)9.1.1鄰接矩陣

將(8.3)式的空間權(quán)重矩陣行標準化可得(仍記為W):(9.5)9.1.2距離矩陣空間單元間除了相鄰關系,還可用距離進行描述。記區(qū)域i與區(qū)域j的距離為dij,以距離之倒數(shù)作為空間權(quán)重,空間權(quán)重矩陣構(gòu)建方式如下:其中,dij既可以是地理距離,也可以是基于運輸成本或旅行時間的經(jīng)濟距離。距離越遠,空間權(quán)重系數(shù)越小。(9.6)9.1.3莫蘭指數(shù)(Moran'sI)統(tǒng)計量

其中,n是空間單元總數(shù),wij是空間權(quán)重,yi是第i個地區(qū)的觀測值,

。9.1.3莫蘭指數(shù)(Moran'sI)統(tǒng)計量全局莫蘭指數(shù)統(tǒng)計量的取值范圍為[-1,1],其值大于0時表明數(shù)據(jù)呈現(xiàn)空間正自相關;其值小于0時為空間負自相關;其值等于0時表明無空間相關性。莫蘭指數(shù)還可以用來檢驗空間自相關的統(tǒng)計顯著性。統(tǒng)計量的期望為

,方差取決于y服從均勻分布還是正態(tài)分布,檢驗統(tǒng)計量為

,檢驗原假設是不存在空間自相關。在R中計算并檢驗空間自相關的函數(shù)是spdep程序包中的moran.test(),其用法是:>moran.test(x,listw,randomization=TRUE,alternative="greaterr",zero.policy=NULL,...)9.1.4吉爾里指數(shù)(Geary’sC)統(tǒng)計量吉爾里指數(shù)統(tǒng)計量定義為:吉爾里指數(shù)測量的是全局空間自相關。

當全局吉爾里指數(shù)的觀察值小于1,并且具有統(tǒng)計學意義時,存在正空間自相關;當全局吉爾里指數(shù)的觀察值大于1時,存在空間負相關;全局吉爾里指數(shù)的觀察值等于1時,無空間自相關。其假設檢驗的方法同全局莫蘭指數(shù)。吉爾里指數(shù)衡量的是空間檢測值兩兩之間的差。吉爾里指數(shù)與莫蘭指數(shù)存在負相關關系。

空間正自相關性越強,吉爾里指數(shù)越小,而莫蘭指數(shù)越大。(9.8)9.1.5雙變量莫蘭指數(shù)

R軟件中沒有可以直接計算雙變量莫蘭指數(shù)的函數(shù),需要根據(jù)公式(9.9)逐步運算。空間自回歸模型9.29.2.1一階空間自回歸模型

這里,y為被解釋變量向量的離差形式,W為行標準化處理后的空間權(quán)重矩陣(其行和為1),Wy表示空間滯后項,λ是空間自回歸系數(shù),ε是服從正態(tài)分布的隨機誤差項。9.2.1一階空間自回歸模型對于模型(9.10)中的參數(shù),一般采用極大似然函數(shù)方法進行估計。此時,極大似然函數(shù)為在R中,如果我們想估計一階空間自回歸模型的參數(shù),相應的命令為:>spautolm(x~1,data=filename,listw=w)9.2.2空間滯后模型

被解釋變量y為n×1階向量,解釋變量X是n×k階向量,W是人為設定的、行標準化處理后的n×n階空間權(quán)重矩陣,Wy表示空間滯后因變量,ε是服從正態(tài)分布的隨機誤差向量,參數(shù)λ是空間滯后項Wy的系數(shù),參數(shù)β反映了解釋變量對被解釋變量y的影響。9.2.2空間滯后模型

。在R中,估計空間滯后模型的函數(shù)是spatialreg程序包中的lagsarlm(),其用法是:>lagsarlm(formula,data=list(),listw,Durbin=FALSE,method="eigen",...)

9.2.3分解效應

空間計量模型是一種用于分析空間數(shù)據(jù)的統(tǒng)計模型,它考慮了空間上的相互依賴關系,能夠更準確地描述空間數(shù)據(jù)的特征和變化規(guī)律??臻g計量模型計算容易,但解釋并不容易。常見的術語有直接效應、間接效應和總效應。直接效應是解釋變量對本地的被解釋變量的影響。間接效應是解釋變量對鄰地被解釋變量的影響。直接效應與間接效應之間的總和就是總效應,如圖9-2所示。。Y鄰地X本地Y本地直接效應間接效應總效應【例9.1】中國30個?。ㄗ灾螀^(qū)、直轄市)2021年人均消費的空間分析

消費問題一直是經(jīng)濟研究領域的熱點問題。擴大消費尤其是居民消費、完善消費政策對于縮小地區(qū)差距,促進經(jīng)濟平穩(wěn)健康發(fā)展具有重要意義。為此,研究中國各地區(qū)居民消費問題具有重要的理論和實踐價值。本例以2021年中國30個省份(自治區(qū)、直轄市,西藏由于部分數(shù)據(jù)缺失,香港、澳門、臺灣沒有相關數(shù)據(jù),均不計入以下研究)的數(shù)據(jù)為樣本,建立空間滯后模型。表8.1展示了用于檢驗人均消費空間相關性的相關數(shù)據(jù)。表9.1中,因變量rjxf代表各省人均消費;自變量rjgdp代表各省人均GDP;Arjtax代表各省人均稅收;rjins代表各省人均保費收入。9.2.2空間滯后模型

9.2.2空間滯后模型

表9.1中國30個省(自治區(qū)、直轄市)人均消費變化的空間分布(單位:元/人)9.2.2空間滯后模型資料來源:數(shù)據(jù)來源于中國統(tǒng)計年鑒。9.2.2空間滯后模型注:*、**和***分別表示10%、5%和1%顯著性水平,下同。

莫蘭指數(shù)為0.4112,表明消費具有空間正相關性,期望值為-0.0345,方差為0.0123,z統(tǒng)計量為4.0268,表明消費呈現(xiàn)了明顯的聚類特征,p值為2.83E-05,在1%的顯著水平上顯著,因此有必要建立空間滯后模型進行分析,結(jié)果如表9.3所示。9.2.2空間滯后模型

從表9.3估計結(jié)果可以看到,空間自回歸系數(shù)為0.2141,漸近z檢驗的p值為0.0755,因此空間自回歸系數(shù)顯著為正,說明周邊鄰居消費水平的提高能顯著提高本地消費水平。9.2.2空間滯后模型從表9.4估計結(jié)果可以看到,人均國內(nèi)生產(chǎn)總值rigdp對本地和鄰近省份人均消費rjxf具有正向的促進作用,人均國內(nèi)生產(chǎn)總值rigdp每增加一個單位,本地人均消費rjxf增加0.1109,鄰近省份人均消費rjxf增加0.09313;人均稅收rjtax對本省人均消費rjxf有促進作用,對鄰近省份人均消費rjxf有抑制作用,人均稅收rjtax每提高一個單位,本省人均消費rjxf提高0.5709,但鄰近省份的人均消費rjxf會下降0.0269,整體上對人均消費rjxf呈正向作用;人均保費收入rjins對本省以及鄰近省份人均消費均呈現(xiàn)抑制作用,人均保費收入rjins每提高一個單位,本省人均消費rjxf下降0.1145,但鄰近省份的人均消費rjxf會下降0.6428,整體上對鄰省消費的抑制作用更強。

R代碼R語言代碼:>library(sp)>library(foreign)>library(readstata13)>library(haven)>library(rgdal)>library(spdep)>setwd("C:/Users/study/Desktop/data")>getwd()>rjxf9.1<-readOGR(".","sheng")>rjxf9.1_nb<-poly2nb(rjxf9.1)>rjxf9.1_nblist<-nb2listw(rjxf9.1_nb)>dataset=read.dta13("data.dta")>dataset$rjgdp=dataset$gdp*10000/dataset$peo>dataset$rjtax=dataset$tax*10000/dataset$peo>dataset$rjins=dataset$ins*10000/dataset$peo>summary(dataset)>#install.packages('psych')>library(psych)>describe(dataset$xf)>m1=lm(xf~rjgdp+rjtax+rjins,data=dataset)>summary(m1)>m2=step(m1)>summary(m2)>n<-nrow(rjxf9.1)

R代碼續(xù)>m3<-step(m1,k=log(n))>summary(m3)>moran.test(dataset$xf,listw=rjxf9.1_nblist,zero.policy=T)>library(spatialreg)>m3_lag<-lagsarlm(xf~rjgdp+rjtax+rjins,data=dataset,listw=>rjxf9.1_nblist,type="lag",zero.policy=TRUE)>summary(m3_lag,correlation=FALSE)>ev<-eigenw(rjxf9.1_nblist)>sdm2<-lagsarlm(m1,dataset,rjxf9.1_nblist,Durbin=T,control=list(pre_eig=ev))>impacts(sdm2,listw=rjxf9.1_nblist)【例9.2】產(chǎn)業(yè)結(jié)構(gòu)對科技創(chuàng)新的影響分析數(shù)字普惠金融影響因素問題一直是金融研究領域的熱點問題。數(shù)字普惠金融對于縮小地區(qū)差距,促進經(jīng)濟平穩(wěn)健康發(fā)展具有重要意義。為此,研究數(shù)字普惠金融影響因素具有重要的理論和實踐價值。本例以2020年廣西省69個縣的數(shù)據(jù)為樣本,建立空間滯后模型即(9.13)9.2.2空間滯后模型式9.13中,因變量:數(shù)字普惠金融y;自變量:城鄉(xiāng)收入差距x1;傳統(tǒng)金融發(fā)展程度x2;產(chǎn)業(yè)結(jié)構(gòu)升級x3;經(jīng)濟發(fā)展水平x4;政府干預x5;人口密度x6;城鎮(zhèn)化率x7;交通便捷情況x8;互聯(lián)網(wǎng)發(fā)展水平x9;人口受教育程度x10。9.2.2空間滯后模型莫蘭指數(shù)為0.4535,表明數(shù)字普惠金融具有空間正相關性,期望值為-0.0147,方差為0.0076,z統(tǒng)計量為5.3670,表明數(shù)字普惠金融呈現(xiàn)了明顯的聚類特征,p值為4.002e-08,在1%的顯著水平上顯著,因此有必要建立空間滯后模型進行分析,結(jié)果如表9.6所示。9.2.2空間滯后模型從表9.6估計結(jié)果可以看到,空間自回歸系數(shù)λ為0.3684,漸近z檢驗的p值為0.0001,因此空間自回歸系數(shù)λ顯著為正,說明周邊鄰居數(shù)字普惠金融水平的提高能顯著提高本地數(shù)字普惠金融水平。9.2.2空間滯后模型從表9.7估計結(jié)果可以看到,x1城鄉(xiāng)收入差距、x5政府干預、x8交通便捷和x10人口受教育程度都對本省和鄰近省份數(shù)字普惠金融有抑制作用;x2傳統(tǒng)金融發(fā)展、x3產(chǎn)業(yè)結(jié)構(gòu)升級和x6人口密度對本省和鄰近省份的數(shù)字普惠金融發(fā)展有促進作用;x4經(jīng)濟發(fā)展水平、x7城鎮(zhèn)化率和x9互聯(lián)網(wǎng)發(fā)展水平會對本身數(shù)字普惠金融發(fā)展有促進作用,對鄰省的數(shù)字普惠金融發(fā)展有抑制作用。

R代碼R語言代碼:>setwd("C:\\Users\\study\\Desktop\\例2")>getwd()>library(haven)>library(spdep)>library(spatialreg)>columbusswm<-read_dta("sw.dta")>columbusdata<-read_dta("ndata.dta")>names(columbusdata)>colww<-mat2listw(as.matrix(columbusswm),style="W")>moran.test(columbusdata$y,listw=colww)>moran.plot(as.vector(columbusdata$y),listw=colww,xlab="y",ylab="y.lag")>fm=y~x1+x2+x3+x4+x5+x6+x7+x8+x9+x10>cololsfit=lm(fm,data=columbusdata);summary(cololsfit)>collag1=lagsarlm(fm,data=columbusdata,>colww,type="lag");summary(collag1)>ev<-eigenw(colww)>sdm2<-lagsarlm(cololsfit,columbusdata,colww,Durbin=T,>control=list(pre_eig=ev))>impacts(sdm2,listw=colww)【例9.3】房價波動對技術創(chuàng)新的空間影響分析

改革開放以來,越來越多的人轉(zhuǎn)移到城市工作和生活,人口城鎮(zhèn)化率不斷上升,2021年中國城鎮(zhèn)化率達到64.72%。伴隨經(jīng)濟發(fā)展和城鎮(zhèn)化率不斷上升,中國房價也不斷上漲,尤其是進入21世紀后,高房價已經(jīng)成為大部分城市經(jīng)濟社會發(fā)展中必須面對的重要問題之一。隨著房價不斷上漲,越來越多的學者開始關注房價對技術創(chuàng)新的影響?;诳臻g相關性構(gòu)建了空間滯后模型,以2021年中國30個省份(西藏由于部分數(shù)據(jù)缺失,不計入以下研究)省級截面數(shù)據(jù)為樣本,研究了房價波動對技術創(chuàng)新影響的空間效應。9.2.2空間滯后模型

考慮到數(shù)據(jù)的可比性和可衡量性,因變量技術創(chuàng)新采用專利授權(quán)數(shù)量來表示,自變量房價采用各省份商品房銷售額與商品房銷售面積之比來表示。技術創(chuàng)新不僅會受到房價波動的影響,還會受到其他因素的影響,為使模型回歸結(jié)果更加準確,將衛(wèi)生健康作為控制變量納入到模型中進行回歸分析。所構(gòu)建空間滯后模型如下:8.2.2空間滯后模型式(9.14)中,Y表示技術創(chuàng)新(件),HP表示房價(元/平方米),HE表示衛(wèi)生健康支出(億元)。(9.14)9.2.2空間滯后模型8.2.2空間滯后模型資料來源:數(shù)據(jù)來源于中國統(tǒng)計年鑒8.2.2空間滯后模型

在表8.7中可以看出,莫蘭指數(shù)為0.4760,表明技術創(chuàng)新具有空間正相關性,期望值為-0.0345,方差為0.0138,z統(tǒng)計量為4.3527,表明技術創(chuàng)新呈現(xiàn)了明顯的聚類特征,p值為6.722e-06,在1%的顯著水平上顯著,因此有必要建立空間滯后模型進行分析,結(jié)果如表8.8所示。8.2.2空間滯后模型從表9.10估計結(jié)果可以看到,空間自回歸系數(shù)顯著為正為0.2521,漸近z檢驗的p值為0.0358,周邊鄰居房價的提高能顯著提高本地技術創(chuàng)新水平。8.2.2空間滯后模型從表9.11估計結(jié)果可以看到,房價lnHP對本省以及鄰省技術創(chuàng)新lnY都存在促進作用,lnHP每提高一個單位,本省技術創(chuàng)新提高0.3614,鄰近省份的技術創(chuàng)新會提高1.4362;衛(wèi)生健康支出lnHE對本省以及鄰省技術創(chuàng)新lnY存在促進作用,但會降低鄰省的技術創(chuàng)新水平,lnHE每提高一個單位,本省技術創(chuàng)新提高1.3795,鄰近省份的技術創(chuàng)新會減少0.0255,對整體技術創(chuàng)新也是呈促進作用。

R代碼R語言代碼:>library(rgdal)>library(spdep)>library(haven)>fjbd9.3<-readOGR("sheng.shp")>nb.fjbd9.3<-poly2nb(fjbd9.3)>dataset<-read_dta("data3.dta")>summary(nb.fjbd9.3)>fjbd9.3_listw<-nb2listw(nb.fjbd9.3)>dataset$lnY=log(dataset$y)>dataset$lnHP=log(dataset$hp)>dataset$lnHE=log(dataset$h>>moran.test(dataset$lnY,fjbd9.3_listw)>library(spatialreg)>slm<lagsarlm(lnY~lnHP+lnHE,data=dataset,fjbd9.3_listw)>summary(slm)>ev<-eigenw(fjbd9.3_listw)>sdm2<-lagsarlm(slm,dataset,fjbd9.3_listw,Durbin=T,>control=list(pre_eig=ev))>impacts(sdm2,listw=fjbd9.3_listw)空間杜賓模型8.38.3空間杜賓模型

8.3空間杜賓模型

8.3空間杜賓模型

8.3空間杜賓模型我們用R逐步進行運算后可以描繪出雙變量莫蘭檢驗的散點圖,具體如圖9-3所示雙莫蘭散點圖顯示了兩變量之間存在正空間相關,其中橫坐標表示產(chǎn)業(yè)結(jié)構(gòu)離差的空間滯后變量,縱坐標表示科技創(chuàng)新的對數(shù)離差形式8.3空間杜賓模型表9.12展示了空間杜賓模型估計結(jié)果,我們可以得到如下結(jié)論:W2x4估計結(jié)果在5%的水平上顯著為負,雙變量莫蘭指數(shù)檢驗可以說明其他地區(qū)經(jīng)濟發(fā)展對于本地普惠金融存在負面的抑制作用。;空間系數(shù)項W1y以及自變量的空間滯后項W2x4,空間回歸系數(shù)λ和β2分別為0.4361和-9.7250。R代碼

>library(spdep)>library(spatialreg)>dly<-log(dataset$y)-mean(log(dataset$y))>dx4<-dataset$dus-mean(dataset$x4)>slag.dx4<-lag.listw(lw,dx4)>numerator<-sum(dly*slag.dx4)>denominator<-sqrt(sum(dly^2))*sqrt(sum(dx4^2))>numerator/denominator>plot(slag.dx4,dly)>abline(h=0,v=0,lty=2)>abline(lm(dly~slag.dx4))>sdm<-lagsarlm(fm,data=dataset,list=colww,Durbin=TRUE)>summary(sdm)>sdm1<-lagsarlm(fm,data=dataset,listw=colww,Durbin=~x4x+x5x+x7x)>summary(sdm1)>impacts(sdm,listw=colww)空間誤差模型8.48.4空間誤差模型

8.4空間誤差模型

8.4空間誤差模型

8.4空間誤差模型

8.4空間誤差模型從回歸結(jié)果可以得到如下結(jié)論:經(jīng)濟發(fā)展的系數(shù)為5.8999,在LR檢驗水平下顯著不為0;誤差項的空間自回歸系數(shù)ρ為0.5857,LR檢驗的p值為3.371e-04,漸近z檢驗的p值為1.649e-10;似然比檢驗、漸近正態(tài)檢驗以及Wald檢驗都表明其顯著不為0,地區(qū)經(jīng)濟發(fā)展對普惠金融發(fā)展水平有顯著的促進作用??刂谱兞恐校旱貐^(qū)人口密度和城鎮(zhèn)化率對普惠金融發(fā)展水平具有顯著推動作用,而交通便捷情況有抑制作用;交通便捷情況的提高會在一定程度加大城市內(nèi)部的資金流動,調(diào)整產(chǎn)業(yè)結(jié)構(gòu),金融機構(gòu)從而就會減少對于普惠金融的力度。8.4空間誤差模型為了使統(tǒng)計結(jié)果更具有穩(wěn)健性,我們接下來通過使用廣義矩估計的方法來檢驗的模型和統(tǒng)計結(jié)果的穩(wěn)健性,空間誤差模型的廣義矩估計結(jié)果如下表所示:R代碼

>library(spdep)>library(rgdal)>library(spatialreg)>sem<-errorsarlm(fm,data=columbusdata,listw=colww)>class(sem)>summary(sem)>sem.gmm<-GMerrorsar(fm,data=columbusdata,listw=colww)>summary(sem.gmm)專題9中國金融風險的空間集聚與溢出效應

專題9中國金融風險的空間集聚與溢出效應當前經(jīng)濟金融形勢仍存在較大不確定性,未來金融風險防范任務仍然十分艱巨,特別是宏觀杠桿率較高、房地產(chǎn)部門風險凸顯、地方融資平臺債務、金融科技風險以及內(nèi)外金融風險共振等問題仍需要得到及時有效的應對與處置;選擇合適的分析工具探討金融風險在國內(nèi)空間區(qū)域間的集聚與溢出效應,是健全金融監(jiān)管,堅守不發(fā)生系統(tǒng)性金融風險底線上亟需解決的重要問題;為測量空間區(qū)域間金融風險的集聚和溢出性,我們構(gòu)建區(qū)域上的空間權(quán)重矩陣,這個問題可通過R解決。再通過構(gòu)建的空間權(quán)重矩陣,我們利用莫蘭和吉爾里全局檢驗可以有效的測算空間的相關性水平;金融風險的傳導往往具有集聚和溢出性,通過選擇構(gòu)建合適的空間滯后模型、空間誤差模型,來具體分析金融風險在空間上的傳遞和集聚。

專題9中國金融風險的空間集聚與溢出效應1.數(shù)據(jù)來源本專題將研究中國國內(nèi)30個?。ㄗ灾螀^(qū)、直轄市,西藏、香港、澳門、臺灣除外)2019年地方政府負債率衡量政府債務風險;研究數(shù)據(jù)為2019年的截面數(shù)據(jù),共計30個觀測值,數(shù)據(jù)主要來源各省《地方政府性債務審計公報》、地方政府債券信息網(wǎng)以及Wind。實證研究所采用的其他數(shù)據(jù)主要來自《地區(qū)統(tǒng)計公報》、國家統(tǒng)計局。此外,需要提及的是,各地政府債務余額于2010年開始公布,截至2019年底共公布了10個時間點數(shù)據(jù)(2011年國家審計署尚未公布,2013年為6月底公布)專題9中國金融風險的空間集聚與溢出效應

專題9中國金融風險的空間集聚與溢出效應3.實證結(jié)果在對模型進行實證分析之前,先需要對空間區(qū)域進行空間自相關檢驗,從而判斷空間關聯(lián)性。表9.19以及表9.20分別為莫蘭和吉爾里全局空間自相關檢驗結(jié)果。專題9中國金融風險的空間集聚與溢出效應

專題9中國金融風險的空間集聚與溢出效應表9.21顯示了普通最小二乘回歸模型統(tǒng)計結(jié)果,可以看出地方政府財政赤字率對于當?shù)氐恼搨示哂酗@著的正相關性,可決系數(shù)為0.6974,模型能較好說明它們之間的關系。專題9中國金融風險的空間集聚與溢出效應

專題9中國金融風險的空間集聚與溢出效應表9.22顯示空間滯后模型的回歸結(jié)果,從估計結(jié)果可以看到,空間自回歸系數(shù)ρ為-0.1900,漸近z檢驗的p值為0.2455。因此通過構(gòu)建空間滯后模型并不能合理分析政府債務風險的空間自相關性。為了構(gòu)建更合理的空間相關模型,接下來我們利用LM檢驗進行空間模型選擇。LM檢驗結(jié)果如表9.23所示:專題9中國金融風險的空間集聚與溢出效應

專題9中國金融風險的空間集聚與溢出效應表9.24顯示了空間誤差模型的回歸結(jié)果,從估計結(jié)果可以看出,政府赤字率的系數(shù)為0.0666,顯著為正,政府赤字率對政府負債率有非常明顯的促進作用;誤差項的空間自回歸系數(shù)為-1.2357,LR檢驗的p值為8.941e-05,漸近z檢驗的p值為1.693e-11,似然比檢驗表明其顯著不為0。專題9中國金融風險的空間集聚與溢出效應從表9.24還可以得到如下結(jié)論:地方政府債務存在明顯的地理聚集效應和空間溢出效應,本省份的地方政府債務水平不僅受到本省份解釋變量、控制變量的影響,也會受到相鄰省份的地方不確定性誤差負向沖擊;控制變量的顯著性水平也可以說明,人均GDP、人口密度、產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化水平對政府負債率具有顯著的抑制作用,即一個地區(qū)經(jīng)濟發(fā)展越好、產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化性能越高,會很大程度上削弱當?shù)卣趥鶆丈巷L險溢出水平。我們對空間誤差模型進行廣義矩估計(GMM,Generalizedmethodofmoments),空間誤差模型的廣義矩估計結(jié)果如下表9.25所示:專題9中國金融風險的空間集聚與溢出效應從表9.25估計結(jié)果可以看出,政府赤字率的系數(shù)為0.0675,在通常的檢驗水平下顯著不為0;誤差項的空間自回歸系數(shù)為-0.9154,顯著不為0,結(jié)果與極大似然估計基本相同,足以說明模型的穩(wěn)健性和回歸結(jié)果的可靠性。專題9中國金融風險的空間集聚與溢出效應本專題通過研究中國金融風險的空間集聚和溢出性,并結(jié)合空間回歸模型對國內(nèi)30個省份的政府債務風險進行了深入分析。實證結(jié)果表明,我國金融風險的特征較為明顯,容易造成多地區(qū)溢出和集聚。當前,各級政府需高度重視地方政府債務風險問題,充分認識防范化解地方政府債務風險任務的長期性、艱巨性,牢牢守住不發(fā)生系統(tǒng)性風險的底線。習題習題1.以我國各?。ㄗ灾螀^(qū)、直轄市)2020—2021年GDP與教育支出的數(shù)據(jù),構(gòu)建空間滯后模型分析教育支出是否促進了經(jīng)濟增長。2.空間滯后模型以及空間誤差模型有什么區(qū)別?我們在計量分析中應該如何選擇合適的空間計量模型呢?具體R語言操作是怎樣呢?3.考慮案例9.4經(jīng)濟發(fā)展對普惠金融的影響,結(jié)合案例中的數(shù)據(jù)集,繼續(xù)構(gòu)建空間杜賓模型。如果我們只考慮加入政府干預作為自變量的滯后項該如何操作?其結(jié)果與包含所有自變量的空間滯后項的結(jié)果相同嗎?可以嘗試通過結(jié)果分析而選擇顯著的空間滯后項有哪些?

Theending第十章機器學習與數(shù)據(jù)分析

學習目標

了解機器學習的基本概念、建模流程和應用范疇;掌握不同類型的機器學習算法原理,并能利用Python進行實踐;能夠針對預測、分類、聚類、關聯(lián)規(guī)則問題搭建合適的機器學習模型,并對不同模型效果進行評估和比較

本章導讀

機器學習(MachineLearning,ML),是基于有限樣本訓練模型,學習樣本數(shù)據(jù)中的一般性規(guī)律,并利用這些規(guī)律進行預測的方法。機器學習在各個領域應用非常廣泛,與模式識別、統(tǒng)計學習、數(shù)據(jù)挖掘、計算機視覺、語音識別以及自然語言處理等領域有著非常深的聯(lián)系。在金融領域,機器學習發(fā)揮了重要作用,為欺詐檢測、股票市場預測、個人征信評分、券商智能投顧、手機銀行APP人臉識別等提供了有力的技術支撐。通過本章學習,學生應了解機器學習的概念、掌握常用機器學習算法原理,重現(xiàn)本章案例,提高使用機器學習對金融數(shù)據(jù)進行建模的能力。10.1機器學習概述10.2分類學習10.3回歸分析10.4聚類分析10.5關聯(lián)規(guī)則挖掘方法10.6模型評估與選擇10.7

專題10基于機器學習的上證指數(shù)走勢預測研究目錄CONTENTS機器學習概述10.110.1機器學習概述

機器學習一般可分為四種類型,即監(jiān)督學習、無監(jiān)督學習、強化學習和深度學習。監(jiān)督學習(SupervisedLearning)

從標簽化訓練數(shù)據(jù)集中推斷出函數(shù)的機器學習任務。監(jiān)督學習中通常將數(shù)據(jù)分為訓練集和測試集,從訓練數(shù)據(jù)集合中訓練模型,再對測試數(shù)據(jù)進行預測。訓練數(shù)據(jù)由輸入和輸出對組成,測試數(shù)據(jù)也由相應的輸入輸出對組成。根據(jù)標簽類型不同,可將監(jiān)督學習分為回歸問題和分類問題,回歸問題中標簽是連續(xù)值,分類問題中標簽是離散的類別。常見的監(jiān)督學習算法有神經(jīng)網(wǎng)絡算法、支持向量機、決策樹、隨機森林等。10.1機器學習概述無監(jiān)督學習(UnsupervisedLearning)

即數(shù)據(jù)沒有標簽,其本質(zhì)就是找到特征和標簽間的關系。當有特征而無標簽的未知數(shù)據(jù)輸入時,即在缺乏先驗知識的情況下,通過已有的關系得到未知數(shù)據(jù)標簽。典型的無監(jiān)督學習問題有聚類、降維、特征學習等,常見的主成分分析方法就是一種無監(jiān)督學習算法。10.1機器學習概述強化學習(ReinforcementLearning)

用于描述和解決智能體(Agent)在與環(huán)境的交互過程中通過學習策略以達成回報最大化或?qū)崿F(xiàn)特定目標的問題。例如在圍棋游戲中,玩家的每一步移動都會影響對手的反應和下一步棋的位置,從而影響輸贏概率。因此,可以通過計算每個棋面的輸贏概率,選擇贏棋概率最大的下一步的位置走子。10.1機器學習概述深度學習(DeepLearning)

深度學習是近年來發(fā)展十分迅速的研究領域,并且在人工智能的很多子領域都取得了巨大的成功。深度學習問題本質(zhì)上是一個機器學習問題,起源于人工神經(jīng)網(wǎng)絡的研究,但也可以采用其他模型(比如深度信念網(wǎng)絡是一種概率圖模型)。它的“深度”主要體現(xiàn)在兩個方面:(1)強調(diào)模型結(jié)構(gòu)的深度,神經(jīng)網(wǎng)絡模型中至少有3層以上的隱層節(jié)點;(2)強調(diào)特征學習,通過逐層特征變換,將低層特征形成更加抽象的高層屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示,從而使分類或預測更加容易。深度學習的代表性算法有卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡、長短期記憶網(wǎng)絡等。分類分析10.210.2分類分析方法分類是將類別標簽分配給未標記樣本的過程,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。在分類過程中,首先通過訓練數(shù)據(jù)集獲得一個分類器,再通過分類器去預測未知數(shù)據(jù),因此分類本質(zhì)上是一種監(jiān)督學習方法。分類分析方法可以應用于客群分類、客流量預測、滿意度分析、征信評估和欺詐檢測等。經(jīng)典分類算法有Logistic回歸法、判別分析法、k近鄰分類法和支持向量機。10.2.1Logistic回歸Logistic回歸Logistic回歸,也稱邏輯回歸,是一項可用于預測二分類結(jié)果的統(tǒng)計技術,即預測的因變量只有兩個取值,如0或1。在Logistic回歸中,利用Logistic函數(shù)對因變量y值進行歸一化處理,使y的取值在區(qū)間(0,1)內(nèi),從而將預測問題轉(zhuǎn)化為一個概率問題:

其中,在Logistic回歸中常采用極大似然估計方法來估計待估參數(shù),一般以0.5為界,如果預測值大于0.5,判斷此時y更可能取1,否則取0。10.2.2

判別分析法2.判別分析法判別分析法的核心思想是,在給定自變量x的條件下,判斷因變量y屬于哪一類。例如,在金融業(yè),根據(jù)客戶的信息對其信用等級分類;在人力部門,根據(jù)已有的員工類別及特征對求職者進行相應分類;在醫(yī)學上,根據(jù)臨床特征對是否染上某種疾病做出診斷,等等。常用的判別分析法有貝葉斯分類法、線性判別分析法(LinearDiscriminantAnalysis,LDA)和二次判別分析法(QuadraticDiscriminantAnalysis,QDA)。10.2.2

判別分析法2.判別分析法10.2.3

K-近鄰分類法3.K-近鄰分類法K-近鄰分類法的原理是,如果一個樣本附近的K個最臨近樣本大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。K-近鄰法的基本思路:首先,將樣本劃分為標記好分類的訓練集和未知分類的測試集;其次,逐一取出訓練集中的樣本,與測試集樣本相比較,提取與測試集樣本前K個最相似數(shù)據(jù)的分類標簽;最后,選擇K個最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類,作為新數(shù)據(jù)的分類。K-近鄰分類法中有三個參數(shù)需要考量,即距離的定義、核函數(shù)的選擇以及K的選擇。通常采用歐式距離或絕對距離,K取不大于20的整數(shù)。10.2.4

支持向量機

支持向量機的基本思想是構(gòu)造一個最優(yōu)分離超平面,將給定的兩類樣本分開,最優(yōu)的分離超平面將使得兩類樣本對超平面的最小距離最大化。10.2.4

支持向量機

10.2.4

支持向量機

對于非線性可分的情況,可通過核函數(shù)將原數(shù)據(jù)映射到更高維的空間。此時使用超平面作為決策邊界會帶來分類損失,此時使用超平面作為決策邊界會帶來分類損失,可以用損失函數(shù)來量化分類損失程度,SVM算法中一般采用Hinge損失函數(shù)(也稱合頁損失函數(shù)),形式如式所示:對于整個數(shù)據(jù)集而言,可以加總Hinge損失得到總體分類損失程度。此時優(yōu)化問題變?yōu)椋海?0.7)(10.8)10.2分類分析方法例10.2Python分類分析實例:預測湖南省房價是否上漲

本例將基于不同分類方法預測湖南省房價上漲或下跌。研究樣本為湖南省2001-2021年的年度數(shù)據(jù),選擇2001-2016年觀測值作為訓練集,2017-2021年觀測值作為測試集。數(shù)據(jù)來自《湖南統(tǒng)計年鑒》。定義商品房銷售價格年增長率高于其樣本平均值為上漲,低于其平均值為下跌。因變量y為二值變量,y=1代表當期房價上漲,y=0代表當期房價下跌。選取商品房銷售面積增長率(GSaleArea)、人均可支配收入增長率(GIncome)和人均GDP增長率(GGDPC)作為影響房價變化趨勢的特征變量。選取預測值準確率Accuracy以及擬合值準確率Score作為模型評估指標。10.2分類分析方法importpandasaspdimportnumpyasnpdf=pd.read_excel("E:/jrj1/Chapter10/房價.xlsx")fromsklearn.model_selectionimporttrain_test_split#數(shù)據(jù)處理m=df['Gsaleprice'].mean()df['trend']=(df['Gsaleprice']>=m).astype(int)x=df[['Gsalearea','Gperincome','Gpergdp']]y=df['Gsaleprice']#劃分訓練集x_train,y_train與測試集x_test,y_testx_train,x_test=x.iloc[:16,:],x.iloc[16:,:]y_train,y_test=y[:16],y[16:]fromsklearn.linear_modelimportLogisticRegressionasLRfromsklearn.metricsimportaccuracy_scorelr=LR()clf=lr.fit(x_train,y_train)print(clf.coef_);print(ercept_)#打印logistics回歸變量系數(shù)與截距r=lr.score(x_train,y_train)y_predict=lr.predict(x_test)print("準確率:",accuracy_score(y_test,y_predict))print('score:',lr.score(x_train,y_train))Python代碼演示10.2分類分析方法#線性判別分析fromsklearn.discriminant_analysisimportLinearDiscriminantAnalysisasLDAfromsklearn.metricsimportaccuracy_scorelda=LDA()lda.fit(x_train,y_train)y_predict=lda.predict(x_test)print("準確率:",accuracy_score(y_test,y_predict))print('score:',lda.score(x_train,y_train))#k近鄰分類fromsklearnimportneighborsfromsklearn.metricsimportaccuracy_scoreknn=neighbors.KNeighborsClassifier()knn.fit(x_train,y_train)y_predict=knn.predict(x_test)print("準確率:",accuracy_score(y_test,y_predict))print('score:',knn.score(x_train,y_train))#支持向量機fromsklearnimportsvmcls=svm.LinearSVC()cls.fit(x_train,y_train)y_predict=cls.predict(x_test)fromsklearn.metricsimportaccuracy_scoreprint("準確率:",accuracy_score(y_test,y_predict))print('score:',cls.score(x_train,y_train))回歸分析10.310.3回歸分析方法回歸分析方法是挖掘連續(xù)變量或?qū)傩灾g的相關關系并進行預測的一種有效工具,其主要應用場景有數(shù)據(jù)序列的趨勢特征分析、數(shù)據(jù)序列的預測以及數(shù)據(jù)間的相關關系等?;貧w分析可分為簡單線性回歸、多元線性回歸以及非線性回歸方法如決策樹回歸與隨機森林回歸法。10.3.1線性回歸10.3.2

決策樹

通過若干基本面特征來區(qū)分四家銀行:中國銀行、中信銀行、北京農(nóng)商銀行和長沙農(nóng)商銀行:是否上市?資產(chǎn)規(guī)模超過十萬億?總部在北京?北京農(nóng)商銀行長沙農(nóng)商銀行是是否否中國銀行中信銀行是否10.3.2

決策樹10.3.2

決策樹10.3.2

決策樹10.3.3

隨機森林

隨機森林是一種集成學習(EnsembleLearning)模型,其結(jié)合了Bagging集成算法與隨機子空間方法。

其算法流程可分解為如下步驟:

(1)對樣本集進行隨機采樣選出n個樣本;

(2)從所有屬性中隨機選擇k個屬性(部分特征),選擇最佳分割特征作為節(jié)點建立決策樹;

(3)重復以上步驟m次,即建立了m棵決策樹,每顆樹都和其他樹略有不同;

(4)這m棵樹形成了隨機森林,通過投票表決結(jié)果,決定數(shù)據(jù)屬于哪一類??梢?,隨機森林算法的隨機性體現(xiàn)在兩個方面,一是樣本的隨機性,二是分割特征的隨機性。10.3回歸分析例10.3Python回歸分析實例:預測湖南省商品房房價

本例中將利用前述回歸分析方法研究湖南省房價水平的影響因素。樣本數(shù)據(jù)包括湖南省2001年到2021年的商品房平均銷售價格、商品房銷售面積、人均可支配收入和人均GDP。數(shù)據(jù)全部來自《湖南統(tǒng)計年鑒》。選取人均GDP(GDPC)代表經(jīng)濟發(fā)展水平作為自變量,湖南省商品房單位銷售價格(HousePrice)作為湖南省房價水平的測度指標作為因變量。湖南省商品房銷售面積、人均可支配收入作為控制變量,構(gòu)建多元線性回歸、決策樹回歸以及隨機森林回歸模型。將樣本按照4:1的比例隨機劃分訓練集與測試集,利用訓練集進行回歸訓練,將模型訓練結(jié)果對測試集進行預測,對比預測結(jié)果和真實結(jié)果。利用可決系數(shù)(R-squared)、均方誤差(MSE)與平均絕對誤差(MAE)評估模型預測效果10.3

回歸分析Python代碼演示importpandasaspdimportnumpyasnpdf=pd.read_excel("E:/jrj1/Chapter10/房價.xlsx")importstatsmodels.apiassmfromsklearn.model_selectionimporttrain_test_split#一元線性回歸df.head()y=df.salepricex=df.pergdpx_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=10)x_train=sm.add_constant(x_train)x_test=sm.add_constant(x_test)est=sm.OLS(y_train,x_train)est=est.fit()est.summary()y_predict=est.predict(x_test)print('mse:',np.sum((y_test-y_predict)**2)/len(y_test))print('mae:',np.sum(np.absolute(y_test-y_predict))/len(y_test))10.3

回歸分析#多元線性回歸importpandasaspdimportnumpyasnpimportstatsmodels.apiassmdf.dropna(inplace=True)df.head()x=df[['pergdp','salearea','perincome']]y=df['saleprice']x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=10)x_train=sm.add_constant(x_train)x_test=sm.add_constant(x_test)est=sm.OLS(y_train,x_train).fit()est.summary()y_predict=est.predict(x_test)print('mse:',np.sum((y_test-y_predict)**2)/len(y_test))print('mae:',np.sum(np.absolute(y_test-y_predict))/len(y_test))10.3

回歸分析#決策樹回歸x=df[['pergdp','salearea','perincome']]y=df['saleprice']x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=10)fromsklearn.treeimportDecisionTreeRegressordt_reg=DecisionTreeRegressor(random_state=10)dt_reg.fit(x_train,y_train)dtr_y_predict=dt_reg.predict(x_test)fromsklearn.metricsimportr2_score,mean_absolute_error,mean_squared_errorprint('R-squared:',dt_reg.score(x_test,y_test))print('mse:',mean_squared_error(y_test,dtr_y_predict))print('mae:',mean_absolute_error(y_test,dtr_y_predict))#隨機森林回歸fromsklearn.ensembleimportRandomForestRegressorreg=RandomForestRegressor(random_state=10)reg.fit(x_train,y_train)y_predict=reg.predict(x_test)fromsklearn.metricsimportr2_score,mean_absolute_error,mean_squared_errorprint('R-squared:',reg.score(x_test,y_test))print('mse:',mean_squared_error(y_test,y_predict))print('mae:',mean_absolute_error(y_test,y_predict))聚類分析10.410.4聚類分析聚類是按照某個特定標準(如距離)把一個數(shù)據(jù)集分割成不同的類或簇,使得同一個類別中數(shù)據(jù)對象的相似性盡可能大,同時不在同一個類別中的數(shù)據(jù)對象的差異性也盡可能地大。與分類不同,聚類是一種無監(jiān)督學習方法,事先并沒有標注標簽。數(shù)據(jù)聚類方法可以分為劃分式聚類方法(Partition-basedMethods)、基于密度的聚類方法(Density-basedMethods)、層次化聚類方法(HierarchicalMethods)。10.4.1劃分式聚類分析1.劃分式聚類方法劃分式聚類方法需要事先指定類別數(shù)目或者聚類中心,通過反復迭代,直至最后達到“同類的樣本盡可能相似,不同類的樣本盡可能相異”的目標。經(jīng)典的劃分式聚類算法有K-均值聚類法(K-meansClustering),以及其變體K-means++聚類法、二分K-means聚類法(BisectingK-meansClustering)等。10.4.1劃分式聚類分析1.劃分式聚類方法K-均值聚類法的算法流程一般如下:第一步,隨機初始化K個聚類中心向量;第二步,計算每個樣本與各個聚類中心向量的距離,并將該樣本分配給距離最小的類;第三步,對每一個類,取該類中所有樣本的特征變量均值做為新的類中心向量;第四步,重復第二到第三步,直到各個類的中心向量不再發(fā)生為止。10.4.2基于密度的聚類分析2.基于密度的聚類方法在處理非球形數(shù)據(jù)以及離群點時可以采用基于密度的聚類方法,其中最典型的方法就是基于密度的噪聲空間聚類算法,即DBSCAN(Density-basedSpatialClusteringofApplicationswithNoise)DBSCAN算法的原理是將特征空間中足夠密集的點劃分為同一個類,類的形狀可以是任意的,并且數(shù)據(jù)中的噪聲點不會被劃分給某個類。DBSCAN算法使用兩個參數(shù)來描述樣本分布的緊密程度:一是鄰域半徑閾值,二是最少點數(shù)目M。10.4.3層次化聚類分析3.層次化聚類方法相較于劃分式聚類方法和基于密度的聚類方法,而層次化聚類方法可以降低鏈式效應引起的誤差。層次聚類算法的特征是基于類之間的相似度在不同層次上聚合數(shù)據(jù),從而形成樹形的聚類結(jié)構(gòu)。層次聚類法一般有兩種劃分策略,即自底向上的聚合策略(Agglomerative)和自頂向下的分拆策略(Divisive)。10.4聚類分析方法例10.4Python聚類分析實例:中國居民消費支出結(jié)構(gòu)分析

本例運用聚類分析法探究居民消費支出結(jié)構(gòu)相似性與所處地域之間的關聯(lián)。選取2020年我國除港澳臺之外31個省市的城鎮(zhèn)居民人均消費數(shù)據(jù)作為研究樣本,其中包含了居民食品煙酒支出、衣著支出、生活用品及服務支出、教育文化娛樂支出四個類別。數(shù)據(jù)來源于CSMAR國泰安數(shù)據(jù)庫。10.4聚類分析方法Python代碼演示importpandasaspdfromsklearn.clusterimportKMeans#導入K-均值聚類模塊fromsklearn.clusterimportDBSCAN#導入DBSCANfromsklearn.clusterimportAgglomerativeClustering#導入聚合聚類法#數(shù)據(jù)獲取及標準化處理data=pd.read_excel(r'E:/jrj1/Chapter10/consumption.xlsx')x=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(x)x=scaler.transform(x)model=KMeans(n_clusters=4,random_state=0,max_iter=500)#K-均值聚類法model.fit(x)c=model.labels_Fs=pd.Series(c,index=data['AreaName'])Fs=Fs.sort_values(ascending=True)10.4聚類分析方法model=DBSCAN(eps=0.8,min_samples=3)#DBSCANmodel.fit(x)c=model.labels_Fs=pd.Series(c,index=data['AreaName'])Fs=Fs.sort_values(ascending=True)model=AgglomerativeClustering(linkage='ward',affinity='euclidean',n_clusters=4)#聚合聚類法model.fit(x)c=model.labels_Fs=pd.Series(c,index=data['AreaName'])Fs=Fs.sort_values(ascending=True)關聯(lián)規(guī)則挖掘方法10.510.5關聯(lián)規(guī)則挖掘方法交易編號商品0豆奶,萵苣1萵苣,尿布,葡萄酒,甜菜2豆奶,尿布,葡萄酒,橙汁3萵苣,豆奶,尿布,葡萄酒4萵苣,豆奶,尿布,橙汁10.5關聯(lián)規(guī)則挖掘方法通常采用支持度(Support)描述項集事務集中出現(xiàn)的概率,如果某項集{A,B}的支持度滿足預定義的最小支持度閾值,則此項集是一個頻繁項集(FrequentItemSet)。支持度揭示了A與B同時出現(xiàn)的概率,如果A與B同時出現(xiàn)的概率小,說明A與B的關系不大;如果A與B同時出現(xiàn)的非常頻繁,則說明A與B總是相關的。:置信度(Confidence)衡量關聯(lián)規(guī)則的強弱程度,置信度揭示了A出現(xiàn)時,B是否也會出現(xiàn)或有多大概率出現(xiàn)。如果置信度太低,則說明A的出現(xiàn)與B是否出現(xiàn)關系不大。10.5關聯(lián)規(guī)則挖掘方法關聯(lián)規(guī)則挖掘過程主要包括兩個階段:第一階段,從海量原始數(shù)據(jù)中找出所有的頻繁項目集;第二階段,從這些頻繁項目集產(chǎn)生關聯(lián)規(guī)則,并且通過支持度和置信度來進行衡量。只有支持度和置信度較高的關聯(lián)規(guī)則才是用戶感興趣的。常見的關聯(lián)規(guī)則挖掘算法有Apriori算法與FP-Growth算法,在Python中可通過第三方庫mlxtend實現(xiàn)。FP-Growth算法可以更為高效地發(fā)現(xiàn)頻繁項集。但在關聯(lián)分析時,Apriori算法的擴展性更好,可以用于并行計算等領域。10.5關聯(lián)規(guī)則挖掘方法例10.4Python關聯(lián)規(guī)則挖掘應用:國際股票指數(shù)關聯(lián)分析

本例將利用關聯(lián)規(guī)則來分析國際上主要股票價格指數(shù)之間的漲跌關聯(lián)情況。選取了11個主要國家或者地區(qū)中具有代表性的股票價格指數(shù)交易數(shù)據(jù),數(shù)據(jù)時間范圍為2012年1月1日至2021年12月31日。數(shù)據(jù)來源于國泰安CSMAR在進行Apriori算法前要對數(shù)據(jù)進行一個預處理,首先計算出各指數(shù)的跌幅指標數(shù)據(jù),其中跌幅計算公式為:(當日收盤指數(shù)—上日收盤指數(shù))/上日收盤指數(shù)

為了方便進行關聯(lián)規(guī)則挖掘,將跌幅指標數(shù)據(jù)轉(zhuǎn)化為0-1布爾值,也就是如果跌幅大于等于0.5%記為1,否則為0。在轉(zhuǎn)化為布爾值之后,還需要對各個指數(shù)的交易日期做一致化處理。為了便于挖掘有意義的關聯(lián)規(guī)則,需要在所有指數(shù)交易日均相同的情況下進行挖掘。本例中以中國滬深300指數(shù)交易日為篩選基準,如果所有指數(shù)都在該交易日下有交易,則取該交易日下的指數(shù)的跌幅數(shù)據(jù)進行挖掘分析。最后得到11個國際指數(shù)的共同交易日一共1245個。

數(shù)據(jù)進行預處理完之后,便可以使用Apriori算法或FP-Growth算法挖掘關聯(lián)規(guī)則。10.3.4關聯(lián)規(guī)則挖掘方法例10.4Python關聯(lián)規(guī)則挖掘應用:國際股票指數(shù)關聯(lián)分析Python代碼演示importpandasaspd;

importnumpyasnpfrommlxtend.frequent_patternsimportassociation_rules,apriori,fpgrowthdata=pd.read_excel(r'E:\jrj1\Chapter10\stock.xlsx')code=list(data.iloc[:,0].value_counts().index)groups=data.groupby(data.Indexcd)deftrend(prc):ret=np.diff(np.log(prc))trend=np.zeros(len(ret))+np.nantrend[ret<-0.005]=1trend[ret>=-0.005]=0trend=np.append(np.nan,trend)returntrendforiinrange(len(code)):c=code[i]obj=groups.get_group(c)obj=obj[['Trddt','Clsidx']]obj.rename(columns={'Clsidx':c},inplace=True)obj['Trddt']=pd.to_datetime(obj['Trddt'])obj.iloc[:,1]=trend(obj.iloc[:,1])locals()['subset'+str(i)]=obj10.5關聯(lián)規(guī)則挖掘方法dataset=subset0dataset.sort_values('Trddt',inplace=True)foriinrange(1,len(code)):obj=locals()['subset'+str(i)]dataset=pd.merge(dataset,obj,how='outer',on='Trddt’)#dataset=stock.iloc[:,1:].apply(lambdax:trend(x))dataset.set_index('Trddt',inplace=True)dataset.dropna(inplace=True)dataset=dataset.astype(bool)#apriorifreq_items=apriori(dataset,min_support=0.08,use_colnames=True).sort_values(by='support',ascending=False)rules=association_rules(freq_items,metric='confidence',min_threshold=0.9)rules=rules.sort_values(by='confidence',ascending=False)print(rules[['antecedents','consequents','support','confidence']])#fp-growthfreq_items1=fpgrowth(dataset,min_support=0.08,use_colnames=True).sort_values(by='support',ascending=False)rules1=association_rules(freq_items1,metric='confidence',min_threshold=0.9)rules1=rules1.sort_values(by='confidence',ascending=False)rules1[['antecedents','consequents','support','confidence']]模型評估與選擇10.610.6.1交叉驗證

交叉驗證是一種評估模型泛化能力的統(tǒng)計方法。在交叉驗證中,將原始數(shù)據(jù)進行分組,一部分作為訓練集(TrainSet),另一部分作為驗證集(ValidationSet),首先用訓練集對分類器進行訓練,再利用驗證集來測試訓練得到的模型,以此作為評價分類器的性能指標。

最常用的交叉驗證方法為K折交叉驗證,K為指定的數(shù)字。初始采樣分割成K個子樣本,一個單獨的子樣本被保留作為驗證模型的數(shù)據(jù),其他K-1個樣本用來訓練。交叉驗證重復K次,每個子樣本驗證一次,平均K次的結(jié)果或者使用其它結(jié)合方式,最終得到一個單一估測。10.6.1

交叉驗證K折交叉驗證的兩個優(yōu)點:

(1)對數(shù)據(jù)進行多次劃分使得每個樣例都剛好在測試集中出現(xiàn)一次,因此,模型需要對數(shù)據(jù)集中所有樣本的泛化能力都很好,才能讓所有的交叉驗證得分較高。

(2)交叉驗證對數(shù)據(jù)的使用更加高效,例如,在5折交叉驗證中,每次迭代中可以使用80%的數(shù)據(jù)來擬合模型,更多的數(shù)據(jù)通??梢缘玫礁鼮榫_的模型。10.6.2

網(wǎng)格搜索

為了提高模型的泛化性能,常常需要對模型的參數(shù)進行調(diào)整,從而找到模型最佳泛化性能的重要參數(shù)。常用的調(diào)參方法為帶交叉驗證的網(wǎng)格搜索,將各個參數(shù)可能的取值進行排列組合,列出所有可能的組合結(jié)果生成“網(wǎng)格”,然后使用交叉驗證對各組合的表現(xiàn)進行評估。可以使用scikit-learn的GridSearchCV進行網(wǎng)格搜索。10.6.3

評估指標與評分1.分類評估10.6.3

評估指標與評分10.6.3

評估指標與評分10.6.3

評估指標與評分假正例率(FalsePostiveRate,F(xiàn)PR)或特異,F(xiàn)PR越大,預測正類中實際負類越多。真正例率(TruePostiveRate,TPR)也即靈敏度,TPR越大,預測正類中實際正類越多。10.6.3

評估指標與評分圖10-3AUC曲線圖AUC曲線即ROC曲線下方的面積,由真正率和假正率組成。

10.6.3

評估指標與評分2.回歸評估10.6.3

評估指標與評分專題10基于機器學習的上證指數(shù)走勢預測研究

10.7

基于機器學習的上證指數(shù)走勢預測研究如何對股市未來走勢進行合理預判一直是學術界與業(yè)界關注的焦點。然而,傳統(tǒng)時間序列模型有較強的前提假設,只有當假設滿足時才能得到可靠的預測結(jié)果。此外,金融數(shù)據(jù)的高度非線性決定了股票預測的復雜性與困難度,傳統(tǒng)的時間序列模型往往難以得到理想的預測結(jié)果。計算機技術與人工智能技術的迅猛發(fā)展為股票市場的建模與預測提供了新的方法。機器學習算法可視作優(yōu)化問題求解算法,具有良好的非線性逼近能力和降噪能力。本專題將運用機器學習技術預測上證指數(shù)走勢,考察不同機器學習模型對我國股市的預測效果。

10.7

基于機器學習的上證指數(shù)走勢預測研究1.數(shù)據(jù)來源與預處理(1)歷史行情數(shù)據(jù)

本專題研究樣本為2010年1月4日至2022年12月31日的上證指數(shù)日交易數(shù)據(jù),選取最高價(Hiprc)、最低價(Loprc)、開盤價(Opnprc)、收盤價(Clsprc)、成交量(Volume)、成交額(Amt)、換手率(Turnover)、市盈率(PE)、市凈率(PB)、總市值(Dsmvosd)、流動比率(Liquidility)、漲跌幅(pct_chg)共12個行情數(shù)據(jù)指標,所有指標滯后一期。數(shù)據(jù)來自Wind數(shù)據(jù)庫。剔除缺失值后共有樣本數(shù)據(jù)3155條。

10.7

基于機器學習的上證指數(shù)走勢預測研究圖10-4各指標時間序列圖圖10-5收盤價的漲跌變化趨勢

10.7

基于機器學習的上證指數(shù)走勢預測研究(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論