《R 語(yǔ)言》實(shí)驗(yàn)報(bào)告_第1頁(yè)
《R 語(yǔ)言》實(shí)驗(yàn)報(bào)告_第2頁(yè)
《R 語(yǔ)言》實(shí)驗(yàn)報(bào)告_第3頁(yè)
《R 語(yǔ)言》實(shí)驗(yàn)報(bào)告_第4頁(yè)
《R 語(yǔ)言》實(shí)驗(yàn)報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

PAGEPAGE21《R語(yǔ)言》實(shí)驗(yàn)報(bào)告專業(yè)班級(jí): XXXX 成員姓名:XXXXXXXXXXXXX 指導(dǎo)教師: XXX 日期: XXXX-XX-XX 一、問(wèn)題重述 31.1問(wèn)題背景 3二、問(wèn)題分析 3問(wèn)題一的分析 3問(wèn)題二的分析 3三、數(shù)據(jù)預(yù)處理 4數(shù)據(jù)選取 4缺失值處理 5數(shù)據(jù)統(tǒng)一化 5數(shù)據(jù)去極值 7數(shù)據(jù)標(biāo)準(zhǔn)化 7四、模型的建立與求解 7問(wèn)題一模型的建立與求解 7模型的建立 8模型的求解 9模型的結(jié)果 10問(wèn)題二模型的建立與求解 模型的建立 模型的求解 13模型的結(jié)果 14五、模型評(píng)價(jià)與改進(jìn) 15六、附錄 16附錄1 16附錄2 18一、問(wèn)題重述問(wèn)題背景市場(chǎng)信息中提取出有效指標(biāo),制訂交易策略,是一個(gè)具有挑戰(zhàn)性的工作。問(wèn)題提出202171420221285據(jù)信息,解決以下問(wèn)題:?jiǎn)栴}一:在所提供的49項(xiàng)指標(biāo)中,篩選出與“數(shù)字經(jīng)濟(jì)”板塊有關(guān)的主要指標(biāo)。問(wèn)題二:建立模型對(duì)每5分鐘的“數(shù)字經(jīng)濟(jì)”板塊指數(shù)進(jìn)行預(yù)測(cè)。二、問(wèn)題分析問(wèn)題一的分析49較強(qiáng)的指標(biāo)后進(jìn)行主成分分析,得到最終的指標(biāo)。問(wèn)題二的分析5開盤價(jià)與收盤價(jià)之差的和定義為差價(jià),同時(shí)將差價(jià)以零為分界線劃分為兩部分,采用LogisticLogistic過(guò)程復(fù)雜。Lasso0LassoZou2006AdaptiveLassoLassoLogisticLogistic在的指標(biāo)多重共線性和計(jì)算復(fù)雜等問(wèn)題。三、數(shù)據(jù)預(yù)處理數(shù)據(jù)選取本文選取“數(shù)字經(jīng)濟(jì)(CSI:931582)”49個(gè)股票量化指標(biāo)作為2021714202212849個(gè)量化指標(biāo)分為五大類:宏觀市場(chǎng)指標(biāo)、國(guó)內(nèi)股票市場(chǎng)指標(biāo)、技術(shù)指標(biāo)、國(guó)際股票市場(chǎng)指標(biāo)、(見iFinDEXCEL、SPSS與R。1宏觀市場(chǎng)指標(biāo)采購(gòu)經(jīng)理指數(shù)、社會(huì)消費(fèi)品零售總額、居民消費(fèi)價(jià)格指數(shù)、人民幣貸款利率國(guó)內(nèi)股票市場(chǎng)指標(biāo)上證綜合指數(shù)成交量、上證綜合指數(shù)成交金額、滬市股票流通市30050050A深證綜合指數(shù)、股票市場(chǎng)總值技術(shù)指標(biāo)VMA、VMACD、ARBR、OBV、BBI、DMA、MA、EXPMA、MTM、MACD、BIAS、KDJ、RSI、BOLL國(guó)際股票市場(chǎng)指標(biāo)道瓊斯工業(yè)指數(shù)、納斯達(dá)克綜合指數(shù)、標(biāo)準(zhǔn)普爾500指數(shù)、美國(guó)225100CAC40AEXMIB指數(shù)、美元/人民幣匯率、歐元/美元匯率其他板塊信息數(shù)字媒體、數(shù)字孿生、快手概念、互聯(lián)網(wǎng)電商、互聯(lián)網(wǎng)缺失值處理記{i}nn表示量,i和mA=(1,…,n,??)A的每一行為一個(gè)觀即利用補(bǔ)齊的辦法,構(gòu)造一個(gè)能夠充分反應(yīng)原始數(shù)據(jù),且不存在數(shù)據(jù)缺失的測(cè)量矩陣。經(jīng)檢查(見2),680處數(shù)據(jù)且缺失指標(biāo)數(shù)據(jù)量較多,故采用分段插值的方式對(duì)其進(jìn)行補(bǔ)全。數(shù)據(jù)統(tǒng)一化5以日為間隔的,故需將數(shù)據(jù)的標(biāo)度統(tǒng)一為日。y=0.0257x3-5.4752x2+253.48x+38628R2=0.94335y=0.0257x3-5.4752x2+253.48x+38628R2=0.9433430004100039000370003500033000

0 20 40 60 80 100 120 140 160圖1“社會(huì)消費(fèi)品零售總額”數(shù)據(jù)擬合2指標(biāo)名稱缺失值社會(huì)消費(fèi)品零售總額22/1/31(39130.1)、21/2/28(35626.7)、21/1/31(37650.9)居民消費(fèi)價(jià)格指數(shù)22/1/31(100.9)人民幣貸款利率22/1/31(7.5)股票市場(chǎng)總值22/1/31(839226)道瓊斯工業(yè)平均指數(shù)、21/10/31(35866.6)、21/9/6(35234.5)、21/7/31(34886.8)納斯達(dá)克綜合指數(shù)、21/10/31(15547.1)、21/9/6(15368.9)、21/7/31(14676.8)標(biāo)準(zhǔn)普爾500指數(shù)22/1/17(4619.9)、21/12/24(4758.4)、21/11/25(4648.0)、21/10/31(4609.5)、21/9/6(4527.7)、21/7/31(4391.2)美國(guó)證交所指數(shù)22/1/17(3645.7)、21/12/24(3459.5)、21/11/25(3452.4)、21/10/31(3453.0)、21/9/6(3071.5)、21/7/31(3015.5)香港恒生指數(shù)、、21/7/31(26098.4)東京日經(jīng)225指數(shù)、、21/9/23(29944.1)、21/9/20(30169.8)、21/8/9(27854.0)、21/7/31(27532.3)、21/7/23(27738.1)、21/7/22(27643.0)倫敦金融時(shí)報(bào)100指數(shù)22/1/3(7444.8)、21/12/28(7404.4)、21/12/27(7388.2)、21/10/31(7263.0)、21/8/30(7133.8)、21/7/31(7057.0)法國(guó)巴黎CAC40指數(shù)21/10/31(6861.8)、21/7/31(6644.3)荷蘭AEX指數(shù)21/10/31(811.3)、21/7/31(756.2)俄羅斯RTS指數(shù)21/10/31(1855.4)、21/7/31(1630.8)意大利MIB指數(shù)、21/7/31(25364.5)美元/人民幣匯率、、21/7/31(6.4)歐元/美元匯率、、21/7/31(1.1)數(shù)據(jù)去極值(3??準(zhǔn)則限的極端值用上下限值代替。記

=fi

mi} (??=1,…,??)為所考慮量化指標(biāo)的數(shù)據(jù),各指標(biāo)數(shù)據(jù)為??=i=1(i1,…,imim1,…,m?i=i??(??=1,…,??,從而得到標(biāo)準(zhǔn)差為1??=??

m(i??)2i=1某個(gè)測(cè)量值??i的剩余誤差??i滿足|??i|=|??i????|>3??,則認(rèn)為??i有比較大的誤差,將應(yīng)予代替。數(shù)據(jù)標(biāo)準(zhǔn)化01??=(1,…,m為原始數(shù)據(jù),???=(???,…,???為標(biāo)準(zhǔn)化的數(shù)據(jù),轉(zhuǎn)化公式為1 m???=i???i(??=1,…??)i i??iiii個(gè)指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)差。四、模型的建立與求解問(wèn)題一模型的建立與求解ICICIC(informationcoefficient)是一個(gè)用于衡量預(yù)測(cè)值優(yōu)劣的績(jī)效指維因子數(shù)據(jù)的主因子。模型的建立兩個(gè)變量之間的皮爾遜相關(guān)系數(shù)定義為兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商:??????(??,??) ??(????)???(??)??(??)X,y=

=y

??X

y上式定義了總體相關(guān)系數(shù),常用希臘小寫字母??作為代表符號(hào)。估算樣本的協(xié)方差和標(biāo)準(zhǔn)差,可得到皮爾遜相關(guān)系數(shù),常用英文小寫字母r代表:∑m(Xi?)(i?)r= i=1 ?∑mi=1?∑

(Xi?)2

(i?)2r亦可由(Xi,Yi)樣本點(diǎn)的標(biāo)準(zhǔn)分?jǐn)?shù)均值估計(jì),得到與上式等價(jià)的表達(dá)式:1 m X?X

Y?Yr=m?

I(iσXi=1

)(i )σYXi--、及σX樣本的標(biāo)準(zhǔn)分?jǐn)?shù)、樣本平均值和樣本標(biāo)準(zhǔn)差。ax X i引起該系數(shù)的改變,即它該變化的不變量(由符號(hào)確定)。也就是說(shuō),我們?nèi)绻??移動(dòng)到??????和把??移動(dòng)到??????,a、b、cd是常數(shù),并不會(huì)改變兩個(gè)變量的相關(guān)(該結(jié)論在總體和樣本皮爾遜相關(guān)系數(shù)中都成立會(huì)改變相關(guān)系數(shù):∑ii????- ??∑ii?∑i∑ixy=

(???

y

= ??∑??2?(∑??)2??∑??2?(∑??)2i i i inkknk維特征。記x=(x1xm)m維樣本數(shù)據(jù),樣本均值與方差分別為m1= I

??2=

mI(??

??)2樣本??y

?? ii=1

???

ii=1m1cv(x,)=m?1I(xi?-)(i?-)i=1協(xié)方差為正則正相關(guān),為負(fù)則負(fù)相關(guān),為零則不相關(guān)。設(shè)XX1Xn)n維隨機(jī)變量,Xim維樣本數(shù)據(jù),則Xmn列的矩陣。Xn階的方陣cov(X1,X1) cov(X1,X2)cov(X)=cov(X2,X1) cov(X2,X2)? ?cov(Xn,X1) cov(Xn,X2)

… cov(X1,Xn)… cov(X2,Xn)? ?… cov(Xn,Xn)設(shè)cv(X)的特征值按從大到小排列為1≥···≥??n,其對(duì)應(yīng)的單位特征向量分別為1,...,niiii=(X1,…,Xn)i前k個(gè)主成分的累計(jì)方差貢獻(xiàn)率記為E(k)=

k∑∑λλj=1j∑∑λλnj=1j累積方差貢獻(xiàn)率越高,相應(yīng)的主成分能夠涵蓋的信息量就越大。本文確定k使得E(k)>90%,同時(shí)要求相應(yīng)的特征值大于1。模型的求解SPSS4914(表4300MTMBIASRSI與因變量具有較強(qiáng)的相關(guān)性。KMOBartlett(見3),KMO,KMO0.736,BartlettP0.01,設(shè),各變量間具有相關(guān)性,主成分分析有效,程度為一般。表3KMO檢驗(yàn)和Bartlett的檢驗(yàn)KMO值0.736Bartlett球形度檢驗(yàn)近似卡方972.163df15.000p0.000***4差價(jià)滬深300指數(shù) 0.259(0.003***)上證綜合指數(shù) 0.161(0.068*)創(chuàng)業(yè)板指數(shù) 0.285(0.001***)上證50指數(shù) 0.180(0.041**)上證A股指數(shù) 0.161(0.067*)深證成份指數(shù) 0.277(0.001***)深證綜合指數(shù) 0.213(0.015**)ARBR 0.179(0.042**)MTM 0.333(0.000***)BIAS 0.458(0.000***)KDJ 0.163(0.064*)RSI 0.497(0.000***)納斯達(dá)克綜合指數(shù) 0.181(0.039**)東京日經(jīng)225指數(shù) 0.152(0.085*)模型的結(jié)果SPSS主成分分析后,得到如下5(主成分載荷出成分得分,得出因子公式,其計(jì)算公式為:線性組合系數(shù)*(方差解釋率/釋率),最后將其歸一化即為因子權(quán)重得分。通過(guò)分析成分矩陣(見表6),1290.556%。模型的公式為:F1=0.184×滬深300指數(shù)+0.194×創(chuàng)業(yè)板指數(shù)+0.197×深證成份指數(shù)+0.196×MTM+0.212×BIAS+0.206×RSIF2=0.395×滬深300指數(shù)+0.328×創(chuàng)業(yè)板指數(shù)+0.426×深證成份指數(shù)-0.385×MTM-0.343×BIAS-0.351×RSIF=(0.706/0.906)×F1+(0.2/0.906)×F25成分初始特征根提取平方和載入特征根方差百分比累積特征根方差百分比累積14.23570.579%70.579%4.23570.579%70.579%21.19919.976%90.556%1.19919.976%90.556%30.3295.488%96.043%40.1442.404%98.447%50.0641.066%99.513%60.0290.487%100.0%6名稱成分成分1成分2滬深300指數(shù)0.1840.395創(chuàng)業(yè)板指數(shù)0.1940.328深證成份指數(shù)0.1970.426MTM0.196-0.385BIAS0.212-0.343RSI0.206-0.351問(wèn)題二模型的建立與求解模型的建立“虧損和“盈利01設(shè)(xi,yi)為m個(gè)獨(dú)立的觀測(cè)樣本值,xi表示第i天的n個(gè)指標(biāo)的觀測(cè)值,yi為響應(yīng)變量,i∈{0,}i=??(i=1iiLogit變化,得:log??????

=ln(

m)=??+I??T??=

n+I????i 1?

。 i=1

。 i=1。i=(i1,i2,…,in)Tn??=(1,2,…,n)TLogistic過(guò)最大化對(duì)數(shù)似然值來(lái)估計(jì)參數(shù)。則上式的對(duì)數(shù)似然函數(shù)為:m m??(??,??)=I{??ln(??)+(1???)ln(1???))}=I??(??

+??T??)?log1+??{o+xT{J}。 i ii=1

i i i 。 i ii=1將上式對(duì)??求導(dǎo),令導(dǎo)數(shù)等于0,可得:????

m=?

i

??{o+{ii

m+I???? =0????

i=1

1+??oi

ii進(jìn)而有??(??;??;??)=oi

mI(i???(i;。;i))i=0i=1。i 。

1+{o+{ixi由于上式無(wú)法求解析解,故選用經(jīng)典的梯度下降算法。按照經(jīng)典梯度下降算法,定義似然函數(shù)為??(??),更新公式為:??+)=??)???-1(??())??(??())其中???f的梯度,它的偏導(dǎo)數(shù)矢量為???叮,叮]。Hf(wàn)Hessian矩陣,{J1

{Jk它的二階偏導(dǎo)數(shù)矩陣為??=2叮{i{j

。容易看出,當(dāng)k=2時(shí),即為二分類模型。綜上,可以得到第i個(gè)樣本被分到y=1的概率估計(jì)值為:i^=i

xp(。+

i)=11+x(。=1

n++

i

??)若^i>0.。LogisticLogistic(PenalizedLogisticLogisticL1到如下式子:mPLR=?I{iln(i)+(1?i)ln(1?i))}+λP(β)i=1β估計(jì)通過(guò)最小化上式可得:??^

m=??????min?{??ln(??)+(1???)ln(1???))}+λP(β){J i i i ii=1其中λP(β)為懲罰項(xiàng),由正的調(diào)節(jié)參數(shù)λ決定,λ控制著模型擬合和懲罰項(xiàng)的影響之間的權(quán)衡,從而避免訓(xùn)練數(shù)據(jù)中過(guò)度擬合的問(wèn)題。我們不懲罰截距項(xiàng),若懲罰項(xiàng)為λP(β)=λ∑pIβI,則可得系數(shù)的Lasso估計(jì)為:j=1 j??^

n=??????min?

pln(??)+(1???)ln(1???))}+λIβI{J i i=1

i i jj=1當(dāng)λ=0MLE估計(jì),λλ→∞,0差之間的正確平衡,以便最小化誤分類錯(cuò)誤。所以選取適當(dāng)?shù)摩耸欠浅V匾?,通常使AIC,BIC,廣義交叉驗(yàn)證。模型的求解首先,根據(jù)差價(jià)將因變量劃分為“盈利”和“虧損”,對(duì)因變量進(jìn)行頻數(shù)統(tǒng)計(jì)得到表7。由于二者比例接近1:1,故模型受選項(xiàng)影響較小。7因變量差價(jià)選項(xiàng)盈利頻數(shù)69百分比53.08%虧損6146.92%總計(jì)130100%AICBIC值。第一個(gè)模型以第一問(wèn)篩LogisticLassoLogistic的結(jié)果8效果,但數(shù)據(jù)卻造成了損失。在第三個(gè)模型中,Lasso方法在自變量中剔除了主成分1使得模型的解釋性更好。8變量名稱模型選擇模型1模型2模型3x1滬深300指數(shù)0.31890.2950x2創(chuàng)業(yè)板指數(shù)-0.2581-0.2576x3深證成份指數(shù)-0.1809-0.1639x4MTM-1.2956-1.2969x5BIAS-0.2154-0.1257x6RSI2.37842.3022x7主成分10.2146--x8主成分2-0.51930.01451截距項(xiàng)0.19220.13110.1906AIC161.2494172.4127BIC181.3221181.0153模型的結(jié)果9139828131型的解釋性更好。9模型1模型2模型3數(shù)量988198平方誤差168.3267113.4467165.2959五、模型評(píng)價(jià)與改進(jìn)AdaptiveLassoLogistic回歸在懲罰項(xiàng)上加權(quán)重,有Oracle性質(zhì)n p??^

=??????min?I{??ln(??)+(1???)ln(1???))}+λIωIβI{J i i=1

i i j jj=1其中ω=(ω1ω2ωp)T是p×1jωj≥0Lasso給大的系數(shù),即大的系數(shù)接受小的懲罰,小的系數(shù)接受大的懲罰。j=(IjI)yγ≥0^λ和γ兩個(gè)調(diào)節(jié)參數(shù),為了計(jì)算方便,令γ=1λ即可。AdaptiveLassoλOracleLogistic提出的最小二乘近似方法。n(??)是負(fù)的對(duì)數(shù)似然函數(shù),假設(shè)n(??)關(guān)于????是通過(guò)最小化n(??礦aylor展開式為:-1

-1

1 T1?? n(??)≈

n(??)+

n(??)

(?????)+ (?????2

[??n(??)(?????)其中?()?()分別是n()礦n(??)?()=0,則上式可以簡(jiǎn)化成-1

1 T1?? n(??)≈

n(??)+2(?????)[??n(??)(?????)忽略常數(shù)項(xiàng)

()1,進(jìn)一步簡(jiǎn)化為2-1 T1?? n(??)≈(?????)[??n(??)(?????)特別地E{1???()}=∑-1(∑為的漸近協(xié)方差陣),所以可以^-1 1 作n n =nn(??)為∑-1(???)T^-1(???)1???()的一nn個(gè)簡(jiǎn)單近似。最終得到統(tǒng)一的基于最小二乘近似的AdaptiveLassop^=??????min(???)T^1(???)+??I礦jIβjI{Jj=1六、附錄附錄1y=-0.0018x2y=-0.0018x2+0.206x+48.815R2=0.56825550450 20 40 60 80 100 120 140 160“采購(gòu)經(jīng)理指數(shù)”數(shù)據(jù)擬合y=9E-06x3y=9E-06x3-0.0018x2+0.0902x+100.69R2=0.8188102.5102101.5101100.50 20 40 60 80 100 120 140 160“居民消費(fèi)價(jià)格指數(shù)”數(shù)據(jù)擬合8.58.38.17.9

y=7E-08x4-2E-05x3+0.0023x2-0.0693x+7.5825R2=0.6077.77.57.37.16.96.76.50 20 40 60 80 100 120 140 160“人民幣貸款利率”數(shù)據(jù)擬合LassoLogistic模型的系數(shù)變化圖2021812日K附錄2#繪制K線圖 3. library(tibble)不可缺少3. library(tibble)不可缺少4. library(magrittr)5. 5. library(quantmod)7. shares7. sharesread.csv("F:/shares_data.csv"8. shares$timeas.Date(shares$time9. 9. shares_xts<-as.xts(shares[2:6],order.by=shares$time)11. times<-shares$time10.drawing<-function11. times<-shares$time12. if(as.Date(date)%in%times){13. 13. 15. share_date<-as.data.frame(share_date)15. share_date<-as.data.frame(share_date)16. 17. 17. share<-as.xts(share_date[2:6],order.by=share_date$time)19. dn.col="green",theme=chartTheme("white"))18. 19. dn.col="green",theme=chartTheme("white"))20. addMACD()21. 21. }else{print("Error")}22.}23.drawing("2021/8/12")#調(diào)用函數(shù)model_dataread.csv("G:/linear_model.csv"24.model_dataread.csv("G:/linear_model.csv"27.attach(model_data)28. 28. 30.x8<-0.395*x1+0.328*x2+0.426*x3-0.385*x4-3.433*x5-0.351*x629.30.x8<-0.395*x1+0.328*x2+0.426*x3-0.385*x4-3.433*x5-0.351*x631. 32.32.x7<-(x7-mean(x7))/sd(x7)34. 34. 35.y2<-y136.36.y2[y1<0]<-038.detach(model_data)37.y2[y1>0]<-38.detach(model_data)39.40.40.#建模42.model_data$x7<-x741. 42.model_data$x7<-x743.model_data$x8<-x844.44.model_data$y2<-y246.45.table(model_data$y2)#y值46.48.model1<-glm(y2~x1+x2+x3+x4+x5+x6,47. 48.model1<-glm(y2~x1+x2+x3+x4+x5+x6,49. data=model_data,family=binomial(link="logit"))50.50.summary(model1)52.51.AIC(model1);BIC(model1)52.53.model2<-glm(y2~x7+x8,data=model_data,54. 54. family=binomial(link="logit"))56.AIC(model2);BIC(model2)55.56.AIC(model2);BIC(model2)57.58.58.library(glmnet)60. family="binomial")5

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論