版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第二講金融大數(shù)據(jù)的降維在大數(shù)據(jù)時(shí)代,如何處理高維數(shù)據(jù)是機(jī)器學(xué)習(xí)中的重要組成部分。1高維空間常存在數(shù)據(jù)稀疏問題,高維的樣本空間還會對距離計(jì)算帶來很大的麻煩。2面對高維數(shù)據(jù),如何降低數(shù)據(jù)維度同時(shí)保持其特征信息?各類降維方法有哪些優(yōu)點(diǎn)與局限?面對不同的應(yīng)用場景,又該如何選擇降維方法?3章前導(dǎo)讀了解作用和應(yīng)用場景了解數(shù)據(jù)降維的動機(jī)、常用方法了解數(shù)據(jù)降維在金融領(lǐng)域的運(yùn)用掌握數(shù)據(jù)降維的準(zhǔn)備工作、主要方法及其代碼實(shí)現(xiàn)學(xué)習(xí)目標(biāo)本講內(nèi)容數(shù)據(jù)降維的準(zhǔn)備工作數(shù)據(jù)降維概述及其運(yùn)用場景主成分分析數(shù)據(jù)降維在金融領(lǐng)域的運(yùn)用因子分析一、數(shù)據(jù)降維概述及其運(yùn)用場景數(shù)據(jù)降維的動機(jī)維數(shù)災(zāi)難在涉及到向量計(jì)算的問題中,隨著維數(shù)的增加,計(jì)算量呈指數(shù)倍增長。樣本點(diǎn)所包含的信息密度隨維度增加而降低,相同的測度時(shí)在高維空間需要更多的樣本點(diǎn)作為支撐。維數(shù)災(zāi)難的后果分類模型過擬合,進(jìn)而導(dǎo)致預(yù)測能力下降。數(shù)據(jù)降維的常用方法學(xué)習(xí)映射函數(shù)??(??)=??,其中??是原始高維向量,??是映射后的低維向量。數(shù)據(jù)降維的本質(zhì)數(shù)據(jù)降維的方法特征選擇——挑選特征的子集。保留的特征全部來源于原特征集特征提取——獲得原來特征的線性(或者非線性)組合。經(jīng)過特征提取后的變量不能在原來的特征集中找到。數(shù)據(jù)降維的作用去除冗余信息,提高數(shù)據(jù)信噪比降維可以減少由原始高維空間中的冗余信息所造成的誤差。降維后的保留的重要相關(guān)特征,能夠減輕機(jī)器學(xué)習(xí)模型訓(xùn)練壓力、提升模型預(yù)測性能。提煉關(guān)鍵信息,歸并同類型指標(biāo)降維能夠提煉同類型指標(biāo)中的關(guān)鍵信息,簡化指標(biāo)體系,聚焦總體影響。降維也可以幫助提升高維數(shù)據(jù)的可視化程度。數(shù)據(jù)降維在金融領(lǐng)域的應(yīng)用場景定價(jià)因子的構(gòu)建在資產(chǎn)定價(jià)方面,降維分析方法常被用于提取代表系統(tǒng)風(fēng)險(xiǎn)的潛在因子、捕獲高頻數(shù)據(jù)的因子結(jié)構(gòu)。進(jìn)而量化地、系統(tǒng)地、精細(xì)地控制投資組合的預(yù)期收益和承受風(fēng)險(xiǎn),以構(gòu)建更加有效的投資組合。用戶畫像金融機(jī)構(gòu)常需要通過海量數(shù)據(jù)刻畫客戶特點(diǎn)以及對產(chǎn)品的偏好,以此實(shí)現(xiàn)對不同客戶群的精準(zhǔn)營銷。在正式對用戶進(jìn)行分類前,降維分析方法常用于對指標(biāo)的簡化和預(yù)處理,有助于提高后續(xù)大數(shù)據(jù)分析模型的效率。二、數(shù)據(jù)降維的準(zhǔn)備工作數(shù)據(jù)降維在金融領(lǐng)域的應(yīng)用場景動機(jī)待分析的原始數(shù)據(jù)存在量綱上的不一致,導(dǎo)致計(jì)算誤差。歸一化或標(biāo)準(zhǔn)化處理可以使它們相同的范圍內(nèi)。
缺失值補(bǔ)充當(dāng)某一變量的數(shù)據(jù)缺漏比例較高時(shí),變量所含的有用信息較多。適用情況使用變量的均值、眾數(shù)、中位數(shù)、滯后項(xiàng)進(jìn)行填充。根據(jù)實(shí)際情況采用0、正無窮、負(fù)無窮進(jìn)行統(tǒng)一填充。一般填充方法牛頓插值法、拉格朗日插值法、埃爾米特(Hermite)插值法等其他插值方法?!澳M產(chǎn)生”真實(shí)值的填充方法(針對時(shí)間序列)缺失值補(bǔ)充牛頓插值法
三、主成分分析基本原理主成分分析是根據(jù)每個(gè)維度的離散程度,來尋找少數(shù)代表關(guān)鍵信息的“成分”。主成分分析是一種數(shù)學(xué)變換的方法。它把給定的一組相關(guān)變量通過總方差不變的線性變換轉(zhuǎn)成另一組不相關(guān)的變量,這些新的變量按照方差依次遞減的順序排列。第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱為第二主成分。依次類推,??個(gè)變量就有??個(gè)主成分。主成分分析算法
主成分分析步驟與代碼實(shí)現(xiàn)主成分分析的相關(guān)Python代碼如下,設(shè)原始數(shù)據(jù)為x:##導(dǎo)入PCA模塊fromsklearn.decompositionimportPCA##創(chuàng)建主成分分析對象pca=PCA(n_components=k)x_pca=pca.fit_transform(x)#將原數(shù)據(jù)集降維,并存儲至x_pcapca.explained_variance_#降維后的各主成分的方差值pca.explained_variance_ratio_#各主成分的方差貢獻(xiàn)率步驟操作第一步對原始變量進(jìn)行預(yù)處理:補(bǔ)充缺失值并進(jìn)行標(biāo)準(zhǔn)化處理第二步對標(biāo)準(zhǔn)化處理后的數(shù)據(jù)計(jì)算載荷矩陣和各主成分的方差貢獻(xiàn)率第三步對各成分的方差貢獻(xiàn)率進(jìn)行排序,并據(jù)此確定保留的主成分個(gè)數(shù)第四步輸出主成分,為下一步的數(shù)據(jù)分析做準(zhǔn)備主成分分析的評價(jià)第一、豐富了可用的數(shù)據(jù)集。第二、沒有參數(shù)限制。第三、克服了人為確定權(quán)數(shù)的缺陷,使得綜合評價(jià)結(jié)果客觀唯一。第一、得出的主成分不一定有相應(yīng)的經(jīng)濟(jì)含義或解釋。第二、主成分分析法假設(shè)指標(biāo)之間的關(guān)系都為線性關(guān)系。第三、主成分分析在處理預(yù)測問題時(shí),不能區(qū)分目標(biāo)相關(guān)和不相關(guān)的潛在因素,也不能保證第一個(gè)主成分能最好地預(yù)測目標(biāo),因而導(dǎo)致模型的預(yù)測效果不理想。四、因子分析基本原理因子分析是通過研究眾多變量之間的內(nèi)部依賴關(guān)系,使用少數(shù)幾個(gè)“抽象”的變量來表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個(gè)抽象的變量被稱作“因子”,能反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而因子一般是不可觀測的潛在變量。例如:股票的成長性和股票的流動性,均不可直接觀測,我們需要利用一些指標(biāo)來間接反映。因子分析就是一種通過顯在變量測評潛在變量,通過具體指標(biāo)測評抽象因子的統(tǒng)計(jì)分析方法。因子分析模型
因子分析模型因子個(gè)數(shù)不超過顯性特征變量個(gè)數(shù),即??≤??;1因子分析的假設(shè)
3??與??不相關(guān),??????(??,??)=??;2各個(gè)特殊因子之間不相關(guān),但方差不要求相等。4因子分析模型因子旋轉(zhuǎn)因子載荷矩陣??并不唯一。當(dāng)公共因子的含義模糊不清時(shí),我們可以對因子載荷矩陣實(shí)行旋轉(zhuǎn)變換,使得公共因子具備更強(qiáng)的解釋力。正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)是因子旋轉(zhuǎn)的兩類方法,其中最常用的是最大方差正交旋轉(zhuǎn)法。正交旋轉(zhuǎn)變換的目的是使各因子上的載荷向兩極轉(zhuǎn)化,使大的載荷更大,的載荷更小,以達(dá)到簡化結(jié)構(gòu)的目的。因子分析模型
在實(shí)際應(yīng)用中常有??<??,因此并不能精確計(jì)算出因子的得分情況,只能對因子得分進(jìn)行估計(jì),常見的方法有湯姆孫回歸法。因子得分“”因子分析模型因子分析的相關(guān)Python代碼如下:##導(dǎo)入因子分析程序包fromfactor_analyzerimportFactorAnalyzer##創(chuàng)建因子分析對象,設(shè)定公共因子數(shù)為4,并以最大方差正交旋轉(zhuǎn)法進(jìn)行因子旋轉(zhuǎn)fa=FactorAnalyzer(n_factors=4,method='ml',rotation='varimax')fa.fit(X)#對標(biāo)準(zhǔn)化后的數(shù)據(jù)X進(jìn)行因子分析ev,v=fa.get_eigenvalues()#輸出因子相關(guān)矩陣和特征值pd.DataFrame(np.round(fa.loadings_,2))#輸出因子載荷pd.DataFrame(np.round(fa.transform(X),2))#計(jì)算因子得分主成分分析與因子分析的比較相同點(diǎn)相同點(diǎn)都應(yīng)用于數(shù)據(jù)降維和信息濃縮。生成的新變量均包括了原始變量的大部分信息。兩者的線性表示方向不同。信息損失不同。應(yīng)用場景存在差異。五、數(shù)據(jù)降維在金融領(lǐng)域的運(yùn)用案例一:主成分分析在構(gòu)建普惠金融指數(shù)中的應(yīng)用普惠金融也稱作包容性金融、金融包容。根據(jù)世界銀行的定義,普惠金融是能夠使社會所有階層和群體廣泛、無障礙地享受金融服務(wù)的一種金融體系。普惠金融指標(biāo)體系可以概括為以下三個(gè)維度:廣泛的包容性、特定化配比程度和商業(yè)可持續(xù)性。從這三個(gè)維度出發(fā),可以構(gòu)建出如下指標(biāo)體系。案例背景案例一:主成分分析在構(gòu)建普惠金融指數(shù)中的應(yīng)用在此案例中,僅選取表2-3中的13個(gè)指標(biāo)(數(shù)據(jù)涵蓋2009至2016年31個(gè)中國大陸省、市、自治區(qū))進(jìn)行一次主成分分析。接著,這三個(gè)維度的主成分再進(jìn)行一次主成分分析,以各自的載荷作為權(quán)重,加權(quán)平均得到普惠金融發(fā)展指數(shù)的單一指標(biāo),以用于后續(xù)的量化分析。首先,對每個(gè)維度內(nèi)的各分項(xiàng)指標(biāo)利用主成分分析方法進(jìn)行降維,以累積方差貢獻(xiàn)率達(dá)到80%作為標(biāo)準(zhǔn),分別提取三個(gè)維度的主成分。具體步驟案例一:主成分分析在構(gòu)建普惠金融指數(shù)中的應(yīng)用表2-4前五大主成分的方差及方差貢獻(xiàn)率圖2.5主成分分析的碎石圖主成分方差方差貢獻(xiàn)率%累積方差貢獻(xiàn)率%7.1080.5430.5432.1920.1680.7111.2790.0980.8090.7980.0610.8700.6460.0490.919三個(gè)主成分的累計(jì)方差貢獻(xiàn)率為80.9%(>80%),碎石圖也表明在主成分個(gè)數(shù)為3時(shí)出現(xiàn)拐點(diǎn),因而我們提取前三個(gè)主成分進(jìn)行后續(xù)的數(shù)據(jù)分析。案例一:主成分分析在構(gòu)建普惠金融指數(shù)中的應(yīng)用牛頓插值法維度指標(biāo)(X)廣泛的包容性數(shù)字金融覆蓋廣度0.344-0.2330.038數(shù)字金融使用深度0.321-0.1860.066地區(qū)ATM密度0.2710.3910.130……………特定化配比程度中小企業(yè)貸款占比/中小企業(yè)資產(chǎn)占比0.0090.117-0.719農(nóng)戶經(jīng)營貸款占比/農(nóng)業(yè)增加值占比0.2300.261-0.338……………商業(yè)可持續(xù)性涉農(nóng)企業(yè)、中小企業(yè)不良貸款率-0.1100.3050.511保費(fèi)支出/保費(fèi)收入-0.1580.352-0.191……………從上表可以看出,第一大主成分與“廣泛的包容性”維度的指標(biāo)相關(guān)性較大,但第二和第三大主成分關(guān)于“廣泛的包容性”、“特定配比程度”以及“商業(yè)可持續(xù)性”三個(gè)維度的載荷系數(shù)差距不大,難以區(qū)分該主成分所指代的現(xiàn)實(shí)含義。案例二:因子分析在股票量化投資策略構(gòu)建中的應(yīng)用案例二利用因子分析模型,設(shè)計(jì)了一個(gè)簡單的股票量化投資策略。從A股市場抽取了100只股票作為研究對象,選取18個(gè)財(cái)務(wù)指標(biāo),樣本區(qū)間為2016年第一季度至2020年第4季度。在股票市場中,如何從不同維度、數(shù)量龐大的各種因子中提煉信息,進(jìn)而選擇潛在的優(yōu)質(zhì)股票呢?隨著中國金融市場的發(fā)展,股票已成為一條重要的投資工具,幫助人們選股投資的股票基金經(jīng)理,也作為一項(xiàng)職業(yè)也越來越受到歡迎。案例背景案例二:因子分析在股票量化投資策略構(gòu)建中的應(yīng)用全樣本區(qū)間因子分析由表2-6可知,五個(gè)因子的累計(jì)方差貢獻(xiàn)率已超過80%,綜合考慮18個(gè)指標(biāo)分別衡量了盈利能力、經(jīng)營成本、發(fā)展能力、運(yùn)營能力以及償債能力五個(gè)維度,因而我們選擇模型中的因子個(gè)數(shù)為5。因子方差貢獻(xiàn)方差貢獻(xiàn)率%累積方差貢獻(xiàn)率%3.95522.0%22.0%3.30918.4%40.4%3.22117.9%58.2%2.38713.3%71.5%1.7719.8%81.3%0.9765.4%86.8%0.8914.9%91.7%0.5393.0%94.7%案例二:因子分析在股票量化投資策略構(gòu)建中的應(yīng)用旋轉(zhuǎn)前旋轉(zhuǎn)后因子載荷矩陣(最大方差法旋轉(zhuǎn)前后對比)案例二:因子分析在股票量化投資策略構(gòu)建中的應(yīng)用旋轉(zhuǎn)后因子的經(jīng)濟(jì)含義因子經(jīng)濟(jì)含義盈利能力(與資產(chǎn)報(bào)酬率、息稅前利潤等最為相關(guān))營運(yùn)能力(與營業(yè)周期、資產(chǎn)周轉(zhuǎn)率等最為相關(guān))增長能力(與固定資產(chǎn)增長率、營業(yè)收入增長率等最為相關(guān))償債能力(與流動比率、速動比率、長期借款比率等最為相關(guān))經(jīng)營成本(與銷售費(fèi)用率,財(cái)務(wù)費(fèi)用率等最為相關(guān))案例二:因子分析在股票量化投資策略構(gòu)建中的應(yīng)用分析結(jié)果計(jì)算各只股票在五個(gè)因子上的得分,并以方差貢獻(xiàn)率為權(quán)重計(jì)算總得分進(jìn)行排序,下表為總得分排名前五的股票情況。股票代碼因子得分總得分40-0.2980.0881.8250.1890.0491.85396-0.211-0.0060.0251.6840.1351.627626-0.0911.6500.0200.095-0.1021.5725900.0440.0450.8770.168-0.1001.03470-0.0510.1610.937-0.1140.0360.970案例二:因子分析在股票量化投資策略構(gòu)建中的應(yīng)用投資策略設(shè)計(jì)本案例在2017年第一季度至2020年第四季度使用上述策略的股票投資,將案例中的100只股票作為市場基準(zhǔn),得到因子投資策略收益率為3.78%,相同時(shí)段內(nèi)市場收益率為-9.23%。步驟操作第一步設(shè)定初始窗口期為四個(gè)季度,計(jì)算窗口期內(nèi)各只股票在18個(gè)指標(biāo)上的樣本均值第二步基于窗口期的均值數(shù)據(jù)進(jìn)行因子分析,并進(jìn)行因子旋轉(zhuǎn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 運(yùn)動服裝市場細(xì)分研究-洞察分析
- 云邊協(xié)同線延遲分析-洞察分析
- 野生動植物保護(hù)區(qū)域規(guī)劃-洞察分析
- 隱私增強(qiáng)學(xué)習(xí)技術(shù)-洞察分析
- 2024年05月廣東浦發(fā)銀行總行社會招考(519)筆試歷年參考題庫附帶答案詳解
- 內(nèi)蒙古框架協(xié)議書范本(2篇)
- Java程序設(shè)計(jì)教程課件
- 《寶潔企業(yè)戰(zhàn)略管理》課件
- 2024年華東師大版八年級物理上冊階段測試試卷
- 《安全文化與安全》課件
- 15D502等電位連接安裝圖集
- DB44-T 1641-2015 LED 洗墻燈地方標(biāo)準(zhǔn)
- 網(wǎng)絡(luò)攻防試題集合
- 建設(shè)工程總承包計(jì)價(jià)規(guī)范
- 設(shè)計(jì)開發(fā)(更改)評審記錄
- Cpk 計(jì)算標(biāo)準(zhǔn)模板
- 靜脈留置針的日常維護(hù)
- 2023年消費(fèi)者咨詢業(yè)務(wù)試題及答案
- 推土機(jī)的應(yīng)用
- STK基礎(chǔ)教程學(xué)習(xí)版
- 2022年11月山東省臨沂市工會招考28名社會工作專業(yè)人才筆試參考題庫附帶答案解析
評論
0/150
提交評論