第4講 聚類分析及其在金融運用_第1頁
第4講 聚類分析及其在金融運用_第2頁
第4講 聚類分析及其在金融運用_第3頁
第4講 聚類分析及其在金融運用_第4頁
第4講 聚類分析及其在金融運用_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

聚類分析及其在金融運用第四講章前導(dǎo)讀在大數(shù)據(jù)時代中,如何從龐雜的數(shù)據(jù)資源中挖掘優(yōu)質(zhì)信息成為重要問題。01大數(shù)據(jù)聚類是數(shù)據(jù)密集型科學(xué)的基礎(chǔ)性、普遍性問題,是數(shù)據(jù)分析的重要基礎(chǔ),聚類分析就是數(shù)據(jù)挖掘的實用方法之一。02聚類分析是何概念?有哪些具體的分析方法?其在各領(lǐng)域尤其是金融領(lǐng)域是怎樣應(yīng)用的?03CONTENT聚類的基本概念聚類的原理與算法聚類的金融案例目

錄01聚類的基本概念聚類分析(clusterAnalysis)指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。聚類所要求劃分的類是未知的。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。聚類分析方法基于劃分的聚類算法對散點進行聚類,挑選幾個點作為初始中心點,根據(jù)一定規(guī)則迭代重置聚類中心點;適用于小規(guī)模數(shù)據(jù)。K-means:計算樣本點與類簇質(zhì)心的距離,與類簇質(zhì)心相近的樣本點劃分為同一類簇,通過樣本間的距離來衡量相似度。K質(zhì)心:選擇原有樣本中的樣本點作為代表對象來代表這個簇,計算剩下的樣本點與代表對象的距離,將樣本點劃分到與其距離最近的代表對象所在的簇中?;趯哟蔚木垲愃惴ㄆ胶獾鳒p聚類法:構(gòu)建聚類特征樹,利用樹結(jié)構(gòu)快速聚類。基于層次的聚類算法該算法能夠用于挖掘任意形狀的簇,并且能有效過濾掉噪聲樣本對于聚類結(jié)果的影響。DBSCAN:將具有足夠密度的區(qū)域劃分為簇,并在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇,將簇定義為密度相連的點的最大集合。聚類分析方法商業(yè)領(lǐng)域——面向客戶確定客戶群描繪客戶特征定制化客戶管理其他領(lǐng)域動植物聚類、基因聚類,獲取對種群固有結(jié)構(gòu)的認識壓縮圖片、影像,修復(fù)文檔20XX年創(chuàng)收指標(biāo)和業(yè)務(wù)完成情況股票投資策略分析股票內(nèi)在價值投資策略投資風(fēng)險等聚類的金融應(yīng)用場景金融機構(gòu)資產(chǎn)配置業(yè)務(wù)收益業(yè)務(wù)條線偏好平均期限等精準(zhǔn)營銷策略制定客戶基本特征消費習(xí)慣風(fēng)險偏好等02聚類的原理與算法聚類的原理與算法K均值系列算法K-meansK質(zhì)心層次聚類算法平衡迭代削減聚類法平衡迭代削減聚類法基于密度的聚類算法DBSCAN算法(1)K均值系列算法:K-meansK-Means算法是計算樣本點與類簇質(zhì)心的距離,與類簇質(zhì)心相近的樣本點劃分為同一類簇。對于給定的樣本集,按照樣本之間的距離大小,將樣本集劃分為K個簇。讓簇內(nèi)的點盡量緊密的連在一起,而讓簇間的距離盡量的大。聚類迭代過程步

驟01020304選擇若干個初始質(zhì)心,初始質(zhì)心隨機選擇即可,每一個質(zhì)心為一個類。對剩余的每個樣本點計算它們到各個質(zhì)心的歐式距離,并將其歸入到相互間距離最小的質(zhì)心所在的簇。計算各個新簇的質(zhì)心。在所有樣本點都劃分完畢后,根據(jù)劃分情況重新計算各個簇的質(zhì)心所在位置,然后迭代計算各個樣本點到各簇質(zhì)心的距離,對所有樣本點重新進行劃分。重復(fù)步驟(2)和(3)直到質(zhì)心不再發(fā)生變化。(1)K均值系列算法:K質(zhì)心01/PartK質(zhì)心算法通過選擇原有樣本中的樣本點作為代表對象來代表這個簇,計算剩下的樣本點與代表對象的距離,將樣本點劃分到與其距離最近的代表對象所在的簇中。02/Part該算法減小了由于異常數(shù)據(jù)的嚴重離群所引起的平均值偏離,克服了原有K-means算法容易受異常數(shù)據(jù)影響的缺點。03/Part當(dāng)數(shù)據(jù)存在離群點和噪音點時,K質(zhì)心算法要比K均值算法更加穩(wěn)健。步

驟01020304任意選取K個點作為質(zhì)心。按照與質(zhì)心最近的原則,將剩余點分配到當(dāng)前最佳的質(zhì)心代表的類中。在每一個類中,計算每個成員點對應(yīng)的準(zhǔn)則函數(shù),選取準(zhǔn)則函數(shù)最小時對應(yīng)的點作為新的質(zhì)心(其中準(zhǔn)則函數(shù)為每一類中某個成員點和其他成員點的距離之和)。重復(fù)步驟(2)和(3),直到所有的質(zhì)心點不再發(fā)生變化。也稱系統(tǒng)聚類(2)層次聚類算法首先計算網(wǎng)絡(luò)節(jié)點間的相似性或距離;然后采用單連接層次聚類或全連接層次聚類將網(wǎng)絡(luò)節(jié)點組成一個樹狀圖層次結(jié)構(gòu)。聚合聚類(自下而上):層次凝聚聚類算法、平衡迭代削減聚類法分裂聚類(自上而下):分裂的層次聚類算法最后根據(jù)樹狀結(jié)構(gòu)劃分類別。單連接vs全連接單連接兩個類間的距離定義為一個類的所有實例到另一個類的所有實例之間最短的那個距離。(A1,B1)。全連接兩個類間的距離定義為一個類的所有實例到另一個類的所有實例之間最長的那個距離。(B1,C1)。平衡迭代削減聚類法主要步驟如下適用數(shù)據(jù)量大、類別數(shù)較多的情況;1.將所有的樣本一次讀入,在內(nèi)存中建立一顆聚類特征樹;利用聚類特征樹快速聚類,每一個節(jié)點是由若干個聚類特征組成;2.將第一步建立的聚類特征樹進行篩選,去除一些異常聚類特征節(jié)點,對于一些超球體距離非常近的元組進行合并;3.利用其他聚類算法對所有的聚類特征元組進行聚類,得到一顆較好的聚類特征樹;4.利用(3)生成的聚類特征樹的所有聚類特征節(jié)點的質(zhì)心,作為初始質(zhì)心點,對所有的樣本點按距離遠近進行聚類。層次凝聚聚類算法將每個對象作為一個簇,根據(jù)準(zhǔn)則一步步合并這些簇,反復(fù)進行直到所有的對象最終滿足給定的簇數(shù)目。01020304對象作為一個簇,根據(jù)準(zhǔn)則一步步合。計算任意兩個簇的距離,并找到最近的兩個簇。合并兩個簇,生成新的簇的集合。直到終止條件得到滿足。(3)基于密度的聚類算法:DBSCAN01DBSCAN算法一般假定類別可以通過樣本分布的緊密程度(密度)決定;02該算法將具有足夠密度的區(qū)域劃分為簇,并在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇,它將簇定義為密度相連的點的最大集合;03基于密度的聚類算法是根據(jù)密度而不是距離來計算樣本相似度,所以基于密度的聚類算法能夠用于挖掘任意形狀的簇,且能夠有效過濾掉噪聲樣本。定義描述DBSCAN算法是基于一組鄰域來描述樣本集的緊密程度的,參數(shù)用來描述鄰域的樣本分布緊密程度。01?鄰域給定對象半徑?內(nèi)的區(qū)域稱為該對象的?鄰域。02核心對象對于任意一個樣本,如果其?鄰域?qū)?yīng)的樣本點數(shù)大于等于MinPts,則該對象是核心對象。03密度直達

04密度可達

法01任意選擇一個沒有類別的核心對象作為種子。020304通過計算找到所有這個核心對象能夠密度可達的樣本集合,即為一個聚類簇

。繼續(xù)選擇另一個沒有類別的核心對象去尋找密度可達的樣本集合,得到另一個聚類簇

。按照此方法一直運行到所有核心對象都有所在類別為止。Python代碼03聚類的金融案例案例1:銀行客戶分群案例

已知一組企業(yè)的財務(wù)數(shù)據(jù)

銀行需要有針對性地推薦服務(wù):負債類業(yè)務(wù)資產(chǎn)類業(yè)務(wù)

試分析應(yīng)該如何聚類?財務(wù)指標(biāo)企業(yè)財務(wù)指標(biāo)流動比率有形資產(chǎn)比率凈資產(chǎn)收益率速動比率流動負債比率投入資本回報率現(xiàn)金比率經(jīng)營負債比率營業(yè)毛利率資產(chǎn)負債率應(yīng)收賬款收入比營業(yè)利潤率長期借款總資產(chǎn)比存貨與收入比營業(yè)收入現(xiàn)金含量有形資產(chǎn)負債率資產(chǎn)報酬率營業(yè)收入增長率固定資產(chǎn)比率總資產(chǎn)凈利潤率所有者權(quán)益增長率市盈率市凈率托賓Q值聚

類確定需求選擇合適的字段(變量)提取主要因子,利用因子進行聚類分析結(jié)果必要的時候可以降維聚類前對不同變量進行標(biāo)準(zhǔn)化的處理引流、用戶畫像和精準(zhǔn)營銷在實際問題中如何聚類?因子特征值的改變從第四個因子變得平緩;因此,選擇前三個因子作為最終的指標(biāo)

。碎石圖系數(shù)排序因子1因子2因子31流動比率投入資本回報率流動負債比率2速動比率總資產(chǎn)凈利潤率經(jīng)營負債比率3現(xiàn)金比率凈資產(chǎn)收益率托賓Q值第一個因子流動比率、速動比率、現(xiàn)金比率等指標(biāo)的權(quán)重高;第二個因子資產(chǎn)報酬率、凈資產(chǎn)收益率的權(quán)重高;第三個因子流動負債比率和經(jīng)營負債比率的權(quán)重高。排序表不同企業(yè)的聚類散點圖如下所示:繪

圖類償債能力盈利能力杠桿率業(yè)務(wù)類型業(yè)務(wù)示例1低低低高流動性負債類業(yè)務(wù)存款2中高中高風(fēng)險資產(chǎn)類業(yè)務(wù)發(fā)債3高中高低風(fēng)險資產(chǎn)類業(yè)務(wù)貸款4中低中低流動性負債類業(yè)務(wù)理財服務(wù)推薦案例2:探究居民消費指數(shù)的異質(zhì)性基于如下家庭數(shù)據(jù)進行聚類,并分別提供財務(wù)規(guī)劃建議:收入、收入結(jié)構(gòu)支出、支出結(jié)構(gòu)對風(fēng)險的感知金融知識……數(shù)

據(jù)消費類別平均值(%)標(biāo)準(zhǔn)差(%)觀測值食品煙酒32.3612.095,247衣著8.986.065,247居住23.5212.725,247生活用品及服務(wù)6.335.935,247交通通信9.609.425,247教育文化娛樂10.3210.385,247醫(yī)療保健6.469.425,247其他用品和服務(wù)2.433.835,247聚類:K-means消費類別溫飽型(%)務(wù)實型(%)服務(wù)型(%)食品煙酒

46.5226.3426.49衣著9.108.009.84居住18.8935.2215.93生活用品及服務(wù)5.736.147.01交通通信7.5811.419.50教育文化娛樂5.056.1818.75醫(yī)療保健5.094.799.25其他用品和服務(wù)2.051.923.24觀測值1,5521,8281,867描述性統(tǒng)計溫飽型務(wù)實型服務(wù)型可支配收入67,21795,88695,889年齡44.0143.6239.68教育程度4.014.824.92新婚(%)32.9931.7320.89觀測值1,5521,8281,867結(jié)

論010203溫飽型家庭用于食品類的消費高達46.5%與其較低的可支配收入水平有著緊密的聯(lián)系。溫飽型家庭的年可支配收入平均為6萬7千元,相比較于其他兩類家庭的年收入低了大約2萬8千元。務(wù)實型家庭用于食品類的消費占比在26.4%左右,居住和交通通信總占比約為46.6%,平均年齡在44歲左右,大約有32%的家庭是新婚家庭。服務(wù)型家庭用于食品類的消費占比在26.4%左右,服務(wù)類總占比約為39%,平均年齡在40歲左右,只有約21%的家庭是新婚家庭。本章小結(jié)聚類分析是用于對未知類別的樣本進行劃分,將它們按照一定的規(guī)則劃分成若干個類簇,從而

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論