




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Python金融數(shù)據(jù)挖掘 高等教育出版第十一章K近鄰分類與K均值聚類算法Python金融數(shù)據(jù)挖掘 高等教育出版第十一章K近鄰分類【知識(shí)框架圖】K點(diǎn)分類聚類算法K近鄰分類算法應(yīng)用場(chǎng)景算法流程與實(shí)現(xiàn)K均值聚類算法應(yīng)用場(chǎng)景算法流程與實(shí)現(xiàn)【知識(shí)框架圖】K點(diǎn)分類聚類算法K近鄰分類算法應(yīng)用場(chǎng)景算法流程目錄Contents第一節(jié)K近鄰分類原理與實(shí)現(xiàn)第二節(jié)K均值聚類原理與實(shí)現(xiàn)第三節(jié)案例目錄Contents第一節(jié)K近鄰分類原理與實(shí)現(xiàn)第二節(jié)K均值聚本章學(xué)習(xí)目標(biāo)掌握K近鄰分類算法研究的對(duì)象、意義、應(yīng)用場(chǎng)景、算法原理及其實(shí)現(xiàn)。掌握K均值聚類算法研究的對(duì)象、意義、應(yīng)用場(chǎng)景、算法原理及其實(shí)現(xiàn)。本章學(xué)習(xí)目標(biāo)掌握K近鄰分類算
2、法研究的對(duì)象、意義、應(yīng)用場(chǎng)景、算需求背景K近鄰(KNN,K Nearest Neighbors)算法屬于分類算法。樣本數(shù)據(jù)集中除了數(shù)據(jù)點(diǎn)的坐標(biāo),每個(gè)點(diǎn)還有一個(gè)分類標(biāo)簽。如果現(xiàn)在新出現(xiàn)了一個(gè)待分類的數(shù)據(jù)點(diǎn)A,KNN算法是根據(jù)與A相鄰的K個(gè)樣本點(diǎn)分類歸屬情況,來(lái)決定A應(yīng)該歸屬到哪一類。前面章節(jié)介紹過(guò)的決策樹算法、貝葉斯算法和K近鄰算法都屬于分類算法。K均值(K-Means)算法屬于聚類算法。樣本數(shù)據(jù)集中只有數(shù)據(jù)點(diǎn)的坐標(biāo),并沒有其分類標(biāo)簽。但是這些點(diǎn)并不是均勻分布在整個(gè)坐標(biāo)空間中,而是相對(duì)密集地聚集在幾個(gè)較小的范圍內(nèi)。聚類算法的目標(biāo)是發(fā)現(xiàn)這些聚集的范圍,將所有那些沒有分類標(biāo)簽的點(diǎn),劃分到某個(gè)聚集范圍
3、內(nèi)。聚類算法和分類算法的區(qū)別在于:聚類算法是無(wú)監(jiān)督的,樣本數(shù)據(jù)可以沒有貼標(biāo)簽;而分類算法是有監(jiān)督的,樣本數(shù)據(jù)需要有類別標(biāo)簽。通俗理解,分類算法是貼標(biāo)簽,而聚類算法是找朋友(物以類聚,人以群分)。需求背景K近鄰(KNN,K Nearest Neighbor01K近鄰分類原理與實(shí)現(xiàn)01K近鄰分類原理與實(shí)現(xiàn)K近鄰分類算法的邏輯非常直觀:待分類的這個(gè)數(shù)據(jù)點(diǎn)歸屬到哪一類,由它的K個(gè)近鄰樣本點(diǎn)的分類情況決定。每個(gè)樣本數(shù)據(jù)點(diǎn)都有若干個(gè)屬性,例如一個(gè)手機(jī)網(wǎng)銀用戶的信息構(gòu)成這樣一個(gè)屬性集合:年齡,學(xué)歷,收入,。通過(guò)某種規(guī)則,將這些屬性值轉(zhuǎn)換成坐標(biāo)值,即將用戶轉(zhuǎn)換成n維空間中的一個(gè)點(diǎn)。為了簡(jiǎn)單起見,后文闡述以二維
4、空間的點(diǎn)為例。如圖 11-2所示,待分類的數(shù)據(jù)點(diǎn)為A,圖中用圓表示;其他的數(shù)據(jù)分類結(jié)果是已知的(所謂有監(jiān)督的學(xué)習(xí),表示監(jiān)督者已經(jīng)分好類,打好標(biāo)簽了),被分為1和2兩類,分別用三角形和矩形表示。K近鄰分類算法的邏輯非常直觀:待分類的這個(gè)數(shù)據(jù)點(diǎn)歸屬到哪一類Python金融數(shù)據(jù)挖掘-課件第11章圖 11-2 K近鄰算法示意圖:A點(diǎn)的分類結(jié)果可以簡(jiǎn)單地選擇K近鄰中相對(duì)多數(shù)的分類標(biāo)簽,例如,圖 11-2中A的3個(gè)近鄰中有2個(gè)分類結(jié)果為2,占據(jù)多數(shù),因此A的分類結(jié)果為2。也可以相對(duì)復(fù)雜地按照距離遠(yuǎn)近進(jìn)行權(quán)重投票,圖 11 2中分類標(biāo)簽為1的近鄰雖然只有1個(gè),但是它離A最近,如果權(quán)重比例足夠大,也有可能影響
5、到A的最終分類結(jié)果。圖 11-2 K近鄰算法示意圖:K近鄰分類算法的流程圖:K近鄰分類算法的流程圖:【例 11-1】下面代碼首先新建了兩個(gè)數(shù)據(jù)點(diǎn)testX和testY,再分別調(diào)用kNNClassify函數(shù)計(jì)算其分類歸屬。K近鄰算法有比較直觀的解釋(特別是在低維空間中),其歐氏距離的計(jì)算量也相對(duì)比較小,是一個(gè)應(yīng)用很廣的基礎(chǔ)分類算法?!纠?11-1】定義一個(gè)用于計(jì)算歐氏距離的函數(shù)euclDistance,使用numpy中的函數(shù)計(jì)算由列表形式存儲(chǔ)的兩個(gè)向量的歐式距離。定義一個(gè)用于計(jì)算歐氏距離的函數(shù)euclDistance,使用創(chuàng)建一個(gè)數(shù)據(jù)集,包含2個(gè)類別共8個(gè)樣本:創(chuàng)建一個(gè)數(shù)據(jù)集,包含2個(gè)類別共8個(gè)
6、樣本:KNN分類算法函數(shù)實(shí)現(xiàn):定義一個(gè)kNNClassify函數(shù)。根據(jù)dataSet和labels的輸入,選擇待分類點(diǎn)newInput的k個(gè)近鄰,決定其分類歸屬。KNN分類算法函數(shù)實(shí)現(xiàn):生成數(shù)據(jù)集和類別標(biāo)簽:生成數(shù)據(jù)集和類別標(biāo)簽:02K均值聚類原理與實(shí)現(xiàn)02K均值聚類原理與實(shí)現(xiàn)聚類算法不需要事先對(duì)樣本點(diǎn)的類別歸屬進(jìn)行判定和標(biāo)識(shí),而是能夠挖掘出現(xiàn)有樣本點(diǎn)的分布聚集規(guī)律,對(duì)樣本點(diǎn)自動(dòng)進(jìn)行歸屬劃分。聚類算法被廣泛應(yīng)用于客戶群體劃分、熱點(diǎn)區(qū)域發(fā)現(xiàn)等業(yè)務(wù)場(chǎng)景。例如:某證券公司一共有N個(gè)客戶,每個(gè)客戶的資金量、交易頻次等數(shù)據(jù)構(gòu)成一個(gè)樣本點(diǎn)?,F(xiàn)在希望能設(shè)計(jì)出一套手續(xù)費(fèi)費(fèi)率優(yōu)惠方案,既能夠較好地體現(xiàn)大客戶優(yōu)惠
7、,又可以保證本公司的總體收入。這時(shí)候就可以對(duì)這N個(gè)樣本點(diǎn)進(jìn)行聚類分析,找出客戶支付手續(xù)費(fèi)的不同聚集群體,有針對(duì)性地設(shè)計(jì)費(fèi)率方案。又如:某銀行要開展理財(cái)產(chǎn)品現(xiàn)場(chǎng)促銷活動(dòng),需要選擇熱點(diǎn)商圈(即客戶分布較密集的區(qū)域)來(lái)提升活動(dòng)的潛在客戶數(shù)量。這時(shí)候就要對(duì)手機(jī)網(wǎng)銀APP所提供的位置信息進(jìn)行聚類,找出活動(dòng)時(shí)間段內(nèi)潛在客戶的熱點(diǎn)活動(dòng)區(qū)域,從而讓盡可能多的客戶了解促銷的信息。聚類算法不需要事先對(duì)樣本點(diǎn)的類別歸屬進(jìn)行判定和標(biāo)識(shí),而是能夠假設(shè)現(xiàn)在采集到二維坐標(biāo)空間中的由80個(gè)坐標(biāo)點(diǎn)構(gòu)成的數(shù)據(jù)集(可以理解成是一個(gè)APP采集到的80個(gè)客戶的某時(shí)點(diǎn)位置坐標(biāo)),如表 11-1所示,將數(shù)據(jù)保存在Python工作目錄下,命
8、名為“testSet.txt”。:XYXYXYXY1.6589854.2851362.3364452.8751062.0967013.8860072.894222.489128-3.4536873.424321-1.7863452.554248-2.709032.923887-2.562542.8844384.838138-1.1515392.190101-1.906023.367037-3.184793.491078-3.94749-3.195883-2.283926-3.837877-3.253815-3.17118-3.57245-4.90557-2.91107表 111 80個(gè)點(diǎn)坐標(biāo)數(shù)
9、據(jù)假設(shè)現(xiàn)在采集到二維坐標(biāo)空間中的由80個(gè)坐標(biāo)點(diǎn)構(gòu)成的數(shù)據(jù)集(可應(yīng)用聚類算法前,通常需要根據(jù)數(shù)據(jù)集的分布情況確定一個(gè)合理的聚類數(shù)K,因此,事先探查數(shù)據(jù)集的空間分布情況有利于提高聚類的效果。在眾多的數(shù)據(jù)可視化工具中,Excel便是一個(gè)非常有效的探查樣本數(shù)據(jù)(樣本數(shù)據(jù)量太大時(shí),可以先隨機(jī)抽取出少量樣本)空間分布特征的工具。針對(duì)表 11-1中的數(shù)據(jù)集,我們可以借助Excel來(lái)繪制散點(diǎn)圖,如圖 11-4所示。根據(jù)Excel散點(diǎn)圖展示的數(shù)據(jù)分布情況可以發(fā)現(xiàn),其主要聚集在四個(gè)區(qū)域:圖 11-4 80個(gè)點(diǎn)坐標(biāo)圖應(yīng)用聚類算法前,通常需要根據(jù)數(shù)據(jù)集的分布情況確定一個(gè)合理的聚K均值算法思想有直觀的幾何意義:將樣本點(diǎn)
10、聚集(歸屬)到距離它最近的那個(gè)聚類中心。找出數(shù)據(jù)集中的K個(gè)聚類中心是算法的目標(biāo)(簡(jiǎn)單起見,這里使用歐式距離來(lái)度量樣本間的相似度)。K均值算法思想有直觀的幾何意義:將樣本點(diǎn)聚集(歸屬)到距離它K均值聚類算法流程圖:K均值聚類算法流程圖:【例 11-2】Python實(shí)現(xiàn):initCentroids函數(shù)根據(jù)當(dāng)前樣本數(shù)據(jù)集和指定的k,隨機(jī)生成k個(gè)中心點(diǎn),用于聚類。【例 11-2】Python實(shí)現(xiàn):initCentroidsK均值聚類:K均值聚類: 2維平面顯示聚類結(jié)果: 2維平面顯示聚類結(jié)果:調(diào)用以上函數(shù),對(duì)讀入數(shù)據(jù)進(jìn)行聚類:原始數(shù)據(jù)分布調(diào)用以上函數(shù),對(duì)讀入數(shù)據(jù)進(jìn)行聚類:原始數(shù)據(jù)分布輸出結(jié)果:根據(jù)聚類
11、結(jié)果用不同的樣式顯示不同聚類的數(shù)據(jù)點(diǎn),并且突出顯示了算法求出的k=4個(gè)聚類中心點(diǎn)。K均值聚類結(jié)果輸出結(jié)果:K均值聚類結(jié)果03案例03案例銀行客戶群體劃分案例某銀行要根據(jù)客戶資料制定新的促銷方案,客戶資料信息如表 11 2所示。使用本章介紹的兩個(gè)聚類算法,對(duì)客戶進(jìn)行聚類分析,從而確定促銷的客戶群體劃分方案??蛻粜畔⑷缦拢篒D性別年齡年收入(萬(wàn)元)消費(fèi)評(píng)分(1-100)1Male1915392Male2115813Female201664Female2316775Female3117406Female2217767Female351868Female2318949Male64193Male3013
12、783銀行客戶群體劃分案例ID性別年齡年收入(萬(wàn)元)消費(fèi)評(píng)分(1-導(dǎo)入數(shù)據(jù):首先讀入數(shù)據(jù)文件,觀察數(shù)據(jù)結(jié)構(gòu)。為了便于后續(xù)數(shù)據(jù)規(guī)格化,將ID和性別列舍去,僅剩下年齡、年收入、消費(fèi)評(píng)分三個(gè)屬性。導(dǎo)入數(shù)據(jù):為了能夠以合適的尺度在坐標(biāo)軸上展示數(shù)據(jù),調(diào)用了sklearn包 preprocessing中的scale函數(shù),將所有的數(shù)據(jù)值進(jìn)行規(guī)格化。Sklearn包將在后續(xù)章節(jié)中專門介紹。為了能夠以合適的尺度在坐標(biāo)軸上展示數(shù)據(jù),調(diào)用了sklearn繪制3維圖:第5行直接使用了sklearn.decomposition提供的pca.fit_transform函數(shù),將3維降低到2維。pca.fit_transfo
13、rm函數(shù)使用了PCA方法對(duì)數(shù)據(jù)集進(jìn)行降維操作,PCA(Principal Component Analysis,主成分分析方法)是一種將原來(lái)的高維特征映射到低維空間的數(shù)學(xué)方法,既能降低數(shù)據(jù)維度,又能盡可能地保留高維信息。繪制3維圖:第5行直接使用了sklearn.decompos數(shù)據(jù)降為2維,繪制2維圖:數(shù)據(jù)降為2維,繪制2維圖:K均值聚類K均值聚類將case_clusterAssment中的聚類結(jié)果寫回原始DataFrame將case_clusterAssment中的聚類結(jié)果寫回原始輸出結(jié)果:輸出結(jié)果:結(jié)論:將聚類得到的case_clusterAssment聚類結(jié)果寫回到原數(shù)據(jù)DataFra
14、me中,然后分別按照聚類結(jié)果對(duì)年齡、年收入、消費(fèi)評(píng)分進(jìn)行均值統(tǒng)計(jì)??梢园l(fā)現(xiàn),不同聚類的客戶,在這三個(gè)屬性的平均值上都存在顯著的差異。例如,聚類結(jié)果為1的客戶,平均年齡45,平均收入82最高(年富力強(qiáng)階段,收入較高),平均消費(fèi)評(píng)分24最低(社會(huì)階層穩(wěn)定,違約風(fēng)險(xiǎn)最低)。聚類結(jié)果和我們按照社會(huì)生活經(jīng)驗(yàn)判定的結(jié)果吻合地比較好。結(jié)論:本章小結(jié)本章介紹了K近鄰分類和K均值算法的基本概念和原理,學(xué)會(huì)了用Python代碼實(shí)現(xiàn)K近鄰分類和K均值算法。本章小結(jié)本章介紹了K近鄰分類和K均值算法的基本概念和原理,學(xué)重要概念1. 分類與聚類2. K近鄰分類3. K均值算法 重要概念1. 分類與聚類復(fù)習(xí)思考題1. 給出
15、一個(gè)數(shù)據(jù)集data_multivar.txt,里面有200個(gè)點(diǎn)坐標(biāo),在平面坐標(biāo)系下可以畫出它的散點(diǎn)圖,如圖 11-8所示:圖 118 數(shù)據(jù)集data_multivar.txt散點(diǎn)圖用K均值算法來(lái)訓(xùn)練模型,將該數(shù)據(jù)集的200個(gè)點(diǎn)分成4類,請(qǐng)運(yùn)行Python代碼ch13-ex.ipynb。注意:運(yùn)行之前,首先將給出的數(shù)據(jù)集data_multivar.txt和utilities.py拷貝到相應(yīng)的文件夾中。讀者可以在程序中設(shè)置k值為2,3,5等,運(yùn)行代碼進(jìn)行比較。復(fù)習(xí)思考題1. 給出一個(gè)數(shù)據(jù)集data_multivar.t復(fù)習(xí)思考題2. 選取中華人民共和國(guó)第六次人口普查的各地區(qū)人口數(shù)以及男女比例進(jìn)行K
16、-means聚類分析,具體的數(shù)據(jù)如表 113。地區(qū)人口數(shù)男女比例(女=100)地區(qū)人口數(shù)男女比例(女=100)北京19612368106.75山東95792719102.33天津12938693114.52河南94029939102.05河北71854210102.84湖北57237727105.55山西35712101105.56湖南65700762105.8內(nèi)蒙古24706291108.17廣東104320459108.98遼寧43746323102.54廣西46023761108.26吉林27452815102.67海南8671485112.58黑龍江38313991102.85重慶28846170102.61上海23019196106.19四川80417528103
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國(guó)集線器行業(yè)前景規(guī)劃及投資潛力分析報(bào)告
- 2025-2030年中國(guó)鑄造扣件市場(chǎng)發(fā)展現(xiàn)狀及前景趨勢(shì)分析報(bào)告
- 2025-2030年中國(guó)蠔油醬行業(yè)需求規(guī)模及發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告
- 2025-2030年中國(guó)草柳編制工藝品市場(chǎng)運(yùn)營(yíng)狀況及投資規(guī)劃研究報(bào)告
- 2025-2030年中國(guó)自動(dòng)支票打字機(jī)專用色帶行業(yè)運(yùn)行態(tài)勢(shì)及發(fā)展戰(zhàn)略分析報(bào)告
- 2025-2030年中國(guó)羥丙基甲基纖維素行業(yè)十三五規(guī)劃與發(fā)展策略分析報(bào)告
- 2025-2030年中國(guó)純棉內(nèi)衣市場(chǎng)運(yùn)營(yíng)狀況及發(fā)展前景分析報(bào)告
- 2025-2030年中國(guó)科技地產(chǎn)行業(yè)競(jìng)爭(zhēng)現(xiàn)狀及投資戰(zhàn)略研究報(bào)告
- 2025-2030年中國(guó)硫酸氧釩行業(yè)風(fēng)險(xiǎn)評(píng)估規(guī)劃研究報(bào)告
- 2025-2030年中國(guó)真空凍干蔬菜行業(yè)運(yùn)行狀況及發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告
- EIM Book 1 Unit 7 Learning languages單元知識(shí)要點(diǎn)
- 呼吸系統(tǒng)疾病與麻醉(薛張剛)
- WOMAC骨性關(guān)節(jié)炎指數(shù)評(píng)分表
- 年處理量48萬(wàn)噸重整裝置芳烴精餾的工藝設(shè)計(jì)-二甲苯塔
- CRPS電源設(shè)計(jì)向?qū)?CRPS Design Guide r-2017
- 16防沖工題庫(kù)題庫(kù)(238道)
- SH/T 1627.1-1996工業(yè)用乙腈
- GB/T 5534-2008動(dòng)植物油脂皂化值的測(cè)定
- GB/T 3452.2-2007液壓氣動(dòng)用O形橡膠密封圈第2部分:外觀質(zhì)量檢驗(yàn)規(guī)范
- GB/T 30797-2014食品用洗滌劑試驗(yàn)方法總砷的測(cè)定
- GB/T 20057-2012滾動(dòng)軸承圓柱滾子軸承平擋圈和套圈無(wú)擋邊端倒角尺寸
評(píng)論
0/150
提交評(píng)論