版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
《Python金融數(shù)據(jù)挖掘》高等教育出版第十四章相關(guān)、回歸與時間序列分析【知識框架圖】相關(guān)回歸分析與時間序列相關(guān)分析回歸分析時間序列分析移動平均指數(shù)平滑周期變動自回歸移動邏輯回歸目錄Contents第一節(jié)相關(guān)分析第二節(jié)回歸分析第三節(jié)邏輯回歸第四節(jié)案例本章學(xué)習(xí)目標相關(guān)分析的概念、基本方法與實現(xiàn)?;貧w分析的概念、基本方法與實現(xiàn)。邏輯回歸的概念、基本方法與實現(xiàn)。時間序列分析的概念、兩個常見方法與實現(xiàn)。需求背景研究各個因素之間是否存在相互影響以及找出這種影響的數(shù)學(xué)描述方法,是數(shù)據(jù)挖掘的重要工作之一。判定或量化各因素之間聯(lián)系的強弱,屬于相關(guān)分析的范疇。基于大量地數(shù)據(jù)觀察,利用數(shù)理統(tǒng)計方法建立因變量與自變量之間的回歸關(guān)系函數(shù)式(稱回歸方程),屬于回歸分析的范疇。邏輯回歸則是一種廣義的線性回歸分析方法,回歸方程的輸出不是連續(xù)值,而是離散的分類結(jié)果,本質(zhì)上是一種分類的方法。在回歸分析中,專門有一類研究將時間、周期作為自變量,其他數(shù)據(jù)作為因變量的問題,稱為時間序列分析。01相關(guān)分析不管是在自然界中,還是在社會經(jīng)濟生活中,現(xiàn)象之間存在著大量的相互聯(lián)系、相互依賴、相互制約的數(shù)量關(guān)系。這種規(guī)律性的關(guān)系可分為兩種類型,即相關(guān)關(guān)系和函數(shù)關(guān)系。相關(guān)關(guān)系:在這種關(guān)系中,變量之間存在著不確定、不嚴格的依存關(guān)系,對于變量的某個數(shù)值,可以有另一變量的若干數(shù)值與之相對應(yīng),這若干個數(shù)值圍繞著它們的平均數(shù)呈現(xiàn)出有規(guī)律的波動。例如,批量生產(chǎn)的某產(chǎn)品產(chǎn)量與相對應(yīng)的單位產(chǎn)品成本之間,某些商品價格的升降與消費者需求的變化之間,就存在著這樣的相關(guān)關(guān)系。函數(shù)關(guān)系:反映著現(xiàn)象之間嚴格的依存關(guān)系,也稱確定性的依存關(guān)系。在這種關(guān)系中,對于變量的每一個數(shù)值,都有一個或幾個確定的值與之對應(yīng)。例如,一元線性方程y=kx+b,x和y是線性相關(guān)的關(guān)系。顯然,任意給出一個x,可以得到一個與之對應(yīng)的y,可以寫成(x,y)數(shù)據(jù)對的形式。數(shù)據(jù)挖掘工作的任務(wù)是,根據(jù)(x,y)數(shù)據(jù)對的觀測值判定它的相關(guān)性,進而找出這些數(shù)據(jù)對中隱藏的線性方程。
【例14-1】以波士頓房價數(shù)據(jù)集為例,使用Python進行數(shù)據(jù)相關(guān)性分析。數(shù)據(jù)集采集了美國波士頓地區(qū)房價與周邊環(huán)境因素的量化值。一共有506行記錄,14個字段(均為浮點數(shù)據(jù)),字段含義如下表:序號字段名含義序號字段名含義1CRIM地區(qū)人均犯罪率8DIS到波士頓中心區(qū)距離2ZN住宅用地>25000英尺比例9RAD到主要公路的接近指數(shù)3INDUS非零售商業(yè)用地比例10TAX財產(chǎn)稅率4CHAS查爾斯河空變量(地區(qū)邊界是河,值取1,否則為0)11B1000*(Bk-0.63)2,Bk為黑人比例5NOX一氧化氮濃度12PTRATIO師生比6RM每套住宅平均房間數(shù)13LSTAT人口中地位低下者比例7AGE1940年后建成自用房比例14MEDV自住房平均房價,以千美元計程序:sklearn.datasets包提供了部分數(shù)據(jù)資源,用于分析示例。本例引入load_boston函數(shù),直接通過網(wǎng)絡(luò)讀取表14-1所描述的波士頓房價數(shù)據(jù)集。輸出14個字段的協(xié)方差的程序:輸出14個字段的相關(guān)系數(shù)的程序:14個字段的相關(guān)系數(shù)結(jié)果如下:從bostonDF.corr()的輸出結(jié)果可以看到,RM字段與MEDV的相關(guān)系數(shù)為0.695360,正的線性相關(guān)性比較明顯;而LSTAT字段與MEDV的相關(guān)系數(shù)為-0.737663,負的線性相關(guān)性比較明顯。根據(jù)字段的含義,可以做出比較直觀的結(jié)論:每套房屋的房間數(shù)越多,房屋均價越高;該地區(qū)的“低地位人口”比例越大,房屋均價越低。相關(guān)分析的目的,就是以數(shù)據(jù)的統(tǒng)計指標為依據(jù),發(fā)掘出各個因素之間相關(guān)性的強弱,找出那些和研究對象關(guān)系更密切的因素,以便進行更有針對性的研究、分析或者預(yù)測。02回歸分析回歸分析相關(guān)分析和回歸分析之間既有聯(lián)系又有區(qū)別。二者具有共同的研究對象,且在具體研究現(xiàn)象之間相關(guān)關(guān)系時起到互相補充的作用。相關(guān)分析需要借助回歸分析來說明變量間數(shù)量相關(guān)的具體形式;而回歸分析需要借助相關(guān)分析來說明變量間數(shù)量變化的相關(guān)程度,只有當變量之間顯著相關(guān)時,進行回歸分析尋求其相關(guān)的具體形式才有實際意義。雖然相關(guān)分析與回歸分析有著密切的聯(lián)系,但在研究目的和應(yīng)用上又各有側(cè)重。相關(guān)分析研究變量間的相關(guān)程度和相關(guān)方向;而回歸分析不僅可以反映變量間影響的大小,還可進一步利用回歸方程進行預(yù)測和控制。相關(guān)分析不必確定哪個變量為因變量,哪個變量為自變量,各變量的地位是平等的;而回歸分析則必須事先研究確定變量中哪個變量為因變量,處于被解釋的特殊地位。盡管相關(guān)分析和回歸分析都可以研究隨機變量與隨機變量、隨機變量與非隨機變量之間的關(guān)系,但在回歸分析中,總是假定自變量為非隨機的變量。
【例14-2】繼續(xù)使用上一節(jié)相關(guān)分析中的數(shù)據(jù),進行一元和多元回歸分析。各個屬性和價格中位數(shù)MEDV的相關(guān)系數(shù)中最大值是和RM的相關(guān)系數(shù):0.695360,正的線性相關(guān)性最強,最小值是和LSTAT的相關(guān)系數(shù):-0.737663,負的線性相關(guān)性最強,進一步通過圖形觀察RM與LSTAT屬性分別與MEDV的相關(guān)性。繼續(xù):波士頓房價一元線性回歸分析圖形:圖14-2從最簡單的一元線性回歸方程開始分析,利用Python的Seaborn包的圖形功能,分別繪制房價中位數(shù)與房間數(shù)、房價中位數(shù)與“低地位人口”比例兩個2維數(shù)據(jù)圖如圖14-2所示。數(shù)據(jù)點相對比較密集地聚集在兩條直線周圍,說明RM和LSTAT兩個屬性和房價中位數(shù)MDEV可以近似地用一元線性方程來描述相互關(guān)系。引入線性回歸分析的包做回歸分析:繼續(xù):通過sklearn.linear_model中的LinearRegression來確定前述兩個變量與房間之間的線性回歸方程。第8行和第19行分別調(diào)用LinearRegression函數(shù),得到用于RM和LSTAT線性回歸分析的modelRM和modelLSTAT。再針對這兩個模型,分別調(diào)用fit函數(shù)對原始數(shù)據(jù)進行一元線性回歸,最終得到兩個一元線性回歸方程:MEDV=9.1021*RM-34.6706和MEDV=-0.9500*LSTAT+34.5538。結(jié)果:進一步地,可以進行多元線性回歸。多元線性回歸的結(jié)果表明,房價中位數(shù)與RM、LSTAT的關(guān)系可以表示為方程:MEDV=-0.6424*LSTAT+5.0948*RM-1.3583。通過對統(tǒng)計數(shù)據(jù)進行回歸分析,得出了房價中位數(shù)MEDV和兩個重要影響因素:房價數(shù)量RM和“低地位人口”比例之間的數(shù)量關(guān)系。這個關(guān)系可以用來預(yù)測相鄰區(qū)域的房價;也可以用來分析當“低地位人口”比例變動時,房價會如何變動。很多時候,上述多元線性回歸方程中的y是研究目標,例如上述例子中的房價;而一元或者多元的x是搜集的參考數(shù)據(jù),例如上述例子中的13個對房價產(chǎn)生影響的環(huán)境因素。通常,在解決一個回歸分析問題時,往往是將本章前兩節(jié)的內(nèi)容結(jié)合起來使用,其主要步驟如下:根據(jù)理論分析、實際觀察和歷史經(jīng)驗,搜集與研究目標相關(guān)的參考數(shù)據(jù);對數(shù)據(jù)進行初步的觀察和清洗,將明顯異常的數(shù)據(jù)清除出去;對這些參考數(shù)據(jù)與研究目標的相關(guān)性進行分析和計算,找出相關(guān)性強的因素,排除相關(guān)性弱的因素;對剩下的參考因素和研究目標進行回歸。03邏輯回歸
如圖14-3(b)所示,在Sigmoid函數(shù)的圖像中,不論x取值如何擴展,其y的值都不會超過Y軸的坐標范圍。同時,這個函數(shù)的圖像和正態(tài)分布概率密度的積分形式(也就是正態(tài)分布函數(shù))非常相似,比較好地反映了正態(tài)分布的內(nèi)在規(guī)律。而圖14-3(a)所示的線性方程圖像,隨著x的取值擴展到圖像X坐標軸以外,y的取值也會擴展到圖像Y坐標軸以外。【例143】以上節(jié)中的數(shù)據(jù)為例,使用Python實現(xiàn)邏輯回歸。繼續(xù):輸出結(jié)果:進一步地觀察模型的擬合效果。波士頓房價邏輯回歸分類結(jié)果R值(準確率):0.593946000693704104案例時間序列分析的基本思想基礎(chǔ)包括:1.事物發(fā)展存在延續(xù)性。認為真實世界里的事物不會發(fā)生突變,質(zhì)變都是由量變積累的。從歷史數(shù)據(jù)出發(fā),可以發(fā)現(xiàn)變化趨勢。自然界的天氣變化,社會經(jīng)濟生活里的數(shù)據(jù)波動,都是隨著時間演變的。2.隨機性無處不在。在真實世界或復(fù)雜系統(tǒng)中,總是存在著各種擾動。這些偶然擾動因素的出現(xiàn),使得要借助統(tǒng)計手段,才能較好地處理歷史數(shù)據(jù)。系統(tǒng)和對象越是復(fù)雜,需要的統(tǒng)計數(shù)學(xué)手段也越復(fù)雜。常見的時間序列分析方法包括:移動平均法、指數(shù)平滑法、周期變動法和自回歸移動模型等。
【例14-4】利用Python實現(xiàn)移動平均和指數(shù)平滑時間序列分析。5日移動平均5日指數(shù)平滑:5日指數(shù)平滑周期變動與自回歸實際生活中,有些數(shù)據(jù)呈現(xiàn)周期性波動和趨勢性變化疊加情況。以圖14-7為例,這個數(shù)據(jù)搜集了某航空公司從1949年到1961年間以千人次計的乘客人數(shù)??梢园l(fā)現(xiàn),這個數(shù)既有周期波動(波動一般來自于暑假和圣誕假期的出行高峰),又有明顯的增長趨勢。圖14-7呈周期+趨勢變動的航空乘客人數(shù)圖14-7的原始數(shù)據(jù)的既包含周期波動,又包含變化趨勢,所以處理思路就是將整個數(shù)據(jù)分解成長期趨勢、周期變動和隨機擾動,然后分別加以處理。使用到的數(shù)學(xué)方法包括平穩(wěn)性校驗、差分處理、模型識別等等。ARIMA(AutoregressiveIntegratedMovingAveragemodel,差分整合移動平均自回歸模型,又稱整合移動平均自回歸模型),是時間序列分析方法之一。模型一般可以描述成ARIMA(p,d,q),其中,參數(shù)p為自回歸項數(shù),q為滑動平均項數(shù),d為使之成為平穩(wěn)序列所做的差分次數(shù)(階數(shù))。ARIMA是研究時間序列的標準方法,由自回歸模型(AR模型)與滑動平均模型(MA模型)為基礎(chǔ)“混合”而成,具有適用范圍廣、預(yù)測誤差小的特點。【例14-5】在Python程序中調(diào)用庫Statsmodel,使用ARIMA算法對如圖14-7所示的數(shù)據(jù)進行周期變動分析。繼續(xù):繼續(xù):繼續(xù):結(jié)果圖:模型預(yù)測的點狀線與真實數(shù)據(jù)的實線吻合地比較理想,具有比較好的預(yù)測效果。周期變動時間序列預(yù)測本章小結(jié)介紹了利用Python從事相關(guān)分析和回歸分析的基本方法。通常情況下,相關(guān)分析屬于數(shù)據(jù)挖掘的前期準備工作:通過它可以初步發(fā)現(xiàn)和研究對象關(guān)系比較密切的影響因素。在此基礎(chǔ)上,選擇合適的模型進行回歸分析。邏輯回歸是一種基于回歸的分類問題,時間序列分析可以使用移動平均、指數(shù)平滑和自回歸移動等方法處理和時間相關(guān)的回歸問題。重要概念1.相關(guān)性的定義,協(xié)方差、相關(guān)系數(shù)的指標、計算方法及數(shù)學(xué)特性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河北地質(zhì)大學(xué)《新媒體廣告》2021-2022學(xué)年第一學(xué)期期末試卷
- 期中易錯密押卷(第1-5單元)(試題)-2024-2025學(xué)年五年級上冊數(shù)學(xué)人教版
- 河北地質(zhì)大學(xué)《礦產(chǎn)資源開發(fā)》2021-2022學(xué)年第一學(xué)期期末試卷
- 馴馬用牽引索商業(yè)機會挖掘與戰(zhàn)略布局策略研究報告
- 足球鞋釘項目運營指導(dǎo)方案
- 降噪耳機項目運營指導(dǎo)方案
- 運動貼布項目運營指導(dǎo)方案
- 蒸汽壓路機市場發(fā)展前景分析及供需格局研究預(yù)測報告
- 記分簿市場發(fā)展前景分析及供需格局研究預(yù)測報告
- 2024通勤車輛租賃框架合同協(xié)議書
- 2022年癲癇性精神病臨床路徑
- 三年級心理健康教學(xué)課件 第15課 專注的力量
- 廣西壯族自治區(qū)北海市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名明細居民村民委員會
- 藥劑科質(zhì)量與安全管理考核表正式版
- 新教材高考化學(xué)一輪復(fù)習(xí)元素“位-構(gòu)-性”推斷技巧及元素周期律應(yīng)用中的關(guān)鍵點課件(19張)
- 無機離子檢測
- 五年級上冊數(shù)學(xué)課件 - 三角形的面積 人教版(共16張PPT)
- 乳腺癌科普講座課件
- 2022年《國民經(jīng)濟行業(yè)分類》
- 通止規(guī)設(shè)計公差自動計算表
- 胃癌淋巴結(jié)清掃ppt課件(PPT 39頁)
評論
0/150
提交評論