版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
Python與財經(jīng)大數(shù)據(jù)分析基礎第8章分析一般公司債的票面利率影響因素——應用統(tǒng)計分析CONTENTS目錄04回歸分析05應用實踐01描述性統(tǒng)計02隨機變量及其概率分布03推斷統(tǒng)計01描述性統(tǒng)計描述性統(tǒng)計是指綜合運用計算指標、分類等方式來描述一組數(shù)據(jù)的特征,幫助讀者了解數(shù)據(jù)。描述性統(tǒng)計的基本指標主要包括數(shù)據(jù)的位置以及數(shù)據(jù)的離散程度。8.1描述性統(tǒng)計(一)概述在獲取數(shù)據(jù)之后,我們通常需要了解數(shù)據(jù)的位置分布特征,例如最小值、最大值、平均數(shù)、中位數(shù)、眾數(shù)、分位數(shù)等指標。Python中可以使用Pandas模塊完成數(shù)據(jù)位置指標的獲取。8.1描述性統(tǒng)計(二)數(shù)據(jù)的位置分布函數(shù)函數(shù)說明DataFrame.min()/DataFrame.max()最小值/最大值DataFrame.mean()平均數(shù)DataFrame.median()中位數(shù)DataFrame.mode()眾數(shù)DataFrame.quantile()分位數(shù)數(shù)據(jù)位置指標能幫助讀者分析一組數(shù)據(jù)的平均水平或中間位置,但是要了解數(shù)據(jù)集中和分散程度,則需要用到極差、偏差、方差以及標準差,在Python中主要通過Pandas模塊完成數(shù)據(jù)離散度指標的獲取。8.1描述性統(tǒng)計(三)數(shù)據(jù)的離散程度函數(shù)函數(shù)說明DataFrame.max()-DataFrame.min()極差DataFrame.mad()平均絕對偏差DataFrame.var()方差DataFrame.std()標準差
Pandas庫提供descibe()函數(shù),可以直接得到描述性統(tǒng)計的主要指標,例如樣本量、均值、方差、最值、分位數(shù)等統(tǒng)計特征。8.1描述性統(tǒng)計(三)describe函數(shù)02隨機變量及其概率分布隨機變量是隨機試驗各種結(jié)果的實值單值函數(shù),隨機事件的數(shù)量表現(xiàn)。隨機變量分為離散型隨機變量和連續(xù)型隨機變量。一般而言,隨機數(shù)并不是真正的“隨機”,而是服從于某種概率分布,根據(jù)隨機變量的分類,有離散型概率分布和連續(xù)型概率分布。財會金融領域經(jīng)常使用的概率分布如下所示。8.2隨機變量及其概率分布(一)概述
8.2隨機變量及其概率分布(二)正態(tài)分布在Numpy庫中使用normal()函數(shù)生成正態(tài)分布。8.2隨機變量及其概率分布(二)正態(tài)分布假設X服從標準正態(tài)分布N(0,,1),Y服從自由度為n的卡方分布,那么變量Z服從自由度為n的t分布,記作Z~t(n)。隨著自由度n逐漸增大,t分布將逐漸接近標準正態(tài)分布。8.2隨機變量及其概率分布(三)t分布假設兩個隨機變量x1和x2相互獨立,且分別服從自由度是n1和n2的卡方分布,則稱統(tǒng)計量F服從自由度n1和n2的F分布,記作F~F(n1,n2)。8.2隨機變量及其概率分布(四)F分布03推斷統(tǒng)計推斷統(tǒng)計是研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計方法。推斷統(tǒng)計包括兩方面的內(nèi)容:參數(shù)估計和假設檢驗。8.3推斷統(tǒng)計(一)概述
8.3推斷統(tǒng)計(二)參數(shù)估計假設檢驗是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的推斷統(tǒng)計方法。
進行假設檢驗主要經(jīng)歷四個步驟。第一,提出原假設H0和備擇假設H1。第二,構(gòu)造檢驗的統(tǒng)計量及其分布。第三,確定顯著性水平α,以及確定檢驗規(guī)則。第四,根據(jù)檢驗規(guī)則作出決策。8.3推斷統(tǒng)計(三)假設檢驗
不拒絕H0拒絕H0H0為真1-α(正確)α(拒真錯誤)H1為假
(取偽錯誤)1-
(正確)t檢驗主要用于樣本含量較小(例如樣本量小于30),總體標準差σ未知的正態(tài)分布。常見的t檢驗主要有單樣本t檢驗、配對樣本t檢驗和獨立樣本t檢驗。8.3推斷統(tǒng)計(二)假設檢驗04回歸分析協(xié)方差表示的是兩個變量總體誤差的期望。如果兩個變量的變化趨勢一致,那么兩個變量之間的協(xié)方差就是正值;如果兩個變量的變化趨勢相反,那么兩個變量之間的協(xié)方差就是負值;如果兩個變量是統(tǒng)計獨立的,那么二者之間的協(xié)方差就是0。8.4
回歸分析(一)協(xié)方差cov()函數(shù)相關系數(shù)是用以反映變量之間相關關系密切程度的統(tǒng)計指標。與協(xié)方差不同,相關系數(shù)排除了變量之間量綱的差異。常見的相關系數(shù)計算方法包括pearson相關系數(shù)、spearman相關系數(shù)等。8.4
回歸分析(二)相關系數(shù)corr()函數(shù)8.4
回歸分析(三)線性回歸線性回歸是找到多維空間中的一條直線(線性回歸方程),使得其盡可能地去擬合變量之間的“隱式關系”。普通最小二乘法(OrdinaryLeastSquare,OLS),是線性回歸模型中最基本的估計方法,原理就是使殘差的平方和達到最小。statsmodel庫是Python一個強大的統(tǒng)計分析庫。我們使用statsmodels.api庫的OLS()進行線性回歸。需要特別注意的是,進行線性回歸的變量不能有缺失值,否則會報錯。8.4
回歸分析(三)線性回歸05應用實踐“指數(shù)信息.xlsx”為2008年至2021年發(fā)行的一般公司債數(shù)據(jù),票面利率為發(fā)行時票面利率,總資產(chǎn)報酬率、資產(chǎn)負債率、流動比率為債券2020年的財務比率,對其做描述性統(tǒng)計。分析一般公司債的票面利率在2021年與2022年是否存在顯著差異。分析一般公司債的票面利率影響因素,因變量為票面利率,自變量分別為發(fā)行時信用評級、總資產(chǎn)報酬率、資產(chǎn)負債率、流動比率。8.5應用實踐Python與財經(jīng)大數(shù)據(jù)分析基礎第9章使用ARIMA模型預測股票價格——時間序列CONTENTS目錄04應用實踐01時間序列簡介02時間序列處理03時間序列基本性質(zhì)01時間序列簡介時間序列是指將同一統(tǒng)計指標的數(shù)值按其發(fā)生的時間先后順序排列而成的數(shù)列,其實質(zhì)是反映某個或者某些隨機變量隨時間不斷變化的趨勢。常見的時間序列如按秒或分鐘更新的股價數(shù)據(jù)、按天更新的利率數(shù)據(jù)、按月更新的征信數(shù)據(jù)以及按年更新的宏觀經(jīng)濟數(shù)據(jù)等。9.1時間序列簡介(一)時間序列基本概念datetime模塊是Python處理日期和時間的標準庫,提供多種處理日期、時間相關的類。不僅支持日期和時間的算法,也能實現(xiàn)有效的屬性提取和格式輸出,本部分將介紹使用datetime創(chuàng)建時間對象、查看時間對象屬性和轉(zhuǎn)換時間格式等方法。9.1時間序列簡介(二)datetime模塊類名功能說明date日期對象,常用屬性有year,month,daytime時間對象,常用屬性有hour,minute,seconddatetime日期時間對象,是date和time的結(jié)合timedelta時間間隔,即兩個時間點之間的長度tzinfo時區(qū)信息對象在日常數(shù)據(jù)分析中,最為常用的是datetime模塊的datetime類,因此我們主要介紹datetime類。9.1時間序列簡介(三)datetime類02時間序列處理時間序列的缺失值處理一般采用插值方法,使用缺失值周圍的兩個已知數(shù)據(jù)點估計丟失的數(shù)據(jù)點。較為常見的插值方法有基于時間的插值、樣條插值和線性插值,一般通過pandas模塊的interpolate()函數(shù)來實現(xiàn)。9.2時間序列處理(一)時間序列缺失值處理移動是指沿著時間軸將數(shù)據(jù)前移或后移,在財經(jīng)金融數(shù)據(jù)處理中,時常會用到時間滯后。時間滯后是將t期的數(shù)據(jù)轉(zhuǎn)換為(t-n)期的數(shù)據(jù),可以通過shift()函數(shù)實現(xiàn)。9.2時間序列處理(二)時間序列數(shù)據(jù)移動和滯后計算第九章數(shù)據(jù)分組介紹了groupby()函數(shù),其主要作用是進行數(shù)據(jù)的分組以及分組后的組內(nèi)運算,常與agg()和apply()函數(shù)搭配使用。這一函數(shù)在時間序列數(shù)據(jù)中也十分常用,同樣對時間序列進行分組,之后再進行組內(nèi)運算,從而獲取所需的數(shù)據(jù)或觀察不同組別間的差異。9.2時間序列處理(三)時間序列數(shù)據(jù)分組時間序列通常由趨勢、周期性、季節(jié)性、誤差構(gòu)成,其中最經(jīng)常被分析的是趨勢和季節(jié)性。時間序列可以被看作是趨勢、季節(jié)性和誤差項的整合,其各個觀測值可以是以上成分相加或相乘得到的。9.2時間序列處理(四)時間序列的分解時間序列的分解可以通過statsmodels模塊的seasonal_decompose來實現(xiàn)。9.2時間序列處理(四)時間序列的分解
9.2時間序列處理(五)時間序列的平滑在了解時間序列數(shù)據(jù)之后,我們可以對其進行簡單的分析,比如進行描述性統(tǒng)計。這里我們沿用上節(jié)數(shù)據(jù),基于前序章節(jié)內(nèi)容,可以直接使用describe()函數(shù)查看數(shù)據(jù)的均值方差等。9.2時間序列處理(六)時間序列數(shù)據(jù)描述性統(tǒng)計03時間序列基本性質(zhì)研究不同變量之間的相關性,是為了揭示變量之間的因果關系,以更好地預測目標變量,而時間序列的自相關性同樣也是研究和利用時間序列的重要性質(zhì)。所謂“歷史可以重演”,即希望找到時間序列所具有的可延續(xù)性特征,以幫助我們更好地預測未來。時間序列的自相關性可以通過自協(xié)方差、自相關系數(shù)等統(tǒng)計量來體現(xiàn)。9.3時間序列基本性質(zhì)(一)自相關性
Python中statsmodels模塊包含的acf()函數(shù)可以便捷計算自相關系數(shù)。9.3時間序列基本性質(zhì)(一)自相關性時間序列的平穩(wěn)性是時間序列研究的基本前提,通過前一節(jié)的介紹,我們希望通過自相關性找到時間序列的可延續(xù)性特征,并在預測未來時利用該特征,而時間序列的平穩(wěn)性則是決定該特征能否延續(xù)到未來的重要性質(zhì)。9.3時間序列基本性質(zhì)(二)平穩(wěn)性增廣迪基·富勒檢驗(ADF檢驗)是最常用的單位根檢驗方法,Python中的arch模塊提供了ADF()函數(shù)幫助我們便捷地進行ADF檢驗。9.3時間序列基本性質(zhì)(二)平穩(wěn)性KPSS檢驗可以用于趨勢平穩(wěn)性檢驗,Python中的statsmodels模塊提供了kpss()函數(shù)幫助我們便捷地進行KPSS檢驗。9.3時間序列基本性質(zhì)(二)平穩(wěn)性白噪聲序列是指序列中任意兩個時間點的變量均不相關,序列均值為0、方差為常數(shù),這使得白噪聲序列符合平穩(wěn)時間序列的條件。白噪聲序列中沒有任何規(guī)律,不能用于預測和推斷,所以發(fā)現(xiàn)一個時間序列為白噪聲序列時,說明該時間序列已經(jīng)失去了繼續(xù)研究的意義。9.3時間序列基本性質(zhì)(三)白噪聲序列可以通過Ljung-Box檢驗該序列是否為白噪聲序列,Python中statsmodels模塊提供了q_stat()完成該檢驗。9.3時間序列基本性質(zhì)(三)白噪聲序列
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年飛機租賃與購買合同3篇
- 2024版系統(tǒng)集成項目外包合同3篇
- 二零二五年度鋼結(jié)構(gòu)廠房項目施工圖紙及技術交底合同3篇
- 二零二五年餐飲店員工派遣及服務質(zhì)量保證合同3篇
- 二零二五版半地下室租賃合同附帶租賃雙方責任界定3篇
- 烏蘭察布醫(yī)學高等專科學?!缎W英語教學研究》2023-2024學年第一學期期末試卷
- 二零二五版?zhèn)€人住房貸款利率調(diào)整協(xié)議2篇
- 二零二五版房地產(chǎn)抵押權(quán)抵押合同示范文本3篇
- 二零二五年餐飲廚房整體承包運營協(xié)議3篇
- 二零二五年度新型商務寫字樓租賃合同范本3篇 - 副本
- 農(nóng)化分析土壤P分析
- GB/T 18476-2001流體輸送用聚烯烴管材耐裂紋擴展的測定切口管材裂紋慢速增長的試驗方法(切口試驗)
- GA 1551.5-2019石油石化系統(tǒng)治安反恐防范要求第5部分:運輸企業(yè)
- 拘留所教育課件02
- 沖壓生產(chǎn)的品質(zhì)保障
- 《腎臟的結(jié)構(gòu)和功能》課件
- 2023年湖南聯(lián)通校園招聘筆試題庫及答案解析
- 上海市徐匯區(qū)、金山區(qū)、松江區(qū)2023屆高一上數(shù)學期末統(tǒng)考試題含解析
- 護士事業(yè)單位工作人員年度考核登記表
- 產(chǎn)科操作技術規(guī)范范本
- 人教版八年級上冊地理全冊單元測試卷(含期中期末試卷及答案)
評論
0/150
提交評論