金融數(shù)據(jù)分析-以Python為工具 課件 4-7 基礎(chǔ)數(shù)據(jù)包-Pandas、金融數(shù)據(jù)獲取、特征工程_第1頁(yè)
金融數(shù)據(jù)分析-以Python為工具 課件 4-7 基礎(chǔ)數(shù)據(jù)包-Pandas、金融數(shù)據(jù)獲取、特征工程_第2頁(yè)
金融數(shù)據(jù)分析-以Python為工具 課件 4-7 基礎(chǔ)數(shù)據(jù)包-Pandas、金融數(shù)據(jù)獲取、特征工程_第3頁(yè)
金融數(shù)據(jù)分析-以Python為工具 課件 4-7 基礎(chǔ)數(shù)據(jù)包-Pandas、金融數(shù)據(jù)獲取、特征工程_第4頁(yè)
金融數(shù)據(jù)分析-以Python為工具 課件 4-7 基礎(chǔ)數(shù)據(jù)包-Pandas、金融數(shù)據(jù)獲取、特征工程_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Python金融數(shù)據(jù)分析基礎(chǔ)數(shù)據(jù)包—PandasChapter04Pandas簡(jiǎn)介Pandas(官網(wǎng):/)是Python的核心數(shù)據(jù)分析庫(kù),其名稱來(lái)自于PanelDataAnalysis(面板數(shù)據(jù)分析)。Pandas提供了序列型Series和二維標(biāo)簽數(shù)據(jù)DataFrame這兩種主要的數(shù)據(jù)結(jié)構(gòu)類型。這兩種類型都是基于NumPy數(shù)組擴(kuò)展而來(lái),因此Pandas天生具備NumPy的計(jì)算優(yōu)勢(shì)。Pandas簡(jiǎn)介Pandas的強(qiáng)大體現(xiàn)在其豐富的二維數(shù)據(jù)操作支持,可以將Pandas類比為編程語(yǔ)言中的Excel。Pandas提供了數(shù)據(jù)存取、清洗和規(guī)范化、分組聚合、數(shù)據(jù)統(tǒng)計(jì)、重構(gòu)透視、可視化等一系列的功能支持。DataFrame基本操作其他IO操作DataFrame.to_csv(path_or_buf=None,sep=',',columns=None,header=True,index=True,encoding=None)path_or_buf設(shè)置包括文件名的文件路徑;sep指定文件的分隔符,默認(rèn)為逗號(hào);columns指定需要存儲(chǔ)的列;header設(shè)定是否將列名存為表頭;index設(shè)置是否存儲(chǔ)索引;encoding指定文件編碼格式,當(dāng)文件中含有中文時(shí)建議顯式指定編碼格式(例如utf-8或GBK),讀取文件時(shí)用相同的編碼格式讀取。DataFrame數(shù)據(jù)操作(1)關(guān)于axis的理解。

軸代表數(shù)據(jù)的某一維度,例如DataFrame有兩個(gè)維度,有0和1兩個(gè)軸,其中0軸代表最高維度。

在DataFrame或二維數(shù)組中,axis=0代表跨行操作,axis=1代表跨列操作。(2)df[‘some_col’]返回的是Series,df[[‘some_col’]]返回的是DataFrame,根據(jù)需要選擇。(3)對(duì)列進(jìn)行索引的標(biāo)準(zhǔn)形式是df[‘some_col’](方括號(hào)索引),簡(jiǎn)化形式是df.some_col(屬性索引),兩者通常等價(jià)。Python金融數(shù)據(jù)分析基礎(chǔ)數(shù)據(jù)包—MatplotlibChapter04Matplotlib簡(jiǎn)介Matplotlib(官網(wǎng):/)是一個(gè)Python的常用繪圖庫(kù),其繪圖的操作風(fēng)格非常類似于Matlab。通過(guò)Matplotlib可以快速地繪制折線圖、散點(diǎn)圖、柱狀圖、餅圖、直方圖、等高線圖、條形圖、極坐標(biāo)圖、箱線圖、雷達(dá)圖、熱力圖等二維平面圖,還可以繪制三維圖形,甚至是圖形動(dòng)畫等??偨Y(jié)Python金融數(shù)據(jù)分析基礎(chǔ)數(shù)據(jù)包—NumPyChapter04Python金融數(shù)據(jù)分析包在金融數(shù)據(jù)分析中,NumPy提供數(shù)據(jù)運(yùn)算功能、Pandas提供數(shù)據(jù)分析功能、Matplotlib提供可視化功能,三者配合可以覆蓋分析流程中的絕大部分操作。Python金融數(shù)據(jù)分析包NumPy簡(jiǎn)介NumPy中的基本對(duì)象是多維數(shù)組(ndarray)和矩陣(matrix),提供類似于Matlab的矩陣運(yùn)算。用NumPy可以高效地進(jìn)行包括數(shù)值、邏輯、排序、I/O、線性代數(shù)、統(tǒng)計(jì)、隨機(jī)模擬等運(yùn)算。NumPy中的數(shù)組運(yùn)算有類似于Matlab的向量化機(jī)制,因此其運(yùn)算效率非常高。NumPy數(shù)組的基本操作有創(chuàng)建、訪問(wèn)、修改、變形、復(fù)制、數(shù)組運(yùn)算等?;静僮髡f(shuō)明數(shù)組創(chuàng)建可分為用構(gòu)造函數(shù)直接創(chuàng)建和利用zeros()等特殊函數(shù)創(chuàng)建數(shù)組訪問(wèn)訪問(wèn)方式包括單下標(biāo)索引、數(shù)組多下標(biāo)索引、切片索引、條件索引等數(shù)組及元素修改可以對(duì)數(shù)組進(jìn)行變形、復(fù)制等操作。元素修改在數(shù)組訪問(wèn)的基礎(chǔ)上通過(guò)重新賦值進(jìn)行數(shù)組運(yùn)算包括標(biāo)量和數(shù)組、數(shù)組和數(shù)組的逐點(diǎn)運(yùn)算、函數(shù)對(duì)數(shù)組的逐點(diǎn)運(yùn)算、數(shù)組和數(shù)組的廣播運(yùn)算以及數(shù)組和數(shù)組的矩陣運(yùn)算等矩陣運(yùn)算針對(duì)matrix類型,有矩陣的加、減、乘、求逆等運(yùn)算NumPy簡(jiǎn)介課后作業(yè)網(wǎng)絡(luò)教學(xué)平臺(tái)Python金融數(shù)據(jù)分析金融數(shù)據(jù)獲取Chapter05金融數(shù)據(jù)獲取國(guó)家統(tǒng)計(jì)局TushareSuperMindKaggleTushare數(shù)據(jù)獲取流程注冊(cè)帳號(hào),得到Token碼。查看注意事項(xiàng)、平臺(tái)接口說(shuō)明。調(diào)用相應(yīng)接口獲取數(shù)據(jù)(DataFrame),有積分等級(jí)限制,但可以在本地運(yùn)行。存儲(chǔ)數(shù)據(jù)。SuperMind數(shù)據(jù)獲取流程注冊(cè)帳號(hào)。查看幫助–API文檔–通用數(shù)據(jù)接口。調(diào)用相應(yīng)接口獲取數(shù)據(jù)(DataFrame),沒有積分等級(jí)限制,但只能在平臺(tái)環(huán)境中運(yùn)行。操作或存儲(chǔ)數(shù)據(jù)。Python金融數(shù)據(jù)分析特征工程Chapter07特征工程特征工程(featureengineering)是對(duì)原始數(shù)據(jù)進(jìn)行表示的過(guò)程,目的是通過(guò)一系列的特征操作使數(shù)據(jù)適合后續(xù)的建模分析,提高數(shù)據(jù)分析的效果和模型的預(yù)測(cè)精度。數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是在逼近這個(gè)上限。7.2特征與特征處理好的特征具有以下三個(gè)特點(diǎn):可解釋性從業(yè)務(wù)邏輯的角度該特征與所分析的問(wèn)題或者預(yù)測(cè)的信息相關(guān),并且從定性的角度很容易解釋該特征對(duì)預(yù)測(cè)結(jié)果的影響??色@得性良好的特征應(yīng)該使得絕大多數(shù)樣本都有數(shù)據(jù),缺失值越少越好。7.2特征與特征處理預(yù)測(cè)能力指從模型結(jié)果看,該特征對(duì)結(jié)果的預(yù)測(cè)精度有重要的影響,特征的預(yù)測(cè)能力越強(qiáng)越好。然而,預(yù)測(cè)能力和可解釋性有可能是矛盾的。金融數(shù)據(jù)常見的屬性種類類型說(shuō)明例子操作數(shù)值型也稱為連續(xù)型股票價(jià)格、財(cái)務(wù)指標(biāo)、信用額度、GDP等歸一化、標(biāo)準(zhǔn)化、函數(shù)變換、離散化、異常值處理、計(jì)算皮爾遜相關(guān)系數(shù)等無(wú)序類別型也稱為標(biāo)稱性別、國(guó)籍、股票所屬行業(yè)等分箱、編碼、計(jì)算眾數(shù)、列聯(lián)相關(guān)系數(shù)、熵等有序類別型也稱為序數(shù)學(xué)歷、等級(jí)制成績(jī)、年齡段計(jì)算中值、百分位數(shù)、秩相關(guān)系數(shù)等日期時(shí)間型日期和時(shí)間2021-01-01、202101012021-01-0109:00:00格式轉(zhuǎn)換、計(jì)算時(shí)間差文本型文檔或字符串股票研報(bào)、電子郵件等分詞、關(guān)鍵詞提取等文本處理特征處理數(shù)據(jù)清洗一致性檢查重復(fù)值處理

重復(fù)行,相同數(shù)值列異常值處理異常值(outlier)也稱為極端值(簡(jiǎn)稱極值)或離群點(diǎn),指連續(xù)屬性中取值顯著不同于整體數(shù)據(jù)的數(shù)值。異常值對(duì)于均值計(jì)算的結(jié)果影響很大,也可能會(huì)極大影響模型的結(jié)果數(shù)據(jù)清洗異常值處理標(biāo)準(zhǔn)差法、中位數(shù)法、分位數(shù)法、箱線圖法缺失值處理樣本存在缺失值(missingvalue)是一種比較常見的現(xiàn)象,可以分為邏輯缺失和物理缺失。數(shù)據(jù)物理缺失的機(jī)制又可以分為完全隨機(jī)缺失、隨機(jī)缺失和非隨機(jī)缺失。特征變換不同的數(shù)值型屬性往往具備不同的量綱,實(shí)際中往往需要對(duì)數(shù)據(jù)進(jìn)行規(guī)范化。類別屬性無(wú)法直接作為一些模型(例如回歸模型)的變量,在建模前需要進(jìn)行編碼處理。此外,為了提高模型的性能,有時(shí)需要對(duì)連續(xù)屬性進(jìn)行離散化,以及對(duì)離散屬性進(jìn)行重新合并歸類,統(tǒng)稱為分箱(binning)處理。規(guī)范化

特征變換離散化屬性離散化(discretization)通常指通過(guò)在數(shù)據(jù)的分布范圍中加入切分點(diǎn),將連續(xù)屬性轉(zhuǎn)化為有序類別型屬性的過(guò)程。另一種形式為合并類別屬性的一些取值,減少取值的種類。這兩種形式離散化的共同特點(diǎn)為減少了屬性的取值,相當(dāng)于對(duì)屬性進(jìn)行了模糊化處理。等距分箱、等頻分箱、數(shù)字特征分箱、聚類分箱特征變換編碼盡管某些模型(例如決策樹)可以直接處理類別屬性,但類別屬性通常無(wú)法直接用于大部分(例如回歸、支持向量機(jī)、主成分分析等)模型。無(wú)論類別屬性是原生的,還是經(jīng)過(guò)離散化后得到的,通常需要進(jìn)一步的編碼(encoding)處理才能用于建模。序數(shù)編碼、啞變量編碼、One-hot編碼啞變量編碼示例行業(yè)銀行100軟件服務(wù)010酒店餐飲001醫(yī)療保健000編碼與模型One-hot編碼與啞變量編碼的區(qū)別在于有多少種取值就引入多少個(gè)虛擬變量,即多了一個(gè)虛擬變量。為避免多重共線性問(wèn)題,如果回歸模型有截距項(xiàng),則用啞變量編碼;如果沒有截距項(xiàng),則用One-hot編碼。特殊函數(shù)變換

特征選擇特征選擇(featureselection)是特征工程中的核心問(wèn)題,指的是從原始數(shù)據(jù)中選出好的特征、過(guò)濾掉不好的或者冗余特征的過(guò)程。特征選擇的目的是構(gòu)建更加精簡(jiǎn)、準(zhǔn)確、可解釋性強(qiáng)的模型,從而避免過(guò)擬合并提高模型的泛化能力。經(jīng)典的特征選擇方法可以分為三大類:過(guò)濾法、封裝法和嵌入法特征選擇——過(guò)濾法過(guò)濾法(filterapproach)用方差、相關(guān)性、互信息、卡方檢驗(yàn)等指標(biāo)過(guò)濾掉不達(dá)標(biāo)的屬性。過(guò)濾法通常對(duì)應(yīng)的是單屬性分析,即每次只分析一個(gè)屬性自身或者對(duì)標(biāo)記屬性的影響。方差法最簡(jiǎn)單,但使用過(guò)程中需要特別注意一些細(xì)節(jié)。相關(guān)性過(guò)濾指通過(guò)計(jì)算屬性和標(biāo)記屬性之間的相關(guān)系數(shù)(見6.2.2節(jié)),舍棄掉相關(guān)系數(shù)低于閾值的屬性。相關(guān)系數(shù)包括皮爾遜相關(guān)系數(shù)、秩相關(guān)系數(shù)、φ相關(guān)系數(shù)和V相關(guān)系數(shù)等。特征選擇——過(guò)濾法互信息(mutualinformation)是一種衡量隨機(jī)變量之間相互依賴程度的度量?;バ畔⑦^(guò)濾指通過(guò)計(jì)算屬性和標(biāo)記屬性之間的互信息,并舍棄掉互信息值低于閾值的屬性。互信息的基本含義為:已知一個(gè)隨機(jī)變量的信息后,給另一個(gè)隨機(jī)變量帶來(lái)的不確定性(即信息量)的減少量。

特征選擇——過(guò)濾法

特征選擇——過(guò)濾法

屬性X標(biāo)記屬性Y1101111000特征選擇——過(guò)濾法卡方檢驗(yàn)法的基本思想是假設(shè)屬性與標(biāo)記屬性之間相互獨(dú)立,然后構(gòu)建卡方指標(biāo)對(duì)假設(shè)進(jìn)行檢驗(yàn)。如果拒絕原假設(shè),則說(shuō)明屬性是有意義的,這與6.2.2節(jié)中考察變量間的列聯(lián)相關(guān)系數(shù)的思想一致。方差分析法(ANOVA,analysisofvariance)適用于X為離散屬性,標(biāo)記屬性Y為連續(xù)屬性的情形。將Y根據(jù)X的取值進(jìn)行分組,然后用F檢驗(yàn)考察Y的不同分組間的均值和方差是否有顯著差異。

特征選擇——過(guò)濾法

連續(xù)屬性離散屬性連續(xù)標(biāo)記屬性離散標(biāo)記屬性方差法√

√√皮爾遜相關(guān)系數(shù)√

V相關(guān)系數(shù)

√√√√√互信息法√√√√卡方檢驗(yàn)法

√方差分析法

√√

特征選擇——封裝法封裝法(wrapperapproach)的基本思想是通過(guò)模型的最終效果指導(dǎo)特征的選擇。簡(jiǎn)單來(lái)說(shuō),就是每次選取不同的特征子集構(gòu)建模型,比較各種模型在測(cè)試集上的性能。封裝法的難點(diǎn)在于如何搜索特征子集,通常采用的都是一些啟發(fā)式算法,例如遞歸特征消除法。封裝法以模型性能為導(dǎo)向,能夠保證特征選擇的效果。同時(shí)該方法與具體的模型獨(dú)立,是一個(gè)普遍適用的方法。封裝法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論