財務大數據分析 課件 項目二 數據處理與數據可視化基礎_第1頁
財務大數據分析 課件 項目二 數據處理與數據可視化基礎_第2頁
財務大數據分析 課件 項目二 數據處理與數據可視化基礎_第3頁
財務大數據分析 課件 項目二 數據處理與數據可視化基礎_第4頁
財務大數據分析 課件 項目二 數據處理與數據可視化基礎_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

項目二

數據處理與數據可視化基礎《財務大數據分析》課程JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術學院財務大數據分析課程團隊

目錄任務一Pandas數據處理基礎任務二

Matplotlib數據可視化基礎JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術學院1.知道橫向或縱向堆疊合并數據;

2.掌握主鍵合并數據;

3.掌握重疊合并數據;

4.了解Pyplot基礎語法;

5.繪制直方圖、折線圖。學習任務JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術學院任務一

Pandas數據處理基礎JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術學院堆疊就是簡單地把兩個表拼在一起,也被稱作軸向連接、綁定或連接。依照連接軸的方向,數據堆疊可分為橫向堆疊和縱向堆疊。一1、堆疊合并數據合并數據(1)橫向堆疊橫向堆疊,即將兩個表在x軸向拼接在一起,可以使用concat函數完成。concat函數的基本語法如下。一concat函數的常用參數及相關參數說明如表所示。合并數據當axis=1的時候,concat做行對齊,然后將不同列名稱的兩張或多張表合并。當兩個表索引不完全一樣時,可以使用join參數選擇是內連接還是外連接。在內連接的情況下,僅僅返回索引重疊部分;在外連接的情況下,則顯示索引的并集部分數據,不足的地方則使用空值填補。當兩張表完全一樣時,不論join參數的取值是inner或者outer,結果都是將兩個表完全按照x軸拼接起來,具體實現(xiàn)如圖所示。合并數據二一合并數據(2)縱向堆疊對比橫向堆疊,縱向堆疊是將兩個數據表在y軸向上拼接。concat函數和append方法兩者都可以實現(xiàn)縱向堆疊。使用concat函數時,在默認情況下,即axis=0時,concat做列對齊,將不同行索引的兩張或多張表縱向合并。在兩張表的列名并不完全相同的情況下,可以使用join參數:取值為inner時,返回的僅僅是列名的交集所代表的列;取值為outer時,返回的是兩者列名的并集所代表的列。不論join參數的取值是inner或者outer,結果都是將兩個表完全按照y軸拼接起來除了concat函數之外,append方法也可以用于縱向合并兩張表。但是使用append方法實現(xiàn)縱向表堆疊有一個前提條件,那就是兩張表的列名需要完全一致。append方法的基本方法如下。一合并數據主鍵合并,即通過一個或多個鍵將兩個數據集的行連接起來,類似于SQL中的join。針對兩張包含不同字段的表,將其根據某幾個字段一一對應拼接起來,結果集的列數為兩個原數據的列數和減去連接鍵的數量。pandas庫中的merge函數和join方法都可以實現(xiàn)主鍵合并,但兩者的實現(xiàn)方式并不相同。一2、主鍵合并數據合并數據merge函數的具體用法如下一合并數據和數據庫的join一樣,merge函數也有左連接(left)、右連接(right)、內連接(inner)和外連接(outer)。但比起數據庫SQL語言中的join,merge函數還有其自身獨到之處,例如可以在合并過程中對數據集中的數據進行排序等。根據merge函數中的參數說明,并按照需求修改相關參數,即可以多種方法實現(xiàn)主鍵合并。merge函數的具體的參數及其說明如表所示。除了使用merge函數以外,join方法也可以實現(xiàn)部分主鍵合并的功能。但是使用join方法時,兩個主鍵的名字必須相同,其具體用法如下。一合并數據數據分析和處理過程中偶爾會出現(xiàn)兩份數據的內容幾乎一致的情況,但是某些特征在其中一張表上是完整的,而在另外一張表上的數據則是缺失的。這時除了使用將數據一對一比較,然后進行填充的方法外,還有一種方法就是重疊合并。重疊合并在其他工具或者語言中并不常見,但是pandas庫的開發(fā)者希望pandas能夠解決幾乎所有的數據分析問題,因此提供了combine_first方法來進行重疊數據合并。一3、重疊合并數據合并數據一4、任務實現(xiàn)合并數據(1)堆疊不同時間的訂單詳情表訂單詳情表meal_order_detail1、meal_order_detail2、meal_order_detail3具有相同的特征,但數據時間不同,訂單編號也不同,在數據分析過程中需要使用全部數據,故需要將幾張表做縱向堆疊操作。(2)主鍵合并訂單詳情表、訂單信息表和客戶信息表訂單詳情表、訂單信息表和客戶信息表之間存在相同意義的字段,因此需通過主鍵合并的方式將3張表合并為一張寬表。pandas提供了readexcel函數來讀取“xls”“xlsx”兩種Excel文件,其語法和常用參數如下。二1、Excel文件讀取讀/寫Excel文件read_excel函數的常用參數及其說明將文件存儲問Excel文件,可以使用to_excel函數。其使用語法和常用參數如下。DataFrame.to_excel(excel_writer=None,sheetname=’None’,na_rep=’’,header=True,index=True,index_label=None,mode=’w’,encoding=None)to_excel函數和to_csv函數的常用參數基本一致,區(qū)別之處在于,to_excel函數指定存儲文件的文件路徑參數名稱為excel_writer,并且沒有sep參數;to_csv

函數增加了一個sheetname參數,用來指定存儲的ExcelSheet的名稱,默認為Sheet1。二2、Excel文件存儲讀/寫Excel文件1、刪除法刪除法是指將含有缺失值的特征或者記錄刪除。刪除法分為刪除觀測記錄和刪除特征兩種,它屬于通過減少樣本量來換取信息完整度的一種方法,是一種最簡單的缺失值處理方法。pandas中提供了簡便的刪除缺失值的方法dropna,通過參數控制,該方法既可以刪除觀測記錄、也可以刪除特征,該方法的基本語法如下。三檢測與處理缺失值對菜品訂單詳情表利用dropna方法進行缺失值處理,如圖所示。三檢測與處理缺失值使用dropna方法刪除缺失值當how參數取值為any時,刪除了一個特征,說明這個特征存在缺失值。若how參數不取any這個默認值,而是取all,則表示整個特征全部為缺失值時才會執(zhí)行刪除操作。2、替換法替換法是指用一個特定的值替換缺失值。特征可分分為數值型和類別型,兩者出現(xiàn)缺失值時的處理方法也是不同的。缺失值所在特征為數值型型時,通常利用其均值、中位數和眾數等描述其集中趨勢的統(tǒng)計量來代替缺失值:缺失值月所在特征為類別型時,則選擇使用眾數來替換缺失值。pandas庫中提供了缺失值替換的方法fillna,其基本語法如下。三檢測與處理缺失值3、插值法在面對數據缺失問題時,除了這兩種方法之外,還有一種常用的方法——插值法。常用的插值法有線性插值、多項式插值和樣條插值等。線性插值是一種較為簡單的插值方法,它針對已知的值求出線性方程,通過求解線性方程得到缺失值。多項式插值是利用已知的值擬合一個多項式,使得現(xiàn)有的數據滿足這個多項式,再利用這個多項式求解缺失值。常見的多項式插值有拉格朗日插值和牛頓插值等。樣條插值是以可變樣條來做出一條經過一系列點的光滑曲線的插值方法。插值樣條由一些多項式組成,每一個多項式都由相鄰兩個數據點決定,這樣可以保證兩個相鄰多項式及其導數在連接處連續(xù)。三檢測與處理缺失值THANKSFORWATCHING感謝欣賞

JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術學院項目二

數據處理與數據可視化基礎《財務大數據分析》課程JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術學院財務大數據分析課程團隊

目錄任務一Pandas數據處理基礎任務二

Matplotlib數據可視化基礎JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術學院1.知道橫向或縱向堆疊合并數據;

2.掌握主鍵合并數據;

3.掌握重疊合并數據;

4.了解Pyplot基礎語法;

5.繪制直方圖、折線圖。學習任務JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術學院任務二

Matplotlib

數據可視化基礎JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術學院了解Pyplot基礎語法第一部分的主要作用是構建出一張空白的畫布,并可以選擇是否將整個畫布劃分為多個部分,方便在同一幅圖上繪制多個圖形的情況。當只需要繪制一幅簡單的圖形時,這部分內容可以省略。在pyplot中,創(chuàng)建畫布以及創(chuàng)建并選中子圖的函數如表所示。一1、創(chuàng)建畫布與創(chuàng)建子圖了解Pyplot基礎語法第二部分是繪圖的主體部分。其中的添加標題、添加坐標軸名稱、繪制圖形等步驟是并列的,沒有先后順序,可以先繪制圖形,也可以先添加各類標簽。但是添加圖例一定要在繪制圖形之后。pyplot中添加各類標簽和圖例的函數如表所示。一2、添加畫布內容了解Pyplot基礎語法第三部分主要用于保存和顯示圖形,這部分內容的常用函數只有兩個,并且參數很少,如表所示。一3、保存與顯示圖片繪制直方圖、折現(xiàn)圖二直方圖(Histogram)又稱質量分布圖,是統(tǒng)計報告圖的一種,由一系列高度不等的縱向條紋或線段表示數據分布的情況,一般用橫軸表示數據所屬類別,用縱軸表示數量或者占比。用直方圖可以比較直觀地看出產品質量特性的分布狀態(tài),便于判斷其總體質量分布情況。在直方圖中可以發(fā)現(xiàn)分布表無法發(fā)現(xiàn)的數據模式、樣本的頻率分布和總體的分布。1、繪制直方圖繪制直方圖、折現(xiàn)圖二bar函數的常用參數及其說明使用bar函數繪制流動比率直方圖,如代碼所示。繪制直方圖、折現(xiàn)圖二所用到的流動比率表流動比率直方圖繪制直方圖、折現(xiàn)圖二折線圖(LineChart)是一種將數據點按照順序連接起來的圖形??梢钥醋魇菍⑸Ⅻc圖按照x軸坐標順序連接起來的圖形。折線圖的主要功能是查看因變量y隨著自變量x改變的趨勢,最適合用于顯示隨時間(根據常用比例設置)而變化的連續(xù)數據。同時還可以看出數量的差異,增長趨勢的變化。2、繪制折線圖繪制直方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論