![財務大數(shù)據(jù)分析 課件 項目二 數(shù)據(jù)處理與數(shù)據(jù)可視化基礎_第1頁](http://file4.renrendoc.com/view9/M01/2C/32/wKhkGWczEy6AIkyDAAI6ITsYjOE948.jpg)
![財務大數(shù)據(jù)分析 課件 項目二 數(shù)據(jù)處理與數(shù)據(jù)可視化基礎_第2頁](http://file4.renrendoc.com/view9/M01/2C/32/wKhkGWczEy6AIkyDAAI6ITsYjOE9482.jpg)
![財務大數(shù)據(jù)分析 課件 項目二 數(shù)據(jù)處理與數(shù)據(jù)可視化基礎_第3頁](http://file4.renrendoc.com/view9/M01/2C/32/wKhkGWczEy6AIkyDAAI6ITsYjOE9483.jpg)
![財務大數(shù)據(jù)分析 課件 項目二 數(shù)據(jù)處理與數(shù)據(jù)可視化基礎_第4頁](http://file4.renrendoc.com/view9/M01/2C/32/wKhkGWczEy6AIkyDAAI6ITsYjOE9484.jpg)
![財務大數(shù)據(jù)分析 課件 項目二 數(shù)據(jù)處理與數(shù)據(jù)可視化基礎_第5頁](http://file4.renrendoc.com/view9/M01/2C/32/wKhkGWczEy6AIkyDAAI6ITsYjOE9485.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
項目二
數(shù)據(jù)處理與數(shù)據(jù)可視化基礎《財務大數(shù)據(jù)分析》課程JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院財務大數(shù)據(jù)分析課程團隊
目錄任務一Pandas數(shù)據(jù)處理基礎任務二
Matplotlib數(shù)據(jù)可視化基礎JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院1.知道橫向或縱向堆疊合并數(shù)據(jù);
2.掌握主鍵合并數(shù)據(jù);
3.掌握重疊合并數(shù)據(jù);
4.了解Pyplot基礎語法;
5.繪制直方圖、折線圖。學習任務JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院任務一
Pandas數(shù)據(jù)處理基礎JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院堆疊就是簡單地把兩個表拼在一起,也被稱作軸向連接、綁定或連接。依照連接軸的方向,數(shù)據(jù)堆疊可分為橫向堆疊和縱向堆疊。一1、堆疊合并數(shù)據(jù)合并數(shù)據(jù)(1)橫向堆疊橫向堆疊,即將兩個表在x軸向拼接在一起,可以使用concat函數(shù)完成。concat函數(shù)的基本語法如下。一concat函數(shù)的常用參數(shù)及相關(guān)參數(shù)說明如表所示。合并數(shù)據(jù)當axis=1的時候,concat做行對齊,然后將不同列名稱的兩張或多張表合并。當兩個表索引不完全一樣時,可以使用join參數(shù)選擇是內(nèi)連接還是外連接。在內(nèi)連接的情況下,僅僅返回索引重疊部分;在外連接的情況下,則顯示索引的并集部分數(shù)據(jù),不足的地方則使用空值填補。當兩張表完全一樣時,不論join參數(shù)的取值是inner或者outer,結(jié)果都是將兩個表完全按照x軸拼接起來,具體實現(xiàn)如圖所示。合并數(shù)據(jù)二一合并數(shù)據(jù)(2)縱向堆疊對比橫向堆疊,縱向堆疊是將兩個數(shù)據(jù)表在y軸向上拼接。concat函數(shù)和append方法兩者都可以實現(xiàn)縱向堆疊。使用concat函數(shù)時,在默認情況下,即axis=0時,concat做列對齊,將不同行索引的兩張或多張表縱向合并。在兩張表的列名并不完全相同的情況下,可以使用join參數(shù):取值為inner時,返回的僅僅是列名的交集所代表的列;取值為outer時,返回的是兩者列名的并集所代表的列。不論join參數(shù)的取值是inner或者outer,結(jié)果都是將兩個表完全按照y軸拼接起來除了concat函數(shù)之外,append方法也可以用于縱向合并兩張表。但是使用append方法實現(xiàn)縱向表堆疊有一個前提條件,那就是兩張表的列名需要完全一致。append方法的基本方法如下。一合并數(shù)據(jù)主鍵合并,即通過一個或多個鍵將兩個數(shù)據(jù)集的行連接起來,類似于SQL中的join。針對兩張包含不同字段的表,將其根據(jù)某幾個字段一一對應拼接起來,結(jié)果集的列數(shù)為兩個原數(shù)據(jù)的列數(shù)和減去連接鍵的數(shù)量。pandas庫中的merge函數(shù)和join方法都可以實現(xiàn)主鍵合并,但兩者的實現(xiàn)方式并不相同。一2、主鍵合并數(shù)據(jù)合并數(shù)據(jù)merge函數(shù)的具體用法如下一合并數(shù)據(jù)和數(shù)據(jù)庫的join一樣,merge函數(shù)也有左連接(left)、右連接(right)、內(nèi)連接(inner)和外連接(outer)。但比起數(shù)據(jù)庫SQL語言中的join,merge函數(shù)還有其自身獨到之處,例如可以在合并過程中對數(shù)據(jù)集中的數(shù)據(jù)進行排序等。根據(jù)merge函數(shù)中的參數(shù)說明,并按照需求修改相關(guān)參數(shù),即可以多種方法實現(xiàn)主鍵合并。merge函數(shù)的具體的參數(shù)及其說明如表所示。除了使用merge函數(shù)以外,join方法也可以實現(xiàn)部分主鍵合并的功能。但是使用join方法時,兩個主鍵的名字必須相同,其具體用法如下。一合并數(shù)據(jù)數(shù)據(jù)分析和處理過程中偶爾會出現(xiàn)兩份數(shù)據(jù)的內(nèi)容幾乎一致的情況,但是某些特征在其中一張表上是完整的,而在另外一張表上的數(shù)據(jù)則是缺失的。這時除了使用將數(shù)據(jù)一對一比較,然后進行填充的方法外,還有一種方法就是重疊合并。重疊合并在其他工具或者語言中并不常見,但是pandas庫的開發(fā)者希望pandas能夠解決幾乎所有的數(shù)據(jù)分析問題,因此提供了combine_first方法來進行重疊數(shù)據(jù)合并。一3、重疊合并數(shù)據(jù)合并數(shù)據(jù)一4、任務實現(xiàn)合并數(shù)據(jù)(1)堆疊不同時間的訂單詳情表訂單詳情表meal_order_detail1、meal_order_detail2、meal_order_detail3具有相同的特征,但數(shù)據(jù)時間不同,訂單編號也不同,在數(shù)據(jù)分析過程中需要使用全部數(shù)據(jù),故需要將幾張表做縱向堆疊操作。(2)主鍵合并訂單詳情表、訂單信息表和客戶信息表訂單詳情表、訂單信息表和客戶信息表之間存在相同意義的字段,因此需通過主鍵合并的方式將3張表合并為一張寬表。pandas提供了readexcel函數(shù)來讀取“xls”“xlsx”兩種Excel文件,其語法和常用參數(shù)如下。二1、Excel文件讀取讀/寫Excel文件read_excel函數(shù)的常用參數(shù)及其說明將文件存儲問Excel文件,可以使用to_excel函數(shù)。其使用語法和常用參數(shù)如下。DataFrame.to_excel(excel_writer=None,sheetname=’None’,na_rep=’’,header=True,index=True,index_label=None,mode=’w’,encoding=None)to_excel函數(shù)和to_csv函數(shù)的常用參數(shù)基本一致,區(qū)別之處在于,to_excel函數(shù)指定存儲文件的文件路徑參數(shù)名稱為excel_writer,并且沒有sep參數(shù);to_csv
函數(shù)增加了一個sheetname參數(shù),用來指定存儲的ExcelSheet的名稱,默認為Sheet1。二2、Excel文件存儲讀/寫Excel文件1、刪除法刪除法是指將含有缺失值的特征或者記錄刪除。刪除法分為刪除觀測記錄和刪除特征兩種,它屬于通過減少樣本量來換取信息完整度的一種方法,是一種最簡單的缺失值處理方法。pandas中提供了簡便的刪除缺失值的方法dropna,通過參數(shù)控制,該方法既可以刪除觀測記錄、也可以刪除特征,該方法的基本語法如下。三檢測與處理缺失值對菜品訂單詳情表利用dropna方法進行缺失值處理,如圖所示。三檢測與處理缺失值使用dropna方法刪除缺失值當how參數(shù)取值為any時,刪除了一個特征,說明這個特征存在缺失值。若how參數(shù)不取any這個默認值,而是取all,則表示整個特征全部為缺失值時才會執(zhí)行刪除操作。2、替換法替換法是指用一個特定的值替換缺失值。特征可分分為數(shù)值型和類別型,兩者出現(xiàn)缺失值時的處理方法也是不同的。缺失值所在特征為數(shù)值型型時,通常利用其均值、中位數(shù)和眾數(shù)等描述其集中趨勢的統(tǒng)計量來代替缺失值:缺失值月所在特征為類別型時,則選擇使用眾數(shù)來替換缺失值。pandas庫中提供了缺失值替換的方法fillna,其基本語法如下。三檢測與處理缺失值3、插值法在面對數(shù)據(jù)缺失問題時,除了這兩種方法之外,還有一種常用的方法——插值法。常用的插值法有線性插值、多項式插值和樣條插值等。線性插值是一種較為簡單的插值方法,它針對已知的值求出線性方程,通過求解線性方程得到缺失值。多項式插值是利用已知的值擬合一個多項式,使得現(xiàn)有的數(shù)據(jù)滿足這個多項式,再利用這個多項式求解缺失值。常見的多項式插值有拉格朗日插值和牛頓插值等。樣條插值是以可變樣條來做出一條經(jīng)過一系列點的光滑曲線的插值方法。插值樣條由一些多項式組成,每一個多項式都由相鄰兩個數(shù)據(jù)點決定,這樣可以保證兩個相鄰多項式及其導數(shù)在連接處連續(xù)。三檢測與處理缺失值THANKSFORWATCHING感謝欣賞
JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院項目二
數(shù)據(jù)處理與數(shù)據(jù)可視化基礎《財務大數(shù)據(jù)分析》課程JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院財務大數(shù)據(jù)分析課程團隊
目錄任務一Pandas數(shù)據(jù)處理基礎任務二
Matplotlib數(shù)據(jù)可視化基礎JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院1.知道橫向或縱向堆疊合并數(shù)據(jù);
2.掌握主鍵合并數(shù)據(jù);
3.掌握重疊合并數(shù)據(jù);
4.了解Pyplot基礎語法;
5.繪制直方圖、折線圖。學習任務JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院任務二
Matplotlib
數(shù)據(jù)可視化基礎JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學院了解Pyplot基礎語法第一部分的主要作用是構(gòu)建出一張空白的畫布,并可以選擇是否將整個畫布劃分為多個部分,方便在同一幅圖上繪制多個圖形的情況。當只需要繪制一幅簡單的圖形時,這部分內(nèi)容可以省略。在pyplot中,創(chuàng)建畫布以及創(chuàng)建并選中子圖的函數(shù)如表所示。一1、創(chuàng)建畫布與創(chuàng)建子圖了解Pyplot基礎語法第二部分是繪圖的主體部分。其中的添加標題、添加坐標軸名稱、繪制圖形等步驟是并列的,沒有先后順序,可以先繪制圖形,也可以先添加各類標簽。但是添加圖例一定要在繪制圖形之后。pyplot中添加各類標簽和圖例的函數(shù)如表所示。一2、添加畫布內(nèi)容了解Pyplot基礎語法第三部分主要用于保存和顯示圖形,這部分內(nèi)容的常用函數(shù)只有兩個,并且參數(shù)很少,如表所示。一3、保存與顯示圖片繪制直方圖、折現(xiàn)圖二直方圖(Histogram)又稱質(zhì)量分布圖,是統(tǒng)計報告圖的一種,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況,一般用橫軸表示數(shù)據(jù)所屬類別,用縱軸表示數(shù)量或者占比。用直方圖可以比較直觀地看出產(chǎn)品質(zhì)量特性的分布狀態(tài),便于判斷其總體質(zhì)量分布情況。在直方圖中可以發(fā)現(xiàn)分布表無法發(fā)現(xiàn)的數(shù)據(jù)模式、樣本的頻率分布和總體的分布。1、繪制直方圖繪制直方圖、折現(xiàn)圖二bar函數(shù)的常用參數(shù)及其說明使用bar函數(shù)繪制流動比率直方圖,如代碼所示。繪制直方圖、折現(xiàn)圖二所用到的流動比率表流動比率直方圖繪制直方圖、折現(xiàn)圖二折線圖(LineChart)是一種將數(shù)據(jù)點按照順序連接起來的圖形??梢钥醋魇菍⑸Ⅻc圖按照x軸坐標順序連接起來的圖形。折線圖的主要功能是查看因變量y隨著自變量x改變的趨勢,最適合用于顯示隨時間(根據(jù)常用比例設置)而變化的連續(xù)數(shù)據(jù)。同時還可以看出數(shù)量的差異,增長趨勢的變化。2、繪制折線圖繪制直方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國小程序游戲行業(yè)發(fā)展現(xiàn)狀、市場運行態(tài)勢及發(fā)展前景預測報告
- 七年級下冊《平行線的性質(zhì)》課件與練習
- 企業(yè)知識共享結(jié)構(gòu)優(yōu)化與創(chuàng)新能力提升
- 2025年武器、彈藥及其零件合作協(xié)議書
- 智慧城市數(shù)據(jù)平臺建設合作協(xié)議
- 電梯安裝安全協(xié)議書
- 消防安全技術(shù)服務項目合同
- 林地合作經(jīng)營合同書
- 用美術(shù)相關(guān)知識做
- 古代詩詞鑒賞征文
- 九年級物理總復習教案
- 【64精品】國標蘇少版小學音樂六年級下冊教案全冊
- XE82000--午山風電場風機定檢作業(yè)指導書
- 汽車座椅骨架的焊接夾具論文說明書
- 前列腺癌臨床路徑(最全版)
- [重慶]房建和市政工程質(zhì)量常見問題防治要點
- 發(fā)電機組自動控制器
- 實習鑒定表1頁
- 翻車機主要技術(shù)參數(shù)
- 最新金礦堆浸初步設計
- 水務集團精細化管理實施方案
評論
0/150
提交評論