財(cái)務(wù)大數(shù)據(jù)分析 課件 項(xiàng)目二 數(shù)據(jù)處理與數(shù)據(jù)可視化基礎(chǔ)_第1頁
財(cái)務(wù)大數(shù)據(jù)分析 課件 項(xiàng)目二 數(shù)據(jù)處理與數(shù)據(jù)可視化基礎(chǔ)_第2頁
財(cái)務(wù)大數(shù)據(jù)分析 課件 項(xiàng)目二 數(shù)據(jù)處理與數(shù)據(jù)可視化基礎(chǔ)_第3頁
財(cái)務(wù)大數(shù)據(jù)分析 課件 項(xiàng)目二 數(shù)據(jù)處理與數(shù)據(jù)可視化基礎(chǔ)_第4頁
財(cái)務(wù)大數(shù)據(jù)分析 課件 項(xiàng)目二 數(shù)據(jù)處理與數(shù)據(jù)可視化基礎(chǔ)_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

項(xiàng)目二

數(shù)據(jù)處理與數(shù)據(jù)可視化基礎(chǔ)《財(cái)務(wù)大數(shù)據(jù)分析》課程JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院財(cái)務(wù)大數(shù)據(jù)分析課程團(tuán)隊(duì)

目錄任務(wù)一Pandas數(shù)據(jù)處理基礎(chǔ)任務(wù)二

Matplotlib數(shù)據(jù)可視化基礎(chǔ)JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院1.知道橫向或縱向堆疊合并數(shù)據(jù);

2.掌握主鍵合并數(shù)據(jù);

3.掌握重疊合并數(shù)據(jù);

4.了解Pyplot基礎(chǔ)語法;

5.繪制直方圖、折線圖。學(xué)習(xí)任務(wù)JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院任務(wù)一

Pandas數(shù)據(jù)處理基礎(chǔ)JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院堆疊就是簡單地把兩個(gè)表拼在一起,也被稱作軸向連接、綁定或連接。依照連接軸的方向,數(shù)據(jù)堆疊可分為橫向堆疊和縱向堆疊。一1、堆疊合并數(shù)據(jù)合并數(shù)據(jù)(1)橫向堆疊橫向堆疊,即將兩個(gè)表在x軸向拼接在一起,可以使用concat函數(shù)完成。concat函數(shù)的基本語法如下。一concat函數(shù)的常用參數(shù)及相關(guān)參數(shù)說明如表所示。合并數(shù)據(jù)當(dāng)axis=1的時(shí)候,concat做行對(duì)齊,然后將不同列名稱的兩張或多張表合并。當(dāng)兩個(gè)表索引不完全一樣時(shí),可以使用join參數(shù)選擇是內(nèi)連接還是外連接。在內(nèi)連接的情況下,僅僅返回索引重疊部分;在外連接的情況下,則顯示索引的并集部分?jǐn)?shù)據(jù),不足的地方則使用空值填補(bǔ)。當(dāng)兩張表完全一樣時(shí),不論join參數(shù)的取值是inner或者outer,結(jié)果都是將兩個(gè)表完全按照x軸拼接起來,具體實(shí)現(xiàn)如圖所示。合并數(shù)據(jù)二一合并數(shù)據(jù)(2)縱向堆疊對(duì)比橫向堆疊,縱向堆疊是將兩個(gè)數(shù)據(jù)表在y軸向上拼接。concat函數(shù)和append方法兩者都可以實(shí)現(xiàn)縱向堆疊。使用concat函數(shù)時(shí),在默認(rèn)情況下,即axis=0時(shí),concat做列對(duì)齊,將不同行索引的兩張或多張表縱向合并。在兩張表的列名并不完全相同的情況下,可以使用join參數(shù):取值為inner時(shí),返回的僅僅是列名的交集所代表的列;取值為outer時(shí),返回的是兩者列名的并集所代表的列。不論join參數(shù)的取值是inner或者outer,結(jié)果都是將兩個(gè)表完全按照y軸拼接起來除了concat函數(shù)之外,append方法也可以用于縱向合并兩張表。但是使用append方法實(shí)現(xiàn)縱向表堆疊有一個(gè)前提條件,那就是兩張表的列名需要完全一致。append方法的基本方法如下。一合并數(shù)據(jù)主鍵合并,即通過一個(gè)或多個(gè)鍵將兩個(gè)數(shù)據(jù)集的行連接起來,類似于SQL中的join。針對(duì)兩張包含不同字段的表,將其根據(jù)某幾個(gè)字段一一對(duì)應(yīng)拼接起來,結(jié)果集的列數(shù)為兩個(gè)原數(shù)據(jù)的列數(shù)和減去連接鍵的數(shù)量。pandas庫中的merge函數(shù)和join方法都可以實(shí)現(xiàn)主鍵合并,但兩者的實(shí)現(xiàn)方式并不相同。一2、主鍵合并數(shù)據(jù)合并數(shù)據(jù)merge函數(shù)的具體用法如下一合并數(shù)據(jù)和數(shù)據(jù)庫的join一樣,merge函數(shù)也有左連接(left)、右連接(right)、內(nèi)連接(inner)和外連接(outer)。但比起數(shù)據(jù)庫SQL語言中的join,merge函數(shù)還有其自身獨(dú)到之處,例如可以在合并過程中對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行排序等。根據(jù)merge函數(shù)中的參數(shù)說明,并按照需求修改相關(guān)參數(shù),即可以多種方法實(shí)現(xiàn)主鍵合并。merge函數(shù)的具體的參數(shù)及其說明如表所示。除了使用merge函數(shù)以外,join方法也可以實(shí)現(xiàn)部分主鍵合并的功能。但是使用join方法時(shí),兩個(gè)主鍵的名字必須相同,其具體用法如下。一合并數(shù)據(jù)數(shù)據(jù)分析和處理過程中偶爾會(huì)出現(xiàn)兩份數(shù)據(jù)的內(nèi)容幾乎一致的情況,但是某些特征在其中一張表上是完整的,而在另外一張表上的數(shù)據(jù)則是缺失的。這時(shí)除了使用將數(shù)據(jù)一對(duì)一比較,然后進(jìn)行填充的方法外,還有一種方法就是重疊合并。重疊合并在其他工具或者語言中并不常見,但是pandas庫的開發(fā)者希望pandas能夠解決幾乎所有的數(shù)據(jù)分析問題,因此提供了combine_first方法來進(jìn)行重疊數(shù)據(jù)合并。一3、重疊合并數(shù)據(jù)合并數(shù)據(jù)一4、任務(wù)實(shí)現(xiàn)合并數(shù)據(jù)(1)堆疊不同時(shí)間的訂單詳情表訂單詳情表meal_order_detail1、meal_order_detail2、meal_order_detail3具有相同的特征,但數(shù)據(jù)時(shí)間不同,訂單編號(hào)也不同,在數(shù)據(jù)分析過程中需要使用全部數(shù)據(jù),故需要將幾張表做縱向堆疊操作。(2)主鍵合并訂單詳情表、訂單信息表和客戶信息表訂單詳情表、訂單信息表和客戶信息表之間存在相同意義的字段,因此需通過主鍵合并的方式將3張表合并為一張寬表。pandas提供了readexcel函數(shù)來讀取“xls”“xlsx”兩種Excel文件,其語法和常用參數(shù)如下。二1、Excel文件讀取讀/寫Excel文件read_excel函數(shù)的常用參數(shù)及其說明將文件存儲(chǔ)問Excel文件,可以使用to_excel函數(shù)。其使用語法和常用參數(shù)如下。DataFrame.to_excel(excel_writer=None,sheetname=’None’,na_rep=’’,header=True,index=True,index_label=None,mode=’w’,encoding=None)to_excel函數(shù)和to_csv函數(shù)的常用參數(shù)基本一致,區(qū)別之處在于,to_excel函數(shù)指定存儲(chǔ)文件的文件路徑參數(shù)名稱為excel_writer,并且沒有sep參數(shù);to_csv

函數(shù)增加了一個(gè)sheetname參數(shù),用來指定存儲(chǔ)的ExcelSheet的名稱,默認(rèn)為Sheet1。二2、Excel文件存儲(chǔ)讀/寫Excel文件1、刪除法刪除法是指將含有缺失值的特征或者記錄刪除。刪除法分為刪除觀測記錄和刪除特征兩種,它屬于通過減少樣本量來換取信息完整度的一種方法,是一種最簡單的缺失值處理方法。pandas中提供了簡便的刪除缺失值的方法dropna,通過參數(shù)控制,該方法既可以刪除觀測記錄、也可以刪除特征,該方法的基本語法如下。三檢測與處理缺失值對(duì)菜品訂單詳情表利用dropna方法進(jìn)行缺失值處理,如圖所示。三檢測與處理缺失值使用dropna方法刪除缺失值當(dāng)how參數(shù)取值為any時(shí),刪除了一個(gè)特征,說明這個(gè)特征存在缺失值。若how參數(shù)不取any這個(gè)默認(rèn)值,而是取all,則表示整個(gè)特征全部為缺失值時(shí)才會(huì)執(zhí)行刪除操作。2、替換法替換法是指用一個(gè)特定的值替換缺失值。特征可分分為數(shù)值型和類別型,兩者出現(xiàn)缺失值時(shí)的處理方法也是不同的。缺失值所在特征為數(shù)值型型時(shí),通常利用其均值、中位數(shù)和眾數(shù)等描述其集中趨勢的統(tǒng)計(jì)量來代替缺失值:缺失值月所在特征為類別型時(shí),則選擇使用眾數(shù)來替換缺失值。pandas庫中提供了缺失值替換的方法fillna,其基本語法如下。三檢測與處理缺失值3、插值法在面對(duì)數(shù)據(jù)缺失問題時(shí),除了這兩種方法之外,還有一種常用的方法——插值法。常用的插值法有線性插值、多項(xiàng)式插值和樣條插值等。線性插值是一種較為簡單的插值方法,它針對(duì)已知的值求出線性方程,通過求解線性方程得到缺失值。多項(xiàng)式插值是利用已知的值擬合一個(gè)多項(xiàng)式,使得現(xiàn)有的數(shù)據(jù)滿足這個(gè)多項(xiàng)式,再利用這個(gè)多項(xiàng)式求解缺失值。常見的多項(xiàng)式插值有拉格朗日插值和牛頓插值等。樣條插值是以可變樣條來做出一條經(jīng)過一系列點(diǎn)的光滑曲線的插值方法。插值樣條由一些多項(xiàng)式組成,每一個(gè)多項(xiàng)式都由相鄰兩個(gè)數(shù)據(jù)點(diǎn)決定,這樣可以保證兩個(gè)相鄰多項(xiàng)式及其導(dǎo)數(shù)在連接處連續(xù)。三檢測與處理缺失值THANKSFORWATCHING感謝欣賞

JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院項(xiàng)目二

數(shù)據(jù)處理與數(shù)據(jù)可視化基礎(chǔ)《財(cái)務(wù)大數(shù)據(jù)分析》課程JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院財(cái)務(wù)大數(shù)據(jù)分析課程團(tuán)隊(duì)

目錄任務(wù)一Pandas數(shù)據(jù)處理基礎(chǔ)任務(wù)二

Matplotlib數(shù)據(jù)可視化基礎(chǔ)JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院1.知道橫向或縱向堆疊合并數(shù)據(jù);

2.掌握主鍵合并數(shù)據(jù);

3.掌握重疊合并數(shù)據(jù);

4.了解Pyplot基礎(chǔ)語法;

5.繪制直方圖、折線圖。學(xué)習(xí)任務(wù)JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院任務(wù)二

Matplotlib

數(shù)據(jù)可視化基礎(chǔ)JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院了解Pyplot基礎(chǔ)語法第一部分的主要作用是構(gòu)建出一張空白的畫布,并可以選擇是否將整個(gè)畫布劃分為多個(gè)部分,方便在同一幅圖上繪制多個(gè)圖形的情況。當(dāng)只需要繪制一幅簡單的圖形時(shí),這部分內(nèi)容可以省略。在pyplot中,創(chuàng)建畫布以及創(chuàng)建并選中子圖的函數(shù)如表所示。一1、創(chuàng)建畫布與創(chuàng)建子圖了解Pyplot基礎(chǔ)語法第二部分是繪圖的主體部分。其中的添加標(biāo)題、添加坐標(biāo)軸名稱、繪制圖形等步驟是并列的,沒有先后順序,可以先繪制圖形,也可以先添加各類標(biāo)簽。但是添加圖例一定要在繪制圖形之后。pyplot中添加各類標(biāo)簽和圖例的函數(shù)如表所示。一2、添加畫布內(nèi)容了解Pyplot基礎(chǔ)語法第三部分主要用于保存和顯示圖形,這部分內(nèi)容的常用函數(shù)只有兩個(gè),并且參數(shù)很少,如表所示。一3、保存與顯示圖片繪制直方圖、折現(xiàn)圖二直方圖(Histogram)又稱質(zhì)量分布圖,是統(tǒng)計(jì)報(bào)告圖的一種,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況,一般用橫軸表示數(shù)據(jù)所屬類別,用縱軸表示數(shù)量或者占比。用直方圖可以比較直觀地看出產(chǎn)品質(zhì)量特性的分布狀態(tài),便于判斷其總體質(zhì)量分布情況。在直方圖中可以發(fā)現(xiàn)分布表無法發(fā)現(xiàn)的數(shù)據(jù)模式、樣本的頻率分布和總體的分布。1、繪制直方圖繪制直方圖、折現(xiàn)圖二bar函數(shù)的常用參數(shù)及其說明使用bar函數(shù)繪制流動(dòng)比率直方圖,如代碼所示。繪制直方圖、折現(xiàn)圖二所用到的流動(dòng)比率表流動(dòng)比率直方圖繪制直方圖、折現(xiàn)圖二折線圖(LineChart)是一種將數(shù)據(jù)點(diǎn)按照順序連接起來的圖形。可以看作是將散點(diǎn)圖按照x軸坐標(biāo)順序連接起來的圖形。折線圖的主要功能是查看因變量y隨著自變量x改變的趨勢,最適合用于顯示隨時(shí)間(根據(jù)常用比例設(shè)置)而變化的連續(xù)數(shù)據(jù)。同時(shí)還可以看出數(shù)量的差異,增長趨勢的變化。2、繪制折線圖繪制直方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論