第四章數(shù)據(jù)分析與可視化PPT課件_第1頁
第四章數(shù)據(jù)分析與可視化PPT課件_第2頁
第四章數(shù)據(jù)分析與可視化PPT課件_第3頁
第四章數(shù)據(jù)分析與可視化PPT課件_第4頁
第四章數(shù)據(jù)分析與可視化PPT課件_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第四章 數(shù)據(jù)分析與可視化數(shù)據(jù)可視化案例-電商618數(shù)據(jù)大屏數(shù)據(jù)可視化案例-新冠肺炎各省累計(jì)確認(rèn)病例分布數(shù)據(jù)可視化案例-滴滴交通大數(shù)據(jù) 數(shù)據(jù)可視化:關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究, 是呈現(xiàn)有效分析結(jié)果的一種方法。 數(shù)據(jù)可視化主要是借助于圖形化手段,清晰有效地傳 達(dá)與溝通信息。例如:學(xué)生成績的異常情況。什么是數(shù)據(jù)可視化什么是數(shù)據(jù)可視化數(shù)據(jù):聚焦于解決數(shù)據(jù)的采集、清理、預(yù)處理、分析和挖掘圖形:聚焦于解決對光學(xué)圖像進(jìn)行接收、提取信息、加工變 換、模式識別及存儲顯示可視化:聚焦于解決將數(shù)據(jù)轉(zhuǎn)換成圖形,并進(jìn)行交互處理 面積&尺寸可視化數(shù)據(jù)可視化的方法 顏色可視化數(shù)據(jù)可視化的方法 圖形可視化數(shù)據(jù)

2、可視化的方法 概念可視化數(shù)據(jù)可視化的方法數(shù)據(jù)分析與可視化常用工具 Microsoft Excel Python語言 SAS軟件 SPSS 專用的可視化分析工具數(shù)據(jù)分析與可視化常用工具 為何選用Python優(yōu)點(diǎn)一:優(yōu)雅、簡單、明確優(yōu)點(diǎn)二:強(qiáng)大的標(biāo)準(zhǔn)庫優(yōu)點(diǎn)三:良好的可擴(kuò)展性優(yōu)點(diǎn)四:免費(fèi)、開源Python可視化常用類庫1. NumpyNumPy(Numerical Python) 支持大量的數(shù)組與矩陣運(yùn)算, 此外也針對數(shù)組運(yùn)算提供大量的數(shù)學(xué)函數(shù)庫。NumPy 通常與 SciPy(Scientific Python)和 Matplotlib(繪圖庫)一起使用, 這種組合廣泛用于替代 MatLab, 是

3、一個(gè)強(qiáng)大的科學(xué)計(jì)算環(huán)境。14 import numpy as np #一般以一般以np作為別名作為別名 b = np.array(1,2,3,3,4,5) # 創(chuàng)建二維數(shù)組創(chuàng)建二維數(shù)組 print(b) print(b*b) print(b+b)Numpy案例一 import numpy as np #一般以一般以np作為別名作為別名 a = np.arange(12).reshape(3,4) # 3行行4列列 print(a) b=a+3 print(b)Numpy案例二1616import matplotlib.pyplot as pltimport numpy as npx=np.ar

4、ange(0,np.pi,0.01) #x從0到 ,步長0.01y=np.sin(x)plt.plot(x,y)plt.show()Numpy案例-繪制函數(shù)圖Python可視化常用類庫2. PandasPandas提供了大量快速便捷處理數(shù)據(jù)的函數(shù)和方法。它是使 Python成為強(qiáng)大而高效的數(shù)據(jù)分析環(huán)境的重要因素之一。Pandas中主要的數(shù)據(jù)結(jié)構(gòu)有Series、DataFrame和Panel。其中 Series是一維數(shù)組,DataFrame是二維的表格型數(shù)據(jù)結(jié)構(gòu)。Pandas案例import pandas as pdimport numpy as npdata = np.array(90,85,

5、78)s = pd.Series(data,index=語文,數(shù)學(xué),英語)print(s)Pandas案例import pandas as pdimport numpy as npa = np.arange(12).reshape(3,4) data=pd.DataFrame(a)print(data) Python可視化常用類庫3. MatplotlibPython 的繪圖庫,是用于生成出版質(zhì)量級別圖形的桌面繪圖包, 讓用戶很輕松地將數(shù)據(jù)圖形化,同時(shí)還提供多樣化的輸出格式。4. Seaborn在Matplotlib基礎(chǔ)上提供了一個(gè)繪制統(tǒng)計(jì)圖形的高級接口,為數(shù) 據(jù)的可視化分析工作提供了極大的方

6、便,使得繪圖更加容易。Matplotlib常用函數(shù)函數(shù)名稱函數(shù)作用plt.title()添加標(biāo)題,可指定名稱、位置、顏色、字體大小等plt.xlabel() 添加x軸名稱,可以指定位置、顏色、字體大小等plt.ylabel() 添加y軸名稱,可以指定位置、顏色、字體大小等plt.xlim()指定x軸的范圍,確定一個(gè)數(shù)值區(qū)間plt.ylim()指定y軸的范圍,確定一個(gè)數(shù)值區(qū)間plt.xticks() 指定x軸刻度的數(shù)目與取值plt.yticks() 指定y軸刻度的數(shù)目與取值plt.legend()指定圖例,可以指定圖例的大小、位置、標(biāo)簽22 編寫程序,按照以下公式繪制以下圖形。其中wh、hh的取

7、值分別為畫布的半寬和半高,t的取值范圍為0至4,步長為0.01。x = wh / 2 * (cos3(5 / 2 * t) + sin(t) * cos(t)y = hh / 2 * (cos3(5 / 2 * t) + sin(t) * sin(t)思考題23課堂練習(xí) 創(chuàng)建600*600的畫布,以畫布中心為原點(diǎn)畫出坐標(biāo)軸,并按以下公式繪制函數(shù)曲線( 其中wh、hh的取值分別為畫布的半寬和半高,t的取值范圍為0至2,步長為0.01)。 x = (wh / 4) * (sin(2t) + 2 * cos(t) y = (hh / 4) * (cos(2t) + 2 * sin(t)import

8、matplotlib.pyplot as pltfrom numpy import *plt.figure(figsize=(6, 6)wh = hh = 6/2p=plt.plot(-3,3,0,0,c=r)p=plt.plot(0,0,-3,3,c=r)t = arange(0, 2*pi, 0.01)x=(wh/4)*(sin(2*t)+2*cos(t)y=(hh/4)*(cos(2*t)+2*sin(t)p=plt.plot(x, y,c=b)plt.show()課堂練習(xí)以“學(xué)生成績表” Excel文件為數(shù)據(jù)源,利用pandas+matplotlib來進(jìn)行數(shù)據(jù)分析與可視化。案例分析Pa

9、ndas數(shù)據(jù)分析基礎(chǔ) Pandas數(shù)據(jù)分析主要是將外部數(shù)據(jù)( CSV文件、Excel文 件等)轉(zhuǎn)換為DataFrame數(shù)據(jù)格式,處理完成后再存儲到 相應(yīng)的外部文件中。 利用Pandas對數(shù)據(jù)進(jìn)行預(yù)處理然后再使用matplotlib對處 理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)可視化是數(shù)據(jù)分析中常用的方法。27 pip install xlrd讀EXCEL文檔全部數(shù)據(jù)import pandas as pddf=pd.read_excel(score.xlsx)print(df)讀EXCEL文檔部分?jǐn)?shù)據(jù)import pandas as pddf=pd.read_excel(score.xlsx)print(df姓名)p

10、rint(*)print(df姓名,籍貫)Pandas數(shù)據(jù)分析基礎(chǔ)DataFramehead( ): 默認(rèn)獲取前5行head(n): 獲取前n行tail( ): 默認(rèn)獲取后5行sample(n): 隨機(jī)抽取n行顯示30對比顯示排名前5的學(xué)生英語成績import pandas as pdimport matplotlib.pyplot as pltplt.rcParamsfont.family=SimHeidf=pd.read_excel(score.xlsx)top5=df.head()plt.bar(top5姓名,top5英語,color=b)plt.legend(loc=upper lef

11、t,labels=英語)plt.show()函數(shù)名稱函數(shù)作用df.mean()計(jì)算樣本數(shù)據(jù)的算術(shù)平均值df.count()、df.sum() 統(tǒng)計(jì)每列(或行)數(shù)據(jù)的個(gè)數(shù)或總和df.var()、df.std()計(jì)算方差、標(biāo)準(zhǔn)差df.max()、df.min()最大值和最小值Pandas常用統(tǒng)計(jì)函數(shù)32計(jì)算各科總成績import pandas as pdimport matplotlib.pyplot as pltplt.rcParamsfont.family=SimHeidf=pd.read_excel(score.xlsx)print(df語文,數(shù)學(xué),英語.sum()33計(jì)算各科平均成績并繪制圖形

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論