




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
授課教師:趙
宇項(xiàng)目一智慧校園消費(fèi)數(shù)據(jù)分析任務(wù)二
校園消費(fèi)數(shù)據(jù)預(yù)處理任務(wù)目標(biāo):提取18級(jí)學(xué)生校園消費(fèi)數(shù)據(jù)data1:18級(jí)學(xué)生基本信息data2:消費(fèi)數(shù)據(jù)任務(wù)拆解:18級(jí)學(xué)生的校園消費(fèi)數(shù)據(jù)讀:數(shù)據(jù)讀取,查看基本內(nèi)容合并:data1(18級(jí)學(xué)生基本信息)和data2(消費(fèi)數(shù)據(jù)刷卡記錄)查:缺失值;清洗:缺失值存:合并后的數(shù)據(jù)模塊1:校園消費(fèi)數(shù)據(jù)的讀取與查看任務(wù)二
校園消費(fèi)數(shù)據(jù)預(yù)處理校園消費(fèi)數(shù)據(jù)是什么格式?CSV(Comma-SeparatedValues,逗號(hào)分隔值,有時(shí)也稱為字符分隔值,因?yàn)榉指糇址部梢圆皇嵌禾?hào)),其文件以純文本形式存儲(chǔ)表格數(shù)據(jù)(數(shù)字和文本)。校園消費(fèi)數(shù)據(jù)的讀?。拷^對(duì)路徑:從盤符(c盤、d盤)開始一直到文件所在的具體位置。相對(duì)路徑:針對(duì)“當(dāng)前文件夾”這一參考對(duì)象,來(lái)描述文件路徑的形式。相對(duì)路徑使用..\\或.\\表示。一個(gè)點(diǎn).\表示文件或文件夾所在的當(dāng)前目錄。兩個(gè)點(diǎn)..\表示當(dāng)前目錄的上一級(jí)目錄。上n級(jí)就用n個(gè)..\\表示。一個(gè)點(diǎn).\表示文件或文件夾所在的當(dāng)前目錄,可省略。兩個(gè)點(diǎn)..\表示當(dāng)前目錄的上一級(jí)目錄。Pandas查看數(shù)據(jù)print(data1.head(3))shape_of_data1=data1.shapeprint(data1.shape)print(f"TheDataFramehas{shape_of_data1[0]}rowsand{shape_of_data1[1]}columns.")在數(shù)據(jù)分析過(guò)程中,df.head()經(jīng)常用于初步檢查數(shù)據(jù),包括數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)類型以及是否存在明顯的異常值。通過(guò)查看前幾行數(shù)據(jù),分析人員可以大致了解數(shù)據(jù)的分布和特性,為后續(xù)的數(shù)據(jù)處理和分析打下基礎(chǔ)。Pandas的數(shù)據(jù)結(jié)構(gòu)--DataFrameindex:索引值,或者可以稱為行標(biāo)簽。columns:列標(biāo)簽,默認(rèn)為RangeIndex(0,1,2,…,n)模塊2:校園消費(fèi)刷卡數(shù)據(jù)合并任務(wù)二
校園消費(fèi)數(shù)據(jù)預(yù)處理1.使用concat()函數(shù)concat()函數(shù)用于沿一個(gè)軸將多個(gè)對(duì)象堆疊到一起。2.使用merge()函數(shù)merge()函數(shù)用于根據(jù)一個(gè)或多個(gè)鍵將行連接起來(lái)data1_merge_data2數(shù)據(jù)合并data1_merge_data2=pd.merge(data1,data2,how='left',left_on='校園卡號(hào)',right_on='校園卡號(hào)')print(data1_merge_data2)print(data1_merge_data2.shape)merge()函數(shù),用于合并兩個(gè)或多個(gè)數(shù)據(jù)集。類似于MYSQL中的JOIN操作,按照一個(gè)或多個(gè)鍵將數(shù)據(jù)集中的行連接起來(lái)?;靖袷剑簆d.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=True)left:第一個(gè)數(shù)據(jù)集。right:第二個(gè)數(shù)據(jù)集。how:指定合并方式。①'inner'(默認(rèn)):只保留兩個(gè)數(shù)據(jù)集中都有的鍵的行。②'outer':保留兩個(gè)數(shù)據(jù)集中的所有行,如果某一邊沒(méi)有匹配的鍵,則該邊的結(jié)果為NaN。③'left':保留左側(cè)數(shù)據(jù)集的所有行,右側(cè)沒(méi)有匹配的鍵則為NaN。④'right':保留右側(cè)數(shù)據(jù)集的所有行,左側(cè)沒(méi)有匹配的鍵則為NaN。on:指定用于連接的列名。必須在左右數(shù)據(jù)集中都存在。left_on:左側(cè)數(shù)據(jù)集中用作連接鍵的列。right_on:右側(cè)數(shù)據(jù)集中用作連接鍵的列。left_index:如果為True,則使用左側(cè)數(shù)據(jù)集的索引(行標(biāo)簽)作為其連接鍵。right_index:如果為True,則使用右側(cè)數(shù)據(jù)集的索引作為其連接鍵。sort:根據(jù)連接鍵對(duì)合并后的數(shù)據(jù)進(jìn)行排序,默認(rèn)為True。模塊3:校園消費(fèi)數(shù)據(jù)缺失值處理任務(wù)二
校園消費(fèi)數(shù)據(jù)預(yù)處理apply方法能夠?qū)⒑瘮?shù)應(yīng)用于每一列。使用分組聚合進(jìn)行組內(nèi)計(jì)算使用apply方法聚合數(shù)據(jù)DataFrame.apply(func,axis=0,broadcast=False,raw=False,reduce=None,args=(),**kwds)參數(shù)名稱說(shuō)明func接收f(shuō)unctions。表示應(yīng)用于每行/列的函數(shù)。無(wú)默認(rèn)。axis接收0或1。代表操作的軸向。默認(rèn)為0。broadcast接收boolearn。表示是否進(jìn)行廣播。默認(rèn)為False。raw接收boolearn。表示是否直接將ndarray對(duì)象傳遞給函數(shù)。默認(rèn)為False。reduce接收boolearn或者None。表示返回值的格式。默認(rèn)None。data1_merge_data2
數(shù)據(jù)缺失值處理missing_value_ratios=data1_merge_data2.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios)data1_merge_data2.apply:合并兩個(gè)數(shù)據(jù)集data1和data2,對(duì)合并后DataFrame的行或列進(jìn)行處理。lambdax:sum(x.isnull())/len(x):傳入?yún)?shù)x(代表DataFrame中的一列),計(jì)算該列中缺失值的數(shù)量(x.isnull()),然后除以列的長(zhǎng)度(len(x)),得到缺失值的比例。axis=0:對(duì)每一列應(yīng)用lambda函數(shù)。print(missing_value_ratios)打印,該變量包含了data1_merge_data2中每一列的缺失值比例。data1_merge_data2
數(shù)據(jù)缺失值處理print('刪除缺失值前:',data1_merge_data2.shape)data1_merge_data2=data1_merge_data2.dropna(subset=['消費(fèi)地點(diǎn)'],how='any')print('刪除缺失值后:',data1_merge_data2.shape)data1_merge_data2.dropna():刪除含有缺失值的行。subset=[‘消費(fèi)地點(diǎn)’]:在‘消費(fèi)地點(diǎn)’列中查找缺失值。也就是說(shuō),當(dāng)‘消費(fèi)地點(diǎn)’列中存在缺失值時(shí),則刪除對(duì)應(yīng)行。how='any',指定列中,只要含有缺失值,則刪除該行。how='all',指定列中,所在行皆為缺失值時(shí),則刪除該行。data1_merge_data2數(shù)據(jù)缺失值處理
missing_value_ratios2=data1_merge_data2.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios2)通過(guò)dropna()函數(shù),刪除含有缺失值的行。再次計(jì)算每一列的缺失值比例??梢园l(fā)現(xiàn)全部列的缺失值比例都為零,也就是不再包含缺失值。data1_merge_data2.to_csv('task1_2_1.csv',index=False,encoding='gbk')舉一反三:校園教學(xué)場(chǎng)所門禁刷卡數(shù)據(jù)預(yù)處理任務(wù)二
校園消費(fèi)數(shù)據(jù)預(yù)處理data1_merge_data2
導(dǎo)出為csv文件先將data1和data2根據(jù)校園卡號(hào)列進(jìn)行左連接合并,得到data1_merge_data2。使用apply函數(shù)和lambda表達(dá)式計(jì)算data1_merge_data2中每列的缺失值比例。使用dropna函數(shù)刪除含有缺失值的行。重新計(jì)算data1_merge_data2中每列的缺失值比例。最后,將進(jìn)行一系列數(shù)據(jù)處理后的data1_merge_data2數(shù)據(jù)集導(dǎo)出到名為task1_2_1.csv的文件中,不包含索引,使用GBK編碼。data1_merge_data3數(shù)據(jù)讀取合并和缺失值處理并導(dǎo)出data1=pd.read_csv("task1_1_1.csv",encoding="gbk")data3=pd.read_csv("task1_1_3.csv",encoding="gbk")data1_merge_data3=pd.merge(data1,data3,how='left',left_on='門禁卡號(hào)',right_on='門禁卡號(hào)')print(data1_merge_data3)print(data1_merge_data3.tail())missing_value_ratios=data1_merge_data3.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios)print('刪除缺失值前:',data1_merge_data3.shape)data1_merge_data3=data1_merge_data3.dropna(subset=['進(jìn)出地點(diǎn)'],how='any')print('刪除缺失值后:',data1_merge_data3.shape)missing_value_rati
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)教師自我反思與提升的試題及答案
- 電子工廠面試試題及答案
- 安全工程師考試答題粗淺試題及答案
- 簡(jiǎn)單圖形分類的試題及答案示例
- 數(shù)字分解測(cè)試題及答案
- 電商運(yùn)營(yíng)服務(wù)合同
- 浪潮財(cái)務(wù)筆試題及答案
- 大學(xué)物理2025年精準(zhǔn)復(fù)習(xí)試題及答案
- 住宅小區(qū)項(xiàng)目可行性分析報(bào)告
- 文秘知識(shí)測(cè)試試題及答案
- 經(jīng)濟(jì)學(xué)原理講義
- 倉(cāng)庫(kù)管理程序文件生產(chǎn)企業(yè)的標(biāo)準(zhǔn)倉(cāng)庫(kù)管理程序文件
- 2022年中考語(yǔ)文二輪專題復(fù)習(xí):散文閱讀專項(xiàng)練習(xí)題匯編(含答案)
- 跨越高速公路及省道施工方案
- 包頭市黃河濕地生態(tài)修復(fù)工程初步設(shè)計(jì)20100713
- 無(wú)人機(jī)智能機(jī)巢行業(yè)調(diào)研報(bào)告
- 小區(qū)物業(yè)服務(wù)合同范本
- 《單跳雙落》說(shuō)課稿范文
- [江西]20萬(wàn)噸自來(lái)水廠工藝圖紙?jiān)O(shè)計(jì)(附58頁(yè)設(shè)計(jì)方案)
- 魔芋栽培技術(shù)講課PPT課件
- 個(gè)人外匯管理業(yè)務(wù)培訓(xùn)(共73頁(yè)).ppt
評(píng)論
0/150
提交評(píng)論