Python與機器學(xué)習(xí)(第2版)(微課版) 課件 項目01 用餐數(shù)據(jù)異常分析_第1頁
Python與機器學(xué)習(xí)(第2版)(微課版) 課件 項目01 用餐數(shù)據(jù)異常分析_第2頁
Python與機器學(xué)習(xí)(第2版)(微課版) 課件 項目01 用餐數(shù)據(jù)異常分析_第3頁
Python與機器學(xué)習(xí)(第2版)(微課版) 課件 項目01 用餐數(shù)據(jù)異常分析_第4頁
Python與機器學(xué)習(xí)(第2版)(微課版) 課件 項目01 用餐數(shù)據(jù)異常分析_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

項目背景|項目概述|學(xué)習(xí)目標|任務(wù)實施步驟用餐數(shù)據(jù)異常分析【數(shù)據(jù)挖掘應(yīng)用】背景先導(dǎo)項目概述項目學(xué)習(xí)目標任務(wù)實施步驟01Background02BriefIntroduction03LearningObjectives04ImplementationSteps主要內(nèi)容數(shù)字經(jīng)濟背景在數(shù)字經(jīng)濟時代,“數(shù)據(jù)”被譽為“新黃金”。數(shù)據(jù)與土地、勞動力、資本和技術(shù)并列為五大要素市場。不少國家將發(fā)展數(shù)字經(jīng)濟、促進數(shù)據(jù)價值釋放作為關(guān)鍵任務(wù)。根據(jù)中國信息通信研究院發(fā)布的《全球數(shù)字經(jīng)濟白皮書(2022年)》,數(shù)字經(jīng)濟為全球經(jīng)濟復(fù)蘇提供重要支撐,發(fā)達國家數(shù)字經(jīng)濟領(lǐng)先優(yōu)勢明顯。目前中、美、歐呈現(xiàn)出全球數(shù)字經(jīng)濟發(fā)展的三極格局。我國提出要大力發(fā)展數(shù)字經(jīng)濟,牢牢抓住數(shù)字技術(shù)發(fā)展主動權(quán),把握新一輪科技革命和產(chǎn)業(yè)變革發(fā)展先機。

12月19日,《中共中央國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》對外發(fā)布。該意見指出,數(shù)據(jù)作為新型生產(chǎn)要素,是數(shù)字化、網(wǎng)絡(luò)化、智能化的基礎(chǔ),已快速融入生產(chǎn)、分配、流通、消費和社會服務(wù)管理等各環(huán)節(jié),深刻改變著生產(chǎn)方式、生活方式和社會治理方式。數(shù)據(jù)基礎(chǔ)制度建設(shè)事關(guān)國家發(fā)展和安全大局。為加快構(gòu)建數(shù)據(jù)基礎(chǔ)制度,充分發(fā)揮我國海量數(shù)據(jù)規(guī)模和豐富應(yīng)用場景優(yōu)勢,激活數(shù)據(jù)要素潛能,做強做優(yōu)做大數(shù)字經(jīng)濟,增強經(jīng)濟發(fā)展新動能,構(gòu)筑國家競爭新優(yōu)勢。數(shù)字經(jīng)濟背景2022年國務(wù)院意見文件數(shù)字經(jīng)濟背景

數(shù)據(jù)已被認為是現(xiàn)代生產(chǎn)力的關(guān)鍵要素,可以提供有關(guān)市場趨勢、消費者行為及競爭對手策略的信息,幫助企業(yè)做出更好的決策,以滿足市場需求、優(yōu)化運營,增強競爭力。如何有效利用這些數(shù)據(jù)是企業(yè)面臨的挑戰(zhàn)。需要投入資源建立數(shù)據(jù)管理系統(tǒng),并培養(yǎng)數(shù)據(jù)分析能力,以有效利用數(shù)據(jù)。Pandas庫最初是由WesMcKinney一人于2008年開發(fā)設(shè)計的,2012年,WesMcKinn的同事SienChang加入開發(fā)工作,他們一起開發(fā)出了用于數(shù)據(jù)分析的著名開源Python庫——Pandas。Pandas是選擇以NumPy為基礎(chǔ)進行設(shè)計,在數(shù)據(jù)分析中Pandas和NumPy這兩個模塊經(jīng)常是一起使用。另外,為了數(shù)據(jù)分析的需要,Pandas專門設(shè)計了兩種新型的數(shù)據(jù)結(jié)構(gòu)。使用這兩種數(shù)據(jù)結(jié)構(gòu)管理與SQL關(guān)系數(shù)據(jù)庫和Excel工作表具有類似特征的數(shù)據(jù)會非常方便。Pandas最初是作為金融數(shù)據(jù)分析工具而開發(fā)出來,因此,Pandas為時間序列分析提供了很好的支持。

Pandas數(shù)據(jù)分析工具Pandas數(shù)據(jù)分析工具Pandas的核心是Series和DataFrame兩大數(shù)據(jù)結(jié)構(gòu):Series數(shù)據(jù)結(jié)構(gòu)是用于存儲一個序列的一維數(shù)組DataFrame數(shù)據(jù)結(jié)構(gòu)則是用于存儲復(fù)雜數(shù)據(jù)的二維數(shù)據(jù)結(jié)構(gòu)項目總體要求

用餐數(shù)據(jù)異常分析

給定用餐基本信息文件“tip1.csv”和用餐費用文件“tip2.csv”。需要細致地觀察、洞悉數(shù)據(jù),使用Pandas對公開的用餐數(shù)據(jù)集展開數(shù)據(jù)集成、數(shù)據(jù)加工、特征處理與簡單的數(shù)據(jù)分析工作。項目三維目標了解特征工程的基本概念、主要內(nèi)容和常見操作;(大數(shù)據(jù)工程技術(shù)人員國家職業(yè)技術(shù)技能標準初級5.3.1)掌握缺失值、重復(fù)值處理的常用方法;掌握異常值檢測的基本方法及不同的處理方式;掌握數(shù)據(jù)轉(zhuǎn)換和特征構(gòu)造的基本概念及主要方法。

(大數(shù)據(jù)工程技術(shù)人員國家職業(yè)技術(shù)技能標準初級5.1)知識目標技能目標素養(yǎng)目標證證項目三維目標會使用Pandas工具對數(shù)據(jù)進行操作,如數(shù)據(jù)集成、數(shù)據(jù)抽取等;會使用Pandas工具對數(shù)據(jù)進行清洗,包括缺失值、重復(fù)值、異常值的檢測與處理等;(重點:2021年全國工業(yè)化和信息化大賽“工業(yè)大數(shù)據(jù)算法”賽項考點)會使用Pandas工具進行數(shù)據(jù)轉(zhuǎn)換,并構(gòu)造特征。知識目標技能目標素養(yǎng)目標賽項目三維目標把控大數(shù)據(jù)時代政策前沿,提升數(shù)據(jù)驅(qū)動的大數(shù)據(jù)行業(yè)價值觀;提升數(shù)據(jù)處理過程中的嚴謹、細致的工作態(tài)度與一絲不茍的科學(xué)精神;合法、合規(guī)地使用數(shù)據(jù),培養(yǎng)大局意識以及遵紀守法、遵守社會公德的意識。技能目標素養(yǎng)目標知識目標數(shù)據(jù)準備流程數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)清洗數(shù)據(jù)合并將給定的兩個數(shù)據(jù)集做歸并合成一個數(shù)據(jù)集數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)清洗對數(shù)據(jù)集中已有的數(shù)據(jù)字段(或特征項)進行處理,產(chǎn)生新的特征項數(shù)據(jù)準備流程數(shù)據(jù)合并數(shù)據(jù)清洗對數(shù)據(jù)集中存在的重復(fù)值、缺失值、異常值進行處理,以利于后續(xù)的分析與挖掘數(shù)據(jù)準備流程數(shù)據(jù)合并數(shù)據(jù)轉(zhuǎn)換還在等什么?馬上動手實施用餐數(shù)據(jù)異常分析項目吧~1.數(shù)據(jù)要素的概念2.認識Pandas數(shù)據(jù)分析工具3.數(shù)據(jù)異常檢測與分析流程小結(jié)數(shù)據(jù)集成與處理任務(wù)實施【數(shù)據(jù)挖掘應(yīng)用】課程用餐數(shù)據(jù)異常分析掌握Numpy、Pandas等第三方包的基本使用;會使用Pandas數(shù)據(jù)分析工具進行數(shù)據(jù)集成、數(shù)據(jù)映射、數(shù)據(jù)處理等操作;會應(yīng)用merge()、apply()等函數(shù)對用餐數(shù)據(jù)做加工與處理。能力目標主要內(nèi)容任務(wù)工單引導(dǎo)問題任務(wù)評價標準任務(wù)解決方案代碼解析用餐數(shù)據(jù)集成與處理tips1.csv、tips2.csv教學(xué)難點任務(wù)工單基于獲得的數(shù)據(jù)集,使用Pandas中相應(yīng)的工具對sex、smoker、day列做數(shù)據(jù)映射;基于day、date列構(gòu)建特征;并對name、phone、totalbill、tip列做不同數(shù)據(jù)處理,將name列變成首字母大寫,隱藏phone列中間5位(第4至8位)數(shù)值,將totalbill、tip轉(zhuǎn)換成浮點型。任務(wù)概述

任務(wù)描述:

使用read_csv()從文件中讀取數(shù)據(jù)后,按兩個數(shù)據(jù)集的索引列做集成操作,并完成相應(yīng)的數(shù)據(jù)加工與處理。010010011001101010100100110110100101110101000100001011011101001010101101010011010010數(shù)據(jù)源tips1.csv、tips2.csv顯示結(jié)果

任務(wù)要求任務(wù)概述(1)什么是數(shù)據(jù)集成?數(shù)據(jù)集成常見的操作有哪些?(2)Pandas中對數(shù)據(jù)做合并、連接等操作的相關(guān)函數(shù)是什么?(3)Pandas中merge()函數(shù)有哪些參數(shù)?分別用來指定什么?(4)Pandas中用來構(gòu)造特征的函數(shù)有哪些?主要用途是什么?(5)Pandas中數(shù)據(jù)類型轉(zhuǎn)換函數(shù)有哪些?如何使用?”

問題引導(dǎo):任務(wù)概述

任務(wù)評價:任務(wù)概述評價內(nèi)容評價要點分值分數(shù)評定自我評價1.任務(wù)實施數(shù)據(jù)讀取與集成2分會讀取數(shù)據(jù)得1分,會正常合并數(shù)據(jù)得1分

數(shù)據(jù)映射2分會正確映射sex、smoker列得1分,能正確映射day列得1分

特征構(gòu)造2分能正確構(gòu)造是否工作日得1分,能正確構(gòu)造月份得1分

數(shù)據(jù)加工與處理3分首字母大寫正確得1分,能正確隱藏部分號碼得1分,能正確轉(zhuǎn)換費用數(shù)據(jù)類型得1分

3.任務(wù)總結(jié)依據(jù)任務(wù)實施情況總結(jié)結(jié)論1分總結(jié)內(nèi)容切中本任務(wù)的重點要點得1分

合計10分

第1行:本文件用utf-8編碼,utf-8編碼支持多種文字,包括中文。第2行:導(dǎo)入pandas包,并給出別名pd。第3行:從tips1.csv文件中讀取數(shù)據(jù)#coding:utf-8importpandas

aspddf1=pd.read_csv("tips1.csv",index_col=0,header=0,names=['ID','sex','smoker','day','time','size','name','date','phone'])

df1.head()第4行:打印出前面幾條數(shù)據(jù),如果在pycharm中可使用print。任務(wù)解決方案(1)從“tips1.csv”中讀數(shù)據(jù)存入df1第5行:從tips2.csv文件中讀取數(shù)據(jù)df2=pd.read_csv("tips2.csv",index_col=0,header=0,names=['ID','bill','tip'],encoding='gbk')

df2.head()任務(wù)解決方案部分數(shù)據(jù)顯示(2)從“tips2.csv”中讀數(shù)據(jù)存入df2任務(wù)解決方案第7行:按ID列對數(shù)據(jù)進行合并df=df1.merge(df2,on='ID')

df.head()部分數(shù)據(jù)顯示(3)df1+df2數(shù)據(jù)集成df第9行:導(dǎo)入numpy包,并給出別名np。第10行:對sex列做數(shù)據(jù)映射,男性編碼為1,女性為0。import

numpyasnpdf['sex2']=np.where(df['sex']=='Male',1,0)任務(wù)解決方案第12行:對smoker列做數(shù)據(jù)映射,,將是否吸煙轉(zhuǎn)化為1和0。df[‘smoker2’]=np.where(df[‘smoker‘]

=='Yes',1,0)days={'Mon':1,'Tues':2,'Wed':3,'Thur':4,'Fri':5,'Sat':6,'Sun':7}第13行:構(gòu)造一個星期字典days。第10行:對sex列做數(shù)據(jù)映射,男性編碼為1,女性為0。第12行:對smoker列做數(shù)據(jù)映射,,將是否吸煙轉(zhuǎn)化為1和0。第13行:構(gòu)造一個星期字典days。第9行:導(dǎo)入numpy包,并給出別名np。第10行:對sex列做數(shù)據(jù)映射,男性編碼為1,女性為0。(4)df數(shù)據(jù)預(yù)處理任務(wù)解決方案days={'Mon':1,'Tues':2,'Wed':3,'Thur':4,'Fri':5,'Sat':6,'Sun':7}第13行:構(gòu)造一個星期字典days。df['day2']=df['day'].apply(lambdax:days[x])第14行:對day列做數(shù)據(jù)映射,其中星期一映射為1,星期二為2,以此類推,存為day2。部分數(shù)據(jù)顯示(4)df數(shù)據(jù)預(yù)處理第15行:構(gòu)造day3列:將day2中的星期幾轉(zhuǎn)換化是否工作日;df['day3']=np.where(df['day2']>5,0,1)第16、17行:構(gòu)造month列,從date列中抽取月份。任務(wù)解決方案第19行:處理phone列,隱藏phone列中電話號碼中間5位,變成*,存為phone2列。第18行:處理name列,實現(xiàn)首字母大寫;df['date']

=

pd.to_datetime(df['date'],format="%Y-%m-%d",

errors

=

'coerce’)df['month']=df['date'].dt.monthdf['name']

=df['name'].map(str.capitalize)df['phone2']

=

df['phone'].astype(str).map(lambda

x:x.replace(x[3:8],"*****"))(4)df數(shù)據(jù)預(yù)處理第20、21行:處理bill、tip列中美元,并將其轉(zhuǎn)化為浮點型:方式一,采用字符串替換的方式df['bill2’]=df['bill'].astype(str).apply(lambdax:float(x.replace("美元","")))df['tip2’]=df['tip'].astype(str).apply(lambdax:float(x.replace("美元","")))第22、23行:方式二,采用數(shù)據(jù)抽取的方式任務(wù)解決方案df['bill3']

=

df['bill'].str.slice(0,-2).astype(float)df['tip3']

=

df['tip'].str.slice(0,-2).astype(float)部分數(shù)據(jù)顯示(4)df數(shù)據(jù)預(yù)處理任務(wù)解決方案df

=

df1.merge(df2,on='ID’)

df

=

df1.join(df2.set_index('ID'),on='ID',how

=

'outer’)df1.combine_first(df2)pandas.to_datetime(dateString,format)

代碼解析:在pandas中,通過兩個數(shù)據(jù)集上一個或多個鍵來合并數(shù)據(jù)時,可使用merge()函數(shù)。使用join()函數(shù)來實現(xiàn)根據(jù)特定的列和索引進行合并數(shù)據(jù)的操作。join()函數(shù)默認是通過index來進行連接,也可以通過設(shè)置參數(shù)“on”來指定連接的列。該函數(shù)的作用是用函數(shù)參數(shù)對象中的數(shù)據(jù)為函數(shù)調(diào)用對象的缺失數(shù)據(jù)“打補丁”。即填充函數(shù)調(diào)用對象中的數(shù)據(jù)缺失值。日期轉(zhuǎn)換是指將字符型的日期格式的數(shù)據(jù)轉(zhuǎn)換成為日期型數(shù)據(jù)的過程。小結(jié)1.數(shù)據(jù)集成相關(guān)函數(shù)2.數(shù)據(jù)映射函數(shù)3.數(shù)據(jù)加工與處理不急后續(xù)會有詳細說明與講解哦~重復(fù)值處理任務(wù)實施【數(shù)據(jù)挖掘應(yīng)用】課程用餐數(shù)據(jù)異常分析會使用Pandas等第三方包對數(shù)據(jù)做預(yù)處理;會使用Pandas檢測重復(fù)值;會使用Pandas處理重復(fù)值。能力目標主要內(nèi)容任務(wù)概述任務(wù)要求引導(dǎo)問題任務(wù)解決方案用餐數(shù)據(jù)重復(fù)值檢測與處理檢測給定的用餐數(shù)據(jù)集中是否存在重復(fù)記錄,如存在,則輸出具體重復(fù)的記錄并對記錄進行適當?shù)奶幚?。檢測數(shù)據(jù)集中數(shù)值型的特征列是否重復(fù),如存在,則做相應(yīng)處理。任務(wù)概述

任務(wù)描述:去除用餐數(shù)據(jù)中的重復(fù)值010010011001101010100100110110100101110101000100001011011101001010101101010011010010(1)找到重復(fù)值(2)去除重復(fù)值(1)數(shù)據(jù)中存在重復(fù)值會對數(shù)據(jù)分析結(jié)果造成什么影響?(2)Pandas工具包中,哪些函數(shù)可以用來檢測重復(fù)值?(3)處理重復(fù)值的方法有哪些?如何選擇合適的處理方法?(4)Pandas工具包中,哪些函數(shù)可以用來處理重復(fù)值?”

問題引導(dǎo):任務(wù)概述任務(wù)解決方案

參考代碼:第1行:檢測是否存在重復(fù)記錄,如果結(jié)果為True,表示數(shù)據(jù)中存在重復(fù)值。第2行:輸出具體的重復(fù)記錄。df.duplicated().any()df[df.duplicated()==True]第3行:顯示去除重復(fù)記錄前的記錄數(shù)df.count()檢測到的重復(fù)值一、檢測并輸出重復(fù)記錄任務(wù)解決方案

參考代碼df.count()第4行:去除重復(fù)記錄第5行:顯示去除重復(fù)記錄后的記錄數(shù)df=df.drop_duplicates()二、刪除重復(fù)記錄任務(wù)解決方案

參考代碼第6行:檢測是否存在重復(fù)的特征列,此外檢測totalbill、tip列是否完全相關(guān)。df['bill2'].corr(df['tip2'])結(jié)果輸出約為:0.678,即兩列數(shù)據(jù)并不是完全相關(guān)的,即不存在重復(fù)特征。三、檢測重復(fù)特征列小結(jié)如何檢測是否存在重復(fù)記錄、重復(fù)特征?如何輸出重復(fù)記錄?處理重復(fù)值的方法有哪些?如何刪除重復(fù)記錄?不急后續(xù)會有詳細說明與講解哦~缺失值處理任務(wù)實施【數(shù)據(jù)挖掘應(yīng)用】課程用餐數(shù)據(jù)異常分析會依據(jù)數(shù)據(jù)對缺失值進行檢測會使用Pandas包處理缺失值掌握缺失值處理函數(shù)的使用方法知識與能力目標主要內(nèi)容任務(wù)工單任務(wù)說明引導(dǎo)問題任務(wù)評價任務(wù)解決方案用餐數(shù)據(jù)缺失值檢測與處理任務(wù)工單用餐數(shù)據(jù)集缺失值會對數(shù)據(jù)的準確性和完整性造成影響,并且在進行數(shù)據(jù)分析和建模時會導(dǎo)致模型精度降低或計算錯誤。因此,處理缺失值對保證數(shù)據(jù)的質(zhì)量和可靠性非常重要。任務(wù)概述

任務(wù)描述:

基于給定的用餐數(shù)據(jù)集,檢測各列是否存在缺失值,并嘗試使用不同的方法對缺失值做處理?!?10010011001101010100100110110100101110101000100001011011101001010101101010011010010檢測缺失值缺失值處理結(jié)果

任務(wù)要求:任務(wù)概述(1)數(shù)據(jù)中存在缺失值會造成什么樣的影響?(2)Pandas工具包中,哪些函數(shù)可以用來檢測缺失值?(3)處理缺失值的方法有哪些?如何選擇合適的處理方法?(4)Pandas工具包中,哪些函數(shù)可以用來處理缺失值?”

問題引導(dǎo):任務(wù)概述

任務(wù)評價:任務(wù)概述評價內(nèi)容評價要點分值分數(shù)評定自我評價1.任務(wù)實施缺失值檢測2分能正確檢測出數(shù)據(jù)中是否含有缺失值得2分

缺失值輸出2分能正確顯示含有缺失值的記錄得2分

缺失值處理5分會使用不同方式處理缺失值,會使用1種得1分,至多5分

2.任務(wù)總結(jié)依據(jù)任務(wù)實施情況總結(jié)結(jié)論1分總結(jié)內(nèi)容切中本任務(wù)的重點要點得1分

合計10分

任務(wù)解決方案

(1)檢測是否存在缺失值df.isna().any()如果運行結(jié)果的某一列顯示為True,表示該列數(shù)據(jù)中存在缺失值。以下數(shù)據(jù)中tip列中就存在缺失值顯示結(jié)果任務(wù)解決方案df[df['tip'].isna()==True]

(2)輸出

tip列為空的具體記錄。顯示結(jié)果任務(wù)解決方案df.count()re1

=

df.dropna()

(3)處理缺失值:刪除df.count()第1行:顯示去除缺失值前的記錄數(shù)第3行:顯示去除后的記錄數(shù),結(jié)果顯示記錄數(shù)為242條第2行:在數(shù)據(jù)集中去除含有缺失值的記錄數(shù)方法一任務(wù)解決方案re2=df.fillna(0)re2.iloc[2]

(3)處理缺失值:填0第1行:將缺失值置為0,保存為re2第2行:顯示該條記錄數(shù)方法二任務(wù)解決方案re3_1=df.fillna(method='bfill’)re3_2=df.fillna(method='ffill')

(3)處理缺失值:鄰近值填充第1行:用下一個非缺失值填充該缺失值第2行:用前一個非缺失值填充該缺失值方法三任務(wù)解決方案re4=df.fillna(df['tip2'].mean())

(3)處理缺失值:均值填充第1行:用均值填充方法四顯示結(jié)果小結(jié)如何發(fā)現(xiàn)數(shù)據(jù)中是否存在缺失值如何找到含有缺失值的記錄如何處理缺失值?對應(yīng)的Pandas函數(shù)有哪些?不急后續(xù)會有詳細說明與講解哦~異常值處理任務(wù)實施【數(shù)據(jù)挖掘應(yīng)用】課程用餐數(shù)據(jù)異常分析知識與能力目標掌握常用的異常值檢測與處理方法;會使用Pandas、Matplotlib等工具識別異常值;會使用Pandas等工具處理異常值。主要內(nèi)容任務(wù)說明引導(dǎo)問題任務(wù)實施步驟任務(wù)解決方案用餐數(shù)據(jù)異常值檢測與處理教學(xué)難點任務(wù)概述基礎(chǔ)數(shù)據(jù)任務(wù)工單

任務(wù)描述:

基于前續(xù)任務(wù)的結(jié)果,對用餐數(shù)據(jù)中的小費(tip)列做異常檢測,如發(fā)現(xiàn)異常值,則對其做適當?shù)奶幚??;讷@得的數(shù)據(jù)集,使用不同的方法來發(fā)現(xiàn)異常值,比如簡單統(tǒng)計、箱形圖等分析存在的異常值,選擇適當?shù)姆椒▽ζ渥鱿鄳?yīng)的處理,比如刪除、替換等(1)什么是異常值?異常值對數(shù)據(jù)分析與挖掘會有什么樣的影響?(2)識別異常值的方法有哪些?使用時,有何注意要點?(3)Pandas中提供了什么樣的工具可用于檢測異常值?(4)如何對已發(fā)現(xiàn)的異常值做處理?(5)Pandas中提供了什么樣的工具可用于做異常值處理?

問題引導(dǎo):任務(wù)概述

任務(wù)評價:任務(wù)概述評價內(nèi)容評價要點分值分數(shù)評定自我評價1.任務(wù)實施異常值檢測5分會使用不同方法識別異常值,會使用1種得1分,至多5分

異常值輸出2分能正確顯示含有異常值的記錄得2分

缺失值處理2分會使用不同方式處理異常值,會使用1種得1分,至多2分

3.任務(wù)總結(jié)依據(jù)任務(wù)實施情況總結(jié)結(jié)論1分結(jié)論切中任務(wù)要點,能比較不同方法的適用性得1分

合計10分

任務(wù)解決方案

(1)檢測tip列是否存在異常值:散點圖#coding:utf-8importmatplotlib.pyplotaspltfig,ax=plt.subplots()ax.scatter(re1['day'],re1['tip2’])plt.xlabel('day')plt.ylabel('tip')第2行:導(dǎo)入畫圖包方法一:使用散點圖查看數(shù)據(jù)分布,觀察tip的分布及與發(fā)生日期的關(guān)系任務(wù)解決方案

(1)檢測tip列是否存在異常值:簡單統(tǒng)計

re1.sort_values(by='tip2',ascending=True)方法二:對tip列的值進行排序。排序后的數(shù)據(jù)呈現(xiàn)規(guī)律性,易幫助發(fā)現(xiàn)異常值。部分結(jié)果顯示任務(wù)解決方案re1['tip2'].hist(bins=20)plt.xlabel('tip')方法三:對于服務(wù)正態(tài)分布的數(shù)據(jù),我們可以使用3δ原則。首先,我們可以使用直方圖查看tip數(shù)據(jù)的分布。使用直方圖顯示數(shù)據(jù)分布

(1)檢測tip列是否存在異常值:3δ原則任務(wù)解決方案u=re1['tip2'].mean()delta=re1['tip2'].std()a=u-3*deltab=u+3*deltare1[(re1['tip2']<a)|(re1['tip2']>b)]第1行:獲得小費均值第5行:條件篩選,顯示異常記錄第3、4行:計算小費邊界值第2行:獲得小費標準差

(1)檢測tip列是否存在異常值:3δ原則任務(wù)解決方案re1[['tip2']].boxplot()方法四:使用箱形圖也可以幫助我們找到異常值部分結(jié)果顯示

(1)檢測tip列是否存在異常值:箱形圖任務(wù)解決方案ax1=sns.boxplot(y="tip2",data=re1) ax2=sns.swarmplot(y="tip2",data=re1,color=".25")箱形圖與分簇散點圖結(jié)合使用顯示圖像

(1)檢測tip列是否存在異常值:箱形圖任務(wù)解決方案Q1=np.percentile(re1['tip2'],25)median=np.percentile(re1['tip2'],50)Q3=np.percentile(re1['tip2'],75)IQR=Q3-Q1low=Q1-1.5*IQRhigh=Q3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論