Python數據分析與應用-從數據獲取到可視化(第2版)教案-教學設計 第4章 數據預處理_第1頁
Python數據分析與應用-從數據獲取到可視化(第2版)教案-教學設計 第4章 數據預處理_第2頁
Python數據分析與應用-從數據獲取到可視化(第2版)教案-教學設計 第4章 數據預處理_第3頁
Python數據分析與應用-從數據獲取到可視化(第2版)教案-教學設計 第4章 數據預處理_第4頁
Python數據分析與應用-從數據獲取到可視化(第2版)教案-教學設計 第4章 數據預處理_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

博學谷——讓IT教學更簡單,讓IT學習更有效PAGE12PAGE8《Python數據分析與應用:從數據獲取到可視化(第2版)》教學設計課程名稱:授課年級:授課學期:教師姓名:年月課題名稱第4章數據預處理計劃課時6課時教學引入在數據分析工作前期收集的數據或多或少會存在著一些瑕疵或不足,比如數據缺失、重復、格式不統(tǒng)一等,因此我們在分析數據之前需要先對數據進行預處理,包括數據清洗、數據合并、數據重塑和數據轉換。為了處理這些問題數據,pandas提供了很多用于數據預處理的函數與方法。接下來,本章將針對pandas中數據預處理的內容進行詳細地講解。教學目標使學生掌握缺失值的檢測方式,能夠通過isnull()和notnull()函數檢測數據中是否存在缺失值使學生掌握缺失值的處理方式,能夠通過dropna()或fillna()方法刪除缺失值或填充缺失值使學生掌握重復值的檢測方式,能夠通過duplicated()方法檢測數據中是否存在重復值使學生掌握重復值的處理方式,能夠通過drop_duplicates()方法刪除重復值使學生熟悉異常值的檢測方式,能夠通過3σ原則和箱形圖檢測數據中是否存在異常值使學生掌握異常值的處理方式,能夠通過replace()方法替換數據中的異常值使學生熟悉數據類型的轉換方式,能夠通過astype()方法或to_numberic()函數轉換數據類型使學生掌握數據合并的相關操作,能夠根據需求選擇適合的方案實現數據合并的操作使學生掌握數據重塑的相關操作,能夠根據需求選擇適合的方案實現數據重塑的相關操作使學生掌握數據轉換的相關操作,能夠根據需求選擇適合的方案實現數據轉換的相關操作教學重點缺失值的檢測缺失值的處理重復值的檢測重復值的處理堆疊合并主鍵合并教學難點異常值的檢測主鍵合并面元劃分啞變量處理教學方式課堂教學以PPT講授為主,并結合多媒體進行教學教學過程第一課時(缺失值的檢測、缺失值的處理、重復值的檢測、重復值的處理)一、創(chuàng)設情景,導入新課教師提前準備兩份數據,一份不包含缺失值、重復值、異常值的數據,一份包含缺失值、重復值、異常值的數據,給學生提問問題,例如問題是:如果要計算平均值,大家覺得哪份數據得到的結果相對是比較準確的,并根據學生的問題進行總結,引出數據清洗的好處,也就是提高數據的質量,從而實現導入新課的目的。二、新課講解知識點1-缺失值的檢測教師通過PPT結合實操的形式講解缺失值的檢測。(1)什么是缺失值缺失值是指數據集中某個或某些屬性的值是不完整的。缺失值一般使用None或np.nan表示,統(tǒng)一標記為NaN。(2)檢測缺失值的方式isnull():在檢測到缺失值的位置標記True,其他位置標記為False。notnull():在檢測到缺失值的位置標記False,其他位置標記為True。(3)通過代碼演示如何使用isnull()函數檢測缺失值(4)通過代碼演示如何使用notnull()函數檢測缺失值(5)通過代碼演示如何自定義函數來了解缺失值的占比情況知識點2-缺失值的處理教師通過PPT結合實操的形式講解缺失值的處理。(1)處理缺失值的方式刪除缺失值填充缺失值(2)dropna()方法的語法格式(3)通過代碼演示如何使用dropna()方法刪除缺失值(4)fillna()方法的語法格式(5)通過代碼演示如何使用fillna()方法填充缺失值(6)填充不同的值在調用fillna()方法填充缺失值時傳入一個字典給value參數,其中字典的鍵為列索引,字典的值為待替換的值。(7)通過代碼演示如何使用fillna()方法填充不同的值。(8)填充缺失值相鄰的前面的有效值在調用fillna()方法時給method參數傳入值ffill,指定填充方式為前向填充。(9)通過代碼演示如何使用fillna()方法實現前向填充的效果。知識點3-重復值的檢測教師通過PPT結合實操的形式講解重復值的檢測。(1)什么是重復值重復值是指數據集中某個或某些記錄是完全相同的。(2)檢測重復值的方式duplicated()方法默認會對所有數據進行檢測,檢測的標準為:只要一行數據與其他行數據的所有值是完全相同的,就會將這一行數據判定為重復值,并標記為True,非重復值標記為False。(3)duplicated()方法的語法格式(4)通過代碼演示如何使用duplicated()方法檢測缺失值知識點4-重復值的處理教師通過PPT結合實操的形式講解重復值的處理。(1)重復值的處理方式重復值會影響分析結果的準確性,一般情況下需要進行刪除。(2)drop_duplicates()方法的語法格式(3)通過代碼演示如何使用drop_duplicates()方法刪除重復值三、歸納總結教師回顧本節(jié)課所講的內容,并通過測試題的方式引導學生解答問題并給予指導。四、布置作業(yè)教師通過高校教輔平臺()布置本節(jié)課作業(yè)以及下節(jié)課的預習作業(yè)。第二課時(異常值的檢測、異常值的處理、轉換數據類型、堆疊合并)一、復習鞏固教師通過上節(jié)課作業(yè)的完成情況,對學生吸收不好的知識點進行再次鞏固講解。二、通過直接引入的方式導入新課上節(jié)課我們主要學習了缺失值的檢測與處理、重復值的檢測與處理,本節(jié)課將繼續(xù)學習異常值的檢測與處理、轉換數據類型和堆疊合并。三、新課講解知識點1-異常值的檢測教師通過PPT結合實操的形式講解異常值的檢測。(1)什么是異常值異常值是指數據集中的個別值明顯偏離它所屬數據集的其余值,這些數值是不合理的或錯誤的。(2)異常值的檢測方式3σ原則:適用于符合或近似正態(tài)分布的數據集。箱形圖:可以檢測任意的數據集。(3)基于3σ原則檢測的原理凡是誤差超過(μ-3σ,μ+3σ)區(qū)間的數值就認為是異常值。(4)基于3σ原則檢測的函數(5)通過代碼演示如何基于3σ原則檢測異常值(6)基于箱形圖檢測的原理箱形圖可以展示異常值。異常值的范圍一般是小于Q1–1.5IQR或大于Q3+1.5IQR。(7)通過代碼演示如何繪制繪制箱形圖(8)通過代碼演示如何確定異常值的位置知識點2-異常值的處理教師通過PPT結合實操的形式講解異常值的處理。(1)異常值的處理方式異常值被檢測出來之后,需要進一步確認是否為真正的異常值。通常情況下會使用指定的值或根據一些算法計算的值替換異常值。(2)replace()方法的語法格式(3)通過代碼演示如何使用replace()方法替換一個異常值(4)通過代碼演示如何使用replace()方法替換多個異常值知識點3-轉換數據類型教師通過PPT結合實操的形式講解轉換數據類型。(1)轉換數據類型的使用場景(2)轉換數據類型的方式通過astype()方法轉換數據的類型。通過to_numeric()函數轉換數據類型。(3)astype()方法的語法格式(4)通過代碼演示如何使用astype()方法轉換數據的類型(5)to_numeric()方法的作用to_numeric()函數用于將字符串、混合類型等一些復雜類型的數據轉換為數值類型的數據,并能夠按照不同的參數配置靈活地處理這些復雜類型的數據。(6)to_numeric()方法的語法格式(7)通過代碼演示如何使用to_numeric()方法轉換數據的類型知識點4-堆疊合并教師通過PPT結合實操的形式講解堆疊合并。(1)什么是堆疊合并堆疊合并指的是沿著某個軸的方向將兩個或兩個以上的對象按照一定的邏輯關系進行合并。(2)concat()函數的語法格式(3)橫向堆疊與外連接(4)通過代碼演示如何實現橫向堆疊與外連接的效果(5)縱向堆疊與內連接(6)通過代碼演示如何實現縱向堆疊與內連接的效果四、歸納總結教師回顧本節(jié)課所講的內容,并通過測試題的方式引導學生解答問題并給予指導。五、布置作業(yè)教師通過高校教輔平臺()布置本節(jié)課作業(yè)以及下節(jié)課的預習作業(yè)。第三課時(主鍵合并、根據索引合并、合并重疊數據、重塑分層索引)一、復習鞏固教師通過上節(jié)課作業(yè)的完成情況,對學生吸收不好的知識點進行再次鞏固講解。二、通過直接引入的方式導入新課上節(jié)課我們主要學習了異常值的檢測、異常值的處理、轉換數據類型和堆疊合并,本節(jié)課將學習其他幾種合并數據的方式,包括主鍵合并、根據索引合并、合并重疊數據,以及重塑分層索引。三、新課講解知識點1-主鍵合并教師通過PPT結合實操的形式講解主鍵合并。(1)什么是主鍵合并主鍵合并類似于關系型數據庫的主鍵查詢操作,它指的是根據一個或多個鍵將兩個對象進行合并,大多數情況下會將這兩個對象中共有的列作為合并的鍵。(2)merge()函數的語法格式(3)通過代碼演示一個鍵合并的效果(4)通過代碼演示兩個鍵合并的效果(5)通過代碼演示全外連接合并的效果(6)通過代碼演示左連接合并的效果知識點2-根據索引合并教師通過PPT結合實操的形式講解根據索引合并。(1)什么是根據索引合并根據索引合并指的是根據行索引或列索引將多個對象合并成一個對象。(2)join()方法的語法格式(3)通過代碼演示如何使用join()方法實現沒有重疊列合并的效果(4)通過代碼演示如何使用join()方法實現有重疊列合并的效果知識點3-合并重疊數據教師通過PPT結合實操的形式講解合并重疊數據。(1)combine_first()方法的語法格式(2)通過代碼演示如何使用combine_first()方法實現合并重疊數據的效果知識點4-重塑分層索引教師通過PPT結合實操的形式講解重塑分層索引。(1)重塑分層索引的方法stack()方法用于將數據的列“旋轉”為行。unstack()方法用于將數據的行“旋轉”為列。(2)通過代碼演示如何使用stack()方法實現重塑索引的操作(3)通過代碼演示如何使用unstack()方法實現重塑索引的操作(4)通過代碼演示如何使用stack()方法實現重塑分層索引的效果四、歸納總結教師回顧本節(jié)課所講的內容,并通過測試題的方式引導學生解答問題并給予指導。五、布置作業(yè)教師通過高校教輔平臺()布置本節(jié)課作業(yè)以及下節(jié)課的預習作業(yè)。第四課時(軸向旋轉、面元劃分、啞變量處理、案例:預處理二手房數據)一、復習鞏固教師通過上節(jié)課作業(yè)的完成情況,對學生吸收不好的知識點進行再次鞏固講解。二、通過直接引入的方式導入新課上節(jié)課我們主要學習了主鍵合并、根據索引合并、合并重疊數據、重塑分層索引,本節(jié)課將繼續(xù)學習軸向旋轉、面元劃分、啞變量處理,以及圍繞所學的知識完成一個案例。三、新課講解知識點1-軸向旋轉教師通過PPT結合實操的形式講解軸向旋轉。(1)軸向旋轉的舉例(2)pivot()方法的語法格式(3)通過代碼演示如何使用pivot()方法實現軸向旋轉的效果知識點2-面元劃分教師通過PPT結合實操的形式講解面元劃分。(1)什么是面元劃分面元劃分是指連續(xù)數據被離散化處理,按一定的映射關系劃分為相應的面元,這里的面元可以理解為區(qū)間。(2)面元劃分的舉例(3)cut()函數的語法格式(4)通過代碼演示如何使用cut()函數實現面元劃分操作知識點3-啞變量處理教師通過PPT結合實操的形式講解啞變量處理。(1)什么是啞變量啞變量又稱虛擬變量、名義變量等,它是人為虛設的變量,用來反映某個變量的不同類別,常用的取值為0和1。(2)get_dummies()函數的語法格式(3)通過代碼演示如何使用get_dummies()函數實現啞變量處理的效果知識點4-案例:預處理二手房數據教師通過PPT結合實操的形式講解案例。(1)通過PPT介紹案例的需求(2)通過代碼演示如何讀取數據和合并數據(3)通過代碼演示案例的實現步驟四、歸納總結教師回顧本節(jié)課所講的內容,并通過測試題的方式引導學生解答問題并給予指導。五、布置作業(yè)教師通過高校教輔平臺()布置本節(jié)課作業(yè)以及下節(jié)課的預習作業(yè)。第五、六課時(上機練習)上機練習主要針對本章中需要重點掌握的知識點,以及在程序中容易出錯的內容進行練習,通過上機練習可以考察同學對知識點的掌握情況,對代碼的熟練程度。上機一:(考察知識點為缺失值的檢測、缺失值的處理、重復值的檢測、重復值的處理、異常值的檢測、異常值的處理)形式:單獨完成題目:練習4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論