《數(shù)據(jù)采集與處理:基于python》教學大綱(3套)、思政案例設(shè)計_第1頁
《數(shù)據(jù)采集與處理:基于python》教學大綱(3套)、思政案例設(shè)計_第2頁
《數(shù)據(jù)采集與處理:基于python》教學大綱(3套)、思政案例設(shè)計_第3頁
《數(shù)據(jù)采集與處理:基于python》教學大綱(3套)、思政案例設(shè)計_第4頁
《數(shù)據(jù)采集與處理:基于python》教學大綱(3套)、思政案例設(shè)計_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第頁課程名稱(中文):數(shù)據(jù)采集與處理:基于Python課程名稱(英文):DataAcquisitionandProcessingwithPython授課對象:信息管理與信息系統(tǒng)、數(shù)據(jù)科學與大數(shù)據(jù)與技術(shù)、數(shù)理統(tǒng)計等專業(yè)建議學時:48 學分:3先修課程:數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫原理、Python語言程序設(shè)計與應(yīng)用課程簡介數(shù)據(jù)采集與處理是大數(shù)據(jù)處理與分析的重要環(huán)節(jié),對應(yīng)課程也是數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)培養(yǎng)的重要環(huán)節(jié)。本課程主要講解數(shù)據(jù)科學與大數(shù)據(jù)應(yīng)用中數(shù)據(jù)采集的各類數(shù)據(jù)來源、數(shù)據(jù)格式、數(shù)據(jù)表示和加工處理及數(shù)據(jù)存儲的原理和技術(shù),并以Python為主要開發(fā)語言,通過實戰(zhàn)項目例子,帶領(lǐng)學生完成從數(shù)據(jù)采集、數(shù)據(jù)表示、轉(zhuǎn)換加工及到數(shù)據(jù)存儲的完整開發(fā)過程,使學生掌握相關(guān)開發(fā)方法、工具和技巧。通過本課程的學習使學生熟悉數(shù)據(jù)采集和處理的相關(guān)原理、技術(shù)和工具,能夠獨立進行基于Python語言開發(fā)數(shù)據(jù)采集、加工轉(zhuǎn)換和存儲的完整應(yīng)用程序,從而為數(shù)據(jù)科學和數(shù)據(jù)分析提供基本的數(shù)據(jù)基礎(chǔ),完整掌握數(shù)據(jù)科學和數(shù)據(jù)分析的全部開發(fā)過程中的相關(guān)技術(shù)和方法。教學目標與教學內(nèi)容本課程主要學習數(shù)據(jù)獲取、數(shù)據(jù)表示、轉(zhuǎn)換加工和數(shù)據(jù)存儲的相關(guān)原理、技術(shù)和工具,開發(fā)語言以Python為主,使學生了解基于Python語言進行完整的數(shù)據(jù)獲取和數(shù)據(jù)處理的相關(guān)開發(fā)過程和并掌握相關(guān)知識和技術(shù)。具體包括:數(shù)據(jù)獲取技術(shù),數(shù)據(jù)轉(zhuǎn)換加工,數(shù)據(jù)集成ETL技術(shù),數(shù)據(jù)存儲,數(shù)據(jù)可視化,統(tǒng)計與概率,Python數(shù)據(jù)科學工具等。本課程各章教學內(nèi)容、知識目標如下所示:表1.各章教學內(nèi)容教學章節(jié)知識目標與教學內(nèi)容第一章概述知識目標1、了解數(shù)據(jù)科學相關(guān)概念及數(shù)據(jù)分析完整過程;2、理解數(shù)據(jù)采集與處理與其他學科和課程關(guān)系;3、理解數(shù)據(jù)類型、數(shù)據(jù)存儲和大數(shù)據(jù)相關(guān)技術(shù);4、了解Python相關(guān)數(shù)據(jù)科學及數(shù)據(jù)采集與處理工具等。教學內(nèi)容數(shù)據(jù)科學與數(shù)據(jù)采集及存儲,數(shù)據(jù)采集概述,數(shù)據(jù)存儲概述,數(shù)據(jù)集成ETL概述,Python相關(guān)數(shù)據(jù)科學工具第二章Python基礎(chǔ)知識目標1、了解Python語言的特點和相關(guān)開發(fā)環(huán)境;2、掌握Python基本語法、控制結(jié)構(gòu)、異常與處理及函數(shù)的封裝和使用等;3、理解Python常用數(shù)據(jù)類型和數(shù)據(jù)結(jié)構(gòu)如列表、元組、字典和集合等的特點,熟練掌握其常用操作方式。教學內(nèi)容Python簡介及Python開發(fā)和運行環(huán)境及相關(guān)工具,Python基本語法與命令,Python相關(guān)模塊、安裝與升級,Python運算符、表達式、內(nèi)置對象與常用數(shù)據(jù)結(jié)構(gòu)如列表、元組、字典和集合,Python常用函數(shù)及函數(shù)封裝與調(diào)用,異常處理及斷言語句第三章Numpy與Pandas基礎(chǔ)知識目標1、了解Numpy和Pandas的常用數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型及其用途;2、掌握Numpy多維數(shù)組的創(chuàng)建、存取、運算及數(shù)組間的合并拆分等常見操作;3、理解Pandas中Series和Dataframe的特點及與Numpy多維數(shù)組的區(qū)別,掌握它們的創(chuàng)建、存取、運算等常用操作方法。教學內(nèi)容Numpy簡介、數(shù)據(jù)類型與多維數(shù)組,多維數(shù)組的創(chuàng)建、切片與檢索、數(shù)組運算及拼接合并、矩陣運算等;Pandas簡介與數(shù)據(jù)結(jié)構(gòu),Series和DataFrame創(chuàng)建與相關(guān)操作,索引對象及索引重建等第四章數(shù)據(jù)可視化知識目標1、了解數(shù)據(jù)可視化概念、相關(guān)分類和應(yīng)用;2、理解數(shù)據(jù)可視化在數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析中的作用及模塊功能差異;3、掌握數(shù)據(jù)可視化模塊Matplotlib、Seaborn等的編程接口和使用方法;4、熟練使用Python編程進行不同類型的數(shù)據(jù)可視化展示和分析。教學內(nèi)容數(shù)據(jù)可視化簡介、方法與組成、相關(guān)工具、圖表類型等,Matplotlib可視化工具簡介及其方法和使用,其他數(shù)據(jù)可視化工具如Pandas、Seaborn和pyecharts等簡介與示例第五章文件讀寫與操作知識目標1、了解文件的基本概念、分類、常見文件格式和基本特點,理解不同類型文件的功能和適用范圍;2、掌握Python基本的文件操作,了解對象序列化和反序列化操作及作用;3、掌握常見結(jié)構(gòu)化數(shù)據(jù)文件如CSV、JSON、Excel和XML的Python基本讀寫操作方法,理解文件的內(nèi)容結(jié)構(gòu)和編碼格式;4、了解常見非結(jié)構(gòu)化數(shù)據(jù)文件如Word、PDF、圖像等的內(nèi)容組織格式和讀寫方法,理解用于科學數(shù)據(jù)存儲的HDF文件格式、結(jié)構(gòu)特點及讀寫方法。教學內(nèi)容文件讀寫基本操作,Python對象和數(shù)據(jù)的序列化與反序列化簡介及相關(guān)工具模塊和使用方法,CSV、XML、JSON、HDF、Office、PDF、圖像等文件類型簡介、組織形式及Python相關(guān)工具模塊和讀寫操作方法第六章統(tǒng)計與概率基礎(chǔ)知識目標1、了解變量類型及其特點,理解不同類型變量描述性統(tǒng)計相關(guān)指標和含義,掌握Python計算變量描述性統(tǒng)計指標常用Numpy和Pandas方法;2、了解離散變量和連續(xù)變量相關(guān)分布函數(shù)及分布圖形特點,掌握Python常用模塊Numpy、Scipy、Matplotlib用于不同類型變量數(shù)據(jù)構(gòu)造、分布及可視化方法;3、了解偏度、峰度的概念及分布特點,理解其計算方法及應(yīng)用。教學內(nèi)容變量類型與描述性統(tǒng)計相關(guān)指標,離散型隨機變量與連續(xù)型變量的概率分布特征、概率密度或概率質(zhì)量函數(shù),常見變量分布如伯努利分布、二項分布、泊松分布、正態(tài)分布的特點與應(yīng)用,偏度與峰度概念與相關(guān)指標,Python相關(guān)模塊與方法和應(yīng)用示例第七章數(shù)據(jù)清洗與預(yù)處理知識目標1、了解數(shù)據(jù)清洗與預(yù)處理相關(guān)概念、相關(guān)方法和技術(shù),理解數(shù)據(jù)預(yù)處理的相關(guān)步驟和重要作用;2、了解數(shù)據(jù)異常數(shù)據(jù)、缺失數(shù)據(jù)及噪聲數(shù)據(jù)處理方法和技術(shù),掌握Python相關(guān)模塊使用方法;3、了解數(shù)據(jù)整合面臨問題和解決方法,掌握Python模塊Pandas的常用數(shù)據(jù)連接合并方法;4、了解數(shù)據(jù)變換常用方法原理和特點,熟悉Python數(shù)據(jù)變換相關(guān)模塊和函數(shù)方法;5、了解數(shù)據(jù)聚合與分組概念,熟悉Pandas模塊DataFrame對象的分組與聚合運算方法;6、了解數(shù)據(jù)歸約、數(shù)據(jù)降維的概念和相關(guān)方法,掌握基于sklearn和scipy模塊的主成分分析PCA和奇異值分解相關(guān)方法。教學內(nèi)容數(shù)據(jù)清洗相關(guān)概念及異常數(shù)據(jù)、缺失數(shù)據(jù)、噪聲數(shù)據(jù)處理相關(guān)方法,數(shù)據(jù)整合、數(shù)據(jù)變換相關(guān)概念及常用方法,數(shù)據(jù)聚合、分組統(tǒng)計與Pandas相關(guān)方法和示例,數(shù)據(jù)歸約相關(guān)概念及數(shù)據(jù)降維方法,Python相關(guān)工具模塊如Pandas、sklearn、scipy模塊相關(guān)方法和應(yīng)用示例第八章網(wǎng)絡(luò)數(shù)據(jù)采集知識目標1、了解爬蟲相關(guān)概念與知識,理解網(wǎng)絡(luò)數(shù)據(jù)交互過程和原理及HTML和JavaScript基本語法和結(jié)構(gòu);2、掌握靜態(tài)網(wǎng)頁內(nèi)容常用Python模塊的基本方法和操作,理解不同模塊的功能特點和應(yīng)用區(qū)別;3、了解動態(tài)網(wǎng)頁技術(shù),熟悉Selenium模塊爬取動態(tài)網(wǎng)頁方法;4、了解爬蟲框架Scray基本結(jié)構(gòu)和基本原理,理解Scrapy的開發(fā)方法和步驟。教學內(nèi)容網(wǎng)絡(luò)爬蟲相關(guān)概念、知識和技術(shù)介紹,HTML與JavaScript基礎(chǔ)知識,靜態(tài)網(wǎng)頁內(nèi)容爬取與解析相關(guān)Python模塊如urllib、BeautifulSoup、request、Pandas等模塊的基本應(yīng)用,正則表達式與網(wǎng)頁內(nèi)容解析,動態(tài)網(wǎng)頁內(nèi)容爬取相關(guān)技術(shù)如Selenium等基本應(yīng)用和示例第九章關(guān)系數(shù)據(jù)庫連接與訪問知識目標1、了解關(guān)系數(shù)據(jù)庫的基本概念、原理、知識和常用SQL操作,理解關(guān)系數(shù)據(jù)庫ACID特性和關(guān)系模型結(jié)構(gòu);2、了解嵌入式關(guān)系數(shù)據(jù)庫SQLite的特點和訪問方式,掌握基于Python語言訪問SQLite數(shù)據(jù)庫操作方法;3、了解網(wǎng)絡(luò)關(guān)系數(shù)據(jù)庫MySQL的特點和訪問方式,掌握基于Python模塊pymysql、SQLAlchemy及Pandas訪問MySQL數(shù)據(jù)庫操作方法。教學內(nèi)容關(guān)系數(shù)據(jù)庫的基本概念、原理和知識,常用SQL操作及關(guān)系數(shù)據(jù)庫ACID特性,嵌入式關(guān)系數(shù)據(jù)庫SQLite簡介與相關(guān)Python訪問模塊如sqlite3及Pandas的訪問方法和示例,網(wǎng)絡(luò)關(guān)系數(shù)據(jù)庫MySQL簡介及基于Python模塊pymysql、SQLAlchemy和Pandas訪問MySQL數(shù)據(jù)庫操作方法。第十章大數(shù)據(jù)存儲與訪問技術(shù)知識目標1、了解大數(shù)據(jù)相關(guān)概念、關(guān)鍵技術(shù)、計算模式和NoSQL數(shù)據(jù)庫分類,理解非關(guān)系數(shù)據(jù)庫NoSQL的CAP定理和BASE原則;2、了解NoSQL類數(shù)據(jù)庫MongoDB的特點和存儲模式,掌握基于Python的MongoDB操作步驟及相關(guān)模塊和方法。教學內(nèi)容大數(shù)據(jù)相關(guān)概念、關(guān)鍵技術(shù)、計算模式和NoSQL數(shù)據(jù)庫分類,非關(guān)系數(shù)據(jù)庫NoSQL的CAP定理和BASE原則,NoSQL數(shù)據(jù)庫分類及MongoDB的特點和存儲模式,CAP定理,MongoDB數(shù)據(jù)庫訪問相關(guān)Python模塊和方法及示例第十一章數(shù)據(jù)集成與ETL技術(shù)知識目標1.了解數(shù)據(jù)集成基本概念、分類、常見方法和相關(guān)產(chǎn)品;2.了解ETL相關(guān)技術(shù)和常用ETL工具,理解常見ETL相關(guān)技術(shù)和基本操作方法。教學內(nèi)容數(shù)據(jù)集成概述、分類和常見方法,ETL相關(guān)技術(shù)和常用工具,ETL應(yīng)用示例教學課時分配表2.教學課時分配章節(jié)號章節(jié)內(nèi)容講課實驗其他合計第一章概述22第二章Python基礎(chǔ)628第三章Numpy與Pandas基礎(chǔ)426第四章數(shù)據(jù)可視化326第五章文件讀寫與操作324第六統(tǒng)計與概率基礎(chǔ)22第七章數(shù)據(jù)清洗與預(yù)處理326第八章網(wǎng)絡(luò)數(shù)據(jù)采集326第九章關(guān)系數(shù)據(jù)庫連接與訪問224第十章大數(shù)據(jù)存儲與訪問技術(shù)222第十一章數(shù)據(jù)集成與ETL技術(shù)22合計321648主要參考資料 [美]JakeVanderPlas著,陶俊杰,陳小莉譯.Python數(shù)據(jù)科學手冊.人民郵電出版社,2018.[美]WesMcKinney.利用Python進行數(shù)據(jù)分析(第2版).機械工業(yè)出版社,2018.黃源,蔣文豪,徐受蓉著.Python爬蟲、數(shù)據(jù)清洗和數(shù)據(jù)可視化.清華大學出版社,2020.呂云翔,張揚.Python網(wǎng)絡(luò)爬蟲與數(shù)據(jù)采集.人民郵電出版社,2021.林子雨.數(shù)據(jù)采集與預(yù)處理.人民郵電出版社,2022.附件課程思政案例設(shè)計申報專業(yè)名稱:數(shù)據(jù)采集與處理課程性質(zhì):□公共課R專業(yè)課課程類別:□理論課□實踐課R理論實踐一體課授課對象:數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè),信息管理與信息系統(tǒng)專業(yè),數(shù)理統(tǒng)計專業(yè)一、課程簡介數(shù)據(jù)采集與處理是大數(shù)據(jù)處理與分析的重要環(huán)節(jié),對應(yīng)課程也是數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)培養(yǎng)的重要環(huán)節(jié)。本課程主要講解數(shù)據(jù)科學與大數(shù)據(jù)應(yīng)用中數(shù)據(jù)采集的各類數(shù)據(jù)來源、數(shù)據(jù)格式、數(shù)據(jù)表示和加工處理及數(shù)據(jù)存儲的原理和技術(shù),并以Python為主要開發(fā)語言,通過實戰(zhàn)項目例子,帶領(lǐng)學生完成從數(shù)據(jù)采集、數(shù)據(jù)表示、轉(zhuǎn)換加工及到數(shù)據(jù)存儲的完整開發(fā)過程,使學生掌握相關(guān)開發(fā)方法、工具和技巧。二、思政元素本課程屬于理工科類課程,教學中把馬克思主義立場觀點方法的教育與科學精神的培養(yǎng)結(jié)合起來,提高學生正確認識問題、分析問題和解決問題的能力。深化職業(yè)理想和職業(yè)道德教育,注重強化學生工程倫理教育,培養(yǎng)學生精益求精的大國工匠精神,激發(fā)學生科技報國的家國情懷和使命擔當。本課程設(shè)計主要包含的思政元素:元素1:職業(yè)理想和職業(yè)道德教育數(shù)據(jù)是否能夠在合理、合規(guī)及合法的情況下進行采集、存儲和使用,直接關(guān)系到大數(shù)據(jù)和人工智能技術(shù)是否能在各行各業(yè)有效發(fā)揮積極的作用。因此,課程設(shè)計不但要注意培養(yǎng)學生遠大的職業(yè)理想,還要加強學生的職業(yè)道德教育。元素2:精益求精的大國工匠精神數(shù)據(jù)質(zhì)量直接影響數(shù)據(jù)分析的準確性和有效性,從而影響基于數(shù)據(jù)決策的效果。因此,課程設(shè)計需要在數(shù)據(jù)處理環(huán)節(jié)中強調(diào)一絲不茍、嚴謹認真的態(tài)度,以加強培養(yǎng)學生精益求精的大國工匠精神。元素3:科學思維方法數(shù)據(jù)采集和存儲有不同的技術(shù)和方案,需要根據(jù)數(shù)據(jù)需求、數(shù)據(jù)來源類型等進行科學分析、綜合權(quán)衡確定。因此,課程設(shè)計中需要加強培養(yǎng)學生歸納總結(jié)、邏輯推理、逆向思維、突破創(chuàng)新等方面的科學思維方法。元素4:科技報國的家國情懷和使命擔當通過國內(nèi)外大數(shù)據(jù)技術(shù)進展的比較,既說明我國在相關(guān)產(chǎn)業(yè)和學術(shù)領(lǐng)域取得的成就,又明確自身不足和差距,以增強學生的民族自豪感和文化自信,同時激發(fā)學生科技報國的家國情懷和使命擔當。本課程將分別從線下教學、上機和線上課程管理等方面加以設(shè)計,將上述思政元素融入到相應(yīng)環(huán)節(jié),努力實現(xiàn)全過程、全方位的育人新方案。1、教學環(huán)節(jié)的課程思政設(shè)計將思政元素穿插在各章節(jié)的知識點講解中,有機融入課程教學,達到“春風化雨、潤物無聲”的育人效果。本課程的教學內(nèi)容共分為8章,表1為對教學大綱進行改進后的具體方案。表1各章節(jié)中知識目標與思政教育的融合點教學章節(jié)知識目標與思政元素的案例設(shè)計第一章概述知識目標1.了解數(shù)據(jù)科學相關(guān)概念及數(shù)據(jù)分析完整過程;2.理解數(shù)據(jù)采集與處理與其他學科和課程關(guān)系;3.理解數(shù)據(jù)類型、數(shù)據(jù)存儲和大數(shù)據(jù)相關(guān)技術(shù);4.了解Python相關(guān)數(shù)據(jù)科學及數(shù)據(jù)采集與處理工具等。思政元素設(shè)計1.結(jié)合我國相關(guān)技術(shù)發(fā)展現(xiàn)狀、成就和不足,激發(fā)學生愛國主義精神和學習動力。2.引申數(shù)據(jù)科學中的數(shù)據(jù)隱私、科學倫理等問題,培養(yǎng)學生樹立職業(yè)道德和職業(yè)倫理意識。第二章Python基礎(chǔ)知識目標1.了解Python語言的特點和相關(guān)開發(fā)環(huán)境;2.掌握Python基本語法、控制結(jié)構(gòu)、異常與處理及函數(shù)的封裝和使用等;3.理解Python常用數(shù)據(jù)類型和數(shù)據(jù)結(jié)構(gòu)如列表、元組、字典和集合等的特點,熟練掌握其常用操作方式。思政元素設(shè)計通過函數(shù)和類的抽象與封裝及編程錯誤常見解決方法,融入馬克思辯證唯物主義和科學思考方法;并結(jié)合業(yè)界編程規(guī)范提醒學生要養(yǎng)成良好的編碼習慣,逐步樹立良好的職業(yè)素養(yǎng)。第三章第三章Numpy與Pandas基礎(chǔ)知識目標1.了解Numpy和Pandas的常用數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型及其用途;2.掌握Numpy多維數(shù)組的創(chuàng)建、存取、運算及數(shù)組間的合并拆分等常見操作;3.理解Pandas中Series和Dataframe的特點及與Numpy多維數(shù)組的區(qū)別,掌握它們的創(chuàng)建、存取、運算等常用操作方法。思政元素設(shè)計Numpy和Pandas是數(shù)據(jù)科學中數(shù)據(jù)處理環(huán)節(jié)最常用的模塊,通過這些模塊與Python自身數(shù)據(jù)類型如列表和元組的比較,突出Numpy和Pandas在數(shù)據(jù)存取和處理方面的專業(yè)專注、精益求精的獨特優(yōu)點,強調(diào)“術(shù)業(yè)有專攻”的工匠精神。第四章數(shù)據(jù)可視化知識目標1.了解數(shù)據(jù)可視化概念、相關(guān)分類和應(yīng)用;2.理解數(shù)據(jù)可視化在數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析中的作用及模塊功能差異;3.掌握數(shù)據(jù)可視化模塊Matplotlib、Seaborn等的編程接口和使用方法;4.熟練使用Python編程進行不同類型的數(shù)據(jù)可視化展示和分析。思政元素設(shè)計通過古詩“橫看成嶺側(cè)成峰,遠近高低各不同”,啟發(fā)學生理解不同的數(shù)據(jù)可視化類型和方法對應(yīng)的效果存在差異,其視角和維度不同,可視化效果也存在差異;并通過具體的數(shù)據(jù)實例,課堂進行數(shù)據(jù)可視化分析展示,觀察不同圖形類型的展現(xiàn)效果差異,培養(yǎng)學生熱愛中國傳統(tǒng)文化并樹立數(shù)據(jù)分析的科學探索和認真細致的工匠精神。第五章文件讀寫與操作知識目標1.了解不同的文件類型如CSV、XML、JSON、HDF等的數(shù)據(jù)組織格式;2.理解Python對象和數(shù)據(jù)的序列化與反序列化概念和方法;3.掌握Python中對本地文件的讀寫相關(guān)模塊和使用方法;4.熟練編寫文件讀寫相關(guān)模塊和數(shù)據(jù)處理的應(yīng)用程序。思政元素設(shè)計1.通過不同數(shù)據(jù)格式如HDF、JSON、XML、Excel等的介紹,提醒學生在數(shù)據(jù)交換的標準規(guī)范方面,我國雖然在相關(guān)行業(yè)定義了一些規(guī)范,但國際通用標準的話語權(quán)還相對缺乏,從而激發(fā)學生科技報國的責任感和使命感,培養(yǎng)家國情懷和使命擔當。2.通過示例文件讀取常見的亂碼問題,進行漢字與西文字符的計算機編碼比較,引入東西方文化差異,強調(diào)漢字表現(xiàn)的豐富性和語言魅力,引導學生自覺傳承和弘揚中華優(yōu)秀傳統(tǒng)文化,加強愛國主義情懷培養(yǎng)。第六章統(tǒng)計與概率基礎(chǔ)知識目標1.了解離散變量、連續(xù)變量類型及對應(yīng)描述性統(tǒng)計;2.理解不同類型變量的統(tǒng)計分布特征和統(tǒng)計測量;3.掌握基于Python的查看數(shù)據(jù)特征分布及描述性統(tǒng)計方法;4.熟練掌握數(shù)據(jù)查看、統(tǒng)計和概率分布的Python編程。思政元素設(shè)計數(shù)據(jù)處理前需要觀察數(shù)據(jù)的總體特征,對于不同類型變量有不同的觀察數(shù)據(jù)特征方法,提醒學生注意比較和總結(jié)不同方法的優(yōu)缺點,并引用《三國演義》中諸葛亮的“觀其大略,不求甚解”,將其改為“觀大略,求甚解”,強調(diào)在數(shù)據(jù)處理和分析中,需要首先查看數(shù)據(jù)總體特征、概率分布等以“觀大略”,然后還要注重細節(jié)“求甚解”以便發(fā)現(xiàn)問題和規(guī)律,從而既讓學生了解中國的傳統(tǒng)文化,又培養(yǎng)了科學思維方法和工匠精神。第七章數(shù)據(jù)清洗與預(yù)處理知識目標1.了解數(shù)據(jù)清洗和預(yù)處理的一般方法和原理;2.掌握基于Python的數(shù)據(jù)清洗和預(yù)處理相關(guān)模塊和方法;3.熟練掌握數(shù)據(jù)連接合并及聚合統(tǒng)計的Python模塊和編程。思政元素設(shè)計案例教學:通過含有異常值、空值的實例數(shù)據(jù),讓學生進行異常值檢測和空值填充操作,比較處理前后的統(tǒng)計和分析結(jié)果差異,引發(fā)學生思考數(shù)據(jù)處理和數(shù)據(jù)質(zhì)量的重要性和影響,培養(yǎng)學生嚴謹求實、精益求精的大國工匠精神。第八章網(wǎng)絡(luò)數(shù)據(jù)采集知識目標1.了解HTML、DOM數(shù)據(jù)組織形式和網(wǎng)絡(luò)爬蟲相關(guān)模塊與技術(shù);2.理解網(wǎng)站交互模式和網(wǎng)絡(luò)爬蟲的基本原理與流程;3.掌握常用網(wǎng)絡(luò)爬取相關(guān)模塊如Pandas、bs4、urllib、requests、selenium等的編程接口和使用方法;4.熟練編寫網(wǎng)絡(luò)數(shù)據(jù)爬取和HTML數(shù)據(jù)解析的Python程序。思政元素設(shè)計結(jié)合2021年國家頒布的《數(shù)據(jù)安全法》和《個人信息保護法》,引用古語“君子愛財,取之有道”,提示學生從網(wǎng)絡(luò)“爬取數(shù)據(jù)”也要遵守法律和職業(yè)道德。通過比較不同網(wǎng)站如百度、京東、谷歌、搜狐的robots.txt,讓學生了解網(wǎng)站公開的爬蟲聲明,提醒數(shù)據(jù)濫用可能造成的法律后果和社會影響,強化學生的職業(yè)操守和職業(yè)道德培養(yǎng)。第九章關(guān)系數(shù)據(jù)庫連接與訪問知識目標1.了解關(guān)系數(shù)據(jù)庫的基本概念、原理、知識和常用SQL操作,理解關(guān)系數(shù)據(jù)庫ACID特性和關(guān)系模型結(jié)構(gòu);2.了解嵌入式關(guān)系數(shù)據(jù)庫SQLite的特點和訪問方式,掌握基于Python語言訪問SQLite數(shù)據(jù)庫操作方法;3.了解網(wǎng)絡(luò)關(guān)系數(shù)據(jù)庫MySQL的特點和訪問方式,掌握基于Python模塊pymysql、SQLAlchemy及Pandas訪問MySQL數(shù)據(jù)庫操作方法。思政元素設(shè)計歸納和演繹是常用的科學方法,通過關(guān)系數(shù)據(jù)庫的連接、查詢和分組統(tǒng)計的SQL操作,提示學生比較基于Pandas的不同數(shù)據(jù)對象的連接和聚合統(tǒng)計方法的差異,并進行歸納總結(jié),找出相似點和差異,從而在加深已有知識橫向和縱向聯(lián)系與理解基礎(chǔ)上,培養(yǎng)學生科學的思維方法。通過提供的關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫實例練習,提高學生正確認識問題、分析問題和解決問題的能力。第十章大數(shù)據(jù)存儲與訪問技術(shù)知識目標1.了解大數(shù)據(jù)相關(guān)概念、關(guān)鍵技術(shù)、計算模式和NoSQL數(shù)據(jù)庫分類,理解非關(guān)系數(shù)據(jù)庫NoSQL的CAP定理和BASE原則;2.了解NoSQL類數(shù)據(jù)庫MongoDB的特點和存儲模式,掌握基于Python的MongoDB操作步驟及相關(guān)模塊和方法。思政元素設(shè)計大數(shù)據(jù)典型數(shù)據(jù)庫MongoDB其中一項特點,是其關(guān)鍵字或?qū)傩阅軌騽討B(tài)修改和增刪,通過容納不同的屬性和格式,使其應(yīng)對互聯(lián)網(wǎng)大數(shù)據(jù)的存取極其方便和靈活,并能靈活擴展以適應(yīng)大規(guī)模數(shù)據(jù)的存取?!坝腥菽舜蟆笔侵袊囊豁梻鹘y(tǒng)文化,結(jié)合MongoDB的“有容”帶來的大數(shù)據(jù)高效存儲特征,弘揚中華傳統(tǒng)優(yōu)秀文化,從而培養(yǎng)愛國主義情懷。第十一章數(shù)據(jù)集成與ETL技術(shù)知識目標1.了解數(shù)據(jù)集成基本概念、分類、常見方法和相關(guān)產(chǎn)品;2.了解ETL相關(guān)技術(shù)和常用ETL工具,理解常見ETL相關(guān)技術(shù)和基本操作方法。思政元素設(shè)計通過介紹我國各級政府的政務(wù)信息資源共享平臺建設(shè)及國產(chǎn)優(yōu)秀的相關(guān)ETL軟件產(chǎn)品,培養(yǎng)學生的民族自豪感和愛國熱情。2、上機環(huán)節(jié)的課程思政設(shè)計本課程特別強調(diào)實踐動手和解決問題的能力,遵循循序漸進、前后聯(lián)系、橫向比較等原則和方法,根據(jù)課程進度每兩周布置一個具有一定挑戰(zhàn)性的上機編程題。題目的選擇和數(shù)據(jù)實例選取更偏重中國情景,同時注重實用性、趣味性和復(fù)雜性,而且不提供標準答案,鼓勵學生參考課程案例和綜合比較已有技術(shù)方法獨立解決問題,對與眾不同的解決方法和創(chuàng)新思維給予高分獎勵,對雷同和不符合規(guī)范要求的作業(yè)進行扣分懲罰,從而激發(fā)學生的科學思維方法和創(chuàng)新精神,并培養(yǎng)良好的編程習慣和精益求精的大國工匠精神。典型的上機編程題目設(shè)計思路如下:Python基本編程作業(yè):要求對某一類計算實現(xiàn)函數(shù)或類封裝,并參考編碼規(guī)范編程實現(xiàn),強化學生良好的編程習慣和抽象思維能力,從而加強科學思維方法和工匠精神培養(yǎng)。本地文件、網(wǎng)絡(luò)爬蟲、數(shù)據(jù)庫存取作業(yè):采集示例數(shù)據(jù)中包含中文字符編碼、空值和異常值等,獲取數(shù)據(jù)容易出現(xiàn)亂碼、數(shù)據(jù)類型轉(zhuǎn)換等錯誤問題,提示學生需要考慮中文編碼原理和處理技術(shù)、代碼錯誤跟蹤定位方法等,提高學生正確認識問題、分析問題和解決問題的能力,并通過中國情景和中文文化特點,培養(yǎng)學生的愛國主義情懷。數(shù)據(jù)可視化作業(yè):提供示例數(shù)據(jù),要求使用不同的數(shù)據(jù)可視化模塊和方法,實現(xiàn)不同類型的圖形展示。通過比較不同的方法技術(shù)和可視化圖形類型的特點和差異,加強學生的歸納和演繹的科學思維方法培養(yǎng)。3、線上課程管理的思政設(shè)計將教學課件、視頻資料、題庫、作業(yè)和練習等布置到泛雅網(wǎng)絡(luò)教學平臺,并設(shè)置學習任務(wù)點、練習作業(yè)和章節(jié)測驗督促學生進行自主學習和練習。作業(yè)和章節(jié)測驗都是通過線上發(fā)布、線上收集、線上批閱和回復(fù),學生可以及時檢查成績和問題,并能夠通過老師的批復(fù)意見了解自己問題所在;線上還可以發(fā)布一些活動,如搶答、討論、問卷調(diào)研等,促進學生更多的參與課堂活動和課程建設(shè)?;谧鳂I(yè)規(guī)范、實現(xiàn)復(fù)雜度和區(qū)別度等的獎懲機制,鼓勵學生獨立解決問題、創(chuàng)新思考不同方案、遵守編碼規(guī)范和上機要求,并通過學生作業(yè)與老師批語的反饋機制,逐步培養(yǎng)學生的嚴謹認真、精益求精的工匠精神和勇于創(chuàng)新的科學思維方法。三、教案設(shè)計(一)教學目標通過講解網(wǎng)絡(luò)數(shù)據(jù)爬?。淳W(wǎng)絡(luò)爬蟲)的相關(guān)技術(shù)和方法,使學生理解網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)和交互訪問模式,掌握常用的網(wǎng)絡(luò)爬蟲Python相關(guān)模塊的編程接口和使用方法,并結(jié)合爬蟲聲明、反爬蟲方法及不同數(shù)據(jù)存儲技術(shù),不斷提高學生正確認識問題、分析問題和解決問題的綜合能力,培養(yǎng)學生精益求精的大國工匠精神,并引導學生自覺實踐數(shù)據(jù)科學倫理和社會主義職業(yè)道德。(二)教學內(nèi)容教學內(nèi)容:第七章中的網(wǎng)絡(luò)爬蟲技術(shù),課程將分為兩個案例進行講授,即靜態(tài)網(wǎng)頁(如本校官網(wǎng)教務(wù)處網(wǎng)站等)和動態(tài)網(wǎng)頁(如國際城市天氣查詢網(wǎng)站、京東商城等)的數(shù)據(jù)獲取相關(guān)Python模塊、技術(shù)和編程方法。教學重點:HTML網(wǎng)頁的數(shù)據(jù)組織格式、網(wǎng)頁交互模式和解析方法、動態(tài)網(wǎng)頁技術(shù)和相關(guān)爬蟲技術(shù)。教學難點:基于DOM模型解析HTML網(wǎng)頁內(nèi)容,對于動態(tài)網(wǎng)頁內(nèi)容如何正確獲取內(nèi)容并解決亂碼和返回空值問題,需要培養(yǎng)學生仔細觀察、耐心謹慎的科學素養(yǎng)和分析問題、解決問題的能力。(三)思政引入主要思政元素的融入方法如下:通過查看網(wǎng)站的robots.txt文件中的爬蟲聲明,引用中國古語“君子愛財,取之有道”,提醒學生從網(wǎng)絡(luò)“爬取數(shù)據(jù)”也要遵守法律和職業(yè)道德,注意數(shù)據(jù)濫用可能造成的法律后果和社會影響,強化學生的職業(yè)操守和職業(yè)道德培養(yǎng),并加強中華優(yōu)秀傳統(tǒng)文化教育。通過網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)查看和解析過程,提醒學生注意中文和英文的不同編碼方法和解析問題,說明中華漢字表示的豐富性和計算機處理的復(fù)雜性,需要仔細觀察網(wǎng)頁結(jié)構(gòu)和編碼方式,培養(yǎng)學生精益求精、嚴謹認真的大國工匠精神,并弘揚中華傳統(tǒng)文化。通過介紹不同類型網(wǎng)頁的解析方法和技術(shù),引導學生進行橫向和縱向比較,歸納總結(jié)并分析不同技術(shù)方法的優(yōu)缺點和應(yīng)用場景,培養(yǎng)學生的科學素養(yǎng)和創(chuàng)新思維能力。通過展示并比較國內(nèi)外不同的網(wǎng)站開發(fā)和反爬蟲技術(shù),介紹互聯(lián)網(wǎng)技術(shù)在我國的廣泛應(yīng)用和效果,與國外相比的技術(shù)應(yīng)用不足和優(yōu)勢,激發(fā)學生科技報國的家國情懷和使命擔當。(四)教學手段與方法課程采用線上線下相結(jié)合的教學方法,結(jié)合具體網(wǎng)站案例講解靜態(tài)和動態(tài)網(wǎng)頁技術(shù)、交互模式和數(shù)據(jù)解析方法,并在爬蟲聲明、編碼解析和問題處理等不同環(huán)節(jié)與多種“課程思政”元素相融合。線下采用PPT多媒體授課、案例和編程演示及學生同步練習方式,線上采用作業(yè)發(fā)布、問題測驗方式加強學生實踐和思考。(五)教學過程與詳細設(shè)計課堂總體過程:先介紹相關(guān)理論知識和方法工具(10~15分鐘),然后演示相關(guān)方法工具或播放視頻資源(10分鐘左右),接著學生根據(jù)聽課與觀察老師操作演示自行操作練習(10~15分鐘),最后在網(wǎng)絡(luò)教學平臺發(fā)布1~2個問題啟發(fā)學生思考總結(jié)(5~10分鐘)。在課堂授課過程中,融入思政元素,并啟發(fā)學生思考、比較和總結(jié)。HTML介紹與靜態(tài)網(wǎng)頁爬?。?)講授內(nèi)容HTML與DOM結(jié)構(gòu)urllib.request獲取網(wǎng)頁方法BeautifulSoup解析網(wǎng)頁內(nèi)容其他模塊解析網(wǎng)頁內(nèi)容方法和比較,如Pandas讀取Table格式(2)案例引入網(wǎng)站爬取聲明和職業(yè)道德分別查看百度學術(shù)和谷歌學術(shù)網(wǎng)站根目錄下的robots.txt文件,內(nèi)容如圖1所示。介紹我國已在2021年頒布實施《數(shù)據(jù)安全法》和《個人信息保護法》,并引用中國古語“君子愛財,取之有道”,提醒學生從網(wǎng)絡(luò)“爬取數(shù)據(jù)”也要遵守法律和職業(yè)道德,注意數(shù)據(jù)濫用可能造成的法律后果和社會影響。圖1.中外網(wǎng)站爬取聲明示例示例網(wǎng)站和HTML結(jié)構(gòu)瀏覽器中打開學校教務(wù)處網(wǎng)站(),查看部門職責欄目網(wǎng)頁的展示內(nèi)容及網(wǎng)頁源碼和編碼(或字符集charset),內(nèi)容如圖2所示。介紹中文和英文的不同編碼方法和解析問題,而中文又有多種編碼和字符集,如UTF-8、GB2312等,如果中文字符集和編碼設(shè)置不當,則會導致獲取內(nèi)容亂碼。因此,提醒學生需要仔細觀察網(wǎng)頁結(jié)構(gòu)和編碼方式,養(yǎng)成精益求精、嚴謹認真的學習和職業(yè)習慣。另外,提醒學生注意示例網(wǎng)頁特殊的Table標簽結(jié)構(gòu),除了可以使用urllib.request和BeautifulSouprequests模塊基于DOM模型解析之外,還可以使用Pandas的read_html方法更快捷地獲取表格內(nèi)容,引導學生注意觀察和比較,歸納總結(jié)并分析不同技術(shù)方法的優(yōu)缺點和應(yīng)用場景,培養(yǎng)學生的科學素養(yǎng)和創(chuàng)新思維能力。圖2.示例網(wǎng)頁結(jié)構(gòu)與字符集編碼(3)線上活動--思考題爬取某些網(wǎng)頁的中文內(nèi)容,為何出現(xiàn)亂碼?如何解決該問題?動態(tài)網(wǎng)頁技術(shù)和數(shù)據(jù)爬?。?)講授內(nèi)容動態(tài)網(wǎng)頁技術(shù)Selenium的安裝與使用爬取動態(tài)網(wǎng)頁方法(2)案例引入給出國外天氣查詢網(wǎng)站()和國內(nèi)的百度指數(shù)()與京東網(wǎng)站()示例,查看其網(wǎng)頁源碼并進行比較,然后分別使用selenium對上述網(wǎng)站進行爬取數(shù)據(jù),發(fā)現(xiàn)百度指數(shù)和京東產(chǎn)品評論數(shù)據(jù)更難以獲取。借此介紹我國互聯(lián)網(wǎng)技術(shù)的深入廣泛應(yīng)用,其技術(shù)應(yīng)用與國外相比更普及和便利,而技術(shù)深度和難度也相對較高,從而激發(fā)學生科技報國的家國情懷和使命擔當。(3)線上活動--思考題某些網(wǎng)頁通過瀏覽器明明能看到的數(shù)據(jù),為什么通過查看源碼方式卻看不到?如何解決該問題?(六)教學效果分析(1)通過學生常用熟悉的網(wǎng)站,循序漸進引導學生思考網(wǎng)站背后的網(wǎng)頁內(nèi)容組織格式、編碼格式、訪問模式和爬取數(shù)據(jù)方法等,提高了教學的實用性和趣味性,激發(fā)學生的學習探索興趣。并通過國內(nèi)外網(wǎng)站技術(shù)比較及爬蟲技術(shù)難度和解析數(shù)據(jù)復(fù)雜度提高的過程中,提高學生分析問題和解決問題的能力,培養(yǎng)學生精益求精的大國工匠精神,激發(fā)學生科技報國的家國情懷和使命擔當。(2)通過融入當前國家法律及行業(yè)規(guī)范,引導學生深刻理解并自覺實踐數(shù)據(jù)科學倫理,遵紀守法,強化學生的職業(yè)操守和職業(yè)道德培養(yǎng)。(3)通過引用中國優(yōu)秀古語和介紹漢字編碼規(guī)范,弘揚了中華傳統(tǒng)文化。(4)通過線上設(shè)置討論問題和課堂留出的同步練習時間,避免單調(diào)的“填鴨式”教育方法,并通過有機融入國家當前實證和傳統(tǒng)文化,達到思政元素的“潤物無聲”效果?!稊?shù)據(jù)采集與處理》課程思政案例設(shè)計專業(yè)名稱:數(shù)據(jù)采集與處理課程性質(zhì):□公共課R專業(yè)課課程類別:□理論課□實踐課R理論實踐一體課授課對象:數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)、信息管理與信息系統(tǒng)、數(shù)理統(tǒng)計等專業(yè)本專科學生一、課程簡介數(shù)據(jù)采集與處理是大數(shù)據(jù)處理與分析的重要環(huán)節(jié),對應(yīng)課程也是數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)培養(yǎng)的重要環(huán)節(jié)。本課程主要內(nèi)容涉及數(shù)據(jù)科學與大數(shù)據(jù)應(yīng)用中數(shù)據(jù)采集的各類數(shù)據(jù)來源、數(shù)據(jù)格式、數(shù)據(jù)表示和加工處理及數(shù)據(jù)存儲的原理和技術(shù),并以Python為主要開發(fā)語言,通過實戰(zhàn)項目例子,帶領(lǐng)學生完成從數(shù)據(jù)采集、數(shù)據(jù)表示、轉(zhuǎn)換加工到數(shù)據(jù)存儲的完整開發(fā)過程,使學生掌握相關(guān)開發(fā)方法、工具和技巧。通過課程學習使學生熟悉國內(nèi)數(shù)據(jù)采集與處理相關(guān)技術(shù)的發(fā)展狀況及其應(yīng)用,增強國有自主知識產(chǎn)權(quán)技術(shù)的自豪感和民族自信,并通過傳統(tǒng)文化與現(xiàn)代科學方法的融合,培養(yǎng)學生的科學思維方法和精益求精的大國工匠精神。二、思政元素本課程屬于理工科類課程,教學中把馬克思主義立場觀點方法的教育與科學精神的培養(yǎng)結(jié)合起來,提高學生正確認識問題、分析問題和解決問題的能力。深化職業(yè)理想和職業(yè)道德教育,注重強化學生工程倫理教育,培養(yǎng)學生精益求精的大國工匠精神,激發(fā)學生科技報國的家國情懷和使命擔當。本課程設(shè)計主要包含的思政元素:元素1:職業(yè)理想和職業(yè)道德教育數(shù)據(jù)是否能夠在合理、合規(guī)及合法的情況下進行采集、存儲和使用,直接關(guān)系到大數(shù)據(jù)和人工智能技術(shù)是否能在各行各業(yè)有效發(fā)揮積極的作用。因此,課程設(shè)計不但要注意培養(yǎng)學生遠大的職業(yè)理想,還要加強學生的職業(yè)道德教育。元素2:精益求精的大國工匠精神數(shù)據(jù)質(zhì)量直接影響數(shù)據(jù)分析的準確性和有效性,從而影響基于數(shù)據(jù)決策的效果。因此,課程設(shè)計需要在數(shù)據(jù)處理環(huán)節(jié)中強調(diào)一絲不茍、嚴謹認真的態(tài)度,以加強培養(yǎng)學生精益求精的大國工匠精神。元素3:科學思維方法數(shù)據(jù)采集和存儲有不同的技術(shù)和方案,需要根據(jù)數(shù)據(jù)需求、數(shù)據(jù)來源類型等進行科學分析、綜合權(quán)衡確定。因此,課程設(shè)計中需要加強培養(yǎng)學生歸納總結(jié)、邏輯推理、逆向思維、突破創(chuàng)新等方面的科學思維方法。元素4:科技報國的家國情懷和使命擔當通過國內(nèi)外大數(shù)據(jù)技術(shù)進展的比較,既說明我國在相關(guān)產(chǎn)業(yè)和學術(shù)領(lǐng)域取得的成就,又明確自身不足和差距,以增強學生的民族自豪感和文化自信,同時激發(fā)學生科技報國的家國情懷和使命擔當。三、教案設(shè)計以《數(shù)據(jù)采集與處理》課程中的第八章“網(wǎng)絡(luò)數(shù)據(jù)采集”為例,結(jié)合網(wǎng)站開發(fā)和網(wǎng)絡(luò)爬蟲的課程專業(yè)知識,選擇合適的內(nèi)容切入點,有機融入中國傳統(tǒng)文化、國家法律法規(guī)、現(xiàn)代職業(yè)道德等內(nèi)容,達到潤物無聲的思政案例教學效果。第七章網(wǎng)絡(luò)爬蟲技術(shù)(一)教學目標通過講解網(wǎng)絡(luò)數(shù)據(jù)采集(即網(wǎng)絡(luò)爬蟲)的相關(guān)技術(shù)和方法,使學生理解網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)和交互訪問模式,掌握常用的網(wǎng)絡(luò)爬蟲Python相關(guān)模塊的編程接口和使用方法,并結(jié)合爬蟲聲明、反爬蟲方法及不同數(shù)據(jù)存儲技術(shù),不斷提高學生正確認識問題、分析問題和解決問題的綜合能力,培養(yǎng)學生精益求精的大國工匠精神,并引導學生自覺實踐數(shù)據(jù)科學倫理和社會主義職業(yè)道德。(二)教學內(nèi)容本章教學內(nèi)容:網(wǎng)頁原理與組織結(jié)構(gòu);網(wǎng)頁編碼與解析技術(shù);Python爬蟲相關(guān)模塊與技術(shù);靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁比較與爬??;爬蟲、反爬蟲與職業(yè)道德課堂設(shè)計思路:本章課堂設(shè)計思路如圖1所示:圖1課堂設(shè)計思路圖教學重點:HTML網(wǎng)頁的數(shù)據(jù)組織格式和網(wǎng)頁交互模式;網(wǎng)頁內(nèi)容解析原理與方法;動態(tài)網(wǎng)頁和相關(guān)爬蟲技術(shù)。教學難點:基于DOM模型解析HTML網(wǎng)頁內(nèi)容;動態(tài)網(wǎng)頁內(nèi)容獲取技術(shù);內(nèi)容解析與編碼和亂碼問題。(三)思政引入本章課程計劃從兩個方面引入課程思政,第一個方面是 HTML介紹與靜態(tài)網(wǎng)頁爬取,可以從中國傳統(tǒng)文化、科學思維方法、工匠精神等多個點無縫融入課程思政內(nèi)容。第二個方面是動態(tài)網(wǎng)頁技術(shù)和數(shù)據(jù)爬取,可以從我國網(wǎng)絡(luò)應(yīng)用和網(wǎng)頁技術(shù)提升角度,使學生了解我國的行業(yè)和技術(shù)發(fā)展現(xiàn)狀,增強科技報國的使命感和自豪感,提高學習的能動性。HTML介紹與靜態(tài)網(wǎng)頁爬取思政案例:陶淵明與諸葛亮學習方法中國晉宋之際文學家陶淵明,在《五柳先生傳》中寫道:“好讀書,不求甚解;每有會意,便欣然忘食”,提倡好讀書,還要真正會意;而中國三國時期杰出的軍事家諸葛亮讀書也是“獨觀其大略”。到了現(xiàn)代,我們可將他們的讀書學習方法,修改為“觀大略,求甚解”,強調(diào)在數(shù)據(jù)處理和分析中,需要首先查看數(shù)據(jù)總體特征、概率分布等以“觀大略”,然后還要分析具體的標簽對、嵌套層次和內(nèi)容構(gòu)成等注重細節(jié)“求甚解”,以便發(fā)現(xiàn)問題和規(guī)律,正確解析網(wǎng)頁內(nèi)容,從而培養(yǎng)學生精益求精、嚴謹認真的大國工匠精神,掌握科學思維方法,弘揚中華傳統(tǒng)文化。思政案例:學校示例網(wǎng)站和HTML結(jié)構(gòu)瀏覽器中打開學校教務(wù)處網(wǎng)站(),查看部門職責欄目網(wǎng)頁的展示內(nèi)容及網(wǎng)頁源碼和編碼(或字符集charset),內(nèi)容如圖2所示。提醒學生注意中文和英文的不同編碼方法和解析問題,說明中華漢字表示的豐富性和計算機處理的復(fù)雜性,需要仔細觀察網(wǎng)頁結(jié)構(gòu)和編碼方式。同時,介紹中文和英文的不同編碼方法和解析技術(shù),而中文又有多種編碼和字符集,如UTF-8、GB2312等,如果中文字符集和編碼設(shè)置不當,則會導致獲取內(nèi)容亂碼。另外,介紹我國對于漢字的解析和自然語言處理方面的技術(shù),如百度語言處理技術(shù),開源JIEBA模塊等,對漢字的解析、編碼與處理等都已基本成熟并得到廣泛應(yīng)用。通過中國傳統(tǒng)文化和當前我國技術(shù)發(fā)展現(xiàn)狀介紹,增強學生科技報國的使命感和自豪感。圖2.示例網(wǎng)頁結(jié)構(gòu)與字符集編碼另外,提醒學生注意示例網(wǎng)頁特殊的Table標簽結(jié)構(gòu),除了可以使用urllib.request和BeautifulSouprequests模塊基于DOM模型解析之外,還可以使用Pandas的read_html方法更快捷地獲取表格內(nèi)容,引導學生注意觀察和比較,歸納總結(jié)并分析不同技術(shù)方法的優(yōu)缺點和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論