《數(shù)據(jù)采集與清洗》課程教學(xué)大綱_第1頁
《數(shù)據(jù)采集與清洗》課程教學(xué)大綱_第2頁
《數(shù)據(jù)采集與清洗》課程教學(xué)大綱_第3頁
《數(shù)據(jù)采集與清洗》課程教學(xué)大綱_第4頁
《數(shù)據(jù)采集與清洗》課程教學(xué)大綱_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)采集與清洗課程教學(xué)大綱一、課程基本信息課程編號(hào):12162課程名稱:數(shù)據(jù)采集與清洗英文名稱:Data Collection and Cleaning課程類型:專業(yè)課課程要求:必修學(xué)時(shí)/學(xué)分:32/2 (講課學(xué)時(shí):24 實(shí)驗(yàn)學(xué)時(shí):8)先修課程:程序設(shè)計(jì)語言、數(shù)據(jù)結(jié)構(gòu)與算法、數(shù)據(jù)庫系統(tǒng)原理后續(xù)課程:Python數(shù)據(jù)分析與應(yīng)用、數(shù)據(jù)分析與挖掘?qū)嵺`適用專業(yè):數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)二、課程描述數(shù)據(jù)采集、清洗是大數(shù)據(jù)分析的重要步驟,旨在引導(dǎo)學(xué)生掌握數(shù)據(jù)獲取的方法和工具,發(fā)現(xiàn)并糾正數(shù)據(jù)中可能存在的錯(cuò)誤和不一致,選用適當(dāng)?shù)姆椒ㄟM(jìn)行清理,建立有效、一致、可靠的數(shù)據(jù)源。通過對(duì)基本概念和方法的深刻理解,掌握解決實(shí)

2、際問題的抽象方法;通過大數(shù)據(jù)采集和清洗流程的分解,掌握解決問題的工作步驟;通過案例,建立分析數(shù)據(jù)采集、清洗的實(shí)際問題和給出解決方案的能力;通過將應(yīng)用場景與數(shù)據(jù)采集、清洗常用軟件工具的結(jié)合,訓(xùn)練基本操作技術(shù)并形成利用理論結(jié)合現(xiàn)代化工具解決數(shù)據(jù)科學(xué)領(lǐng)域中工程問題的能力。 通過課程學(xué)習(xí),使學(xué)生能夠應(yīng)用數(shù)據(jù)采集和清洗的基本原理和方法、常用工具軟件獲得并存儲(chǔ)有效、可靠的批量數(shù)據(jù),解釋實(shí)驗(yàn)中的現(xiàn)象和數(shù)據(jù),并通過信息綜合得到合理有效的結(jié)論。課程教學(xué)目標(biāo)1. 能對(duì)大數(shù)據(jù)處理中的數(shù)據(jù)采集、清洗基本問題進(jìn)行分析,運(yùn)用數(shù)據(jù)采集和清洗的基本技術(shù)和方法制定解決方案。(支持畢業(yè)能力要求2)2. 能綜合運(yùn)用先修課程的理論和

3、邏輯思維,結(jié)合該課程的方法和技術(shù)對(duì)數(shù)據(jù)采集和清洗階段中的復(fù)雜問題、現(xiàn)象和數(shù)據(jù)進(jìn)行綜合分析、解釋,根據(jù)數(shù)據(jù)不同給出相應(yīng)的數(shù)據(jù)清洗方法,并論證方法的適用性和有效性。(支持畢業(yè)能力要求2)3. 能夠針對(duì)大數(shù)據(jù)領(lǐng)域中的具體應(yīng)用問題選擇與使用恰當(dāng)?shù)臄?shù)據(jù)采集工具,對(duì)大數(shù)據(jù)工程問題進(jìn)行模擬和實(shí)現(xiàn)。(支持畢業(yè)能力要求5) 4. 能夠針對(duì)大數(shù)據(jù)領(lǐng)域中的具體應(yīng)用問題選擇與使用恰當(dāng)?shù)臄?shù)據(jù)清洗工具,對(duì)大數(shù)據(jù)工程問題進(jìn)行模擬和實(shí)現(xiàn)。(支持畢業(yè)能力要求5)四、教學(xué)內(nèi)容、安排及與教學(xué)目標(biāo)的對(duì)應(yīng)關(guān)系單元教學(xué)內(nèi)容單元教學(xué)目標(biāo)學(xué)時(shí)教學(xué)方式對(duì)應(yīng)課程教學(xué)目標(biāo)1一、技術(shù)概述1.1 大數(shù)據(jù)采集技術(shù)1.2 數(shù)據(jù)預(yù)處理技術(shù)1.3數(shù)據(jù)清洗概述

4、1.3.1 數(shù)據(jù)清洗簡介 1.3.2 數(shù)據(jù)標(biāo)準(zhǔn)化 1.3.3 數(shù)據(jù)倉庫簡介 (1)能正確闡述大數(shù)據(jù)處理的一般流程;(2)能準(zhǔn)確說明數(shù)據(jù)采集、清洗的概念;(3) 理解數(shù)據(jù)預(yù)處理工作的意義。2講授12二、數(shù)據(jù)采集基礎(chǔ)2.1 傳統(tǒng)數(shù)據(jù)采集技術(shù)2.1.1 數(shù)據(jù)采集概述2.1.2 數(shù)據(jù)采集系統(tǒng)架構(gòu)2.1.3 數(shù)據(jù)采集關(guān)鍵技術(shù)2.2 大數(shù)據(jù)采集基礎(chǔ)2.2.1 數(shù)據(jù)的發(fā)展2.2.2 大數(shù)據(jù)來源2.2.3 大數(shù)據(jù)采集技術(shù)(1)能闡述數(shù)據(jù)采集的系統(tǒng)架構(gòu);(2)能闡述數(shù)據(jù)采集的關(guān)鍵技術(shù);(3)了解大數(shù)據(jù)采集技術(shù)的發(fā)展?fàn)顩r。2講授13三、大數(shù)據(jù)采集架構(gòu)3.1 概述3.2 Chukwa數(shù)據(jù)采集3.3 Flume數(shù)據(jù)采

5、集3.4 Scribe數(shù)據(jù)采集3.5 Kafka數(shù)據(jù)采集(1)了解大數(shù)據(jù)采集的主流平臺(tái),并能闡述之間的差異。2講授自學(xué)1、34四、大數(shù)據(jù)遷移技術(shù)4.1 數(shù)據(jù)遷移概念4.2 數(shù)據(jù)遷移相關(guān)技術(shù)4.2.1 基于主機(jī)的遷移方式4.2.2 基于存儲(chǔ)的遷移方式4.2.3 備份恢復(fù)的方式4.2.4 基于主機(jī)邏輯卷的數(shù)據(jù)遷移4.2.5 基于數(shù)據(jù)庫的遷移技術(shù)4.2.6 服務(wù)器虛擬化的遷移4.2.7 其他數(shù)據(jù)遷移技術(shù)4.3 數(shù)據(jù)遷移工具4.3.1 Apache Sqoop4.3.2 ETL4.4 Kettle數(shù)據(jù)遷移實(shí)例(1)能解釋數(shù)據(jù)遷移的概念;(2)能說明針對(duì)不同應(yīng)用場景所采用的遷移技術(shù);(3)能說明主流數(shù)據(jù)

6、遷移工具的基本功能和特點(diǎn)。2講授1、35五、數(shù)據(jù)預(yù)處理技術(shù)5.1 數(shù)據(jù)的描述5.1.1 數(shù)據(jù)對(duì)象與屬性類型5.1.2 數(shù)據(jù)的統(tǒng)計(jì)描述5.1.3 數(shù)據(jù)相似性和相異性的度量方法5.2 數(shù)據(jù)預(yù)處理概述5.2.1 數(shù)據(jù)質(zhì)量5.2.2 數(shù)據(jù)預(yù)處理的主要任務(wù)5.3 數(shù)據(jù)清洗5.4 數(shù)據(jù)集成5.5 數(shù)據(jù)歸約5.6 數(shù)據(jù)變換(1) 能描述數(shù)據(jù)的屬性特征;(2)能闡述數(shù)據(jù)預(yù)處理的目標(biāo)和任務(wù);(3)能對(duì)數(shù)據(jù)預(yù)處理各階段的主要方法和技術(shù)進(jìn)行清晰的描述。2講授26六、數(shù)據(jù)格式與編碼6.1 文件文本格式6.1.1 常見文本格式6.1.2 xls及xlsx文件格式 6.1.3 JSON文本格式 6.1.4 HTML和XM

7、L文本格式 6.2 數(shù)據(jù)編碼 6.3 數(shù)據(jù)轉(zhuǎn)換 6.3.1 電子表格轉(zhuǎn)換 6.3.2 RDBMS數(shù)據(jù)轉(zhuǎn)換 (1) 能正確說明Windows和UNIX系統(tǒng)數(shù)據(jù)常規(guī)格式;(2)了解數(shù)據(jù)編碼和格式間相互轉(zhuǎn)換的基本方法。2講授17七、數(shù)據(jù)清洗基本技術(shù)方法7.1 ETL入門 7.1.1 ETL解決方案 7.1.2 ETL基本構(gòu)成 7.1.3 ETL技術(shù)選型 7.2 技術(shù)路線 7.2.1 文本清洗路線 7.2.2 RDBMS清洗路線 7.2.3 Web內(nèi)容清洗路線 7.3 ETL工具 7.3.1 ETL功能 7.3.2 開源ETL工具 7.4 ETL子系統(tǒng)(1) 能理解ETL的概念;(2)能掌握文本、關(guān)系

8、數(shù)據(jù)庫、Web數(shù)據(jù)清洗的基本技術(shù)路線法;(3)了解開源ETL工具的功能和工作過程。2講授自學(xué)1、48八、數(shù)據(jù)清洗常用工具及基本操作 8.1 Microsoft Excel數(shù)據(jù)清洗基本操作 8.2 Kettle簡介及基本操作 8.3 OpenRefine簡介及基本操作 8.4 DataWrangler簡介及基本操作8.5 Hawk簡介及基本操作(1) 能掌握主流數(shù)據(jù)清洗工具的使用及其適用場景,重點(diǎn)掌握Kettle的使用;(2) 能選擇適當(dāng)數(shù)據(jù)清洗工具對(duì)具體問題中的數(shù)據(jù)進(jìn)行清洗。2講授自學(xué)48.6 上機(jī)練習(xí)與實(shí)訓(xùn) 使用數(shù)據(jù)清洗工具進(jìn)行數(shù)據(jù)清洗練習(xí)使用數(shù)據(jù)清洗工具對(duì)具體問題中的數(shù)據(jù)進(jìn)行清洗。4實(shí)驗(yàn)1

9、、49九、數(shù)據(jù)抽取9.1 文本文件抽取 9.1.1 制表符文本抽取9.1.2 CSV文件抽取 9.2 Web數(shù)據(jù)抽取 9.2.1 HTML文件抽取 9.2.2 JSON數(shù)據(jù)抽取9.2.3 XML數(shù)據(jù)抽取 9.3 數(shù)據(jù)庫數(shù)據(jù)抽取 9.3.1 數(shù)據(jù)導(dǎo)入導(dǎo)出 9.3.2 ETL工具抽取(1)掌握實(shí)現(xiàn)文本文件、Web數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)抽取的基本知識(shí);(2) 掌握借助Kettle實(shí)現(xiàn)文本文件抽取、網(wǎng)頁文件抽取、數(shù)據(jù)庫數(shù)據(jù)抽取及增量抽取等。2講授1、49.4 上機(jī)練習(xí)與實(shí)訓(xùn) 增量數(shù)據(jù)抽取熟練使用Kettle工具和時(shí)間戳等方法對(duì)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行增量抽取。4實(shí)驗(yàn)1、410十、數(shù)據(jù)轉(zhuǎn)換與加載10.1 數(shù)據(jù)清洗轉(zhuǎn)換

10、10.2 數(shù)據(jù)質(zhì)量評(píng)估 10.3 數(shù)據(jù)加載 (1)掌握數(shù)據(jù)清洗的具體方法;(2)掌握數(shù)據(jù)轉(zhuǎn)換過程中的數(shù)據(jù)校驗(yàn)、錯(cuò)誤處理;(3)掌握數(shù)據(jù)加載和批量加載技術(shù)。2講授111十一、Web數(shù)據(jù)采集實(shí)例11.1 網(wǎng)頁結(jié)構(gòu) 11.2 網(wǎng)絡(luò)爬蟲概述11.2.1 網(wǎng)絡(luò)爬蟲的概念11.2.2 網(wǎng)絡(luò)爬蟲的抓取策略11.2.3 網(wǎng)頁更新策略11.3 常用網(wǎng)絡(luò)爬蟲方法11.4 網(wǎng)絡(luò)爬蟲工具11.5 Python爬蟲技術(shù)11.5.1 Python概述11.5.2 Python爬蟲基礎(chǔ)11.5.3 Python安裝11.5.4 Python爬蟲實(shí)例11.6 行為日志采集 11.7 文本數(shù)據(jù)處理(1) 了解網(wǎng)頁爬蟲技術(shù)采集W

11、eb數(shù)據(jù)的方法;(2) 了解行為日志分析方法。2講授自學(xué)2、3、412十二、RDBMS數(shù)據(jù)清洗實(shí)例 12.1 準(zhǔn)備工作12.1.1 準(zhǔn)備待清洗的數(shù)據(jù)集 12.1.2 搭建操作環(huán)境 12.1.3 數(shù)據(jù)導(dǎo)入MySQL12.2 數(shù)據(jù)庫數(shù)據(jù)清洗 12.2.1 缺失值清洗12.2.2 格式內(nèi)容清洗12.2.3 邏輯錯(cuò)誤清洗 12.2.4 非需求數(shù)據(jù)清洗 12.3 數(shù)據(jù)脫敏處理 (1)掌握關(guān)系型數(shù)據(jù)庫數(shù)據(jù)清洗方法;(2)掌握敏感數(shù)據(jù)脫敏處理方法。2講授2、3、4五、其他教學(xué)環(huán)節(jié)(課外教學(xué)環(huán)節(jié)、要求、目標(biāo))1. 自學(xué)數(shù)據(jù)清洗工具和Web數(shù)據(jù)采集實(shí)例單元要在授課前自學(xué)授課內(nèi)容,達(dá)到能運(yùn)用實(shí)例解釋基本概念的要求

12、。2. 運(yùn)用在數(shù)據(jù)預(yù)處理單元學(xué)習(xí)后,自行收集資料,閱讀文獻(xiàn),分別針對(duì)某個(gè)有實(shí)際工程背景的應(yīng)用問題設(shè)計(jì)解決方案,綜合運(yùn)用數(shù)據(jù)采集框架、數(shù)據(jù)遷移技術(shù),設(shè)計(jì)解決方案(可運(yùn)用論證、分析、解釋、實(shí)驗(yàn)或程序得到結(jié)果),并撰寫小論文進(jìn)行總結(jié)。六、教學(xué)方法本課程以課堂教學(xué)為主,結(jié)合自學(xué)、撰寫小論文(或軟件設(shè)計(jì))及實(shí)驗(yàn)等教學(xué)手段和形式完成課程教學(xué)任務(wù)。1. 在課堂教學(xué)中,通過講授使學(xué)生迅速掌握核心內(nèi)容。2. 采取教師現(xiàn)場演示、學(xué)生借助手機(jī)查詢、瀏覽等方式,了解理論的應(yīng)用背景或示例,提升學(xué)生的學(xué)習(xí)興趣。3. 在單元學(xué)習(xí)結(jié)束時(shí),利用提示、啟發(fā)、指定等方式,指導(dǎo)學(xué)生運(yùn)用所學(xué)知識(shí)解決實(shí)際問題,培養(yǎng)學(xué)生初步運(yùn)用基本知識(shí)分

13、析問題和解決問題的能力,激發(fā)學(xué)生的創(chuàng)新思維。4. 對(duì)于綜合性強(qiáng)的實(shí)驗(yàn)內(nèi)容,通過教師的前期指導(dǎo)、學(xué)生課前自學(xué)完成相關(guān)內(nèi)容,進(jìn)行總結(jié)分析形成文字性報(bào)告以培養(yǎng)學(xué)生的自主學(xué)習(xí)和問題總結(jié)能力。5. 大部分單元采用CAI作為輔助教學(xué)工具,但仍以板書為主。七、學(xué)習(xí)評(píng)量學(xué)習(xí)成績由平時(shí)成績(含作業(yè)成績、討論與報(bào)告、測(cè)驗(yàn))和期末考試成績組成。各部分所占比例和評(píng)價(jià)內(nèi)容、方法如下:1. 平時(shí)成績(40%)(1)作業(yè)成績:10%。主要考核對(duì)課堂學(xué)習(xí)的知識(shí)點(diǎn)的復(fù)習(xí)、理解和掌握程度;以內(nèi)容的邏輯性和工作量為評(píng)價(jià)標(biāo)準(zhǔn)。(2)實(shí)驗(yàn)成績:30%。1)上機(jī)操作。按照實(shí)驗(yàn)任務(wù)上機(jī)完成;對(duì)任務(wù)完成的數(shù)量和質(zhì)量評(píng)分,共20分,分4次,每次5分。2) 實(shí)驗(yàn)報(bào)告。應(yīng)用所學(xué)內(nèi)容解決計(jì)算機(jī)相關(guān)領(lǐng)域的問題;以論文的應(yīng)用案例正確性、方案有效性為標(biāo)準(zhǔn)評(píng)分,共10分。2. 期末考試成績(60%)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論