




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《數(shù)據(jù)清洗》核心課程標(biāo)準(zhǔn)課程編碼0408011課程類(lèi)別專(zhuān)業(yè)核心課計(jì)劃學(xué)時(shí)68課程類(lèi)型B類(lèi)適用專(zhuān)業(yè)大數(shù)據(jù)技術(shù)與應(yīng)用課程性質(zhì)必修開(kāi)課學(xué)期第四學(xué)期學(xué)分4先行課程大數(shù)據(jù)導(dǎo)論P(yáng)ython語(yǔ)言云計(jì)算開(kāi)課單位信息工程系平行課程大數(shù)據(jù)系統(tǒng)運(yùn)維數(shù)據(jù)標(biāo)注工程考試類(lèi)型考試后繼課程頂崗實(shí)習(xí)一、課程性質(zhì)與定位本課程是面向信息工程系大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè)學(xué)生的核心課程,是培養(yǎng)掌握大數(shù)據(jù)清洗的一般理論與實(shí)際操作應(yīng)用模式技術(shù)的專(zhuān)業(yè)實(shí)踐性課程。二、課程設(shè)計(jì)與理念本課程系統(tǒng)地講解了數(shù)據(jù)清洗理論和實(shí)際應(yīng)用,共分為8章:第1章主要介紹數(shù)據(jù)清洗的概念、任務(wù)和流程,數(shù)據(jù)標(biāo)準(zhǔn)化概念及數(shù)據(jù)倉(cāng)庫(kù)技術(shù)等;第2章主要介紹Windows和類(lèi)UNIX操作系統(tǒng)下的數(shù)據(jù)常規(guī)格式、數(shù)據(jù)編碼及數(shù)據(jù)類(lèi)型轉(zhuǎn)換等;第3章介紹ETL概念、數(shù)據(jù)清洗的技術(shù)路線、ETL工具及ETL子系統(tǒng)等;第4章介紹了Excel、Kettle、OpenRefine、DataWrangler和HaWk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數(shù)據(jù)抽取、數(shù)據(jù)庫(kù)數(shù)據(jù)抽取及增量數(shù)據(jù)抽取等;第6章介紹數(shù)據(jù)清洗步驟、數(shù)據(jù)檢驗(yàn)和數(shù)據(jù)錯(cuò)誤處理,數(shù)據(jù)質(zhì)量評(píng)估及數(shù)據(jù)加載;第7章介紹網(wǎng)頁(yè)結(jié)構(gòu),利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)進(jìn)行數(shù)據(jù)采集,利用JavaScript技術(shù)進(jìn)行行為日志數(shù)據(jù)采集等;第8章介紹RDBMS的數(shù)據(jù)清洗方法和數(shù)據(jù)脫敏處理技術(shù)等。三、課程目標(biāo)(一)總體目標(biāo)培養(yǎng)德、智、體、美全面發(fā)展的,能夠較快適應(yīng)生產(chǎn)、建設(shè)、管理、服務(wù)等一線崗位需要的,面向電信、零售、銀行、金融、政府等部門(mén)的掌握大數(shù)據(jù)存儲(chǔ)、清洗、管理、建模和分析的基本技能,具有較高綜合素質(zhì)與良好職業(yè)素養(yǎng)的發(fā)展型、復(fù)合型、創(chuàng)新型技術(shù)技能人才。(二)技能與知識(shí)目標(biāo)學(xué)習(xí)掌握數(shù)據(jù)清洗的概念、任務(wù)和流程,數(shù)據(jù)標(biāo)準(zhǔn)化概念及數(shù)據(jù)倉(cāng)庫(kù)技術(shù);了解Windows和類(lèi)UNIX操作系統(tǒng)下的數(shù)據(jù)常規(guī)格式、數(shù)據(jù)編碼及數(shù)據(jù)類(lèi)型轉(zhuǎn)換等;掌握ETL概念、數(shù)據(jù)清洗的技術(shù)路線、ETL工具及ETL子系統(tǒng)的使用,Excel、Kettle、OpenRefine、DataWrangler和HaWk的安裝及使用,Kettle下文本文件抽取、Web數(shù)據(jù)抽取、數(shù)據(jù)庫(kù)數(shù)據(jù)抽取及增量數(shù)據(jù)抽取,數(shù)據(jù)清洗步驟、數(shù)據(jù)檢驗(yàn)和數(shù)據(jù)錯(cuò)誤處理,數(shù)據(jù)質(zhì)量評(píng)估及數(shù)據(jù)加載,網(wǎng)頁(yè)結(jié)構(gòu),利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)進(jìn)行數(shù)據(jù)采集,利用JavaScript技術(shù)進(jìn)行行為日志數(shù)據(jù)采集,RDBMS的數(shù)據(jù)清洗方法和數(shù)據(jù)脫敏處理技術(shù)等。(三)能力與素質(zhì)目標(biāo)具備大數(shù)據(jù)應(yīng)用理論基礎(chǔ)知識(shí),了解大數(shù)據(jù)技術(shù)框架和生態(tài)系統(tǒng),熟悉Hadoop技術(shù)框架操作,具備程序設(shè)計(jì)能力,掌握數(shù)據(jù)清洗操作,熟悉ETL工具的使用,掌握使用ETL工具進(jìn)行定制化清洗技術(shù),能夠進(jìn)行常規(guī)的統(tǒng)計(jì)分析、報(bào)表分析,能夠提出問(wèn)題,并能制定詳細(xì)實(shí)施計(jì)劃。四、課程教學(xué)內(nèi)容及學(xué)時(shí)分配序號(hào)項(xiàng)目名稱(chēng)學(xué)習(xí)任務(wù)學(xué)習(xí)內(nèi)容學(xué)時(shí)1數(shù)據(jù)清洗概述數(shù)據(jù)清洗簡(jiǎn)介數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介數(shù)據(jù)科學(xué)過(guò)程、定義、任務(wù)、流程、環(huán)境、實(shí)例說(shuō)明數(shù)據(jù)標(biāo)準(zhǔn)化概念、常用方法數(shù)據(jù)倉(cāng)庫(kù)定義、組成要素、分類(lèi)、相關(guān)技術(shù)、常用工具簡(jiǎn)介上機(jī)練習(xí)82數(shù)據(jù)格式與編碼文件文本格式數(shù)據(jù)編碼數(shù)據(jù)轉(zhuǎn)換常見(jiàn)文本格式xls及xlsx文件格式JSON文本格式HTML和XML文本格式數(shù)據(jù)類(lèi)型、類(lèi)型間轉(zhuǎn)換字符編碼空值和亂碼電子表格轉(zhuǎn)換RDBMS數(shù)據(jù)轉(zhuǎn)換83數(shù)據(jù)清洗基本技術(shù)方法ETL入門(mén)技術(shù)路線ETL工具ETL子系統(tǒng)ETL解決方案、基本構(gòu)成、技術(shù)選型文本清洗路線RDBMS清洗路線Web內(nèi)容清洗路線ETL功能、開(kāi)源ETL工具抽取、清洗和更正數(shù)據(jù)、數(shù)據(jù)發(fā)布、管理ETL104數(shù)據(jù)清洗常用工具及基本操作MicrosoftExcel數(shù)據(jù)清洗基本操作Kettle簡(jiǎn)介及基本操作OpenRefine簡(jiǎn)介及基本操作DataWrangler簡(jiǎn)介及基本操作HaWk簡(jiǎn)介及基本操作上機(jī)練習(xí)與實(shí)訓(xùn)Excel數(shù)據(jù)清洗概述Kettle軟件概述、基本操作、實(shí)例操作OpenRefine軟件概述、基本操作、數(shù)據(jù)清洗實(shí)例操作DataWrangler軟件概述、基本操作、數(shù)據(jù)清洗實(shí)例操作HaWk軟件概述、基本操作、數(shù)據(jù)清洗實(shí)例操作85數(shù)據(jù)抽取文本文件抽取Web數(shù)據(jù)抽取數(shù)據(jù)庫(kù)數(shù)據(jù)抽取上機(jī)練習(xí)與實(shí)訓(xùn)制表符文本抽取CSV文件抽取HTML文件抽取JSON數(shù)據(jù)抽取XML數(shù)據(jù)抽取數(shù)據(jù)導(dǎo)入導(dǎo)出ETL工具抽取SQL到NoSQL抽取106數(shù)據(jù)轉(zhuǎn)換與加載數(shù)據(jù)清洗轉(zhuǎn)換數(shù)據(jù)質(zhì)量評(píng)估數(shù)據(jù)加載上機(jī)練習(xí)與實(shí)訓(xùn)數(shù)據(jù)清洗數(shù)據(jù)檢驗(yàn)錯(cuò)誤處理數(shù)據(jù)評(píng)估指標(biāo)審計(jì)數(shù)據(jù)數(shù)據(jù)加載的概念數(shù)據(jù)加載的方式批量數(shù)據(jù)加載異常處理87采集Web數(shù)據(jù)實(shí)例網(wǎng)頁(yè)結(jié)構(gòu)網(wǎng)絡(luò)爬蟲(chóng)行為日志采集上機(jī)練習(xí)與實(shí)訓(xùn)DOM模型正則表達(dá)式網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介網(wǎng)絡(luò)爬蟲(chóng)異常處理用戶(hù)實(shí)時(shí)行為數(shù)據(jù)采集用戶(hù)實(shí)時(shí)行為數(shù)據(jù)分析88清洗RDBMS數(shù)據(jù)實(shí)例8.1準(zhǔn)備工作數(shù)據(jù)庫(kù)數(shù)據(jù)清洗數(shù)據(jù)脫敏處理準(zhǔn)備待清洗的數(shù)據(jù)集搭建操作環(huán)境數(shù)據(jù)導(dǎo)入MySQL缺失值清洗格式內(nèi)容清洗邏輯錯(cuò)誤清洗非需求數(shù)據(jù)清洗8五、考核評(píng)定辦法改革傳統(tǒng)的學(xué)生評(píng)價(jià)手段和方法,采用階段性評(píng)價(jià)、過(guò)程性評(píng)價(jià)與目標(biāo)評(píng)價(jià)相結(jié)合、項(xiàng)目評(píng)價(jià)、理論與實(shí)踐一體化評(píng)價(jià)模式。關(guān)注評(píng)價(jià)的多元性,將課堂提問(wèn)、學(xué)生作業(yè)、平時(shí)測(cè)驗(yàn)、項(xiàng)目考核、技能目標(biāo)考核作為平時(shí)成績(jī),占總成績(jī)的60%,期末作品匯報(bào)占總成績(jī)的40%。評(píng)價(jià)中應(yīng)注意學(xué)生動(dòng)手實(shí)踐中分析問(wèn)題、解決問(wèn)題能力的考核,對(duì)在學(xué)習(xí)和應(yīng)用上有創(chuàng)新的學(xué)生應(yīng)予特別鼓勵(lì),全面綜合評(píng)價(jià)學(xué)生能力。六、教學(xué)建議(一)教學(xué)條件本課程實(shí)踐內(nèi)容居多,要求課堂教學(xué)應(yīng)在實(shí)訓(xùn)室上課,教師邊講解,學(xué)生邊實(shí)踐。(二)師資要求本課程需要教師具有一定的基礎(chǔ)理論知識(shí)、較廣泛的專(zhuān)業(yè)知識(shí)以及相關(guān)學(xué)科的基本知識(shí),以便解決教學(xué)、科研、實(shí)踐工作中不斷涌現(xiàn)出的新的問(wèn)題;要求教師具備較高的教學(xué)能力,良好的知識(shí)傳導(dǎo)能力和系統(tǒng)的教學(xué)設(shè)計(jì)能力;還要求教師具有同行業(yè)的實(shí)踐經(jīng)驗(yàn)或經(jīng)歷,與行業(yè)系統(tǒng)密切聯(lián)系的溝通渠道,具備善于實(shí)踐并指導(dǎo)學(xué)生實(shí)踐的能力。(三)教學(xué)方法本課程遵循“學(xué)其所用,用其所學(xué)”的原則,注重培養(yǎng)學(xué)生的動(dòng)手操作能力。采用以項(xiàng)目為導(dǎo)向,以工作任務(wù)為驅(qū)動(dòng),以典型案例為依托的方式,提高學(xué)生學(xué)習(xí)興趣,激發(fā)學(xué)生的成就動(dòng)機(jī),積極引導(dǎo)學(xué)生提升職業(yè)素養(yǎng),提高職業(yè)道德。課堂教學(xué)關(guān)鍵是上機(jī)實(shí)踐操作,教學(xué)與實(shí)踐操作相結(jié)合,教師操作示范和學(xué)生上機(jī)操作,學(xué)生提問(wèn)與教師解答、指導(dǎo)有機(jī)結(jié)合,讓學(xué)生在“教”與“學(xué)”過(guò)程中學(xué)有所獲。在教學(xué)中采用項(xiàng)目教學(xué)與任務(wù)驅(qū)動(dòng)相結(jié)合的方式,學(xué)生既可以接觸到真實(shí)的項(xiàng)目,又可以將項(xiàng)目分成小的學(xué)習(xí)任務(wù)應(yīng)用在教學(xué)中;除此之外還采取理論與實(shí)踐相結(jié)合的教學(xué)方法,自主學(xué)習(xí)與小組合作學(xué)習(xí)相結(jié)合的教學(xué)方法。(四)教學(xué)資源的開(kāi)發(fā)與利用本課程是我系與企業(yè)合作開(kāi)發(fā)的課程,所以在教學(xué)中可以將公司中項(xiàng)目分解為多個(gè)任務(wù),選出典型案例作為教學(xué)的資源,按照公司對(duì)產(chǎn)品的質(zhì)量要求制作。(五)評(píng)價(jià)標(biāo)準(zhǔn)教學(xué)評(píng)價(jià)不再像以往一樣采取簡(jiǎn)單的考試,而采用階段性評(píng)價(jià)和總結(jié)性評(píng)價(jià)相結(jié)合的方式,學(xué)生每次任務(wù)的作品和最終的作品都將作為最終評(píng)價(jià)學(xué)生學(xué)習(xí)的依據(jù);同時(shí)在教學(xué)評(píng)價(jià)中不僅僅是教
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)村集體設(shè)備租賃合同范本
- 代理全轉(zhuǎn)讓合同范本
- 臨時(shí)材料購(gòu)買(mǎi)合同范本
- 包人工電纜合同范本
- 第二單元第11課《while循環(huán)的應(yīng)用實(shí)例》教學(xué)設(shè)計(jì) 2023-2024學(xué)年浙教版(2020)初中信息技術(shù)八年級(jí)上冊(cè)
- 農(nóng)村閑置小學(xué)出租合同范本
- 出口尿素銷(xiāo)售合同范本
- 企業(yè)團(tuán)隊(duì)建設(shè)合同范本
- 出售舊材料合同范本
- 人事調(diào)動(dòng)合同范本
- 四川省康定市大槽門(mén)金礦資源儲(chǔ)量核實(shí)報(bào)告
- 浙江省中小學(xué)心理健康教育教師上崗資格證書(shū)管理辦法(修訂)
- 選擇性必修二《Unit 4 Journey across a vast land》單元教學(xué)設(shè)計(jì)
- 2024年青島港灣職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)審定版
- 2024年一年級(jí)數(shù)學(xué)下冊(cè)教學(xué)計(jì)劃15篇
- 2024年時(shí)事政治題(考點(diǎn)梳理)
- 嶺南版六年級(jí)美術(shù)下冊(cè)教學(xué)工作計(jì)劃
- 門(mén)診常見(jiàn)疾病護(hù)理常規(guī)課件
- 數(shù)字化時(shí)代的智慧課堂建設(shè)與應(yīng)用
- 初中九年級(jí)美術(shù)期末藝術(shù)測(cè)評(píng)指標(biāo)試卷及答案
- 能源管理培訓(xùn):學(xué)習(xí)能源管理技術(shù)的培訓(xùn)資料
評(píng)論
0/150
提交評(píng)論