版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《數(shù)據(jù)采集與網(wǎng)絡爬蟲課程設計》課程教學大綱一、課程基本信息課程名稱數(shù)據(jù)采集與網(wǎng)絡爬蟲課程設計Trainingfordataacquisitionandwebcraw1er課程代碼課程性質必修授課學期5學分/學時1/16課內學時16理論學時0實驗學時0實訓(含上機)16實習0其他0適用專業(yè)數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)授課語言中文對先修的要求具備用Python進行實際問題編程的能力,,已修Python程序設計,數(shù)據(jù)結構與算法分析,數(shù)據(jù)采集與網(wǎng)絡爬蟲等課程對后續(xù)的支撐為大數(shù)據(jù)分析與應用案例、深度學習等課程提供數(shù)據(jù)采集和實踐基礎。課程思政設計在課程設計實踐中,從實際問題出發(fā),堅定學生專業(yè)自信,同時要求學生要以保護國家機密遵守網(wǎng)絡安全為前提進行,在爬取數(shù)據(jù)時遵紀守法,同時鼓勵學生利用自己所學知識,為國家和社會各類資源的安全做出貢獻。創(chuàng)新創(chuàng)業(yè)教育設計在課程設計的選題階段,引導學生爬取什么數(shù)據(jù)、如何爬取數(shù)據(jù)。引導學生對方案的可行性分析和合理的程序設計,并對自身的設計方案有創(chuàng)新的探索與實踐。課程簡介課程定位:數(shù)據(jù)采集與網(wǎng)絡爬蟲課程設計是數(shù)學與計算科學學院數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)在學習了PythOn程序設計,數(shù)據(jù)結構與算法分析,數(shù)據(jù)采集與網(wǎng)絡爬蟲之后配I≡003,它為后續(xù)課程大數(shù)據(jù)分析與深度學習等酬數(shù)據(jù)采集和實踐基礎。主要學習內容:本課程教學是學生在教師指導下,根據(jù)選定的課程設計項目,綜合運用所學的網(wǎng)絡爬蟲課程理論知識體系,包括獲取網(wǎng)頁、解析網(wǎng)頁、存儲數(shù)據(jù)、數(shù)據(jù)分析及可視化等應用于具體的數(shù)據(jù)采集與網(wǎng)絡爬蟲中去。從項目的需求分析、爬蟲方案設計、代碼編寫、程序調試和運行等訓練任務,最終撰寫完整規(guī)范的課程設計報告,并按照安排參加答辯,講清楚各自的工作內容并回答相關的問題。核心學習結果:本課程學習目的是使數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)的學生獲得以
下能力與素養(yǎng):1)在解決實際問題的時候,應用數(shù)據(jù)采集與爬蟲的能力,采集數(shù)據(jù)處理實際問題;2)用用砰羽時用1?I1W雁但團前而aP1P11?!而麗而囪麗雨主要教學方法:本課程主要采取教師簡要介紹理論知識,布置課題任務,學生分組上機運用Py1hon軟件進行數(shù)據(jù)采集解決實際問題。二、課程目標及對畢業(yè)要求指標點的支撐序號課程目標支撐畢業(yè)要求指標點畢業(yè)要求1目標1:掌握數(shù)據(jù)采集與網(wǎng)絡爬蟲中發(fā)送請求、解析網(wǎng)頁、數(shù)據(jù)存儲等技術的基本知識、原理及方法,能夠用Python編寫網(wǎng)絡爬蟲進行數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)預處理及初步的數(shù)據(jù)分析(支撐畢業(yè)要求指標點2.2)2.2掌握計算機科學的基本知識、原理、方法,并會應用到大數(shù)據(jù)科學等領域。2知識掌握:掌握數(shù)學、自然科學、計算機科學、數(shù)據(jù)科學與大數(shù)據(jù)技術所需要的專業(yè)知識,具有國際視野,了解大數(shù)據(jù)科學領域的國際形勢和發(fā)展動態(tài),并能將所學知識用于解釋大數(shù)據(jù)科學領域中的復雜問題。2目標2:能夠根據(jù)數(shù)據(jù)挖掘的需要設計出合理、有效的數(shù)據(jù)采集方案,通過數(shù)據(jù)采集與網(wǎng)絡爬蟲的技術來解決數(shù)據(jù)獲取的實際問題。并能夠將實驗方案整理成規(guī)范的分析報告。(支撐畢業(yè)要求指標點4.3)4.3利用大數(shù)據(jù)科學的專業(yè)知識、針對實際問題的具體情況、結合文獻資料對模型進行分析,采用恰當?shù)姆椒?、儀器設備、數(shù)據(jù)分析軟件對特定問題的數(shù)據(jù)模型進行算法優(yōu)化,并能夠寫出規(guī)范的分析報告和解決方案。4設計/開發(fā)解決方案:能夠針對數(shù)據(jù)科學與大數(shù)據(jù)技術應用的特定需求,設計適當?shù)牧鞒?、方案,選取合適的技術予以實現(xiàn),并在設計或開發(fā)的過程中考慮經(jīng)濟、社會、健康、安全、法律、文化及環(huán)境因素。三、教學內容及進度安排序號教學內容學生學習預期成果課內學時教學方式支撐課程目標1課程設計任務布置:引導學生綜合應用所學的爬蟲知識去解決現(xiàn)實生活中具體的數(shù)據(jù)采集與網(wǎng)絡爬蟲任務(如豆瓣電影影評數(shù)據(jù)爬取與分析、大數(shù)據(jù)崗位人才招聘信息的分析與挖掘等)。發(fā)現(xiàn)有價值,并適合作課程設計的問題,通過綜合分析確定課程設計內容2布置任務討論上機目標1目標22任務實施:指導學生根據(jù)任務完成具體的爬蟲代碼編寫并進行數(shù)據(jù)預處理及簡單的數(shù)據(jù)分析。進一步發(fā)現(xiàn)不足,作出優(yōu)化。能根據(jù)實際問題的需要編輯合適的爬蟲程序并進行數(shù)據(jù)預處理及簡單的數(shù)據(jù)分析。10討論上機目標1目標2
3課程設計撰寫:指導學生撰寫規(guī)范的分析報告并進行答辯PPT。能夠寫出規(guī)范的分析報告和解決方案4討論上機目標2四、課程考核該課程采用案例設計的形式考核,具體要求如下:(1)最多5人組成一隊。(2)最終以研究報告的形式提交,一般應包含程序頁、數(shù)據(jù)頁、數(shù)據(jù)分析處理和附錄等內容。數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)的考核序號課程目標(支撐畢業(yè)要求指標點)考核內容評價依據(jù)及成績比例(%)成績比例(%)課程設計報告PPT答辯1目標1:掌握數(shù)據(jù)采集與網(wǎng)絡爬蟲中發(fā)送請求、解析網(wǎng)頁、數(shù)據(jù)存儲等技術的基本知識、原理及方法,能夠用Python編寫網(wǎng)絡爬蟲進行數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)預處理及初步的數(shù)據(jù)分析(支撐畢業(yè)要求指標點2.2)課程設計過程中對爬蟲技術的掌握程度。4015552目標2:能夠根據(jù)實際問題的需要設計出合理、有效的數(shù)據(jù)采集方案,通過數(shù)據(jù)采集與網(wǎng)絡爬蟲的技術來解決數(shù)據(jù)獲取的實際問題。并能夠將實驗方案整理成規(guī)范的分析報告。(支撐畢業(yè)要求指標點4.3)所完成的課程設計作品的難度、復雜度以及代碼量。課程設計報告的規(guī)范性及質量。301545合計7030100注:各類考核評價的具體評分標準見《附錄:各類考核評分標準表》(說明:1.評價依據(jù)主要有:平時表現(xiàn)、作業(yè)、案例分析、實驗/實習/調研報告、上機、考試等,應根據(jù)該課程實際設置的考核方式填寫,不夠可以加列;2.各考核方式逐一填寫評分標準表)五、教材及參考資料[1]江吉彬,張良均等.Python網(wǎng)絡爬蟲技術[M],北京:人民郵電出版社,2019,9787111505064.[2]范傳輝.Python爬蟲開發(fā)與項目實戰(zhàn)[M],北京:機械工業(yè)出版社,2017,978發(fā)11563877.[3]胡松濤.Python網(wǎng)絡爬蟲實戰(zhàn)[M],北京:清華大學出版社,2016,9787302457879.⑷韋瑋.精通Python網(wǎng)絡爬蟲:核心技術、框架與項目實戰(zhàn)[M],北京:機械工業(yè)出版社,2017,9787111562085.六、教學條件需要使用學生大數(shù)據(jù)實驗室,電腦安裝了Windows7>Office2010>Anoconda3/Python3.6、Pycharm等正版軟件進行實戰(zhàn)訓練。
附錄:各類考核評分標準表課程設計報告的考核評分標準教學目標要求評分標準權重(%)90-10080-8960-790-59目標1:掌握數(shù)據(jù)采集與網(wǎng)絡爬蟲中發(fā)送請求、解析網(wǎng)頁、數(shù)據(jù)存儲等技術的基本知識、原理及方法,能夠用Python編寫網(wǎng)絡爬蟲進行數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)預處理及初步的數(shù)據(jù)分 析(支撐畢業(yè)要求指標點2.2)Bython爬蟲程序編寫精簡有效,描述HHiwmiT11T11?]回畫0的加西曲000及初步的數(shù)據(jù)分析團Python爬蟲程序編寫有效,描述基本團團團團回函3團團團團團團團函3團團團釀畫(匏0面1團盟及簡單的數(shù)據(jù)分析。Python爬蟲程序編寫基本有效00E0000300000SEEB000000SE≡0我皿Python爬蟲程序編寫失敗,思路不清,不能進行網(wǎng)絡數(shù)據(jù)爬取。40目標2:能夠根據(jù)數(shù)據(jù)挖掘的需要設計出合理、有效的數(shù)據(jù)采集方案,通過數(shù)據(jù)采集與網(wǎng)絡爬蟲的技術來解決數(shù)據(jù)獲取的實際問題。并能夠將實驗方案整理成規(guī)范的分析報告。(支撐畢業(yè)要求指標點4.3)能夠合理、有效的設計數(shù)據(jù)采集方案且分析報告形式規(guī)范。團團胴合理、有效的設計數(shù)據(jù)采集方案且報告形式相對規(guī)范。胴團團合理、有效的設計數(shù)據(jù)采集方案,報告形式比較規(guī)范。國有效的設計數(shù)據(jù)采集方案,報告形式不規(guī)范。30注:評分標準的分數(shù)段劃分可以根據(jù)課程需要自行設計。
PPT答辯的考核評分標準教學目標要求評分標準權重(%)90-10080-8960-790-59目標1掌握數(shù)據(jù)采集與網(wǎng)絡爬蟲中發(fā)送請求、解析網(wǎng)頁、數(shù)據(jù)存儲等技術的基本知識、原理及方法,能夠用Python編寫網(wǎng)絡爬蟲進行數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)預處理及初步的數(shù)據(jù)分 析(支撐畢業(yè)要求指標點2.2)團數(shù)據(jù)采集與網(wǎng)絡爬蟲設計 中002EEE0000團團團數(shù)據(jù)采集與網(wǎng)絡爬蟲設計中00002EE000000S33E□Ξ0000團數(shù)據(jù)采集與網(wǎng)絡爬蟲設計中Ξ□00[∏∏ZEE0Ξ□Ξ0SZEEE□回的3團團回國亞00數(shù)據(jù)采集與網(wǎng)絡爬蟲設計中的3團團回國亞Ξ00Ξ00∣∏32E15目標2:能夠根據(jù)數(shù)據(jù)挖掘的需要設計出合理、有效的數(shù)據(jù)采集方案,通過數(shù)據(jù)采集與網(wǎng)絡爬蟲的技術來解決數(shù)據(jù)獲
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 玉溪師范學院《國畫》2021-2022學年第一學期期末試卷
- 2024年計算機典型應用系統(tǒng)項目發(fā)展計劃
- 2024標準雇傭合同格式
- 2024個人租房合同書范本
- 2024【舊機動車買賣合同】舊機動車買賣合同
- 2024年粘結稀土永磁材料項目合作計劃書
- 鹽城師范學院《數(shù)據(jù)庫原理與應用》2021-2022學年期末試卷
- 蘇教版四年級下冊數(shù)學第三單元 三位數(shù)乘兩位數(shù) 測試卷【考試直接用】
- 滬教版三年級下冊數(shù)學第二單元 用兩位數(shù)乘除 測試卷含答案【能力提升】
- 北京版四年級上冊數(shù)學第一單元 大數(shù)的認識 測試卷附完整答案【各地真題】
- 樂理試題(音程-三和弦)
- 三資系統(tǒng)操作手冊
- 綿陽市物業(yè)服務收費管理實施細則
- 危險化學品事故應急處置流程圖
- 微信公眾賬號授權書
- 鈑金折彎K因子計算
- 生石灰(氧化鈣)MSDS
- 中高層管理干部能力提升(劉學元)ppt課件
- 公司兼職銷售人員管理制度.docx
- 夾套管施工方案最終
- 初中音樂-對花-課件-(2)PPT課件
評論
0/150
提交評論