版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Python網(wǎng)絡(luò)爬蟲技術(shù)-教學(xué)大綱
3.掌握Python常用爬蟲庫和數(shù)據(jù)庫配置方法4.掌握Socket庫的作用及TCP/UDP通信方式5.熟悉HTTP通信過程及狀態(tài)碼、頭部類型和Cookie機(jī)制的運(yùn)作原理學(xué)時121235112.實(shí)驗(yàn)教學(xué)序號章節(jié)名稱主要內(nèi)容1.安裝Python爬蟲環(huán)境2.使用Requests庫進(jìn)行簡單靜態(tài)網(wǎng)頁爬取3.使用BeautifulSoup庫進(jìn)行簡單靜態(tài)網(wǎng)頁解析4.使用Selenium庫進(jìn)行常規(guī)動態(tài)網(wǎng)頁爬取5.使用Scrapy框架進(jìn)行爬蟲開發(fā)6.使用PyQuery庫進(jìn)行網(wǎng)頁解析7.使用MongoDB數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲8.使用Redis數(shù)據(jù)庫進(jìn)行數(shù)據(jù)緩存9.使用代理IP和User-Agent進(jìn)行反爬蟲處理教學(xué)目標(biāo)1.掌握Python爬蟲環(huán)境的安裝和配置2.掌握使用Requests庫進(jìn)行簡單靜態(tài)網(wǎng)頁爬取和解析3.掌握使用Selenium庫進(jìn)行常規(guī)動態(tài)網(wǎng)頁爬取4.掌握使用Scrapy框架進(jìn)行爬蟲開發(fā)5.了解PyQuery庫的使用方法6.掌握MongoDB和Redis數(shù)據(jù)庫的使用方法7.了解代理IP和User-Agent的使用方法學(xué)時12345222總計(jì)1418《Python網(wǎng)絡(luò)爬蟲技術(shù)》教學(xué)大綱課程名稱:Python網(wǎng)絡(luò)爬蟲技術(shù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時:32學(xué)時(其中理論14學(xué)時,實(shí)驗(yàn)18學(xué)時)總學(xué)分:2.0學(xué)分一、課程介紹在大數(shù)據(jù)時代,數(shù)據(jù)分析技術(shù)的研究和應(yīng)用越來越重要。爬蟲作為數(shù)據(jù)獲取來源之一,在數(shù)據(jù)分析中扮演著至關(guān)重要的角色。為滿足日益增長的數(shù)據(jù)分析人才需求,推動我國大數(shù)據(jù)、云計(jì)算、人工智能行業(yè)的發(fā)展,特開設(shè)Python網(wǎng)絡(luò)爬蟲技術(shù)課程。二、課程目標(biāo)通過本課程的學(xué)習(xí),學(xué)生將學(xué)會使用Python在靜態(tài)網(wǎng)頁、動態(tài)網(wǎng)頁、需要登錄后才能訪問的網(wǎng)頁、PC客戶端、APP中爬取數(shù)據(jù),將理論與實(shí)踐相結(jié)合,為將來從事數(shù)據(jù)爬蟲、分析研究工作奠定基礎(chǔ)。三、課程學(xué)時分配序號教學(xué)內(nèi)容理論學(xué)時實(shí)驗(yàn)學(xué)時1第1章Python爬蟲環(huán)境與爬蟲簡介112第2章網(wǎng)頁前端基礎(chǔ)313第3章簡單靜態(tài)網(wǎng)頁爬取454第4章常規(guī)動態(tài)網(wǎng)頁爬取245第5章模擬登錄126第6章終端協(xié)議分析227第7章Scrapy爬蟲22總計(jì)1418四、教學(xué)內(nèi)容及學(xué)時安排1.理論教學(xué)序號章節(jié)名稱主要內(nèi)容教學(xué)目標(biāo)學(xué)時1認(rèn)識爬蟲的概念-認(rèn)識爬蟲的原理-了解爬蟲運(yùn)作時應(yīng)遵守的規(guī)則-了解反爬蟲的目的和常用手段-針對反爬蟲的常用手段制定對應(yīng)爬取策略-了解Python常用爬蟲庫認(rèn)識爬蟲的概念及原理;了解反爬蟲的概念及對應(yīng)爬取策略;掌握Python常用爬蟲庫。12網(wǎng)絡(luò)通信基礎(chǔ)-了解Socket庫的作用及其包含的協(xié)議類型-了解Socket庫中的3種函數(shù)及其作用-熟悉使用Socket建立服務(wù)器端和客戶端進(jìn)行TCP通信,通過TCP通信從客戶端發(fā)送請求并接受服務(wù)器端的響應(yīng)-熟悉使用Socket建立服務(wù)器端和客戶端進(jìn)行UDP通信,通過UDP通信從客戶端發(fā)送請求并接受服務(wù)器端的響應(yīng)-熟悉HTTP通信過程中的客戶端發(fā)起請求的方式與服務(wù)器發(fā)送響應(yīng)的過程-熟悉HTTP通信過程中服務(wù)器發(fā)送響應(yīng)的常見HTTP狀態(tài)碼-熟悉HTTP協(xié)議中的頭部類型與對應(yīng)類型的常用的頭字段-熟悉Cookie機(jī)制的運(yùn)作原理及其作用了解Socket庫的作用及TCP/UDP通信方式;熟悉HTTP通信過程及狀態(tài)碼、頭部類型和Cookie機(jī)制的運(yùn)作原理。23數(shù)據(jù)庫基礎(chǔ)-掌握MySQL數(shù)據(jù)庫的配置方法-掌握MongoDB數(shù)據(jù)庫的配置方法掌握MySQL和MongoDB數(shù)據(jù)庫的配置方法。12.實(shí)驗(yàn)教學(xué)序號章節(jié)名稱主要內(nèi)容教學(xué)目標(biāo)學(xué)時1Python爬蟲環(huán)境搭建-安裝Python爬蟲環(huán)境掌握Python爬蟲環(huán)境的安裝和配置。12簡單靜態(tài)網(wǎng)頁爬取-使用Requests庫進(jìn)行簡單靜態(tài)網(wǎng)頁爬取-使用BeautifulSoup庫進(jìn)行簡單靜態(tài)網(wǎng)頁解析掌握使用Requests庫進(jìn)行簡單靜態(tài)網(wǎng)頁爬取和解析;了解BeautifulSoup庫的使用方法。23常規(guī)動態(tài)網(wǎng)頁爬取-使用Selenium庫進(jìn)行常規(guī)動態(tài)網(wǎng)頁爬取掌握使用Selenium庫進(jìn)行常規(guī)動態(tài)網(wǎng)頁爬取。34Scrapy爬蟲-使用Scrapy框架進(jìn)行爬蟲開發(fā)掌握使用Scrapy框架進(jìn)行爬蟲開發(fā)。45數(shù)據(jù)庫操作-使用MongoDB數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲-使用Redis數(shù)據(jù)庫進(jìn)行數(shù)據(jù)緩存掌握MongoDB和Redis數(shù)據(jù)庫的使用方法。46反爬蟲處理-使用代理IP和User-Agent進(jìn)行反爬蟲處理了解代理IP和User-Agent的使用方法。2總計(jì)-1418注:刪除了“其它6、7”段落,因?yàn)闆]有明確的內(nèi)容。同時,對部分語言進(jìn)行了修改和調(diào)整,使其更加簡潔明了。2.掌握Python爬蟲的基本概念和原理3.了解Python爬蟲的應(yīng)用場景和發(fā)展趨勢4.熟悉Python爬蟲的相關(guān)工具和庫5.實(shí)現(xiàn)簡單的Python爬蟲程序,爬取指定網(wǎng)站的數(shù)據(jù)222222實(shí)驗(yàn)項(xiàng)目名稱靜態(tài)網(wǎng)頁爬取實(shí)驗(yàn)要求1.了解靜態(tài)網(wǎng)頁的基本結(jié)構(gòu)和特點(diǎn)2.掌握Python爬蟲的基本流程和步驟3.熟悉Python爬蟲的相關(guān)庫和工具,如Requests、BeautifulSoup、正則表達(dá)式等4.實(shí)現(xiàn)簡單的靜態(tài)網(wǎng)頁爬取程序,爬取指定網(wǎng)站的數(shù)據(jù)2實(shí)驗(yàn)項(xiàng)目名稱動態(tài)網(wǎng)頁爬取實(shí)驗(yàn)要求1.了解動態(tài)網(wǎng)頁的基本結(jié)構(gòu)和特點(diǎn)2.掌握Python爬蟲的逆向分析技術(shù),如查找XHR請求、分析JS代碼等3.熟悉Python爬蟲的相關(guān)庫和工具,如Selenium、PhantomJS等4.實(shí)現(xiàn)簡單的動態(tài)網(wǎng)頁爬取程序,爬取指定網(wǎng)站的數(shù)據(jù)2實(shí)驗(yàn)項(xiàng)目名稱模擬登錄實(shí)驗(yàn)要求1.了解模擬登錄的基本原理和流程2.掌握Python爬蟲的模擬登錄技術(shù),如獲取驗(yàn)證碼、提交表單、保存Cookie等3.熟悉Python爬蟲的相關(guān)庫和工具,如Chrome開發(fā)者工具、HttpAnalyzer、Fiddler等4.實(shí)現(xiàn)簡單的模擬登錄程序,模擬登錄指定網(wǎng)站并獲取數(shù)據(jù)2實(shí)驗(yàn)項(xiàng)目名稱Scrapy框架實(shí)驗(yàn)要求1.了解Scrapy框架的基本概念和原理2.熟悉Scrapy框架的常用命令和組件,如items、pipelines、spiders等3.掌握Scrapy框架的數(shù)據(jù)存儲和解析技術(shù),如存儲至csv文件、MySQL數(shù)據(jù)庫等4.實(shí)現(xiàn)簡單的Scrapy爬蟲程序,爬取指定網(wǎng)站的數(shù)據(jù)2實(shí)驗(yàn)項(xiàng)目名稱終端協(xié)議分析實(shí)驗(yàn)要求1.了解PC客戶端的基本結(jié)構(gòu)和特點(diǎn)2.熟悉HttpAnalyzer和Fiddler等工具的基本功能和使用方法3.掌握利用HttpAnalyzer和Fiddler等工具進(jìn)行抓包分析的技術(shù)4.實(shí)現(xiàn)簡單的終端協(xié)議分析程序,對指定應(yīng)用程序進(jìn)行數(shù)據(jù)抓取2實(shí)驗(yàn)項(xiàng)目名稱實(shí)戰(zhàn)項(xiàng)目實(shí)驗(yàn)要求1.綜合運(yùn)用Python爬蟲的相關(guān)技術(shù)和工具,實(shí)現(xiàn)一個完整的爬蟲項(xiàng)目2.項(xiàng)目需求包括但不限于靜態(tài)網(wǎng)頁爬取、動態(tài)網(wǎng)頁爬取、模擬登錄、數(shù)據(jù)存儲和解析等3.項(xiàng)目實(shí)現(xiàn)過程中需要考慮數(shù)據(jù)安全和隱私保護(hù)等問題27.將數(shù)據(jù)插入MongoDB數(shù)據(jù)庫的集合中。將數(shù)據(jù)插入MongoDB數(shù)據(jù)庫的集合中,是將爬蟲程序獲取的數(shù)據(jù)存儲到數(shù)據(jù)庫中的一種方式。8.使用Chrome開發(fā)者工具,查找提交入口。使用Chrome開發(fā)者工具,可以查找網(wǎng)頁中的提交入口,方便我們進(jìn)行數(shù)據(jù)提交操作。9.使用Chrome開發(fā)者工具,查找需要提交的表單數(shù)據(jù)。使用Chrome開發(fā)者工具,可以查找需要提交的表單數(shù)據(jù),方便我們進(jìn)行模擬登錄等操作。10.獲取驗(yàn)證碼數(shù)據(jù)。獲取驗(yàn)證碼數(shù)據(jù),是進(jìn)行模擬登錄等操作的必要步驟之一。11.使用POST方法向服務(wù)器發(fā)送登錄請求。使用POST方法向服務(wù)器發(fā)送登錄請求,是進(jìn)行模擬登錄等操作的必要步驟之一。12.使用Chrome開發(fā)者工具獲取瀏覽器的Cookie,實(shí)現(xiàn)模擬登錄。使用Chrome開發(fā)者工具獲取瀏覽器的Cookie,可以實(shí)現(xiàn)模擬登錄等操作。13.加載已經(jīng)保存的表單登錄后的Cookie,實(shí)現(xiàn)模擬登錄。加載已經(jīng)保存的表單登錄后的Cookie,可以實(shí)現(xiàn)模擬登錄等操作。1.利用HttpAnalyzer進(jìn)行抓包分析,得到一個標(biāo)準(zhǔn)的HTML文檔。利用HttpAnalyzer進(jìn)行抓包分析,可以得到一個標(biāo)準(zhǔn)的HTML文檔,方便我們進(jìn)行數(shù)據(jù)分析和處理。2.設(shè)置Fiddler軟件。設(shè)置Fiddler軟件,可以方便我們進(jìn)行數(shù)據(jù)抓取和分析。3.通過Fiddler得到人民日報(bào)APP的JSON格式的數(shù)據(jù)。通過Fiddler,可以得到人民日報(bào)APP的JSON格式的數(shù)據(jù),方便我們進(jìn)行數(shù)據(jù)爬取和分析。4.利用Fiddler軟件抓取的包,對人民日報(bào)APP新聞信息進(jìn)行爬取。利用Fiddler軟件抓取的包,可以對人民日報(bào)APP新聞信息進(jìn)行爬取,方便我們進(jìn)行數(shù)據(jù)分析和處理。1.創(chuàng)建Scrapy爬蟲項(xiàng)目。創(chuàng)建Scrapy爬蟲項(xiàng)目,是進(jìn)行數(shù)據(jù)爬取和處理的必要步驟之一。2.定義items/piplines腳本,將數(shù)據(jù)存儲至csv文件與MySQL數(shù)據(jù)庫。定義items/piplines腳本,可以將爬取到的數(shù)據(jù)存儲至csv文件與MySQL數(shù)據(jù)庫中,方便我們進(jìn)行數(shù)據(jù)分析和處理。3.創(chuàng)建spider爬蟲腳
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 26《好的故事》說課稿-2024-2025學(xué)年語文六年級上冊統(tǒng)編版
- 1場景歌說課稿-2024-2025學(xué)年統(tǒng)編版語文二年級上冊
- 2024年秋一年級道德與法治下冊 第二單元 我和大自然 5 風(fēng)兒輕輕吹說課稿 新人教版
- 18古詩三首浪淘沙(其一)說課稿-2024-2025學(xué)年六年級上冊語文統(tǒng)編版
- 8 設(shè)計(jì)制作小車(二) 說課稿-2024-2025學(xué)年科學(xué)四年級上冊教科版
- 23《月光曲》說課稿-2024-2025學(xué)年語文六年級上冊統(tǒng)編版
- 1 24時計(jì)時法(說課稿)-2024-2025學(xué)年三年級上冊數(shù)學(xué)人教版001
- 2023九年級道德與法治上冊 第三單元 文明與家園 第五課 守望精神家園第2框 凝聚價值追求說課稿 新人教版
- 2025北京市飼料采購合同新
- 2025建造船舶所要用到的合同
- 中醫(yī)中風(fēng)病(腦梗死)診療方案
- GMP-基礎(chǔ)知識培訓(xùn)
- 人教版小學(xué)六年級數(shù)學(xué)下冊(全冊)教案
- 人教版二年級語文上冊同音字歸類
- 高二數(shù)學(xué)下學(xué)期教學(xué)計(jì)劃
- 文學(xué)類作品閱讀練習(xí)-2023年中考語文考前專項(xiàng)練習(xí)(浙江紹興)(含解析)
- SB/T 10624-2011洗染業(yè)服務(wù)經(jīng)營規(guī)范
- 第五章硅酸鹽分析
- 外科學(xué)總論-第十四章腫瘤
- 網(wǎng)絡(luò)反詐知識競賽參考題庫100題(含答案)
- 運(yùn)動技能學(xué)習(xí)與控制課件第四章感覺系統(tǒng)對運(yùn)動控制的作用
評論
0/150
提交評論