Python網(wǎng)絡(luò)爬蟲技術(shù)-教學(xué)大綱_第1頁
Python網(wǎng)絡(luò)爬蟲技術(shù)-教學(xué)大綱_第2頁
Python網(wǎng)絡(luò)爬蟲技術(shù)-教學(xué)大綱_第3頁
Python網(wǎng)絡(luò)爬蟲技術(shù)-教學(xué)大綱_第4頁
Python網(wǎng)絡(luò)爬蟲技術(shù)-教學(xué)大綱_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Python網(wǎng)絡(luò)爬蟲技術(shù)-教學(xué)大綱

3.掌握Python常用爬蟲庫和數(shù)據(jù)庫配置方法4.掌握Socket庫的作用及TCP/UDP通信方式5.熟悉HTTP通信過程及狀態(tài)碼、頭部類型和Cookie機(jī)制的運(yùn)作原理學(xué)時121235112.實(shí)驗(yàn)教學(xué)序號章節(jié)名稱主要內(nèi)容1.安裝Python爬蟲環(huán)境2.使用Requests庫進(jìn)行簡單靜態(tài)網(wǎng)頁爬取3.使用BeautifulSoup庫進(jìn)行簡單靜態(tài)網(wǎng)頁解析4.使用Selenium庫進(jìn)行常規(guī)動態(tài)網(wǎng)頁爬取5.使用Scrapy框架進(jìn)行爬蟲開發(fā)6.使用PyQuery庫進(jìn)行網(wǎng)頁解析7.使用MongoDB數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲8.使用Redis數(shù)據(jù)庫進(jìn)行數(shù)據(jù)緩存9.使用代理IP和User-Agent進(jìn)行反爬蟲處理教學(xué)目標(biāo)1.掌握Python爬蟲環(huán)境的安裝和配置2.掌握使用Requests庫進(jìn)行簡單靜態(tài)網(wǎng)頁爬取和解析3.掌握使用Selenium庫進(jìn)行常規(guī)動態(tài)網(wǎng)頁爬取4.掌握使用Scrapy框架進(jìn)行爬蟲開發(fā)5.了解PyQuery庫的使用方法6.掌握MongoDB和Redis數(shù)據(jù)庫的使用方法7.了解代理IP和User-Agent的使用方法學(xué)時12345222總計(jì)1418《Python網(wǎng)絡(luò)爬蟲技術(shù)》教學(xué)大綱課程名稱:Python網(wǎng)絡(luò)爬蟲技術(shù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時:32學(xué)時(其中理論14學(xué)時,實(shí)驗(yàn)18學(xué)時)總學(xué)分:2.0學(xué)分一、課程介紹在大數(shù)據(jù)時代,數(shù)據(jù)分析技術(shù)的研究和應(yīng)用越來越重要。爬蟲作為數(shù)據(jù)獲取來源之一,在數(shù)據(jù)分析中扮演著至關(guān)重要的角色。為滿足日益增長的數(shù)據(jù)分析人才需求,推動我國大數(shù)據(jù)、云計(jì)算、人工智能行業(yè)的發(fā)展,特開設(shè)Python網(wǎng)絡(luò)爬蟲技術(shù)課程。二、課程目標(biāo)通過本課程的學(xué)習(xí),學(xué)生將學(xué)會使用Python在靜態(tài)網(wǎng)頁、動態(tài)網(wǎng)頁、需要登錄后才能訪問的網(wǎng)頁、PC客戶端、APP中爬取數(shù)據(jù),將理論與實(shí)踐相結(jié)合,為將來從事數(shù)據(jù)爬蟲、分析研究工作奠定基礎(chǔ)。三、課程學(xué)時分配序號教學(xué)內(nèi)容理論學(xué)時實(shí)驗(yàn)學(xué)時1第1章Python爬蟲環(huán)境與爬蟲簡介112第2章網(wǎng)頁前端基礎(chǔ)313第3章簡單靜態(tài)網(wǎng)頁爬取454第4章常規(guī)動態(tài)網(wǎng)頁爬取245第5章模擬登錄126第6章終端協(xié)議分析227第7章Scrapy爬蟲22總計(jì)1418四、教學(xué)內(nèi)容及學(xué)時安排1.理論教學(xué)序號章節(jié)名稱主要內(nèi)容教學(xué)目標(biāo)學(xué)時1認(rèn)識爬蟲的概念-認(rèn)識爬蟲的原理-了解爬蟲運(yùn)作時應(yīng)遵守的規(guī)則-了解反爬蟲的目的和常用手段-針對反爬蟲的常用手段制定對應(yīng)爬取策略-了解Python常用爬蟲庫認(rèn)識爬蟲的概念及原理;了解反爬蟲的概念及對應(yīng)爬取策略;掌握Python常用爬蟲庫。12網(wǎng)絡(luò)通信基礎(chǔ)-了解Socket庫的作用及其包含的協(xié)議類型-了解Socket庫中的3種函數(shù)及其作用-熟悉使用Socket建立服務(wù)器端和客戶端進(jìn)行TCP通信,通過TCP通信從客戶端發(fā)送請求并接受服務(wù)器端的響應(yīng)-熟悉使用Socket建立服務(wù)器端和客戶端進(jìn)行UDP通信,通過UDP通信從客戶端發(fā)送請求并接受服務(wù)器端的響應(yīng)-熟悉HTTP通信過程中的客戶端發(fā)起請求的方式與服務(wù)器發(fā)送響應(yīng)的過程-熟悉HTTP通信過程中服務(wù)器發(fā)送響應(yīng)的常見HTTP狀態(tài)碼-熟悉HTTP協(xié)議中的頭部類型與對應(yīng)類型的常用的頭字段-熟悉Cookie機(jī)制的運(yùn)作原理及其作用了解Socket庫的作用及TCP/UDP通信方式;熟悉HTTP通信過程及狀態(tài)碼、頭部類型和Cookie機(jī)制的運(yùn)作原理。23數(shù)據(jù)庫基礎(chǔ)-掌握MySQL數(shù)據(jù)庫的配置方法-掌握MongoDB數(shù)據(jù)庫的配置方法掌握MySQL和MongoDB數(shù)據(jù)庫的配置方法。12.實(shí)驗(yàn)教學(xué)序號章節(jié)名稱主要內(nèi)容教學(xué)目標(biāo)學(xué)時1Python爬蟲環(huán)境搭建-安裝Python爬蟲環(huán)境掌握Python爬蟲環(huán)境的安裝和配置。12簡單靜態(tài)網(wǎng)頁爬取-使用Requests庫進(jìn)行簡單靜態(tài)網(wǎng)頁爬取-使用BeautifulSoup庫進(jìn)行簡單靜態(tài)網(wǎng)頁解析掌握使用Requests庫進(jìn)行簡單靜態(tài)網(wǎng)頁爬取和解析;了解BeautifulSoup庫的使用方法。23常規(guī)動態(tài)網(wǎng)頁爬取-使用Selenium庫進(jìn)行常規(guī)動態(tài)網(wǎng)頁爬取掌握使用Selenium庫進(jìn)行常規(guī)動態(tài)網(wǎng)頁爬取。34Scrapy爬蟲-使用Scrapy框架進(jìn)行爬蟲開發(fā)掌握使用Scrapy框架進(jìn)行爬蟲開發(fā)。45數(shù)據(jù)庫操作-使用MongoDB數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲-使用Redis數(shù)據(jù)庫進(jìn)行數(shù)據(jù)緩存掌握MongoDB和Redis數(shù)據(jù)庫的使用方法。46反爬蟲處理-使用代理IP和User-Agent進(jìn)行反爬蟲處理了解代理IP和User-Agent的使用方法。2總計(jì)-1418注:刪除了“其它6、7”段落,因?yàn)闆]有明確的內(nèi)容。同時,對部分語言進(jìn)行了修改和調(diào)整,使其更加簡潔明了。2.掌握Python爬蟲的基本概念和原理3.了解Python爬蟲的應(yīng)用場景和發(fā)展趨勢4.熟悉Python爬蟲的相關(guān)工具和庫5.實(shí)現(xiàn)簡單的Python爬蟲程序,爬取指定網(wǎng)站的數(shù)據(jù)222222實(shí)驗(yàn)項(xiàng)目名稱靜態(tài)網(wǎng)頁爬取實(shí)驗(yàn)要求1.了解靜態(tài)網(wǎng)頁的基本結(jié)構(gòu)和特點(diǎn)2.掌握Python爬蟲的基本流程和步驟3.熟悉Python爬蟲的相關(guān)庫和工具,如Requests、BeautifulSoup、正則表達(dá)式等4.實(shí)現(xiàn)簡單的靜態(tài)網(wǎng)頁爬取程序,爬取指定網(wǎng)站的數(shù)據(jù)2實(shí)驗(yàn)項(xiàng)目名稱動態(tài)網(wǎng)頁爬取實(shí)驗(yàn)要求1.了解動態(tài)網(wǎng)頁的基本結(jié)構(gòu)和特點(diǎn)2.掌握Python爬蟲的逆向分析技術(shù),如查找XHR請求、分析JS代碼等3.熟悉Python爬蟲的相關(guān)庫和工具,如Selenium、PhantomJS等4.實(shí)現(xiàn)簡單的動態(tài)網(wǎng)頁爬取程序,爬取指定網(wǎng)站的數(shù)據(jù)2實(shí)驗(yàn)項(xiàng)目名稱模擬登錄實(shí)驗(yàn)要求1.了解模擬登錄的基本原理和流程2.掌握Python爬蟲的模擬登錄技術(shù),如獲取驗(yàn)證碼、提交表單、保存Cookie等3.熟悉Python爬蟲的相關(guān)庫和工具,如Chrome開發(fā)者工具、HttpAnalyzer、Fiddler等4.實(shí)現(xiàn)簡單的模擬登錄程序,模擬登錄指定網(wǎng)站并獲取數(shù)據(jù)2實(shí)驗(yàn)項(xiàng)目名稱Scrapy框架實(shí)驗(yàn)要求1.了解Scrapy框架的基本概念和原理2.熟悉Scrapy框架的常用命令和組件,如items、pipelines、spiders等3.掌握Scrapy框架的數(shù)據(jù)存儲和解析技術(shù),如存儲至csv文件、MySQL數(shù)據(jù)庫等4.實(shí)現(xiàn)簡單的Scrapy爬蟲程序,爬取指定網(wǎng)站的數(shù)據(jù)2實(shí)驗(yàn)項(xiàng)目名稱終端協(xié)議分析實(shí)驗(yàn)要求1.了解PC客戶端的基本結(jié)構(gòu)和特點(diǎn)2.熟悉HttpAnalyzer和Fiddler等工具的基本功能和使用方法3.掌握利用HttpAnalyzer和Fiddler等工具進(jìn)行抓包分析的技術(shù)4.實(shí)現(xiàn)簡單的終端協(xié)議分析程序,對指定應(yīng)用程序進(jìn)行數(shù)據(jù)抓取2實(shí)驗(yàn)項(xiàng)目名稱實(shí)戰(zhàn)項(xiàng)目實(shí)驗(yàn)要求1.綜合運(yùn)用Python爬蟲的相關(guān)技術(shù)和工具,實(shí)現(xiàn)一個完整的爬蟲項(xiàng)目2.項(xiàng)目需求包括但不限于靜態(tài)網(wǎng)頁爬取、動態(tài)網(wǎng)頁爬取、模擬登錄、數(shù)據(jù)存儲和解析等3.項(xiàng)目實(shí)現(xiàn)過程中需要考慮數(shù)據(jù)安全和隱私保護(hù)等問題27.將數(shù)據(jù)插入MongoDB數(shù)據(jù)庫的集合中。將數(shù)據(jù)插入MongoDB數(shù)據(jù)庫的集合中,是將爬蟲程序獲取的數(shù)據(jù)存儲到數(shù)據(jù)庫中的一種方式。8.使用Chrome開發(fā)者工具,查找提交入口。使用Chrome開發(fā)者工具,可以查找網(wǎng)頁中的提交入口,方便我們進(jìn)行數(shù)據(jù)提交操作。9.使用Chrome開發(fā)者工具,查找需要提交的表單數(shù)據(jù)。使用Chrome開發(fā)者工具,可以查找需要提交的表單數(shù)據(jù),方便我們進(jìn)行模擬登錄等操作。10.獲取驗(yàn)證碼數(shù)據(jù)。獲取驗(yàn)證碼數(shù)據(jù),是進(jìn)行模擬登錄等操作的必要步驟之一。11.使用POST方法向服務(wù)器發(fā)送登錄請求。使用POST方法向服務(wù)器發(fā)送登錄請求,是進(jìn)行模擬登錄等操作的必要步驟之一。12.使用Chrome開發(fā)者工具獲取瀏覽器的Cookie,實(shí)現(xiàn)模擬登錄。使用Chrome開發(fā)者工具獲取瀏覽器的Cookie,可以實(shí)現(xiàn)模擬登錄等操作。13.加載已經(jīng)保存的表單登錄后的Cookie,實(shí)現(xiàn)模擬登錄。加載已經(jīng)保存的表單登錄后的Cookie,可以實(shí)現(xiàn)模擬登錄等操作。1.利用HttpAnalyzer進(jìn)行抓包分析,得到一個標(biāo)準(zhǔn)的HTML文檔。利用HttpAnalyzer進(jìn)行抓包分析,可以得到一個標(biāo)準(zhǔn)的HTML文檔,方便我們進(jìn)行數(shù)據(jù)分析和處理。2.設(shè)置Fiddler軟件。設(shè)置Fiddler軟件,可以方便我們進(jìn)行數(shù)據(jù)抓取和分析。3.通過Fiddler得到人民日報(bào)APP的JSON格式的數(shù)據(jù)。通過Fiddler,可以得到人民日報(bào)APP的JSON格式的數(shù)據(jù),方便我們進(jìn)行數(shù)據(jù)爬取和分析。4.利用Fiddler軟件抓取的包,對人民日報(bào)APP新聞信息進(jìn)行爬取。利用Fiddler軟件抓取的包,可以對人民日報(bào)APP新聞信息進(jìn)行爬取,方便我們進(jìn)行數(shù)據(jù)分析和處理。1.創(chuàng)建Scrapy爬蟲項(xiàng)目。創(chuàng)建Scrapy爬蟲項(xiàng)目,是進(jìn)行數(shù)據(jù)爬取和處理的必要步驟之一。2.定義items/piplines腳本,將數(shù)據(jù)存儲至csv文件與MySQL數(shù)據(jù)庫。定義items/piplines腳本,可以將爬取到的數(shù)據(jù)存儲至csv文件與MySQL數(shù)據(jù)庫中,方便我們進(jìn)行數(shù)據(jù)分析和處理。3.創(chuàng)建spider爬蟲腳

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論