版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Scrapy框架的基本操作Contents知識(shí)目標(biāo)技能目標(biāo)素養(yǎng)目標(biāo)掌握Scrapy框架的基本操作和標(biāo)準(zhǔn)流程提高我們的數(shù)據(jù)采集和處理能力培養(yǎng)良好的信息素養(yǎng)和道德意識(shí)Scrapy框架操作步驟Scrapy爬蟲的流程大致分為以下四個(gè)步驟創(chuàng)建一個(gè)新的爬蟲項(xiàng)目明確想要抓取的目標(biāo)制作爬蟲開(kāi)始爬取網(wǎng)頁(yè)存儲(chǔ)爬取內(nèi)容(一般通過(guò)管道進(jìn)行)新建項(xiàng)目明確目標(biāo)創(chuàng)建spider存儲(chǔ)數(shù)據(jù)新建項(xiàng)目命令格式如下:scrapystartproject項(xiàng)目名稱在終端使用命令創(chuàng)建Scrapy項(xiàng)目示例新建項(xiàng)目新建一個(gè)Scrapy項(xiàng)目項(xiàng)目目錄結(jié)構(gòu)如下:創(chuàng)建Spider創(chuàng)建Spider分為以下三個(gè)步驟:提取數(shù)據(jù)運(yùn)行spider創(chuàng)建spider創(chuàng)建爬蟲創(chuàng)建爬蟲的命令格式如下:scrapygenspider爬蟲名稱"爬取域"創(chuàng)建Spider創(chuàng)建Spider示例創(chuàng)建Spider文件內(nèi)容如下所示:新創(chuàng)建的爬蟲文件baidu.py創(chuàng)建Spider新創(chuàng)建的爬蟲文件baidu.py文件內(nèi)容如下所示:創(chuàng)建Spider/board?platform=pc&sa=pcindex_entry以百度熱搜榜為示例,該頁(yè)面的內(nèi)容如下圖所示抓取內(nèi)容就是頁(yè)面中熱搜榜的數(shù)據(jù)定義起始URLclassBaiduSpider(scrapy.Spider):name='baidu'allowed_domains=['']
start_urls=['/board?platform=pc&sa=pcindex_entry']創(chuàng)建Spiderdefparse(self,response):withopen("hotlist.html","w",encoding="utf-8")asfile: file.write(response.text)處理響應(yīng)對(duì)象創(chuàng)建Spider定義parse方法,對(duì)響應(yīng)對(duì)象進(jìn)行處理運(yùn)行Spider命令格式為:運(yùn)行爬蟲scrapycrawl爬蟲名稱示例運(yùn)行SpiderScrapy框架的基本操作實(shí)操案例定義起始URLclassBaiduSpider(scrapy.Spider):name='baidu'allowed_domains=['']
start_urls=['/board?platform=pc&sa=pcindex_entry']創(chuàng)建Spider本講小結(jié)創(chuàng)建scrapy項(xiàng)目1scrapystartprojectmySpider生成spider2cdmySpiderscrapygenspiderbaidu“”本講小結(jié)定義start_urls,定義parse()方法3運(yùn)行spider4scrapycrawlbaidu本講小結(jié)創(chuàng)建scrapy項(xiàng)目1scrapystartprojectmySpider生成spider2cdmySpiderscrapygenspiderbaidu“”定義start_urls,定義parse()方法3運(yùn)行spider4scrapycrawlbaidu課后作業(yè)1創(chuàng)建第一個(gè)Scrapy項(xiàng)目2抓取熱點(diǎn)新聞3熟悉Scrapy框架的基本操作Scrapy框架操作步驟Scrapy爬蟲的流程大致分為以下四個(gè)步驟創(chuàng)建一個(gè)新的爬蟲項(xiàng)目明確想要抓取的目標(biāo)制作爬蟲開(kāi)始爬取網(wǎng)頁(yè)存儲(chǔ)爬取內(nèi)容(一般通過(guò)管道進(jìn)行)新建項(xiàng)目明確目標(biāo)創(chuàng)建spider存儲(chǔ)數(shù)據(jù)Scrapy框架操作步驟Scrapy爬蟲的流程大致分為以下四個(gè)步驟創(chuàng)建一個(gè)新的爬蟲項(xiàng)目明確想要抓取的目標(biāo)制作爬蟲開(kāi)始爬取網(wǎng)頁(yè)存儲(chǔ)爬取內(nèi)容(一般通過(guò)管道進(jìn)行)新建項(xiàng)目明確目標(biāo)創(chuàng)建spider存儲(chǔ)數(shù)據(jù)制作Spider定義一個(gè)容器保存要爬取的詞條數(shù)據(jù)Scrapy提供了Item類用來(lái)表示實(shí)體數(shù)據(jù)制作SpiderItem對(duì)象類似于詞典(dictionary-like)的API用于聲明可用字段的簡(jiǎn)單語(yǔ)法簡(jiǎn)單的容器,保存了爬取到得數(shù)據(jù)提供了:制作Spideritem.py文件未修改前如下:修改后:制作Spideritem.py文件未修改前如下:修改后:制作Spider提取數(shù)據(jù)觀察源碼,定位目標(biāo)數(shù)據(jù)。制作Spider提取數(shù)據(jù)修改后的baidu.py內(nèi)容如下:(這里希望在講解每一行的時(shí)候有一條紅色下劃線指向該行)返回結(jié)果后就退出循環(huán)return返回的是生成器yield制作Spider提取數(shù)據(jù)修改后的baidu.py內(nèi)容如下:返回結(jié)果后就退出循環(huán)return返回的是生成器yield制作Spider提取數(shù)據(jù)修改后的baidu.py內(nèi)容如下:(這里希望在講解每一行的時(shí)候有一條紅色下劃線指向該行)解析技術(shù)框架本身提供了一套機(jī)制來(lái)幫助用戶獲取信息Selectors制作Spider運(yùn)行爬蟲輸入“scrapycrawlbaidu”存儲(chǔ)數(shù)據(jù)目前只在控制臺(tái)看到輸出結(jié)果存儲(chǔ)數(shù)據(jù)目前只在控制臺(tái)看到輸出結(jié)果存儲(chǔ)數(shù)據(jù)-o選項(xiàng)可以輸出指定格式的文件:scrapycrawlbaidu-ohotlist.csv存儲(chǔ)數(shù)據(jù)以下命令對(duì)應(yīng)多種輸出格式scrapycrawlbaidu-ohotlist.csvscrapycrawlbaidu-ohotlist.jsonscrapycrawlbaidu-ohotlist.xmlscrapycrawlbaidu-ohotlist.picklescrapycrawlbaidu-ohotlist.mar
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東理工學(xué)院《畜牧機(jī)械》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東科技學(xué)院《譜學(xué)導(dǎo)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東江門幼兒師范高等專科學(xué)?!恫厮幉脑耘鄬W(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東行政職業(yè)學(xué)院《人力資源綜合實(shí)訓(xùn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東工程職業(yè)技術(shù)學(xué)院《創(chuàng)意傳播管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東第二師范學(xué)院《Photoshop圖像處理》2023-2024學(xué)年第一學(xué)期期末試卷
- 《高效績(jī)團(tuán)隊(duì)》課件
- 廣安職業(yè)技術(shù)學(xué)院《房地產(chǎn)開(kāi)發(fā)》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛州職業(yè)技術(shù)學(xué)院《翻譯概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 保潔消防培訓(xùn)課件
- 口腔急救知識(shí)培訓(xùn)課件
- 三年級(jí)上冊(cè)脫式計(jì)算練習(xí)200題及答案
- 稅法(第十版)課件:稅法概述
- 眼內(nèi)容物剜除的護(hù)理
- 2023-2024學(xué)年江蘇省鹽城市大豐區(qū)八年級(jí)(上)期末數(shù)學(xué)試卷(含解析)
- 外科2024年度神經(jīng)外科工作總結(jié)及計(jì)劃
- 新教材-湘教版高中地理必修第一冊(cè)全冊(cè)各章節(jié)知識(shí)點(diǎn)考點(diǎn)提煉匯總
- 《貨幣的時(shí)間價(jià)值》課件
- 浙江省杭州市西湖區(qū)2023-2024學(xué)年六年級(jí)上學(xué)期期末科學(xué)試卷
- 《疼痛科特色診療》課件
- 軟件項(xiàng)目服務(wù)外包工作管理辦法
評(píng)論
0/150
提交評(píng)論