版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Settings——配置配置文件管理爬蟲(chóng)行為和功能的關(guān)鍵部分提供了各種配置選項(xiàng),可以自定義和控制爬蟲(chóng)的行為配置文件管理爬蟲(chóng)行為和功能的關(guān)鍵部分提供了各種配置選項(xiàng),可以自定義和控制爬蟲(chóng)的行為Settings—常見(jiàn)配置Settings—常見(jiàn)配置Settings—常見(jiàn)配置Scrapy架構(gòu)Settings—常見(jiàn)配置1基礎(chǔ)配置使用Scrapy實(shí)現(xiàn)的bot名稱(chēng),也叫項(xiàng)目名稱(chēng)默認(rèn)的USER_AGENT由它來(lái)構(gòu)成,也作為日志記錄的日志名SPIDER_MODULES=['項(xiàng)目名稱(chēng).spiders']NEWSPIDER_MODULE='項(xiàng)目名稱(chēng).spiders'BOT_NAMESPIDER_MODULESSettings—常見(jiàn)配置1基礎(chǔ)配置設(shè)置爬取網(wǎng)站時(shí)使用的默認(rèn)User-AgentUSER_AGENT='項(xiàng)目名稱(chēng)(+)'設(shè)置是否遵循robots.txt中的爬蟲(chóng)規(guī)則ROBOTSTXT_OBEY=FalseUSER_AGENTROBOTSTXT_OBEYSettings—常見(jiàn)配置1基礎(chǔ)配置設(shè)置禁用Cookies,默認(rèn)是True,啟用一般將Cookies的功能禁用COOKIES_ENABLED=FalseDEFAULT_REQUEST_HEADERS設(shè)置ScrapyHTTP請(qǐng)求使用的默認(rèn)headerSettings—常見(jiàn)配置2并發(fā)與延遲設(shè)置Scrapy下載器并發(fā)請(qǐng)求的最大值,默認(rèn)是16CONCURRENT_REQUESTS每個(gè)域名能夠被執(zhí)行的最大并發(fā)請(qǐng)求數(shù)目,默認(rèn)值8CONCURRENT_REQUESTS_PER_DOMAIN能夠被單個(gè)IP處理的并發(fā)請(qǐng)求數(shù),默認(rèn)值0,代表無(wú)限制CONCURRENT_REQUESTS_PER_IPSettings—常見(jiàn)配置2并發(fā)與延遲設(shè)置ItemPipeline同時(shí)處理每個(gè)response的item的最大值,默認(rèn)是100CONCURRENT_ITEMS設(shè)置下載器在下載同一網(wǎng)站兩個(gè)請(qǐng)求之間的間隔時(shí)間默認(rèn)值為0,同時(shí)也支持小數(shù)DOWNLOAD_DELAYSettings—常見(jiàn)配置2并發(fā)與延遲設(shè)置下載器的超時(shí)時(shí)間(單位:秒),默認(rèn)值是180DOWNLOAD_TIMEOUTSettings—常見(jiàn)配置3爬取深度、方式設(shè)置爬取網(wǎng)站最大允許的深度(depth)值。默認(rèn)值為0,表示沒(méi)有限制DEPTH_LIMIT爬取基本原則。爬取時(shí),0表示深度優(yōu)先Lifo(默認(rèn)值),后進(jìn)先出;1表示廣度優(yōu)先FiFo,先進(jìn)先出。DEPTH_PRIORITYSettings—常見(jiàn)配置4中間件、管道、擴(kuò)展MIDDLEWARES啟用或禁用中間件。SPIDER_MIDDLEWARES={ '項(xiàng)目名稱(chēng).middlewares.SpiderMiddleware':543,}DOWNLOADER_MIDDLEWARES={ '項(xiàng)目名稱(chēng).middlewares.DownMiddleware':543,}Settings—常見(jiàn)配置4中間件、管道、擴(kuò)展SPIDER_MIDDLEWARES啟用或禁用爬蟲(chóng)中間件DOWNLOADER_MIDDLEWARES啟用或禁用下載器中間件,這里需要使用,否則抓取內(nèi)容無(wú)法使用Settings—常見(jiàn)配置4中間件、管道、擴(kuò)展EXTENSIONS配置并啟用擴(kuò)展,主要是一些狀態(tài)監(jiān)控ITEM_PIPELINES配置啟用Pipeline持久化數(shù)據(jù)字典的鍵表示pipeline的名稱(chēng),可以是任意值,不過(guò)值習(xí)慣設(shè)置在0-1000范圍內(nèi)。值越小則優(yōu)先級(jí)越高Settings—常見(jiàn)配置以上屬于全局配置項(xiàng)目中所有爬蟲(chóng)共享很多時(shí)候會(huì)實(shí)現(xiàn)局部配置定義字典類(lèi)型的custom_settings成員變量局部配置定義custom_settings={ 'DOWNLOAD_DELAY':10}啟動(dòng)時(shí)配置scrap
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州大學(xué)《機(jī)械制圖(二)》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴陽(yáng)學(xué)院《自動(dòng)控制原理C》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025黑龍江省安全員-B證考試題庫(kù)附答案
- 2025年上海建筑安全員考試題庫(kù)附答案
- 硅湖職業(yè)技術(shù)學(xué)院《廣播電視深度報(bào)道實(shí)務(wù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025湖南建筑安全員B證考試題庫(kù)附答案
- 2025重慶市建筑安全員-B證(項(xiàng)目經(jīng)理)考試題庫(kù)
- 廣州幼兒師范高等專(zhuān)科學(xué)校《建筑、結(jié)構(gòu)識(shí)圖》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣州新華學(xué)院《數(shù)字化模具設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025重慶市安全員考試題庫(kù)
- 非急救轉(zhuǎn)運(yùn)管理制度
- 第18課《天下第一樓(節(jié)選)》 統(tǒng)編版語(yǔ)文九年級(jí)下冊(cè)
- 活動(dòng)策劃部培訓(xùn)課件
- 江蘇省鹽城市2022-2023學(xué)年八年級(jí)上學(xué)期期末歷史試題
- 稻草購(gòu)銷(xiāo)合同模板
- 執(zhí)法中隊(duì)競(jìng)聘演講稿
- 國(guó)有企業(yè)員工守則
- CSR社會(huì)責(zé)任管理手冊(cè)模板
- 毛澤東軍事思想概述(新)
- 錨桿框格梁施工技術(shù)交底
- 商戶(hù)清場(chǎng)協(xié)議書(shū)
評(píng)論
0/150
提交評(píng)論