土地生態(tài)數(shù)據(jù)爬取_第1頁
土地生態(tài)數(shù)據(jù)爬取_第2頁
土地生態(tài)數(shù)據(jù)爬取_第3頁
土地生態(tài)數(shù)據(jù)爬取_第4頁
土地生態(tài)數(shù)據(jù)爬取_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

目錄CONTENTS01數(shù)據(jù)爬取概述02實(shí)踐操作1:鏈家網(wǎng)&騰訊POI&高德POI03實(shí)踐操作2:百度POI爬取04實(shí)踐操作3:中國土地市場網(wǎng)&北大法寶05實(shí)踐操作4:OpenstreetMap爬取使用后羿采集器采集生態(tài)環(huán)境部新聞01數(shù)據(jù)爬取概述網(wǎng)絡(luò)爬蟲的應(yīng)用場景搜索引擎商業(yè)分析數(shù)據(jù)挖掘數(shù)據(jù)抓取工作原理需要爬取的數(shù)據(jù)通過什么網(wǎng)址來訪問,或者使用什么API來獲取。找出數(shù)據(jù)所在位置通過爬蟲軟件或者編程發(fā)送網(wǎng)絡(luò)請求。模擬瀏覽器/APP訪問獲取響應(yīng),解析返回的網(wǎng)絡(luò)請求。解析HTML/JSON將數(shù)據(jù)存儲到CSV、Excel文件或者數(shù)據(jù)庫中。存儲數(shù)據(jù)數(shù)據(jù)抓取方法爬蟲軟件:例如后羿采集器、八爪魚采集器等,無需編碼,通常采用自動(dòng)操作瀏覽器的方式,適合一般網(wǎng)頁的批量大規(guī)模采集。編寫爬蟲程序:動(dòng)態(tài)渲染或隱藏的數(shù)據(jù)需要通過編程的方式來批量獲取和解析。各種編程語言都可以編寫爬蟲程序,相比而言Python更適合編寫爬蟲。實(shí)現(xiàn)方式有以下兩種:

1.純代碼爬蟲,完全使用代碼發(fā)送和接收網(wǎng)絡(luò)請求。

2.(無頭/有頭)瀏覽器爬蟲,使用代碼控制瀏覽器來發(fā)送和接收網(wǎng)絡(luò)請求。無需編碼的爬蟲軟件國內(nèi)常用名稱網(wǎng)站八抓魚/后羿/火車/前嗅ForeSpider/熊貓采集/國外常用名稱網(wǎng)站備注Octoparse/Parsehub/Import.iohttps://www.import.io/Outwithub/Firefox火狐瀏覽器擴(kuò)展DataScraperChrome應(yīng)用商店Chrome谷歌瀏覽器擴(kuò)展Webscraperhttps://webscraper.io/Chrome谷歌瀏覽器擴(kuò)展ScraperChrome應(yīng)用商店Chrome谷歌瀏覽器擴(kuò)展API數(shù)據(jù)抓取通常需要通過編程的方式,按照API接口定義傳入指定的參數(shù),批量調(diào)用API獲取數(shù)據(jù)。按照API接口定義的方式批量調(diào)用APP數(shù)據(jù)抓取通過反編譯APP的安裝包,或者使用抓包軟件比如HttpCanary、Charles等,獲取接口地址。通過編程的方式模擬接口調(diào)用,讓服務(wù)器誤以為是真實(shí)的APP在請求數(shù)據(jù)。常見反爬方法與應(yīng)對措施反爬方法說明應(yīng)對措施IP封禁拒絕來自同一IP地址的頻繁訪問請求代理服務(wù)器池請求頭限制服務(wù)器檢查請求的headers中是否有指定的信息嚴(yán)格遵循原始請求頭格式Javascript動(dòng)態(tài)渲染數(shù)據(jù)不放在html源代碼中,而是由Javascript動(dòng)態(tài)請求與渲染瀏覽器渲染Javascript解密CSS字體加密網(wǎng)站自定義特殊字體,人類看到的是正常文字,機(jī)器看到的是亂碼OCRCSS解密驗(yàn)證碼圖片驗(yàn)證碼、滑動(dòng)驗(yàn)證碼等打碼服務(wù)登錄限制必須注冊賬戶并登錄后才會(huì)顯示內(nèi)容多賬號人工智能用戶行為監(jiān)測判斷用戶訪問行為是否符合人類特征模擬人類訪問行為網(wǎng)絡(luò)爬蟲的法律問題侵犯他人隱私侵犯他人知識產(chǎn)權(quán)超出合理使用范圍遵守網(wǎng)站的爬蟲協(xié)議遵守相關(guān)法律法規(guī)尊重他人權(quán)益禮貌爬取02實(shí)操1:鏈家網(wǎng)&騰訊POI&高德POI鏈家網(wǎng):使用后羿采集器爬取初始鏈接為要采集的城市的二手房或出租房,比如杭州市的二手房:/ershoufang/。智能模式采集01點(diǎn)擊“深入采集”,在新打開的頁面上選擇要采集的字段。如何采集經(jīng)緯度:在字段名稱上點(diǎn)擊右鍵,選擇“編輯字段XPATH”將字段類型由“XPATH”改為“正則”輸入(?<=resblockPosition:')(.+?)(?=‘,)確定退出即可房屋詳情02騰訊POI爬取:使用后裔采集器爬取初始鏈接為騰訊地圖網(wǎng)址智能模式采集01點(diǎn)擊“預(yù)登錄”旁邊的綠色按鈕添加“預(yù)執(zhí)行操作”在搜索框中輸入要搜索的關(guān)鍵字,如“西湖區(qū)餐館”點(diǎn)擊搜索按鈕選擇杭州市保存退出預(yù)執(zhí)行操作02添加字段點(diǎn)擊“詳情”按鈕,提取詳情頁URL采集詳情頁03高德POI爬?。菏褂肞ython程序爬取準(zhǔn)備申請高德地圖API

Key(類型必須是“Web服務(wù)”)安裝Python3.9,使用”pip–rrequirements.txt”命令安裝依賴包搜索條件關(guān)鍵字:餐館、學(xué)校等types:《amap_poicode.xlsx》中的代碼搜索POI使用關(guān)鍵字或者types代碼搜索高德地圖關(guān)鍵字搜索API存儲保存為Excel文件03實(shí)操2:百度POI爬取使用后羿采集器爬取在瀏覽器中打開百度地圖,定位到要采集的區(qū)域,輸入要搜索的關(guān)鍵字并回車,復(fù)制地址欄生成的URL。確定起始URL在“后羿采集器”中添加“智能模式”任務(wù),粘貼URL。等待自動(dòng)識別列表中的各字段。采集列表點(diǎn)擊“深入采集”,在新打開的詳情頁中添加要采集的字段。采集詳情010203baidu_poi.py:get_city_poi_by_grid函數(shù),程序說明:調(diào)用OpenstreetMapAPI獲取城市城市矩形外包,將得到的最大最小經(jīng)緯度坐標(biāo)轉(zhuǎn)換為百度坐標(biāo)系。根據(jù)最大最小經(jīng)緯度計(jì)算網(wǎng)格,網(wǎng)格越密得到的數(shù)據(jù)量越多,API調(diào)用次數(shù)也越多。每個(gè)網(wǎng)格調(diào)用一次百度地圖的“圓形區(qū)域檢索”API搜索POI信息。自動(dòng)去重并保存數(shù)據(jù)。圓形區(qū)域搜索baidu_poi.py:get_city_poi_by_region函數(shù),調(diào)用百度地圖的“行政區(qū)劃區(qū)域檢索”API,搜索給定城市區(qū)域范圍內(nèi)的POI數(shù)據(jù),此方法查詢到的數(shù)據(jù)量較少。行政區(qū)劃區(qū)域搜索使用Python程序爬取04實(shí)操3:中國土地市場網(wǎng)&北大法寶使用后羿采集器爬取使用代碼爬取/tGdxm/result/detail使用接口爬取供地詳情02/tGdxm/result/list

接口最多允許訪問前600頁數(shù)據(jù),需要通過給接口傳遞不同的行政區(qū)和土地用途來突破此限制使用接口爬取供地列表01/tGyggZd/land/detail使用接口爬取關(guān)聯(lián)地塊詳情03使用后羿采集器爬取使用代碼爬取/chl/eb54177320bcc94bbdfb.html?way=listView爬取法規(guī)詳情頁02/law/search/RecordSearch爬取法規(guī)列表0105實(shí)操4:OpenstreetMap爬取使用Python程序從OpenStreetMap爬取路網(wǎng)準(zhǔn)備安裝Python3.9,使用”pip–rrequirements.txt”命令安裝依賴包ID在OpenStreetMap中搜索城市/區(qū)域ID搜索使用OverpassAPI搜索python3openstreetmap_road_network.py–areaid4591410–areaname西湖區(qū)存儲保存為Excel或shp文件使用Python程序從OpenStreetMap爬取城市綠地使用OpenstreetMap提供的OverpassAPI-OpenStreetMapWiki來查詢綠地區(qū)域的邊界坐標(biāo)并生成shp文件。查詢綠地區(qū)域在/網(wǎng)站上搜索要抓取區(qū)域/地域的名稱,比如“西湖區(qū)”,得到此區(qū)域的relation_id=4591410以及admin_level=6獲取要爬取區(qū)域/地域的ID0102數(shù)據(jù)爬取有很多的方法和工具可以使用,需要根據(jù)不同的數(shù)據(jù)類型和不同的數(shù)據(jù)源靈活選用。優(yōu)先選用數(shù)據(jù)源提供的API。未公開的接口不能保證一直可用。Python編程方式爬取最靈活,可以應(yīng)對所有反爬措施。后羿采集器、八爪魚采集器功能強(qiáng)大,最適合采集列表類的網(wǎng)頁。應(yīng)對反爬需要付費(fèi)解鎖高級功能??偨Y(jié)回顧Python腳本名稱功能openstreetmap_road_network.py從OpenStreetMap中,爬取城市/區(qū)域的路網(wǎng),生成路網(wǎng)shp文件。gaode_poi.py從高德地圖中,爬取城市/區(qū)域的POI信息。baidu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論