版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第6章Python網(wǎng)絡(luò)爬蟲《Python數(shù)據(jù)分析與應(yīng)用》網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(WebSpider),又被稱為網(wǎng)頁蜘蛛或網(wǎng)絡(luò)機器人,通過一定的規(guī)則自動地抓取網(wǎng)絡(luò)信息。網(wǎng)絡(luò)爬蟲就是根據(jù)網(wǎng)址獲取網(wǎng)頁信息。例如,當輸入網(wǎng)址:/,瀏覽器向DNS服務(wù)器發(fā)出請求,經(jīng)過解析,將發(fā)送給瀏覽器的HTML、JS、CSS等文件解析出來,便成了百度內(nèi)容。爬蟲流程爬取
Python提供了requests等庫實現(xiàn)HTTP請求操作,獲取網(wǎng)頁的源代碼。
Requests
方法解釋requests.get()獲取html的主要方法requests.head()獲取html頭部信息的主要方法requests.post()向html網(wǎng)頁提交post請求的方法requests.put()向html網(wǎng)頁提交put請求的方法requests.patch()向html提交局部修改的請求requests.delete()向html提交刪除請求Requests
importrequestsr=requests.get(url='http://www……')#GET請求print(r.status_code)#獲取返回狀態(tài)print(r.url)print(r.text)#打印解碼后的返回數(shù)據(jù)解析從網(wǎng)頁源代碼中提取有用的信息。方法1:采用正則表達式提取,但是在構(gòu)造正則表達式時比較復(fù)雜且容易出錯。方法2:由于網(wǎng)頁的結(jié)構(gòu)有一定的規(guī)則,可以利用BeautifulSoup、pyquery、lxml等庫提取網(wǎng)頁節(jié)點屬性、CSS選擇器等網(wǎng)頁信息。
存儲將提取到的數(shù)據(jù)保存到某處以便后續(xù)處理和分析,可以保存為TXT文本或JSON文本,也可以保存到MySQL和MongoDB等數(shù)據(jù)庫。正則表達式
正則表達式,又稱正規(guī)表示法、常規(guī)表示法,是指通過事先定義好的特定字符(“元字符”)組成的“規(guī)則字符串”,對字符串進行過濾邏輯。凡是符合規(guī)則的字符串,認為“匹配”,否則,不“匹配”。
正則表達式
采用正則表達式判斷一個字符串是否包含合法的Email,需要創(chuàng)建一個匹配Email的正則表達式,然后通過該正則表達式去判斷。正則表達式元字符含義輸入輸出.匹配任意字符
a.cAbc^匹配開始位置^abcAbc$匹配結(jié)束位置abc$Abc*
匹配前一個元字符0到多次abc*ab;abccc+匹配前一個元字符1到多次abc+abc;abccc?匹配前一個元字符0到1次abc?ab;abcre模塊fIndall()compile()match()search()replace()split()Python中的re模塊提供了一個正則表達式引擎接口,允許將正則表達式編譯成模式對象,通過這些模式對象執(zhí)行模式匹配搜索和字符串分割、子串替換等操作。Findall()>>>importre>>>p=pile(r'\d+')>>>print(p.findall('o1n2m3k4'))['1','2','3','4']search()>>>importre>>>a="123abc456">>>print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0))123abc456>>>print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1))123>>>print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2))abc>>>print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3))456Match()>>>importre>>>print(re.match('www','').span())#在起始位置匹配(0,3)>>>print(re.match('com',''))#不在起始位置匹配Nonesplit()1)只傳一個參數(shù),默認分割整個字符串>>>str="a,b,c,d,e";>>>str.split(',');["a","b","c","d","e"]split()2)傳入兩個參數(shù),返回限定長度的字符串>>>str="a,b,c,d,e";>>>str.split(',',3);["a","b","c"]
split()3)使用正則表達式匹配,返回分割的字符串>>>str="aa44bb55cc66dd";>>>print(re.split('\d+',str))["aa","bb","cc","dd"]BeautifulSouplxml作為BeautifulSoup庫解析器BeautifulSoup
BeautifulSoup將HTML文檔轉(zhuǎn)換成一個復(fù)雜的樹形結(jié)構(gòu),每個節(jié)點都是Python對象BeautifulSoupfromurllib.requestimporturlopenfrombs4importBeautifulSoup#導入BeautifulSoup對象html=urlopen('/new100.html')#打開url,獲取html內(nèi)容bs_obj=BeautifulSoup(html.read(),'html.parser')#把html內(nèi)容傳到BeautifulSoup對象
text_list=bs_obj.find_all("a","navmore")#找到”class=navmore”的a標簽fortextintext_list:print(text.get_text())#打印標簽的文本html.close()#關(guān)閉文件動態(tài)網(wǎng)頁的內(nèi)容由JavaScript動態(tài)加載生成,而Request模塊不能執(zhí)行JS和CSS代碼。一般采用Selenium抓取動態(tài)網(wǎng)頁的數(shù)據(jù),Selenium最初是Web的測試工具,可以操作瀏覽器,像BeautifulSoup一樣得到html頁面元素。SeleniumSeleniumphantomjs不同的瀏覽器,如IE、Chrome、Firefox等,WebDriver需要不同的驅(qū)動來實現(xiàn)。
在Firefox瀏覽器webdriver驅(qū)動下載網(wǎng)址/mozilla/geckodriver/releases,下載geckodriver.exe文件。
Selenium Scrapy是Python開發(fā)的抓取框架,用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。在anacondaPrompt下使用命令:pipinstallScrapy進行安裝爬蟲框架ScrapyScrapy是爬取網(wǎng)站數(shù)據(jù)的應(yīng)用框架,可以進行定制化爬取。爬蟲框架Scrapy爬取網(wǎng)站數(shù)據(jù)的應(yīng)用框架,可以進行定制化爬取。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國地理信息產(chǎn)業(yè)發(fā)展狀況及投資商業(yè)模式分析報告
- 2024-2030年中國噴碼機市場運行趨勢及投資發(fā)展戰(zhàn)略研究報告
- 2024-2030年中國壓縮天然氣汽車與加氣站行業(yè)發(fā)展規(guī)劃及投資可行性分析報告
- 2024年版建設(shè)工程施工合同規(guī)范
- 梅河口康美職業(yè)技術(shù)學院《機器人傳感與檢測技術(shù)》2023-2024學年第一學期期末試卷
- 茂名職業(yè)技術(shù)學院《助劑及其應(yīng)用》2023-2024學年第一學期期末試卷
- 2024年標準信息技術(shù)服務(wù)咨詢協(xié)議版B版
- 2024墻體拆除與建筑廢棄物再生資源利用及環(huán)保技術(shù)合作合同3篇
- 2024年二零二四年度文化遺產(chǎn)所有權(quán)轉(zhuǎn)移與保護利用合同3篇
- 2024年度人工智能技術(shù)研發(fā)與應(yīng)用合同續(xù)簽范本2篇
- 148個常用偏旁及含義
- 湖南省六年級上冊數(shù)學期末試卷(含答案)
- 私人影院管理制度
- 人機工程評價表
- 初三英語閱讀理解專項訓練100(附答案)
- CT球管標準規(guī)定
- 小學信息技術(shù)全冊教案(蘇教版)
- 自行車和自行車制造行業(yè)研究報告
- 2023基因行業(yè)藍皮書-基因慧
- 多選題數(shù)據(jù)的SPSS多重對應(yīng)分析操作方法
- 企業(yè)安全風險分級管控21類表格、標牌
評論
0/150
提交評論