《數(shù)據(jù)采集技術(shù)》課件-Beautiful Soup_第1頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-Beautiful Soup_第2頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-Beautiful Soup_第3頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-Beautiful Soup_第4頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-Beautiful Soup_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

BeautifulSoupContents知識(shí)目標(biāo)掌握BeautifulSoup使用方法技能目標(biāo)提高數(shù)據(jù)采集和處理能力素養(yǎng)目標(biāo)培養(yǎng)良好的信息素養(yǎng)和道德意識(shí)BeautifulSoup開發(fā)BeautifulSoup4版本,簡(jiǎn)稱為bs4bs4是一個(gè)Python庫(kù),功能:OR中提取數(shù)據(jù)從節(jié)省大量工作時(shí)間提高開發(fā)項(xiàng)目效率可以通過(guò)轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航和查找方式bs4安裝、使用安裝bs4庫(kù):運(yùn)行命令pipinstallbs4導(dǎo)入bs4庫(kù):通過(guò)語(yǔ)句frombs4importBeautifulSoupbs4安裝、使用運(yùn)行命令pipinstallbs4安裝bs4庫(kù):導(dǎo)入bs4庫(kù):通過(guò)語(yǔ)句frombs4importBeautifulSoupbs4安裝、使用使用bs4的一般流程:創(chuàng)建BeautifulSoup對(duì)象:根據(jù)要解析的或

,創(chuàng)建一個(gè)BeautifulSoup對(duì)象。調(diào)用BeautifulSoup的構(gòu)造函數(shù)創(chuàng)建對(duì)象bs4安裝、使用使用bs4的一般流程:搜索和遍歷文檔樹:使用BeautifulSoup提供的方法來(lái)搜索和遍歷文檔樹。使用find()或find_all()方法搜索滿足特定條件的節(jié)點(diǎn)并使用點(diǎn)操作符和CSS選擇器來(lái)訪問(wèn)節(jié)點(diǎn)的屬性和文本。例如bs4安裝、使用使用bs4的一般流程:提取和操作數(shù)據(jù):一旦找到了所需的節(jié)點(diǎn),可以訪問(wèn):節(jié)點(diǎn)的名稱節(jié)點(diǎn)的屬性節(jié)點(diǎn)的文本并根據(jù)需要進(jìn)行進(jìn)一步的數(shù)據(jù)提取和處理。bs4安裝、使用通過(guò)一個(gè)字符串或者類文件對(duì)象可以創(chuàng)建BeautifulSoup類的對(duì)象例如,根據(jù)字符串html_doc創(chuàng)建一個(gè)BeautifulSoup對(duì)象:示例:frombs4importBeautifulSoupsoup=BeautifulSoup(html_doc,'lxml')print(soup)運(yùn)行結(jié)果:<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"><b>TheDormouse'sstory</b></p><pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>and<aclass="sister"href="/wangwu"id="link3">wangwu</a>;andtheylivedatthebottomofawell.</p><pclass="story">...</p></body></html>創(chuàng)建BeautifulSoup實(shí)例時(shí)共傳入兩個(gè)參數(shù)。第一個(gè)參數(shù)表示包含被解析HTML文檔的字符串,第二個(gè)參數(shù)表示使用lxml解析器進(jìn)行解析。BeautifulSoup常見的解析器BeautifulSoup支持Python標(biāo)準(zhǔn)庫(kù)中的HTML解析器以及一些第三方的解析器,常見的解析器如下表所示:解析器使用方法優(yōu)勢(shì)劣勢(shì)Python標(biāo)準(zhǔn)庫(kù)BeautifulSoup(markup,“html.parser”)Python的內(nèi)置標(biāo)準(zhǔn)庫(kù)執(zhí)行速度適中文檔容錯(cuò)能力強(qiáng)Python2.7.3or3.2.2前的版本中文檔容錯(cuò)能力差lxmlHTML解析器BeautifulSoup(markup,“l(fā)xml”)速度快文檔容錯(cuò)能力強(qiáng)需要安裝C語(yǔ)言庫(kù)lxmlXML解析器BeautifulSoup(markup,[“l(fā)xml”,“xml”])BeautifulSoup(markup,“xml”)速度快唯一支持XML的解析器需要安裝C語(yǔ)言庫(kù)html5libBeautifulSoup(markup,“html5lib”)最好的容錯(cuò)性以瀏覽器的方式解析文檔生成HTML5格式的文檔速度慢BeautifulSoup常見的解析器BeautifulSoup對(duì)象會(huì)根據(jù)當(dāng)前系統(tǒng)安裝的庫(kù)自動(dòng)選擇解析器,選擇順序?yàn)椋簂xml如果沒(méi)有指定解析器創(chuàng)建BeautifulSoup對(duì)象時(shí):html5libPython標(biāo)準(zhǔn)庫(kù)>>通過(guò)操作方法進(jìn)行解讀搜索bs4庫(kù)內(nèi)置了一些查找方法,其中常用的兩個(gè)方法功能如下:find()方法findall()方法用于查找符合查詢條件的第一個(gè)標(biāo)簽節(jié)點(diǎn)。查找所有符合查詢條件的標(biāo)簽節(jié)點(diǎn),并返回一個(gè)列表。兩個(gè)方法用到的參數(shù)是一樣的,以find_all()方法為例:find_all(self,name=None,attrs={},recursive=True,text=None,limit=None,**kwargs)通過(guò)一些查找方法獲取文本或者標(biāo)簽屬性通過(guò)操作方法進(jìn)行解讀搜索為了能獲得這些有用的網(wǎng)頁(yè)信息,可以通過(guò)一些查找方法獲取文本或者標(biāo)簽屬性。bs4庫(kù)內(nèi)置了一些查找方法,其中常用的兩個(gè)方法功能如下:find()方法findall()方法用于查找符合查詢條件的第一個(gè)標(biāo)簽節(jié)點(diǎn)。查找所有符合查詢條件的標(biāo)簽節(jié)點(diǎn),并返回一個(gè)列表。兩個(gè)方法用到的參數(shù)是一樣的,以find_all()方法為例:find_all(self,name=None,attrs={},recursive=True,text=None,limit=None,**kwargs)通過(guò)操作方法進(jìn)行解讀搜索示例1:soup.find_all('b')運(yùn)行結(jié)果:[<b>TheDormouse'sstory</b>]示例2:fortaginsoup.find_all(pile("^b")):print()運(yùn)行結(jié)果:bodybname參數(shù):查找所有名字為name的標(biāo)簽,字符串會(huì)被自動(dòng)忽略掉。具體示例如下:示例3:soup.find_all(["a","b"])運(yùn)行結(jié)果:[<b>TheDormouse'sstory</b>,<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]傳入字符串傳入列表傳入正則通過(guò)操作方法進(jìn)行解讀搜索示例1:soup.find_all(id='link2')運(yùn)行結(jié)果:[<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>]示例2:soup.find_all(href=pile("lisi"),id='link1')運(yùn)行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>]keyword參數(shù):若指定名字的參數(shù)不是搜索方法中內(nèi)置的參數(shù)名,則會(huì)把該參數(shù)當(dāng)作指定名稱的標(biāo)簽中的屬性來(lái)搜索。傳入屬性標(biāo)簽傳入多個(gè)屬性通過(guò)操作方法進(jìn)行解讀搜索keyword參數(shù):若指定名字的參數(shù)不是搜索方法中內(nèi)置的參數(shù)名,則會(huì)把該參數(shù)當(dāng)作指定名稱的標(biāo)簽中的屬性來(lái)搜索。傳入class標(biāo)簽示例3:soup.find_all("a",class_="sister")運(yùn)行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]通過(guò)操作方法進(jìn)行解讀搜索text參數(shù):跟name參數(shù)的可選值一樣,也可以接受字符串、正則表達(dá)式和列表等。soup.find_all(text="zhangsan")運(yùn)行結(jié)果:[u'zhangsan']soup.find_all(text=["zhangsan","lisi","wangwu"])運(yùn)行結(jié)果:[u'lisi',u'wangwu',u'zhangsan']find_all()方法返回的是標(biāo)簽的文本內(nèi)容,而不是標(biāo)簽對(duì)象本身。通過(guò)操作方法進(jìn)行解讀搜索limit參數(shù):限制返回結(jié)果的數(shù)量,其效果跟SQL語(yǔ)句中的limit關(guān)鍵字所產(chǎn)生的效果類似。soup.find_all("a",limit=2)運(yùn)行結(jié)果:[<aclass="sister"href="/elsie"id="link1">lisi</a>,<aclass="sister"href="/lacie"id="link2">zhangsan</a>]一旦搜索到結(jié)果的數(shù)量達(dá)到了limit的限制時(shí),就會(huì)停止搜索。通過(guò)操作方法進(jìn)行解讀搜索recursive參數(shù):如果只想搜索當(dāng)前節(jié)點(diǎn)的直接子節(jié)點(diǎn),那么就可以使用參數(shù)recursive=False。soup.html.find_all("title")運(yùn)行結(jié)果:[<title>TheDormouse'sstory</title>]soup.html.find_all("title",recursive=False)運(yùn)行結(jié)果:[]recursive=False通過(guò)操作方法進(jìn)行解讀搜索recursive參數(shù):如果只想搜索當(dāng)前節(jié)點(diǎn)的直接子節(jié)點(diǎn),就可以使用參數(shù)recursive=False。soup.html.find_all("title")運(yùn)行結(jié)果:[<title>TheDormouse'sstory</title>]soup.html.find_all("title",recursive=False)運(yùn)行結(jié)果:[]通過(guò)操作方法進(jìn)行解讀搜索示例1:通過(guò)標(biāo)簽查找:soup.select("title")運(yùn)行結(jié)果:[<title>TheDormouse'sstory</title>]示例2:通過(guò)類名查找:soup.select(".sister")運(yùn)行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]select()方法,會(huì)將CSS選擇器搜索到的結(jié)果放到列表中。通過(guò)操作方法進(jìn)行解讀搜索BeautifulSoup類中提供了一個(gè)select()方法,該方法會(huì)將CSS選擇器搜索到的結(jié)果放到列表中。示例3:通過(guò)id名查找:soup.select('#link1')運(yùn)行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>]示例4:通過(guò)組合查找:soup.select("p#link1")soup.select('head>title')運(yùn)行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>][<title>TheDormouse'sstory</title>]通過(guò)操作方法進(jìn)行解讀搜索以上查找方法都會(huì)返回一個(gè)列表。遍歷這個(gè)列表,可以調(diào)用get_text()方法來(lái)獲取節(jié)點(diǎn)的內(nèi)容。forele

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論