《數(shù)據(jù)采集技術(shù)》課件-Beautiful Soup

上傳人：青*** IP屬地：中國(guó) 上傳時(shí)間：2024-12-25 格式：PPTX 頁(yè)數(shù)：26 大?。?4.53MB 積分：2.88 舉報(bào) 版權(quán)申訴

《數(shù)據(jù)采集技術(shù)》課件-Beautiful Soup_第2頁(yè)

《數(shù)據(jù)采集技術(shù)》課件-Beautiful Soup_第3頁(yè)

《數(shù)據(jù)采集技術(shù)》課件-Beautiful Soup_第4頁(yè)

《數(shù)據(jù)采集技術(shù)》課件-Beautiful Soup_第5頁(yè)

已閱讀5頁(yè)，還剩21頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

BeautifulSoupContents知識(shí)目標(biāo)掌握BeautifulSoup使用方法技能目標(biāo)提高數(shù)據(jù)采集和處理能力素養(yǎng)目標(biāo)培養(yǎng)良好的信息素養(yǎng)和道德意識(shí)BeautifulSoup開發(fā)BeautifulSoup4版本，簡(jiǎn)稱為bs4bs4是一個(gè)Python庫(kù)，功能：OR中提取數(shù)據(jù)從節(jié)省大量工作時(shí)間提高開發(fā)項(xiàng)目效率可以通過(guò)轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航和查找方式bs4安裝、使用安裝bs4庫(kù)：運(yùn)行命令pipinstallbs4導(dǎo)入bs4庫(kù)：通過(guò)語(yǔ)句frombs4importBeautifulSoupbs4安裝、使用運(yùn)行命令pipinstallbs4安裝bs4庫(kù)：導(dǎo)入bs4庫(kù)：通過(guò)語(yǔ)句frombs4importBeautifulSoupbs4安裝、使用使用bs4的一般流程：創(chuàng)建BeautifulSoup對(duì)象：根據(jù)要解析的或

，創(chuàng)建一個(gè)BeautifulSoup對(duì)象。調(diào)用BeautifulSoup的構(gòu)造函數(shù)創(chuàng)建對(duì)象bs4安裝、使用使用bs4的一般流程：搜索和遍歷文檔樹：使用BeautifulSoup提供的方法來(lái)搜索和遍歷文檔樹。使用find()或find_all()方法搜索滿足特定條件的節(jié)點(diǎn)并使用點(diǎn)操作符和CSS選擇器來(lái)訪問(wèn)節(jié)點(diǎn)的屬性和文本。例如bs4安裝、使用使用bs4的一般流程：提取和操作數(shù)據(jù)：一旦找到了所需的節(jié)點(diǎn)，可以訪問(wèn)：節(jié)點(diǎn)的名稱節(jié)點(diǎn)的屬性節(jié)點(diǎn)的文本并根據(jù)需要進(jìn)行進(jìn)一步的數(shù)據(jù)提取和處理。bs4安裝、使用通過(guò)一個(gè)字符串或者類文件對(duì)象可以創(chuàng)建BeautifulSoup類的對(duì)象例如，根據(jù)字符串html_doc創(chuàng)建一個(gè)BeautifulSoup對(duì)象：示例：frombs4importBeautifulSoupsoup=BeautifulSoup(html_doc,'lxml')print(soup)運(yùn)行結(jié)果：<html><head><title>TheDormouse'sstory</title></head><body><pclass="title">TheDormouse'sstory<pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>and<aclass="sister"href="/wangwu"id="link3">wangwu</a>;andtheylivedatthebottomofawell.<pclass="story">...</body></html>創(chuàng)建BeautifulSoup實(shí)例時(shí)共傳入兩個(gè)參數(shù)。第一個(gè)參數(shù)表示包含被解析HTML文檔的字符串，第二個(gè)參數(shù)表示使用lxml解析器進(jìn)行解析。BeautifulSoup常見的解析器BeautifulSoup支持Python標(biāo)準(zhǔn)庫(kù)中的HTML解析器以及一些第三方的解析器，常見的解析器如下表所示：解析器使用方法優(yōu)勢(shì)劣勢(shì)Python標(biāo)準(zhǔn)庫(kù)BeautifulSoup(markup,“html.parser”)Python的內(nèi)置標(biāo)準(zhǔn)庫(kù)執(zhí)行速度適中文檔容錯(cuò)能力強(qiáng)Python2.7.3or3.2.2前的版本中文檔容錯(cuò)能力差lxmlHTML解析器BeautifulSoup(markup,“l(fā)xml”)速度快文檔容錯(cuò)能力強(qiáng)需要安裝C語(yǔ)言庫(kù)lxmlXML解析器BeautifulSoup(markup,[“l(fā)xml”,“xml”])BeautifulSoup(markup,“xml”)速度快唯一支持XML的解析器需要安裝C語(yǔ)言庫(kù)html5libBeautifulSoup(markup,“html5lib”)最好的容錯(cuò)性以瀏覽器的方式解析文檔生成HTML5格式的文檔速度慢BeautifulSoup常見的解析器BeautifulSoup對(duì)象會(huì)根據(jù)當(dāng)前系統(tǒng)安裝的庫(kù)自動(dòng)選擇解析器，選擇順序?yàn)椋簂xml如果沒(méi)有指定解析器創(chuàng)建BeautifulSoup對(duì)象時(shí)：html5libPython標(biāo)準(zhǔn)庫(kù)>>通過(guò)操作方法進(jìn)行解讀搜索bs4庫(kù)內(nèi)置了一些查找方法，其中常用的兩個(gè)方法功能如下：find()方法findall()方法用于查找符合查詢條件的第一個(gè)標(biāo)簽節(jié)點(diǎn)。查找所有符合查詢條件的標(biāo)簽節(jié)點(diǎn)，并返回一個(gè)列表。兩個(gè)方法用到的參數(shù)是一樣的，以find_all()方法為例：find_all(self,name=None,attrs={},recursive=True,text=None,limit=None,**kwargs)通過(guò)一些查找方法獲取文本或者標(biāo)簽屬性通過(guò)操作方法進(jìn)行解讀搜索為了能獲得這些有用的網(wǎng)頁(yè)信息，可以通過(guò)一些查找方法獲取文本或者標(biāo)簽屬性。bs4庫(kù)內(nèi)置了一些查找方法，其中常用的兩個(gè)方法功能如下：find()方法findall()方法用于查找符合查詢條件的第一個(gè)標(biāo)簽節(jié)點(diǎn)。查找所有符合查詢條件的標(biāo)簽節(jié)點(diǎn)，并返回一個(gè)列表。兩個(gè)方法用到的參數(shù)是一樣的，以find_all()方法為例：find_all(self,name=None,attrs={},recursive=True,text=None,limit=None,**kwargs)通過(guò)操作方法進(jìn)行解讀搜索示例1：soup.find_all('b')運(yùn)行結(jié)果：[TheDormouse'sstory]示例2：fortaginsoup.find_all(pile("^b")):print()運(yùn)行結(jié)果：bodybname參數(shù)：查找所有名字為name的標(biāo)簽，字符串會(huì)被自動(dòng)忽略掉。具體示例如下：示例3：soup.find_all(["a","b"])運(yùn)行結(jié)果：[TheDormouse'sstory,<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]傳入字符串傳入列表傳入正則通過(guò)操作方法進(jìn)行解讀搜索示例1：soup.find_all(id='link2')運(yùn)行結(jié)果：[<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>]示例2：soup.find_all(href=pile("lisi"),id='link1')運(yùn)行結(jié)果：[<aclass="sister"href="/lisi"id="link1">lisi</a>]keyword參數(shù)：若指定名字的參數(shù)不是搜索方法中內(nèi)置的參數(shù)名，則會(huì)把該參數(shù)當(dāng)作指定名稱的標(biāo)簽中的屬性來(lái)搜索。傳入屬性標(biāo)簽傳入多個(gè)屬性通過(guò)操作方法進(jìn)行解讀搜索keyword參數(shù)：若指定名字的參數(shù)不是搜索方法中內(nèi)置的參數(shù)名，則會(huì)把該參數(shù)當(dāng)作指定名稱的標(biāo)簽中的屬性來(lái)搜索。傳入class標(biāo)簽示例3：soup.find_all("a",class_="sister")運(yùn)行結(jié)果：[<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]通過(guò)操作方法進(jìn)行解讀搜索text參數(shù)：跟name參數(shù)的可選值一樣，也可以接受字符串、正則表達(dá)式和列表等。soup.find_all(text="zhangsan")運(yùn)行結(jié)果：[u'zhangsan']soup.find_all(text=["zhangsan","lisi","wangwu"])運(yùn)行結(jié)果：[u'lisi',u'wangwu',u'zhangsan']find_all()方法返回的是標(biāo)簽的文本內(nèi)容，而不是標(biāo)簽對(duì)象本身。通過(guò)操作方法進(jìn)行解讀搜索limit參數(shù)：限制返回結(jié)果的數(shù)量，其效果跟SQL語(yǔ)句中的limit關(guān)鍵字所產(chǎn)生的效果類似。soup.find_all("a",limit=2)運(yùn)行結(jié)果：[<aclass="sister"href="/elsie"id="link1">lisi</a>,<aclass="sister"href="/lacie"id="link2">zhangsan</a>]一旦搜索到結(jié)果的數(shù)量達(dá)到了limit的限制時(shí)，就會(huì)停止搜索。通過(guò)操作方法進(jìn)行解讀搜索recursive參數(shù)：如果只想搜索當(dāng)前節(jié)點(diǎn)的直接子節(jié)點(diǎn)，那么就可以使用參數(shù)recursive=False。soup.html.find_all("title")運(yùn)行結(jié)果：[<title>TheDormouse'sstory</title>]soup.html.find_all("title",recursive=False)運(yùn)行結(jié)果：[]recursive=False通過(guò)操作方法進(jìn)行解讀搜索recursive參數(shù)：如果只想搜索當(dāng)前節(jié)點(diǎn)的直接子節(jié)點(diǎn)，就可以使用參數(shù)recursive=False。soup.html.find_all("title")運(yùn)行結(jié)果：[<title>TheDormouse'sstory</title>]soup.html.find_all("title",recursive=False)運(yùn)行結(jié)果：[]通過(guò)操作方法進(jìn)行解讀搜索示例1：通過(guò)標(biāo)簽查找：soup.select("title")運(yùn)行結(jié)果：[<title>TheDormouse'sstory</title>]示例2：通過(guò)類名查找：soup.select(".sister")運(yùn)行結(jié)果：[<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]select()方法，會(huì)將CSS選擇器搜索到的結(jié)果放到列表中。通過(guò)操作方法進(jìn)行解讀搜索BeautifulSoup類中提供了一個(gè)select()方法，該方法會(huì)將CSS選擇器搜索到的結(jié)果放到列表中。示例3：通過(guò)id名查找：soup.select('#link1')運(yùn)行結(jié)果：[<aclass="sister"href="/lisi"id="link1">lisi</a>]示例4：通過(guò)組合查找：soup.select("p#link1")soup.select('head>title')運(yùn)行結(jié)果：[<aclass="sister"href="/lisi"id="link1">lisi</a>][<title>TheDormouse'sstory</title>]通過(guò)操作方法進(jìn)行解讀搜索以上查找方法都會(huì)返回一個(gè)列表。遍歷這個(gè)列表，可以調(diào)用get_text()方法來(lái)獲取節(jié)點(diǎn)的內(nèi)容。forele

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《數(shù)據(jù)采集技術(shù)》課件-Beautiful Soup

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《數(shù)據(jù)采集技術(shù)》課件-Beautiful Soup

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔