




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
BeautifulSoupContents知識(shí)目標(biāo)掌握BeautifulSoup使用方法技能目標(biāo)提高數(shù)據(jù)采集和處理能力素養(yǎng)目標(biāo)培養(yǎng)良好的信息素養(yǎng)和道德意識(shí)BeautifulSoup開發(fā)BeautifulSoup4版本,簡(jiǎn)稱為bs4bs4是一個(gè)Python庫(kù),功能:OR中提取數(shù)據(jù)從節(jié)省大量工作時(shí)間提高開發(fā)項(xiàng)目效率可以通過(guò)轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航和查找方式bs4安裝、使用安裝bs4庫(kù):運(yùn)行命令pipinstallbs4導(dǎo)入bs4庫(kù):通過(guò)語(yǔ)句frombs4importBeautifulSoupbs4安裝、使用運(yùn)行命令pipinstallbs4安裝bs4庫(kù):導(dǎo)入bs4庫(kù):通過(guò)語(yǔ)句frombs4importBeautifulSoupbs4安裝、使用使用bs4的一般流程:創(chuàng)建BeautifulSoup對(duì)象:根據(jù)要解析的或
,創(chuàng)建一個(gè)BeautifulSoup對(duì)象。調(diào)用BeautifulSoup的構(gòu)造函數(shù)創(chuàng)建對(duì)象bs4安裝、使用使用bs4的一般流程:搜索和遍歷文檔樹:使用BeautifulSoup提供的方法來(lái)搜索和遍歷文檔樹。使用find()或find_all()方法搜索滿足特定條件的節(jié)點(diǎn)并使用點(diǎn)操作符和CSS選擇器來(lái)訪問(wèn)節(jié)點(diǎn)的屬性和文本。例如bs4安裝、使用使用bs4的一般流程:提取和操作數(shù)據(jù):一旦找到了所需的節(jié)點(diǎn),可以訪問(wèn):節(jié)點(diǎn)的名稱節(jié)點(diǎn)的屬性節(jié)點(diǎn)的文本并根據(jù)需要進(jìn)行進(jìn)一步的數(shù)據(jù)提取和處理。bs4安裝、使用通過(guò)一個(gè)字符串或者類文件對(duì)象可以創(chuàng)建BeautifulSoup類的對(duì)象例如,根據(jù)字符串html_doc創(chuàng)建一個(gè)BeautifulSoup對(duì)象:示例:frombs4importBeautifulSoupsoup=BeautifulSoup(html_doc,'lxml')print(soup)運(yùn)行結(jié)果:<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"><b>TheDormouse'sstory</b></p><pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>and<aclass="sister"href="/wangwu"id="link3">wangwu</a>;andtheylivedatthebottomofawell.</p><pclass="story">...</p></body></html>創(chuàng)建BeautifulSoup實(shí)例時(shí)共傳入兩個(gè)參數(shù)。第一個(gè)參數(shù)表示包含被解析HTML文檔的字符串,第二個(gè)參數(shù)表示使用lxml解析器進(jìn)行解析。BeautifulSoup常見的解析器BeautifulSoup支持Python標(biāo)準(zhǔn)庫(kù)中的HTML解析器以及一些第三方的解析器,常見的解析器如下表所示:解析器使用方法優(yōu)勢(shì)劣勢(shì)Python標(biāo)準(zhǔn)庫(kù)BeautifulSoup(markup,“html.parser”)Python的內(nèi)置標(biāo)準(zhǔn)庫(kù)執(zhí)行速度適中文檔容錯(cuò)能力強(qiáng)Python2.7.3or3.2.2前的版本中文檔容錯(cuò)能力差lxmlHTML解析器BeautifulSoup(markup,“l(fā)xml”)速度快文檔容錯(cuò)能力強(qiáng)需要安裝C語(yǔ)言庫(kù)lxmlXML解析器BeautifulSoup(markup,[“l(fā)xml”,“xml”])BeautifulSoup(markup,“xml”)速度快唯一支持XML的解析器需要安裝C語(yǔ)言庫(kù)html5libBeautifulSoup(markup,“html5lib”)最好的容錯(cuò)性以瀏覽器的方式解析文檔生成HTML5格式的文檔速度慢BeautifulSoup常見的解析器BeautifulSoup對(duì)象會(huì)根據(jù)當(dāng)前系統(tǒng)安裝的庫(kù)自動(dòng)選擇解析器,選擇順序?yàn)椋簂xml如果沒(méi)有指定解析器創(chuàng)建BeautifulSoup對(duì)象時(shí):html5libPython標(biāo)準(zhǔn)庫(kù)>>通過(guò)操作方法進(jìn)行解讀搜索bs4庫(kù)內(nèi)置了一些查找方法,其中常用的兩個(gè)方法功能如下:find()方法findall()方法用于查找符合查詢條件的第一個(gè)標(biāo)簽節(jié)點(diǎn)。查找所有符合查詢條件的標(biāo)簽節(jié)點(diǎn),并返回一個(gè)列表。兩個(gè)方法用到的參數(shù)是一樣的,以find_all()方法為例:find_all(self,name=None,attrs={},recursive=True,text=None,limit=None,**kwargs)通過(guò)一些查找方法獲取文本或者標(biāo)簽屬性通過(guò)操作方法進(jìn)行解讀搜索為了能獲得這些有用的網(wǎng)頁(yè)信息,可以通過(guò)一些查找方法獲取文本或者標(biāo)簽屬性。bs4庫(kù)內(nèi)置了一些查找方法,其中常用的兩個(gè)方法功能如下:find()方法findall()方法用于查找符合查詢條件的第一個(gè)標(biāo)簽節(jié)點(diǎn)。查找所有符合查詢條件的標(biāo)簽節(jié)點(diǎn),并返回一個(gè)列表。兩個(gè)方法用到的參數(shù)是一樣的,以find_all()方法為例:find_all(self,name=None,attrs={},recursive=True,text=None,limit=None,**kwargs)通過(guò)操作方法進(jìn)行解讀搜索示例1:soup.find_all('b')運(yùn)行結(jié)果:[<b>TheDormouse'sstory</b>]示例2:fortaginsoup.find_all(pile("^b")):print()運(yùn)行結(jié)果:bodybname參數(shù):查找所有名字為name的標(biāo)簽,字符串會(huì)被自動(dòng)忽略掉。具體示例如下:示例3:soup.find_all(["a","b"])運(yùn)行結(jié)果:[<b>TheDormouse'sstory</b>,<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]傳入字符串傳入列表傳入正則通過(guò)操作方法進(jìn)行解讀搜索示例1:soup.find_all(id='link2')運(yùn)行結(jié)果:[<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>]示例2:soup.find_all(href=pile("lisi"),id='link1')運(yùn)行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>]keyword參數(shù):若指定名字的參數(shù)不是搜索方法中內(nèi)置的參數(shù)名,則會(huì)把該參數(shù)當(dāng)作指定名稱的標(biāo)簽中的屬性來(lái)搜索。傳入屬性標(biāo)簽傳入多個(gè)屬性通過(guò)操作方法進(jìn)行解讀搜索keyword參數(shù):若指定名字的參數(shù)不是搜索方法中內(nèi)置的參數(shù)名,則會(huì)把該參數(shù)當(dāng)作指定名稱的標(biāo)簽中的屬性來(lái)搜索。傳入class標(biāo)簽示例3:soup.find_all("a",class_="sister")運(yùn)行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]通過(guò)操作方法進(jìn)行解讀搜索text參數(shù):跟name參數(shù)的可選值一樣,也可以接受字符串、正則表達(dá)式和列表等。soup.find_all(text="zhangsan")運(yùn)行結(jié)果:[u'zhangsan']soup.find_all(text=["zhangsan","lisi","wangwu"])運(yùn)行結(jié)果:[u'lisi',u'wangwu',u'zhangsan']find_all()方法返回的是標(biāo)簽的文本內(nèi)容,而不是標(biāo)簽對(duì)象本身。通過(guò)操作方法進(jìn)行解讀搜索limit參數(shù):限制返回結(jié)果的數(shù)量,其效果跟SQL語(yǔ)句中的limit關(guān)鍵字所產(chǎn)生的效果類似。soup.find_all("a",limit=2)運(yùn)行結(jié)果:[<aclass="sister"href="/elsie"id="link1">lisi</a>,<aclass="sister"href="/lacie"id="link2">zhangsan</a>]一旦搜索到結(jié)果的數(shù)量達(dá)到了limit的限制時(shí),就會(huì)停止搜索。通過(guò)操作方法進(jìn)行解讀搜索recursive參數(shù):如果只想搜索當(dāng)前節(jié)點(diǎn)的直接子節(jié)點(diǎn),那么就可以使用參數(shù)recursive=False。soup.html.find_all("title")運(yùn)行結(jié)果:[<title>TheDormouse'sstory</title>]soup.html.find_all("title",recursive=False)運(yùn)行結(jié)果:[]recursive=False通過(guò)操作方法進(jìn)行解讀搜索recursive參數(shù):如果只想搜索當(dāng)前節(jié)點(diǎn)的直接子節(jié)點(diǎn),就可以使用參數(shù)recursive=False。soup.html.find_all("title")運(yùn)行結(jié)果:[<title>TheDormouse'sstory</title>]soup.html.find_all("title",recursive=False)運(yùn)行結(jié)果:[]通過(guò)操作方法進(jìn)行解讀搜索示例1:通過(guò)標(biāo)簽查找:soup.select("title")運(yùn)行結(jié)果:[<title>TheDormouse'sstory</title>]示例2:通過(guò)類名查找:soup.select(".sister")運(yùn)行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]select()方法,會(huì)將CSS選擇器搜索到的結(jié)果放到列表中。通過(guò)操作方法進(jìn)行解讀搜索BeautifulSoup類中提供了一個(gè)select()方法,該方法會(huì)將CSS選擇器搜索到的結(jié)果放到列表中。示例3:通過(guò)id名查找:soup.select('#link1')運(yùn)行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>]示例4:通過(guò)組合查找:soup.select("p#link1")soup.select('head>title')運(yùn)行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>][<title>TheDormouse'sstory</title>]通過(guò)操作方法進(jìn)行解讀搜索以上查找方法都會(huì)返回一個(gè)列表。遍歷這個(gè)列表,可以調(diào)用get_text()方法來(lái)獲取節(jié)點(diǎn)的內(nèi)容。forele
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廣東江門中醫(yī)藥職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年(2019-2024年)真題考點(diǎn)試卷含答案解析
- 2025年常州機(jī)電職業(yè)技術(shù)學(xué)院高職單招高職單招英語(yǔ)2016-2024歷年頻考點(diǎn)試題含答案解析
- 2025年常州信息職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 2025年山西青年職業(yè)學(xué)院高職單招高職單招英語(yǔ)2016-2024歷年頻考點(diǎn)試題含答案解析
- 2025年山西老區(qū)職業(yè)技術(shù)學(xué)院高職單招高職單招英語(yǔ)2016-2024歷年頻考點(diǎn)試題含答案解析
- 2025年寧波職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年(2019-2024年)真題考點(diǎn)試卷含答案解析
- 2025年天津石油職業(yè)技術(shù)學(xué)院高職單招(數(shù)學(xué))歷年真題考點(diǎn)含答案解析
- 2025年天津輕工職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 2025年天津廣播影視職業(yè)學(xué)院高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- (一模)2025年廣州市普通高中畢業(yè)班綜合測(cè)試(一)物理試卷(含答案詳解)
- 《小王子》數(shù)字故事
- 甘肅省英語(yǔ)中考試卷及解答參考(2025年)
- 《危險(xiǎn)化學(xué)品生產(chǎn)建設(shè)項(xiàng)目安全風(fēng)險(xiǎn)防控指南》企業(yè)主要負(fù)責(zé)人培訓(xùn)
- 綠色金融推動(dòng)碳中和目標(biāo)實(shí)現(xiàn)的研究現(xiàn)狀與路徑展望
- 3.1細(xì)胞膜的結(jié)構(gòu)和功能說(shuō)課課件-高一上學(xué)期生物人教版(2019)必修1
- 小學(xué)英語(yǔ)四年級(jí)語(yǔ)法專項(xiàng)練習(xí)(2024年)
- 解三角形滿分突破10講-試題版
- 2024年天津市中考英語(yǔ)真題卷及答案
- 13R503 動(dòng)力工程設(shè)計(jì)常用數(shù)據(jù)
- JGJ/T235-2011建筑外墻防水工程技術(shù)規(guī)程
- 如果歷史是一群喵
評(píng)論
0/150
提交評(píng)論