爬蟲第3章 解析html_第1頁
爬蟲第3章 解析html_第2頁
爬蟲第3章 解析html_第3頁
爬蟲第3章 解析html_第4頁
爬蟲第3章 解析html_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十四章解析html01HTML的構(gòu)成HTML簡介HTML結(jié)構(gòu)HTML是用來描述網(wǎng)頁的一種語言,其全稱叫作HyperTextMarkupLanguage,即超文本標(biāo)記語言。網(wǎng)頁包括文字、按鈕、圖片和視頻等各種復(fù)雜的元素。不同類型的文字通過不同類型的標(biāo)簽來表示,如圖片用img標(biāo)簽表示,視頻用video標(biāo)簽表示,段落用p標(biāo)簽表示,它們之間的布局又常通過布局標(biāo)簽div嵌套組合而成,各種標(biāo)簽通過不同的排列和嵌套才形成了網(wǎng)頁的框架。創(chuàng)建HTML文件Pycharm中創(chuàng)建html文件文檔根元素:html元素頭<head>元素<body>HTML常用標(biāo)簽<!DOCTYPEhtml>:聲明文檔類型為HTML5文件。文檔聲明在HTML5文檔必不可少,且必須放在文檔的第一行。

<meta>:包含多個(gè)屬性 <metacharset=“UTF-8”>:設(shè)置文檔字符及編碼格式

<metaname=“屬性值”content=“屬性值詳細(xì)內(nèi)容”>:給搜索引擎提供必要信息,搜索引擎會(huì)根據(jù)提供的信息找到網(wǎng)頁 <title>:網(wǎng)頁的標(biāo)題 <metahttp-equiv="屬性值"content="屬性值詳細(xì)內(nèi)容">:聲明瀏覽器如何解釋編譯文件,以幫助正確和精確地顯示網(wǎng)頁內(nèi)容 <link>:用于為網(wǎng)頁鏈接各種文件,常用屬性: rel:用于表明被鏈接文件與當(dāng)前文件關(guān)系。icon表明被鏈接圖片是當(dāng)前網(wǎng)頁的icon圖標(biāo)。 type:表明被鏈接文件是什么類型,可省略。 href:表明鏈接文件的地址。頭文件標(biāo)簽:元素標(biāo)簽:<h1></h1>...<h6></h6>:標(biāo)題標(biāo)簽<p></p>:段落<br/>:換行<hr/>:水平線<div>:網(wǎng)頁中最常用的分區(qū)標(biāo)簽,常用于網(wǎng)頁布局使用<imgsrc="">:一幅圖片,src表示圖片的路徑。更多的內(nèi)容可以通過/tags/tag_html.asp等網(wǎng)站查詢網(wǎng)頁內(nèi)容設(shè)計(jì)之后如何實(shí)現(xiàn)訪問?設(shè)計(jì)好的網(wǎng)頁內(nèi)容云服務(wù)器綁定域名申請(qǐng)存儲(chǔ)訪問02beautifulsoup4BeautifulSoup是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫.BeautifulSoup模塊的名稱是bs4(表示BeautifulSoup,第4版)。Beautifulsoup簡介Beautifulsoup安裝方法一:cmd中安裝pipinstallbeautifulsoup4方法二:pycharm中安裝注意在PyPi中還有一個(gè)名字是BeautifulSoup的包,但那可能不是你想要的,那是BeautifulSoup3的發(fā)布版本,因?yàn)楹芏囗?xiàng)目還在使用BS3,所以BeautifulSoup包依然有效.但是如果你在編寫新項(xiàng)目,那么你應(yīng)該安裝的beautifulsoup4;安裝解析器BeautifulSoup支持Python標(biāo)準(zhǔn)庫中的HTML解析器,因?yàn)槟切㏄ython版本的標(biāo)準(zhǔn)庫中內(nèi)置的HTML解析方法不夠穩(wěn)定.Python還支持一些第三方的解析器,其中一個(gè)是lxml,另一個(gè)純Python實(shí)現(xiàn)的html5lib,html5lib的解析方式與瀏覽器相同。beautifulsoup的使用文檔根元素:html元素頭<head>元素<body>meta標(biāo)簽title標(biāo)簽link標(biāo)簽h1標(biāo)簽h2標(biāo)簽h3標(biāo)簽h4標(biāo)簽hr標(biāo)簽ol標(biāo)簽li標(biāo)簽li標(biāo)簽li標(biāo)簽li標(biāo)簽ul標(biāo)簽li標(biāo)簽li標(biāo)簽li標(biāo)簽li標(biāo)簽img標(biāo)簽a標(biāo)簽span標(biāo)簽video標(biāo)簽br標(biāo)簽table標(biāo)簽h3標(biāo)簽p標(biāo)簽div標(biāo)簽tr標(biāo)簽tr標(biāo)簽th標(biāo)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論