爬蟲基礎(chǔ)之HTML篇整理_第1頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、爬蟲基礎(chǔ)之html篇整理首先要理解什么是html :正如上圖介紹的,html是一個網(wǎng)頁中的標(biāo)準(zhǔn)標(biāo)志語言。全稱是hyper text makeup language.容易來說就是網(wǎng)頁的設(shè)計要遵循這個規(guī)章。就像sql語言是全部數(shù)據(jù)查詢語言的基礎(chǔ)一樣(sql became astandardof theamerican national standards institute(ansi) in 1986, and of theinternational organization for standardization(iso) in 1987 -from wikipedia)而html5是最新的標(biāo)準(zhǔn)

2、。而一個網(wǎng)站的界面的顯示也通常由html結(jié)合css(cascading style sheets)和現(xiàn)在十分流行的javascript一起組成。最基礎(chǔ)的結(jié)構(gòu)如下這個執(zhí)行結(jié)果如下這里要介紹一下上述的編碼代表的含義標(biāo)簽基本格式:用于代碼開始指定html版本等信息:告訴掃瞄器這是一個 html 文檔,是 html 文檔中最外層的元素:全部頭部元素的容器,必需包含文檔的標(biāo)題(title),可以包含腳本、樣式、meta 信息以及其他:定義文檔的標(biāo)題,定義掃瞄器工具欄中的標(biāo)題,顯示在搜尋引擎結(jié)果中的頁面標(biāo)題:定義文檔的主體,包含文檔的全部內(nèi)容(比如文本、超鏈接、圖像、表格和列表等):定義 html 標(biāo)題,

3、從到標(biāo)題的重要程度逐漸降低,字體大小也逐漸減?。憾x段落,掃瞄器會自動在其前后創(chuàng)建一些空白,很類似與我們寫作時的段落:一個容易的換行符,是一個空標(biāo)簽,意味著它沒有結(jié)束標(biāo)簽。:定義 html 文檔中的一個分隔區(qū)塊或者一個區(qū)域部分。常常與 css 一起用法,用來布局網(wǎng)頁。這里介紹一下什么是csscss: cascading style sheets 可以翻譯為層疊樣式表,這個主要是為結(jié)構(gòu)化文檔(包含html文檔或xml應(yīng)用)添加樣式(字體、間距、和色彩等)的計算機(jī)語言,html或者xml一起協(xié)調(diào)工作,html確定網(wǎng)頁中由哪些內(nèi)容,而css主要用來確定以何種外觀(大小,粗細(xì),色彩,對齊和位置)比如下

4、面這個例子在剛開頭的時候,我說過h1到h6默認(rèn)的是字體逐漸變小,但是這里可以通過css的設(shè)置把字體等等改掉,效果如下不過在爬蟲的過程中,我們重點(diǎn)關(guān)注的不是格式,而是鏈接中包含的超鏈接,或或表格等等。下面我們來看一下鏈接中常用的標(biāo)簽標(biāo)簽實(shí)現(xiàn)基本的超鏈接其中為標(biāo)簽,表示鏈接指向的地址,表示超鏈接的文本。其顯示效果如下:指向同一服務(wù)器同一名目下的form.html指向同一服務(wù)器父名目下的parent.html指向同一服務(wù)器子名目stuff下的cat.html指向外部網(wǎng)站超鏈接除了指向一個文件,還可以詳細(xì)指明位置,這樣掃瞄器就會挺直跳轉(zhuǎn)顯示文件的相應(yīng)位置。指向同一個文件的其他位置效果如下這里點(diǎn)擊藍(lán)色的

5、部分可以挺直跳轉(zhuǎn)到introduction部分指向其他文件的某個位置執(zhí)行結(jié)果點(diǎn)擊藍(lán)色超鏈接可以跳轉(zhuǎn)至其他地方。插入一張其中為標(biāo)簽;表示服務(wù)器中的 php.png 這個;表示的代替文本,假片無法顯示,則顯示這個文本為增強(qiáng)超鏈接:結(jié)果如下因?yàn)榇颂幉]有實(shí)際的,所以顯示的是我們頻繁的圖裂了的模式。我們來看一下標(biāo)簽的一些基本屬性:路徑:無法顯示時的代替文本:高度:寬度:邊框?qū)挾葻o序列表普通用的形式來實(shí)現(xiàn),一個容易的例子:上面無序列表的代碼在網(wǎng)頁中顯示如下:其實(shí)在知乎上面就挺直由無序列表,同時摁下ctrl +shift +8ul 表示:unordered list 。li表示list有序列表普通用的形式來表現(xiàn),一個容易的例子:上面的有序列表代碼在網(wǎng)頁中顯示如下:同樣在知乎上面也有,這里不做展示了,所謂有序列表就是ordered list。也就是多了前面的數(shù)字固然這個數(shù)字的起始值我們可以轉(zhuǎn)變這個就像python中設(shè)置起始位置html表格由多種標(biāo)簽組合而成,其中最重要的三種標(biāo)簽是:表格的開頭和結(jié)束創(chuàng)建表格的一行創(chuàng)建表格中一般單元格創(chuàng)建表格中標(biāo)題欄單元格一個容易的表格示例實(shí)現(xiàn)的代碼如下:其中border

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論