robots.txt文件的功能.doc

上傳人：清*** IP屬地：河南上傳時(shí)間：2020-02-02 格式：DOC 頁數(shù)：6 大?。?01.50KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

robots.txt文件的作用和語法介紹1、什么是robots.txt文件搜索引擎有自己的搜索習(xí)慣，當(dāng)它對一個(gè)網(wǎng)站進(jìn)行搜索時(shí)，哪些目錄和文件要看，哪些不用看，它有自己的算法。我們也可以自己建立一個(gè)robots.txt文件，告訴搜索引擎的機(jī)器人哪些可以被收錄，哪些不需要收錄。這樣可以節(jié)約自己網(wǎng)站的資源，提高被搜索引擎收錄的效率。、robots.txt放置位置 robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下，而且文件名必須全部小寫。、robots相關(guān)語法1)User-agent: 適用下列規(guī)則的漫游器(搜索引擎)該項(xiàng)的值用于描述搜索引擎robot的名字。在robots.txt文件中，如果有多條User-agent記錄，就說明有多個(gè)robot會受到robots.txt的限制，對該文件來說，至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*，則對任何robot均有效。 Google爬蟲名稱: Googlebot 百度（Baidu）爬蟲名稱：Baiduspider 雅虎（Yahoo）爬蟲名稱：Yahoo Slurp 有道（Yodao）蜘蛛名稱：YodaoBot 搜狗（sogou）蜘蛛名稱：sogou spider MSN的蜘蛛名稱(微軟最新搜索引擎Bing蜘蛛名也是這個(gè))：Msnbot ）Disallow: 拒絕訪問的目錄或文件該項(xiàng)的值用于描述不希望被訪問的一組URL，這個(gè)值可以是一條完整的路徑，也可以是路徑的非空前綴，以Disallow項(xiàng)的值開頭的URL不會被robot訪問。例如： Disallow:/seo.html 表示禁止robot訪問文件 /seo.html ）Allow:允許訪問的目錄或文件該項(xiàng)的值用于描述希望被訪問的一組URL，與Disallow項(xiàng)相似，這個(gè)值可以是一條完整的路徑，也可以是路徑的前綴，以Allow項(xiàng)的值開頭的URL是允許robot訪問的。例如： Allow:/hibaidu/ 表示允許robot訪問目錄 /hibaidu/ 4)使用通配符*和$： $ 匹配行結(jié)束符。* 匹配0或多個(gè)任意字符。? 匹配1個(gè)任意字符 5)robots.txt文件里還可以直接包括在sitemap文件的鏈接。Sitemap:/sitemap.xml4、robots.txt文件用法舉例 1)、攔截所有的機(jī)器人訪問網(wǎng)站User-agent:*Disallow:/ 2)、允許所有的機(jī)器人訪問網(wǎng)站User-agent:*Allow:/ 3)、禁止所有機(jī)器人訪問特定目錄：User-agent:*Disallow:/public/Disallow:/images/Disallow:/temp/Disallow:/include/ 4)、禁止特定搜索引擎蜘蛛訪問特定目錄(這里我們以百度蜘蛛為例說明)User-agent:BaiduspiderDisallow:/test/ 上面的robots.txt語法示例的意思是禁止百度蜘蛛爬行根目錄下的test目錄 5)、僅禁止Baiduspider抓取.jpg格式圖片User-agent:BaiduspiderDisallow:.jpg$ 6)、僅允許訪問以.htm為后綴的URL。 User-agent: * Allow: .htm$ Disallow: / 7)、禁止訪問網(wǎng)站中所有的動態(tài)頁面 User-agent: * Disallow: /*?*5、常見robots.txt錯(cuò)誤 1)、把多個(gè)禁止命令放在一行中：錯(cuò)誤地寫法 Disallow: /css/ /cgi-bin/ /images/ 正確的寫法 Disallow: /css/ Disallow: /cgi-bin/ Disallow: /images/ 2)、表示目錄時(shí)，忘記了斜杠/ 錯(cuò)誤的寫法 User-agent: Baiduspider Disallow: css 正確的寫法 User-agent: Baiduspider Disallow: /css/6、robots meta網(wǎng)頁標(biāo)簽寫法Robots META標(biāo)簽則主要是針對一個(gè)個(gè)具體的頁面。和其他的META標(biāo)簽（如使用的語言、頁面的描述、關(guān)鍵詞等）一樣，Robots META標(biāo)簽也是放在頁面的head/head中，專門用來告訴搜索引擎ROBOTS如何抓取該頁的內(nèi)容。Robots META標(biāo)簽的寫法：Robots META標(biāo)簽中沒有大小寫之分，name=”Robots”表示所有的搜索引擎，可以針對某個(gè)具體搜索引擎寫為name=”BaiduSpider”。 content部分有四個(gè)指令選項(xiàng)：index、noindex、follow、nofollow，指令間以“,”分隔。INDEX 指令告訴搜索機(jī)器人抓取該頁面；FOLLOW 指令表示搜索機(jī)器人可以沿著該頁面上的鏈接繼續(xù)抓取下去；Robots Meta標(biāo)簽的缺省值是INDEX和FOLLOW，只有inktomi除外，對于它，缺省值是INDEX,NOFOLLOW。這樣，一共有四種組合：META NAME=ROBOTS CONTENT=INDEX,FOLLOWMETA NAME=ROBOTS CONTENT=NOINDEX,FOLLOWMETA NAME=ROBOTS CONTENT=INDEX,NOFOLLOWMETA NAME=ROBOTS CONTENT=NOINDEX,NOFOLLOW其中META NAME=ROBOTS CONTENT=INDEX,FOLLOW可以寫成META NAME=ROBOTS CONTENT=ALL；META NAME=ROBOTS CONTENT=NOINDEX,NOFOLLOW可以寫成META NAME=ROBOTS CONTENT=NONE目前看來，絕大多數(shù)的搜索引擎機(jī)器人都遵守robots.txt的規(guī)則，而對于Robots META標(biāo)簽，目前支持的并不多，但是正在逐漸增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE還增加了一個(gè)指令“archive”，可以限制GOOGLE是否保留網(wǎng)頁快照。例如：META NAME=googleb

人人文庫> 全部分類> 教育資料 > 課設(shè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

robots.txt文件的功能.doc

文檔簡介

溫馨提示

最新文檔

評論

robots.txt文件的功能.doc

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔