手工SEO

手工SEO首頁 SEO技術 正文

網站robots.txt文件的作用及robots寫法詳解

手工SEO 2019-08-12 07:32:19 SEO技術 91℃ 手工SEO

一般情況,網站的根目錄都會有一個robots.txt文件,是一個純文本文檔。那這個robots.txt文件是什么,有什么作用呢?robots.txt怎么寫?下面深山給您一個個講解。

robots文件是什么?

robots.txt文件是存放與網站根目錄下的一個txt格式的文本文檔,叫做robot協議,也可以簡單的理解為爬蟲協議、蜘蛛協議等,是網站與搜索引擎爬蟲之間的一個協議。

協議是什么意思?計議、協商、商議。那搜索引擎爬蟲是做什么的?是抓取我們網站內容的。robots文件就好似網站和爬蟲之間簽訂的一份協議,告訴它我網站的內容,哪些你可以抓取收錄,哪些你不能碰!

robots.txt文件寫法詳解

robots文件有什么作用?

1.保護我們網站的隱私內容不被爬蟲抓取,表面透露隱私內容。例如:用戶數據、管理員信息等。

2.我們可以利用好robots文件來做好網站的SEO優化工作,比如清理網站死鏈的時候可以把死鏈接寫進robots文件,再或者可以將網站地圖寫進robots方便爬蟲一次性抓取網站內容等等。

robots.txt文件基本介紹

1. 自定義搜索引擎爬蟲

User-agent: 表示定義哪個搜索引擎,在robots.txt文件的第一行

User-agent: * 所有蜘蛛

User-agent: Baiduspider,自定義百度蜘蛛

User-agent: Googlebot,自定義谷歌蜘蛛

常見搜索引擎爬蟲(蜘蛛)名稱:

百度蜘蛛:Baiduspider

谷歌蜘蛛:Googlebot

360蜘蛛:360Spider

搜狗蜘蛛:Sogou News Spider

必應蜘蛛:bingbot

SOSO蜘蛛:Sosospider

這類自定義蜘蛛的寫法可參考淘寶和百度等:https://www.taobao.com/robots.txt,https://www.baidu.com/robots.txt

2.禁止訪問

Disallow: 表示禁止訪問。

3.允許訪問

Allow: 表示允許+訪問。

通過以上三個命令,可以組合多種寫法,允許哪個搜索引擎訪問或禁止哪個頁面,具體寫法請繼續瀏覽!

robots文件書寫注意事項:

1.robots文件的后綴必須是.txt;

2.robots文件必須全小寫字母命名,并且存放在網站的根目錄下面;

3.在寫robots文件的時候,Disallow、Allow、Sitemap等詞首字母必須大寫,后面的字母則要小寫。

4.特別注意,在書寫robots事,應用英文狀態下的冒號,并且冒號后面必須有一個英文狀態下的空格。

robots.txt書寫注意事項

robots.txt寫法詳解

1.允許所有搜索引擎訪問所有目錄

User-agent: *
Allow: /

PS:這里的*表示所有。

2.禁止所有搜索引擎訪問所有目錄

User-agent: *
Disallow: /

3.禁止爬蟲訪問網站中的某些目錄:

User-agent: *
Disallow: /123

禁止爬蟲訪問/123開頭的所有文件,如、、等都不能被抓取

User-agent: *
Disallow: /123/

禁止爬蟲訪問/123/目錄下面的所有文件。

4.禁止爬蟲訪問某一類文件:

User-agent: *
Disallow: /*.css$ 禁止訪問所有css結尾的文件
Disallow: /*.js$  禁止訪問所有js結尾的文件
Disallow: /*.php$ 禁止訪問所有php結尾的文件
Disallow: /123/*.jpg$ 禁止訪問/123/目錄下的jpg結尾的文件

PS:*表示所有,$表示結尾,上面的漢字不用寫進robots去!!!

5.禁止訪問網站中的動態頁面:

User-agent: *
Disallow: /*?*
Disallow: /123/*?* 禁止訪問/123/目錄下的動態頁面

PS:?表示動態路徑,*表示所有。

6.禁止訪問某些字母開頭的目錄

可以巧用這個技巧來隱藏我們網站的一些目錄,例如網站后臺。假設的后臺目錄是/abcdef/可以這樣寫:

User-agent: *
Disallow: /abc*

robots.txt禁止爬蟲訪問

PS:這樣可以就表示所有abc開頭的目錄都不能訪問,所以要注意一下不要禁止了需要被抓取的欄目。

7.禁止訪問和允許訪問同時存在的情況

假設/123/這個欄目下有1.html、2.html、3.html這樣三個文件,我要允許訪問1.html而其他的要禁止,可以這樣寫:

User-agent: *
Allow: /123/1.html
Disallow: /123/

8.自定義搜索引擎:

用User-agent:來定義搜索引擎,*表示所有

百度爬蟲名字:11Baiduspider

谷歌爬蟲名字:Googlebot(列舉兩個,其他的名稱自己搜下)

User-agent: Baiduspider表示自定義百度蜘蛛

User-agent: Googlebot表示自定義谷歌蜘蛛

這個我就不列舉了,大家可以直接參考百度或者淘寶這類大網站的robots的寫法就ok了。

9.最后是網站xml地圖

Sitemap:

上一篇:新手站長如何快速學習seo

下一篇:網站優化基礎:URL路徑優化與集權操作

網站分類
標簽列表
河南快三计划