SEO策略指南 - 網站內部SEO
Robots Meta 指令 - Robots Meta Directives
Robots Meta 指令(有時也稱為“Meta標籤”)是一些程式語法,它們提供網頁爬蟲如何抓取或索引網頁內容的抓取指令,雖然robots.txt文件指令也可以幫網路爬蟲提供了如何抓取網站的建議,但Robots Meta指令提供了更為嚴格的指導網頁爬蟲如何抓取和索引頁面的內容。
有兩種類型的Robots Meta 指令:屬於HTML頁面(如meta robots tag)的部分,以及Web服務器作為HTTP頭部(如 x-robots-tag)發送的指令。meta robots tag和x-robots-tag都可以使用相同的參數(即Meta提供的抓取或索引指令,例如上述示例中的“noindex”和“nofollow”),不同的是這些參數如何傳遞給網頁爬蟲。
Meta指令提供抓取工具並解釋如何抓取和索引特定網頁上的內容。如果這些指令是被機器人搜索到,那麼參數就成為了規範爬蟲行為的強有力的建議,但是與robots.txt文件相同,抓取工具不必遵循meta指令,所以可以肯定的是,一些惡意的web機器人可以忽略你的指令。
以下是搜索引擎抓取工具在robots meta指令中使用的參數,這些參數不區分大小寫,但請注意,有些搜索引擎可能只遵循這些參數的子集,或者可能會略微不同地處理某些指令。
參數設定:
Noindex: 告訴搜索引擎不要索引該網頁。
Index: 告訴搜索引擎索引該網頁,不必特意加入此標籤,因為這是預設的。
Follow:即使網頁沒有被索引,網頁爬蟲也應該追蹤網頁上的所有鏈接,並將權限傳遞給連結的網頁。
Nofollow: 告訴網頁爬蟲也不要追蹤網頁上的所有鏈接,並將不可以將權限傳遞給連結的網頁。
Noimageindex: 告訴網頁爬蟲不要索引該網頁上的任何圖像。
None:相當於同時使用noindex和nofollow標籤。
Noarchive:搜索引擎不應該在SERP(搜尋結果頁面)上顯示暫存的連結到這個網頁。
Nocache:與noarchive相同,但只用於Internet Explorer和Firefox瀏覽器。
Nosnippet:告訴搜索引擎不要在SERP(搜尋結果頁面)上顯示該網頁的一個片段(即Meta描述)。
Noodyp/noydir [OBSOLETE]:阻止搜索引擎使用DMOZ的網頁描述作為此頁面的SERP(搜尋結果頁面)片段說明。但是,DMOZ在2017年初關站,這個標籤已經過時了。
Unavailable_after: 搜索引擎不應該在特定的日期之後索引該網頁。
機器人Meta指令的類型
有兩種主要類型的機器人Meta指令: meta robots tag和 x-robots-tag。任何可以在meta robots tag中使用的參數也可以在x-robots-tag中指定。
我們將在下面討論meta robots tag和 x-robots-tag指令。
Meta robots tag
Meta robots tag(俗稱“Meta標籤”或“robots 標籤”)是網頁HTML代碼的一部分,在網頁的<head>部分以程式碼顯示:
程式碼範例
<meta name="robots" content="[PARAMETER]">
<meta name="robots" content=“[PARAMETER]”>
標籤是標準的設定方式,也可以使用特定使用者代理的名稱來替換“robots”做為特定的搜尋。 例如,要專門針對Googlebot指定某個指令,您需要使用以下代碼:
<meta name="googlebot" content="[DIRECTIVE]">
想要在網頁上使用多個Meta指令?只要他們是相同的“機器人”(使用者代理),多個指令可以包含在一個meta指令中 - 只需用逗號分隔即可。這是一個例子:
<meta name="robots" content="noimageindex, nofollow, nosnippet">
這個標籤會告訴機器人不要索引網頁上的任何圖像、任何連結,或者當網頁出現在SERP(搜尋結果頁面)上時顯示網頁的說明片段。
如果您針對不同的搜索用戶代理使用不同的元機器人標籤指令,則需要為每個機器人使用不同的標籤。
X-robots-tag
meta robots tag允許您在網頁層級控制索引行為,但是x-robots-tag可以作為HTTP表頭的一部分並包含在內,以控制整個網頁的索引,以及網頁的特定元素。
儘管您可以使用x-robots-tag來執行與meta robots相同的索引指令,但是x-robots-tag指令提供了更多的靈活性和X-robots-tag所不具備的功能。 具體而言,x-robots-tag允許使用正規表達式,在非HTML文件上執行爬行網頁指令,並在全局層級使用參數。
要使用x-robots-tag,您需要訪問您網站的header.php,.htaccess或伺服器文件,從那裡,添加您的特定服務器配置的x-robots-tag標記,包括任何參數,此網站提供了一些很好的示例,解說如何使用這三種方式中的其中一種,x-robots-tag的概述。
以下是可能會使用到x-robots-tag狀況的範例:
控制未用HTML撰寫的內容的索引(如Flash或視頻)。
阻止網頁特定元素(如圖像或影片)的索引,而不是整個網頁本身。
如果您無法訪問網頁的HTML(特別是<head>部分),或者您的網站使用了無法更改的全局層級標題。
添加規則來判斷是否應將網頁編入索引(例如,如果用戶留言了20多次,則將網頁編入索引)。
SEO與robots meta指令的最佳做法
所有meta指令(robots或其他)都是在抓取URL時發現的,這意味著,如果robots.txt文件不允許抓取網址,則網頁上的任何meta指令(無論是在HTML還是在HTTP header)都將不會被看到,並且將被忽略。
在大多數情況下,應該使用帶有參數“noindex,follow”的robots meta tag來限制抓取或索引,而不是使用robots.txt文件禁止。
需要注意的是,惡意爬蟲很可能會完全忽略meta指令,因此這個協議並沒有形成一個好的安全機制。如果您有不想公開搜索的隱私訊息,請選擇更安全的方法(如密碼保護),以防止瀏覽者查看機密網頁。
您不需要在同一頁面上同時使用Meta robots tag和X-robots-tag - 這樣做是多餘的。
資料來源:https://moz.com/learn/seo/robots-meta-directives
歡迎推廣本文,請務必連結(LINK)本文出處:新視野網頁設計公司