robots漫遊器元標記是什麼? 、規格書寫data-nosnippet 和X-Robots-Tag

利用漫遊器元標記robots,讓你的SEO事半功倍,網站優化Google收錄必備。漫遊器元標記是透過網頁層級設定來控制單一網頁是否被編入索引並顯示在搜尋結果中。漫遊器元標記是告訴搜尋引擎要遵循什麼以及不遵循什麼的標籤。

漫遊器元標記robots是什麼?

利用好,讓你的SEO事半功倍,網站優化Google收錄必備。漫遊器元標記是透過網頁層級設定來控制單一網頁是否被編入索引並顯示在搜尋結果中。漫遊器元標記是告訴搜尋引擎要遵循什麼以及不遵循什麼的標籤。

漫遊器元標記放在上面地方?

漫遊器元標記robots放在網頁的head部分!

漫遊器元標記的寫法

該標記是在告訴所有的搜尋引擎不要將該網頁編入索引,要完全阻止該網頁出現在搜尋結果中。

robots規格書寫data-nosnippet 和X-Robots-Tag

規格書寫data-nosnippet 和X-Robots-Tag

如何使用網頁層級和文字層級設定調整Google 在搜尋結果中呈現內容的方式。您可以為HTML 網頁或HTTP 標頭中新增元標記,從而指定網頁層級設定。您可以在網頁中的HTML 元素上使用 屬性,從而指定文字級設定。

請注意,只有在抓取工具可以存取包含這些設定的網頁時,系統才會讀取並遵循這些設定。

標記或指令適用於搜尋引擎抓取工具。如需封鎖非搜尋抓取工具(例如AdsBot-Google),您可能需要新增針對特定抓取工具的指令。例如:

使用漫遊器元標記,您可以使用精細的網頁級設置,控制各個網頁被編入索引並在Google 搜尋結果中顯示給使用者的方式。請將漫遊器元標記放在給定網頁的head 部分。

在本範例中,漫遊器元標記會指示搜尋引擎不要在搜尋結果中顯示對應網頁。 name 屬性的值(robots) 指定此指令適用於所有抓取工具。如需針對特定的抓取工具,請將name 屬性的robots 值替換為這個抓取工具的名稱。具體的抓取工具也稱為用戶代理(抓取工具使用其用戶代理請求網頁)。 Google 標準網頁抓取工具的使用者代理名稱為Googlebot。如果您只想封鎖Googlebot 將您的網頁編入索引,請按如下所示更新標記:

 

這個標記現在會明確地指示Google 不要在Google 搜尋結果中顯示此網頁。 name 和 content 屬性都不會區分大小寫。

搜尋引擎可能會出於不同目的而使用不同的抓取工具。有關詳情,請參閱 Google 抓取工具完整列表。例如,如果想要讓某個網頁顯示在Google 的網頁搜尋結果中,但不會顯示在Google 新聞中,可以使用以下元標記:

 

若要分別指定多個抓取工具,請使用多個漫遊器元標記:


如需禁止將非HTML 資源(例如PDF 檔案、影片檔案或圖片檔案)編入索引,請改用 響應標頭。

使用X-Robots-Tag HTTP 標頭
X-Robots-Tag 可用作指定網址的HTTP 標頭回應中的一個元素。漫遊器元標記中可使用的任何指令可被指定為X-Robots-Tag。下面是一個HTTP 回應範例,它含有一個指示抓取工具不要將某一網頁編入索引的X-Robots-Tag:

HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noindex (…)

您可以在HTTP 回應中組合使用多個X-Robots-Tag 標頭,也可以指定一系列以英文逗號分隔的指令。下面這個範例HTTP 標頭回應組合使用了noarchive X-Robots-Tag 與unavailable_after X-Robots-Tag。

HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noarchive X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST (…)

X-Robots-Tag 也可以在指令前面指定使用者代理。例如,以下這組X-Robots-Tag HTTP 標頭可以用來有條件地允許某一網頁在不同搜尋引擎的搜尋結果中顯示:

HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: googlebot: nofollow X-Robots-Tag: otherbot: noindex, nofollow (…)

指令如果沒有指定使用者代理,那麼對所有抓取工具都有效。 HTTP 標頭、使用者代理名稱和指定的值都不區分大小寫。

有衝突的漫遊器指令:如果漫遊器指令有衝突,那麼系統會採取限制較嚴格的指令。例如,如果某個網頁同時包含max-snippet:50 和nosnippet 指令,那麼系統就會採用nosnippet 指令。

有效的索引編制指令和內容顯示指令

您可以將下列指令與漫遊器元標記和 X-Robots-Tag 搭配使用,從而控制索引編制和摘要顯示。在搜尋結果中,摘要是一個簡短的文字摘錄,它顯示了文件與使用者查詢的相關性。下表中列出了Google 支援的所有指令及其各自的含義。每個值代表一個特定的指令。您可以將多個指令合併為一個逗號分隔清單或使用多個元標記。這些指令不會區分大小寫。

有效的索引編制指令和內容顯示指令

有效的索引編制指令和內容顯示指令

有效的索引編制指令和內容顯示指令

您可以將多個以英文逗號分隔的漫遊器元標記指令合併起來或使用多個元標記,建立一條包含多個指令的命令。以下是漫遊器元標記範例,它會指示網頁抓取工具不要將該網頁編入索引,也不要抓取該網頁上的任何連結:

逗號分隔表

 

多個元標記


 

下面的範例會將文字摘要長度限制為20 個字符,並允許大圖片預覽:

 

如果您指定了多個抓取工具,並且不同的工具對應不同的指令,那麼搜尋引擎會綜合使用所有的否定指令。例如:


Googlebot 在抓取包含這些元標記的網頁時會將其視為擁有noindex, nofollow 指令。

使用data-nosnippet HTML 屬性

您可以指定不要使用HTML 網頁的哪些文字部分來產生摘要。您可以使用span、div 和section 元素中的data-nosnippet HTML 屬性,在HTML 元素層級實現這一點。 data-nosnippet 被視為布林屬性。與所有布林屬性一樣,指定的任何值都將被忽略。為了確保機器能讀懂,HTML 部分必須是有效的HTML,並且所有標記都有對應的結束標記。

Google 通常會渲染網頁,以便將它編入索引,但無法保證一定會渲染。 因此,在渲染之前和之後都可能會提取data-nosnippet。若要避免渲染的不確定性,請勿透過JavaScript 新增或移除現有節點的data-nosnippet 屬性。透過JavaScript 新增DOM 元素時,請在最初向網頁的DOM 新增該元素時根據需要包含data-nosnippet 屬性。如果使用了自訂元素,並且您需要使用data-nosnippet,請透過div、span 或section 元素來封裝或渲染它們。

使用結構化數據

漫遊器元標記會控制Google 自動從網頁擷取並顯示為搜尋結果的內容量。但是,許多發布商也使用schema.org 結構化資料為搜尋呈現提供具體資訊。漫遊器元標記限制不會影響此結構化資料的使用,但article.description 和為其他創意作品指定的結構化資料的description 值除外。如需根據這些description 值指定預覽的最大長度,請使用max-snippet 漫遊器元標記。例如,即使文字預覽會受到限制,網頁上的recipe 結構化資料也可以包含在食譜輪播介面中。您可以使用max-snippet 限製文字預覽的長度,但是在使用結構化資料提供資訊以獲得富媒體搜尋結果時,系統不會使用此漫遊器元標記。

如需管理在網頁中使用結構化資料的方式,請修改結構化資料類型和值本身,新增或移除信息,以便只提供您想提供的資料。另外請注意,在data-nosnippet 元素內聲明結構化資料後,這些資料仍然可以用於顯示搜尋結果。

您可以透過網站的網頁伺服器軟體的設定檔將X-Robots-Tag 加入網站的HTTP 回應中。例如,在基於Apache 的網頁伺服器上,您可以使用.htaccess 和httpd.conf 檔案。在HTTP 回應中使用X-Robots-Tag 的好處是,您可以指定要套用於整個網站的抓取指令。系統支援正規表達式,因此帶來了很高的靈活性。

例如,如需在整個網站的所有.PDF 文件的HTTP 回應中添加noindex, nofollow X-Robots-Tag,請將以下程式碼段新增至Apache 型網站的根.htaccess 檔案或httpd.conf 檔案中,或新增至NGINX 型網站的.conf 檔案中。

Apache

Header set X-Robots-Tag "noindex, nofollow"

 

NGINX

location ~* \.pdf$ { add_header X-Robots-Tag "noindex, nofollow"; }

 

對於無法在HTML 中使用漫遊器元標記的非HTML 檔案(如圖片檔案),您可以使用X-Robots-Tag。以下的範例說明如何針對整個網站上的圖片檔案(.png、.jpeg、.jpg、.gif)新增noindex X-Robots-Tag 指令:

Apache

Header set X-Robots-Tag "noindex"

 

NGINX

location ~* \.(png|jpe?g|gif)$ { add_header X-Robots-Tag "noindex"; }

 

您也可以為單一靜態檔案設定 X-Robots-Tag 標頭:

Apache

# the htaccess file must be placed in the directory of the matched file. Header set X-Robots-Tag "noindex, nofollow"

 

NGINX

location = /secrets/unicorn.pdf { add_header X-Robots-Tag "noindex, nofollow"; }

 

合併使用robots.txt 指令與索引編製及內容顯示指令

只有當網址被抓取時,漫遊器元標記和X-Robots-Tag HTTP 標頭才會被抓取工具發現。如果您透過robots.txt 檔案禁止抓取某一網頁,那麼抓取工具就不會找到任何關於索引編制/內容顯示指令的信息,因此會忽略這些資訊。如果必須遵循索引編制/內容顯示指令,那麼您不能禁止抓取工具抓取包含這些指令的網址。

原文連結:https://developers.google.com/search/docs/advanced/robots/robots_meta_tag?hl=zh-cn

評分

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *