規(guī)范標簽是防止搜索引擎抓取重復內(nèi)容的一種基本手段。它是在HTML代碼中用于定義重復或類似頁面主要版本的標簽。簡單來說,當存在相同或相似內(nèi)容的不同URL版本時,可以使用規(guī)范標簽指定哪個版本是主要版本,應該被搜索引擎收錄。規(guī)范標簽通常位于網(wǎng)頁的HTML 部分,是一行代碼,訪客看不到它們,但搜索引擎可以讀取。例如,Kohl的網(wǎng)站在銷售床上用品和浴缸的頁面上使用規(guī)范標簽來減少重復內(nèi)容。當搜索引擎遇到規(guī)范標簽時,會將標簽中的URL與正在抓取的頁面URL進行比較。如果網(wǎng)址匹配,那么該頁面將被認為是規(guī)范版本。如果網(wǎng)址不匹配,搜索引擎可能會忽略該頁面的索引,并將鏈接權限分配給規(guī)范版本。比如,在Kohl的頁面中,瀏覽器欄中的URL是https://www.kohls.com/sale-event/bed-and-bath.jsp?cc=bed_bath-TN1.0-S-bedbath,而規(guī)范標簽則標識了一個更簡潔的版本:
因此,搜索引擎可能只會索引不帶“?cc=bed_bath-TN1.0-S-bedbath”參數(shù)的版本。實施規(guī)范標簽時,電商平臺通常會包含自引用的規(guī)范標簽。對于https://www.site.com/cat/prod-123.jsp,可以通過自引用規(guī)范標簽來忽略不同類型的重復頁面,如:(1)跟蹤參數(shù):https://www.site.com/cat/prod-123.jsp?source=123,(2)不同點擊路徑:https://www.site.com/cat/subcat/prod-123.jsp,(3)重復的子域:https://shop.site.com/cat/subcat/prod-123.jsp,(4)系統(tǒng)生成的不良網(wǎng)址:https://www.site.com/en/shop/c-ABC/p-123.jsp可以為每個頁面插入相同的規(guī)范標簽,以忽略這些重復頁面。不過,最好通過編程方式管理規(guī)范標簽,這可能需要開發(fā)人員的參與。規(guī)范標簽還可以用于管理聯(lián)合內(nèi)容。即使設計或字體不同,文字內(nèi)容相同也會被視為重復。例如,一個網(wǎng)站上的摘錄鏈接到另一個網(wǎng)站上的完整版本。如果沒有規(guī)范標簽,搜索引擎可能會根據(jù)首個發(fā)布頁面、鏈接數(shù)量或其他算法來選擇排名的頁面。使用規(guī)范標簽可以正確分配等級,并確保合作伙伴也使用它們。除了規(guī)范標簽,還有其他方法可以指定規(guī)范的URL,如XML站點地圖、HTTP標頭和301重定向。XML網(wǎng)站地圖列出了搜索引擎要抓取的URL,如果使用得當,可以有效傳遞規(guī)范的URL。但是,許多站點可能無法正確執(zhí)行站點地圖,或者無法記錄非規(guī)范的URL,從而使搜索引擎自行關聯(lián)重復頁面。PDF文件和其他不包含HTML源代碼的文件格式可以在HTTP標頭中指示規(guī)范的URL。例如,如果賣家在網(wǎng)頁和PDF文件上具有相同的文本,希望網(wǎng)頁排名,可以在頁面中放置自引用規(guī)范標簽,并在服務器交付PDF文件時在HTTP標頭的鏈接標簽中使用頁面的URL。盡管規(guī)范標記只是建議,搜索引擎仍會根據(jù)相關性和權限信號來決定哪個頁面將是規(guī)范版本。賣家可以使用URL檢查工具,在Google Search Console中查看任何已驗證可訪問URL的規(guī)范頁面。301重定向是更有效的解決方案,可以命令搜索引擎取消索引舊頁面,請求為新URL編制索引,并將舊頁面的鏈接權限關聯(lián)到新URL。301是命令而不是建議。