为站点生成 sitemap 要注意这 4 件事

关于站点地图的指南,可以参考: https://developers.google.com/search/docs/crawling-indexing/sitemaps/build-sitemap

在这篇文档中,我觉得以下五个方面值得关注

一、lastmod 字段

文档中,我比较关注的内容是 lastmod。以前使用程序生成 sitemap 时,lastmod 的取值是站点地图的生成日期,仔细琢磨一下总觉得哪里有问题。对于搜索引擎来说,它最想了解的是该页面是否有更新,所以这个指的准确含义是该网页的 实质上 的最后更新时间。

sitemap.org 这样说,“对于许多动态 URL,您可以根据基础数据的更改时间或使用基于定期更新(如果适用)的一些近似值轻松计算 lastmod 日期。甚至使用近似日期或时间戳也可以帮助爬虫避免爬取未更改的 URL,这将降低 Web 服务器的带宽和 CPU 要求。“

总而言之,如果网页发生了实质内容的变更,希望搜索引擎进行更新,那么就可以更新这个时间戳,否则没有必要浪费爬虫的资源,以及服务器的带宽资源。

二、prioritychangefreq 字段

文档中提到,google 的爬虫将忽略这两个字段。

简单的想一下就可以理解,一方面这两个值生产方(站长)很难评估,另一方面,消费方(爬虫)很难按照这两个值执行。

所以,结论是,在 sitemap 中去掉这两个没用的值。

三、Url 的规范

  1. 使用一致且完全限定的网址,主要指的是比如 www 和非 www 的问题。
  2. 必须对站点地图文件进行 UTF-8 编码。
  3. 在站点地图中仅列出规范网址
  4. 非字母数字字符和非拉丁字符需要转义。
  5. 站点地图用于向 Google 建议您认为重要的网页,google 并不会保证爬取所有的页面。

四、通知 google 爬取

当站点的内容发生变更,站点地图进行了更新的时候,你可以主动的通知 google 来爬取。对于一个经常在更新的网站来说,google 会频繁的来爬取内容,但是如果一个网站的访问量较小,而且也没有太多的内容更新,google 就不会主动的来爬取,此时,通知 google 爬取算是一个可行的办法。

五、多语言

如果要做多语言站点,那么从 SEO 的角度也需要做一些考量。

  1. 如果您针对不同语言或区域提供了其他版本的网页,可以在站点地图或 HTML 标记中使用 hreflang 指明其他版本的网址。
  2. 关于这些变体的网页,需要做内容的翻译才行,具体的要求见:https://developers.google.com/search/docs/specialty/international/localized-versions
添加新评论