网址规范化(URL Canonicalization)指的是搜索引擎挑选最合适的 URL 作为真正(规范化的)网址的过程。
造成网址不规范的原因
举例来说,下面这几个 URL 一般指的是同一个文件(页面):
-
example.com
-
www.example.com
-
example.com/index.html
-
www.example.com/index.html
但是从技术上来讲,这几个 URL 都是不同的网址,搜索引擎也确实把它们当作不同的网址。虽然在绝大部分情况下这些网址所返回的是相同的文件,也就是网站首页,但是从技术上说,主机完全可以对这几个网址返回不同的内容。
除了上面因为带与不带 www 以及结尾是否带 index.html 文件名造成的不规范网址,网址规范化问题还可能由于以下原因出现:
-
CMS 系统原因,使同一篇文章(也可以是产品、帖子等)可以通过不同的 URL 访问。
-
URL 静态化设置错误,同一篇文章中有多个静态化URL。
-
URL 静态化后,静态和动态URL共存,都有链接,也都可以访问。
网址不规范对 SEO 的影响
网站出现多个不规范网址会给搜索引擎收录和排名带来很多麻烦。比如,网站首页应该是固定的,只有一个,但很多站长在链接回首页时所使用的 URL 并不是唯一的,一会儿连到 http://www.example.com,一会儿连到 http://www.example.com/index.html。
虽然不会给用户造成什么麻烦,因为这些网址其实是同一个文件,但是给搜索引擎造成了困惑,哪一个网址是真正的首页呢?哪一个网址应该被当作首页返回呢?
如果网站上不同版本的网址同时出现,那么两个或更多版本的 URL 都可能被搜索引擎收录,这就会造成复制内容。搜索引擎计算排名时必须找到所谓的规范化网址,也就是搜索引擎认为的最合适的 URL 版本。
网址规范化造成几个问题:
-
CMS 系统在不同地方链接到不同的 URL,分散了页面权重,不利于排名。
-
外部链接可能指向不同 URL,分散权重。
-
搜索引擎判断的规范化网址不是我们想要的那个网址。
-
如果网址规范化问题太严重,就可能影响收录。一个权重不是很高的域名能收录的总页面数和蜘蛛总爬行时间是有限的。搜索引擎把资源花在收录不规范的网址上,留下给独特内容的资源就减少了。
-
复制内容过多,搜索引擎可能认为有作弊嫌疑。
如何解决网址规范化问题
要解决 URL 规范化问题有很多方法,比如:
-
确保使用的 CMS 系统只产生规范化网址,无论是否有静态化。
-
所有内部链接保持统一,都指向规范化网址。以带与不带 www 为例,确定一个版本为规范化网址,网站内链接统一使用这个版本。这样搜索引擎就能明白哪一个是站长希望的规范化网址。由于用户习惯,通常选择带 www 的版本为规范化网址。
-
在 Google 管理员工具中设置首选域。
-
使用 301 转向,把不规范化 URL 全部转向规范化 URL,下一节将深入讨论。
-
使用 canonical 标签,后面将深入讨论。
-
提交给搜索引擎的 XML 网站地图中全部使用规范化网址。
但这些方法都各有局限:
-
Google 管理员工具不适用于其他搜索引擎。
-
有的网站因为技术原因做不了 301 转向。
-
CMS 系统经常不受自己控制。
-
内部链接自己可以控制,但外部链接不受控制。
去除域名后的 index.html
1) Windows 服务器(VPS 或云主机)
使用本地电脑“远程桌面连接”连接到服务器,在服务器桌面找到并打开“Internet信息服务(IIS)管理器”,找到自己的网站,右击“属性→文档”,将 index.html 上移到顶部,如图1所示。
图1:IIS 服务器去除域名后的 index.html