百度收录与网站URL结构

发布于 2022-05-06  847 次阅读


合理的URL结构有助于搜索引擎的收录,至少是有助于百度收录。为什么这么说呢?因为近一年,我更改了网站的URL结构,结果百度索引量那时下跌的厉害,而且再也没有爬起来。

看到百度站长里本站近一年的索引数据,那真的是让人绝望:

www.hongtk.cn百度索引数据(202105-202205)
www.hongtk.cn百度索引数据(202105-202205)

最开始掉索引是因为我做了伪静态,又嫌麻烦没有做301重定向,我在《站点结构要提前设计好:伪静态要在建站时就一并设置》这篇文章里总结了教训,当时404也是没有做的,后面发现了才补做了404。

按理说,我后来又重新提交了sitemap,经过这么长时间的恢复,应该是能逐渐恢复的额,我博客更新慢,目前也就100来篇文章。

猜测问题出现在URL结构上了,我当时做了伪静态后,一时手贱,追求浏览器地址栏里显示美观,一并改为了以文章名来做URL,这就导致URL冗长,且显示是一串无序乱码。

浏览器地址栏显示文章名
浏览器地址栏显示文章名

实际上在百度站长平台提交URL时,上面显示的是乱码:

URL显示乱码
URL显示乱码

而百度站长官方在《对百度搜索引擎友好的网站结构》一文中表示:

url结构很重要

  1,url结构规律化:同一个网页有不同url,会造成多个url同时被用户推荐导致权值分散;同时百度最终选择展现的那个url不一定符合你的预期。站点应该尽量不把sessionid和统计代码等不必要的内容放在url,如果一定要这样做可以通过robots禁止百度抓取这些非规范url

  2,最好能让用户从url即可判断出网页内容,便于蜘蛛解析的同时便于用户间传播

  3,url尽量短

              ●蜘蛛喜欢:http://tieba.baidu.com.com/f?kw=百度

              ●蜘蛛不喜欢:http://tieba.baidu.com/f?ct=&tn=&rn=&ln=&cn=0&kw=百度&rs2=&un=&rs1=&rs5=&sn=&rs6=&nvselectvalue=0&oword=百度&tb=cn

       4,不要添加蜘蛛难以解析的字符,如

         http://mp3.XXX.com/albumlist/234254;;;;;;;%B9&CE%EDWF%.html

              http://news.xxx.com/1233,242,111,0.shtml

       5,动态参数不要太多太复杂,目前百度对动态url已经有了很好的处理,但是参数过多过复杂的url有可能被蜘蛛认为不重要而抛弃

对百度搜索引擎友好的网站结构

这样看来,URL结构不合理是目前百度搜索引擎收录少的原因的可能性较大。

不过后面我会继续观察半年,持续更新相关文章,看看百度收录数据是否会增长。如果已然是这样,那么也只有再次优化URL结构了。同时大家也要引以为戒,伪静态、URL结构这些是在建站之初就该优化的要素,千万不能等网站做了大半年之后再改!