2008年1月23日星期三

百度开始清理索引

前几天也发表了对百度最近表现的个人观点,这段时间通过使用工具和手动记录方式相结合,观察百度索引、排名上的一些变化。今天作了一些分析,樂思蜀感觉之前的猜想有那么一点真实可靠了,百度似乎准备启用新的存储机制,开始对目前索引的数据进行清理。

通过对近20个站的观察,最近百度平均收录数量下降,但与实际URL数越来越接近。我通常把高于实际URL数量以外的收录数称作“水份”,归纳为这3种:

  • 百度水份:使用“site:域名”查询出来的搜索结果数,并不一定是真正的索引数,百度可能为了标榜其数据库,在索引数中注入了水份。检查的最简单方法就是翻页,翻到最后一页,如果出现“……点击这里可以看到所有搜索结果”,点击后看到的数字基本是准确的索引数。

  • 技术水份:搜索引擎(不仅限于百度)毕竟是机器完成的,对“相似页面”或“重复页面”的处理仍不够完善,索引中可能包含一个页面的多个版本(如:很多论坛的无图版+完整版;使用URL不规范的程序,不同位置指向同一页面的链接URL版本不一致;等……)。

  • 网站水份:已经失效的页面,搜索引擎会适当保留一定时间;并无实质性价值的功能页;用户上传的搜索引擎能够索引的附件等。


在观察的近20个网站中,这几天水份数量在急骤减少,约1/3的网站收录数几乎等于实际URL数。

个人猜测,可能是百度准备启用新的存储机制,或对索引处理上的一次改进,目前对已经索引的页面进行清理,为新的技术更新做准备。

如果这个猜测成为事实,樂思蜀倒是有点担心,这次清理的力度会不会有点过。

观察的网站中有1/3有不同版本URL,清理时,约15%包含多版本URL的页面直接被从索引中删除了,这就有些接近于“惩罚”了;另外,这次对带“采集”性质(实验站非真正的采集,只是大量转载)清理也有些过,有2个站直接被清空了,通过与几位朋友的交流中也证实了这一点。

按此清理的标准下去,这次对中文网站的冲击是相当大的;以目前的形势,对百度自身也不利。

16 条评论:

Cloudream 说...

对百度自身不利指什么呢? 可能的结果准确度下降?

我也说说百度在干什么?-北京SEO-星箭 说...

[...] 乐思蜀在前几天写文章说,百度在进行技术更新,今天临晨又写文章说,百度在改进数据存储技术。百度是不是在进行算法更新我不知道,不过到年末了,老乐的这个假设应该能够成立,google就是如此。我更愿意相信的,一个是百度在改进数据存储技术,另一个是百度的数据回档。 [...]

樂思蜀 说...

To Cloudream:
索引量/深度/广度... 这些都是搜索引擎的资本

YingFan 说...

你好,看了你写的好多文章,觉得学到不少东西!
我虽然也经常写一些东西放在网上,但是都比较散乱的
这段时间刚刚将以前写的好多东西都放到了一起,而其也非常想把自己的博客办好,可是没有什么经验,看了访问量还是没有

希望能有辛得到你的指点,非常感谢!
http://and-money.blogspot.com

初里之外 说...

新年快乐!

kyw 说...

感觉百度3个月左右反复一次。

稻草神 说...

个人也一直有一些想法的
看了乐思蜀的更有意见
百度的技术是一向不如google的
至少我是这样认为的
现在又进行这样的调整 不知道调整后结果如何
但百度最近的表现还是比较能伤人的.......

晓风残月 说...

老乐,新年快乐。
快回来写BLOG。。!我都快成你秘书了。。天天催你更新BLOG !
反倒是自己的BLOG很久没写了!

天高云淡 说...

很高兴来这看看,看你的文章对我很有启发,现在我也在写文章了,只能是自己一点总结

陈伟的布拉格 说...

现在 要百度收录真的是很难啊。我的一个站都20天了还没收。

拾宝 说...

百度的算法近期肯定会有一次大的转变。。其实说一句。百度有点对我太好了。让我有点不安。囧。

侧速 说...

百度经常是变幻莫测啊!

艺术签名 说...

对个人小站而言 收录首页就行了 流量全靠首页
内页没收录的

阿浩 说...

看了你这篇文章很受启发,非常感谢!

瘦腿产品 说...

无意中进入你的博客,你写的文章好独到,分析得很好,平时在网上看到的关于seo的知识都是较分散、含糊,看到你的文章都是学到不少东西。。谢谢樂思蜀的分享。会一直支持你的。

leederedu.com 说...

说的没错,我的网站快照一夜之间清空了。都两周了,一个收录都没,咋办呀现在。