2008年1月23日星期三

百度开始清理索引

前几天也发表了对百度最近表现的个人观点,这段时间通过使用工具和手动记录方式相结合,观察百度索引、排名上的一些变化。今天作了一些分析,樂思蜀感觉之前的猜想有那么一点真实可靠了,百度似乎准备启用新的存储机制,开始对目前索引的数据进行清理。

通过对近20个站的观察,最近百度平均收录数量下降,但与实际URL数越来越接近。我通常把高于实际URL数量以外的收录数称作“水份”,归纳为这3种:

  • 百度水份:使用“site:域名”查询出来的搜索结果数,并不一定是真正的索引数,百度可能为了标榜其数据库,在索引数中注入了水份。检查的最简单方法就是翻页,翻到最后一页,如果出现“……点击这里可以看到所有搜索结果”,点击后看到的数字基本是准确的索引数。

  • 技术水份:搜索引擎(不仅限于百度)毕竟是机器完成的,对“相似页面”或“重复页面”的处理仍不够完善,索引中可能包含一个页面的多个版本(如:很多论坛的无图版+完整版;使用URL不规范的程序,不同位置指向同一页面的链接URL版本不一致;等……)。

  • 网站水份:已经失效的页面,搜索引擎会适当保留一定时间;并无实质性价值的功能页;用户上传的搜索引擎能够索引的附件等。


在观察的近20个网站中,这几天水份数量在急骤减少,约1/3的网站收录数几乎等于实际URL数。

个人猜测,可能是百度准备启用新的存储机制,或对索引处理上的一次改进,目前对已经索引的页面进行清理,为新的技术更新做准备。

如果这个猜测成为事实,樂思蜀倒是有点担心,这次清理的力度会不会有点过。

观察的网站中有1/3有不同版本URL,清理时,约15%包含多版本URL的页面直接被从索引中删除了,这就有些接近于“惩罚”了;另外,这次对带“采集”性质(实验站非真正的采集,只是大量转载)清理也有些过,有2个站直接被清空了,通过与几位朋友的交流中也证实了这一点。

按此清理的标准下去,这次对中文网站的冲击是相当大的;以目前的形势,对百度自身也不利。

2008年1月22日星期二

搜索引擎营销研究中心成立

中国电子商务协会网络营销专业委员会搜索引擎营销研究中心(R&D Center for Search Engine Marketing under Profasional Comette for E-Marketing of the China Electronic Commerce Association,简称RDC SEM)成立。

链接:中网营文[2008]11

文件扫描图像:第一页  第二页

组织架构

主 任:付必鹏

副主任:黄秋衍、刘延庆、王志炜

委 员(研究专家):付必鹏、刘延庆、黄秋衍、王志炜、卢 亮、昝 辉、葛小飞、杨兴建、祁大庆

成 员: 黄 智、张开涛、戴 杰

有效期限自2008年1月20日至2009年1月19日

相关事宜联系

中国电子商务协会网络营销专业委员会(PCEM)

中国北京海淀区万寿路27号信息产业部机关2号楼 邮编:100846

中国南京定淮门12号世界之窗软件园7号楼北座广田园 邮编:210013

官方网站:http://www.PCEM.org.cn

电话:025-83725030 传真:025-83752791

2008年1月20日星期日

遭受攻击,郁闷中

服务器再次遭受攻击,很郁闷。实在不明白,这些人能攻击别人服务器,技术就不一般了,为什么不干点好事,找个发展的路子,寻找自己的人生方向,净干些损人的事。

搞的人很没心情,坚持“每日一博”的事也中断了。

近日西安天天大雪,好冷啊!高速封路,火车没票,飞机飞不了,过年回家是个问题。

气温降的很厉害,像枫林这些要回西安的朋友要注意了,多穿点衣服,最好是防水的 :P

2008年1月17日星期四

PR更新了

新一轮的PR更新了,你的网站收获如何呢?

这次更新本来应该在2月份的,提前了,Google准备过年之前送个礼物吗? :P

不过这次更新有些怪异,观察了一些站,较上次有很大起伏,参考标准变了?

2008年1月15日星期二

飞鸽传书 IP Messenger 2.60 绿色汉化版

樂思蜀今天又不知道写什么了,就分享小工具吧,嘿嘿……

局域网内发消息、传文件,还需要用QQ或MSN吗?

用这个156KB大小的小工具吧,别看它个头小,功能却很强大,聊天、文件传送都很不错。我在局域网内用它传电影,超过10MB/s的速度,很酷。

下载:飞鸽传书 IP Messenger 2.60 绿色汉化版

也可以到华军软件园下载:http://www.onlinedown.net/soft/15453.htm

广域网针对IP的消息、传送我没测试,大家可以试试,速度快的话用它传文件挺不错的。

关于百度最近表现的个人观点

SEOer和站长们可能都发现,百度从2007年年底至今,一直表现的很不稳定,甚至诡异。有人说百度来大姨妈了,甚至有人用灵异现象来解释百度。樂思蜀也来发表一下,对百度最近一系列表现的个观点。

个人觉得,百度可能正在进行两项工作:搜索引擎技术更新,存储机制完善。

首先,研究SE或SEO的可能会发现,百度的技术已经相对落后了,要保住“全球最大的中文搜索引擎”必须强壮自我。现在搜索引擎市场竞争异常残酷,今天东家要“超越百度”,明天西家还是要“超越百度”,虽然表面上百度可能不屑一顾,但事实上百度时刻都在为其“霸主”地位而担心。

为什么觉得百度在进行技术更新呢?学过企业或人力资源管理的朋友可能清楚,有一种情况下企业人力资源是处于“只出不进”的。个人觉得百度技术机制部分处于这样一个阶段,一边暂时以旧的技术处理目前的资源,一边渗入新的技术,在新技术完全渗入之前,会出现一个“混合”阶段,这个阶段往往是最乱的,最难以控制的。如果此猜想属实,百度此时与站长们同样烦乱着,同样期待这个阶段早点过去。

其次,与算法机制相配套的存储技术也在完善。百度目前的数据中心已经不能满足百亿网页级的需要了,存储当然不是问题,问题在于如何把这些数据进行最合理的处理,打造强大的后端数据处理能力,提供多于“360度”的检索方法。

前段时间提出的.cn域名不收录问题,已经被Zac的实验打破。其实,虽然有那么一些可能,百度为控制.cn降价引起的垃圾网页满天飞的局面,而降低对.cn的索引;但细心的朋友可能会发现,不管是.com或.cn,这个阶段百度的索引都不那么勤快。

以此看来,百度目前一边以新的存储机制“少量吃进”;一边细化处理,对过去索引的数据进行必要的清理。

如果以上猜想属实,百度将会进行一次较大的变革。

个人随便猜测的,仅供参考,事实会随着时间显现出来。

2008年1月13日星期日

让爱传递:西安义工网

今天,受双城大哥之邀参加了西安义工网两周年庆典,感触颇深。

一个个真实感人的故事,一件件西安义工的义举,触动心灵。

感觉有很多话要说,但又不知道说什么。

希望好人一生平安!

愿大家都能行动起来,关爱社会弱势群体。

2008年1月12日星期六

中国地区Adsense推介即将停止

Google Adsense Blog 官方消息,Adsense推介除北美洲、拉丁美洲和日本外的国家和地区将停止,包括中国在内。也就意味着,这个蕴藏着较大收益的Adsense项目,中国站长将无法享受到了。$5、$250、$2000,这样的收入将成为历史。

之前这个消息就已经透露出来,引起激烈争论,甚至部分人对Google恶言相加。樂思蜀一直挺喜欢推介,说实话在推介上也赚了几笔美元,但我觉得这些问题要心平气和的从多方面去看待。

什么事都有个缘由,据我所知,不在少数的站长,存在通过自己的推介注册新帐户,利用新站赚取广告费+推介费;中国是个人情化的国家,人际关系比金钱好使,私下里沟通一下,通过朋友推介注册,大家得益;国内的黑客技术、作弊技术好像也不逊色于任何一个国家,利用这些技术,180天推介20个赚$100的帐号也不是难事。

这一来,受损的只有Google了。本来初衷是花钱去推广Adsense,结果钱是花出去了,没有达到推广的目的。作为做推广的厂商、靠推广赢利的Inc.就怒了。

幸好,据称Google的索引、排名机制和Adsense是分开的,要不再将网站牵扯上,封一批站,新一轮斗争又开始了,指不定反Google联盟会应时而生。如同站长骂百度,百度封网站,说不清谁是谁非。

胡扯到这吧,个人观点,仅供参考。

建议现在还在做推介的站长把广告都换了吧,现在的推介也达不到转换要求(180天)了,转投其他的。希望大家2008年都能赚到钱,赚大钱!

2008年1月11日星期五

GB/BIG5/UTF-8 文件编码批量转换程序

在修改Wordpress模板,制作页面时,经常需要批量转换文件编码,通过搜索找到这个小工具,分享一下。

这个80KB的小工具,可以将文件在GB、GIG5、UTF-8之间批量转换,使用起来很方便。

作者主页:http://www.pc-soft.cn/

当前最新版本V1.3,可以在作者网站下载,或点这里下载

为培养写博客的习惯,坚持每天写一篇,没有想到写什么内容时,就拿些小工具出来分享,贵在坚持。

2008年1月10日星期四

SEO之网页编码

网页编码相信都很熟悉了,樂思蜀想说的是,如果针对搜索引擎,UTF-8不是你的最佳选择。

原因很简单:大家都知道,一个日本网站,在Google.com搜索结果中的排名可能很低,但可能在google.co.jp搜索结果中排名可能较高。

我们在制作网页时,应尽可能的使用区域性的编码(GB2312、iso-8859-1、windows-1252……),以便搜索引擎尽快或准确的将网站识别成“本地”的。

当然也是根据访问者而定,如果涉及多语言访问者,必须考虑UTF-8的通用性。

2008年1月9日星期三

动态URL的问题与优化

很多初学者在看一些SEO教程时可能经常见到,优化就要将网站URL静态化,甚至将这一点列入非常重要的行列。个人不赞成此观点,选择动态URL还是静态页面,只要根据网站需要就可以了。

为什么很多SEOer强调使用静态页面?

早期由于搜索引擎Spider的不完善,网站程序不合理,或部分人故意造成一种蜘蛛陷阱(spider traps),导致Spider爬行时进入一个死循环。搜索引擎为避开这种死循环,减少对动态URL的读取,特别是带“?”符号的URL。

随着搜索引擎的完善,这种现象目前已经基本得以解决,Spider已经能够正常并顺利的读取动态URL地址,以及带“?”符号的URL。但是,目前对带过多环境变量(query string)的URL地址(如new.php?a=1&b=2&c=3&d=4……)仍不够理想(据相关资料称,Spider基本不读取带3个以上的环境变量的URL)。

如果动态URL与静态页面存在差别,差别在哪里?

樂思蜀认为,就目前搜索引擎技术而言,如果动态URL与静态存在差别,这种差别主要表现在下面两个方面:

1、Spider爬行效率:如上所说,多重环境变量的URL;Cookie数据导致访问页面的变化;给予不同的访问者Session ID等。这些因素会导致Sipider爬行效率较低,将制约着动态URL在搜索引擎中的表现。

2、页面信任问题:这个问题目前还没有一家搜索引擎公开表示,对网页有信任值。但通过本人的实验及参考相关资料,静态页面在搜索引擎中,同等条件下一般优于动态URL。

静态页面在搜索引擎中优势有多大?

对于搜索引擎而言,静态页面还是优于动态URL的,但优势能有多大?樂思蜀认为,差距很小,如果我们再把握好站内链接策略,并对URL进行适当的优化处理,这种差距会极小。

我的SEO论坛(www.seobbs.net)一直使用的动态URL,而且URL并没有做太多的优化处理,从2005年开站至今,SEO一词基本在前1~2位之间。

动态URL的静态化:伪静态

动态URL在网站目录中并不存在具体的文件,而是根据用户请求,从数据库中返回请求的结果。我们可以把这个过程模拟成静态页面或目录,就是常见的“伪静态”。

目前主流的很多程序都支持伪静态,我们也可以根据需要,对程序进行DIY,再对网站环境进行相应设置。Apache下mod_rewrite的重写模块就能很轻松的实现,Windows环境下也有rewrite组件。网上关于这方面的教程很多,大家可以搜索一下,查看相关的资料来实现。

动态URL的站内优化策略

如何让动态URL表现更好,樂思蜀从站内角度提出下面3个要点:

1、导航很重要:完善的站内导航,有利于Spider高效率的爬行。整站尽可能做到:从首页出发,较重要的位置,不超过3次点击就能到达;最重要的位置,应该在首页出现相应的链接;必要时,可以单独制作一个静态导航页。

2、制作网站地图:首先网站内应该有一个网站地图页面,将常用位置在这个页面中做上链接,用户可以最快的了解网站结构,搜索引擎Spider可以快速高效的对网站爬行;其次XML格式的网站地图目前已经不仅适用于Google,应尽可能的保持XML地图更新;最后,建议制作一份URL列表(urllist.html和urllist.txt),对网站是有益而无害的。

3、URL统一、规范:同一URL出现多个版本(如read.php?id=1和read.php?id=1&page=1),同一位置出现多个URL形式(如list.php?companyname=xxx和list.php?companyid=123),及大小写问题等都可能导致在搜索引擎中出现相似页面,从而影响网站在搜索引擎中的表现。

总之,个人认为动态URL不一定比静态页面差,只要优化得当,在搜索引擎中同样有好的表现。而且很多只能或最好用动态程序的时候(如论坛、订单系统等交互性很强的站点),没必要刻意要求生成HTML,或做成静态页面。

2008年1月7日星期一

陕西互联网现状:仍处于困境

昨天参加了2007年度陕西互联网业界峰会,中途因有事提前离场了,就前面听到的内容,作个一句话总结:

陕西的互联网落后于全国平均水平,通过这些年的发展,有很大的提高,但还没有摆脱困境,短时间之内可能还不会有大的发展。

2008年1月5日星期六

使用Xenu制作XML格式Sitemap文件

前阵写了一篇“SEO工具使用感想”,文中提到用Xenu可以方便的生成强大的XML格式Sitemap文件,很多SEO在QQ或MSN中问我如何生成,今天樂思蜀给大家分享一下。

Xenu本身是网站链接检查工具,其速度比很多软件都要快;而且包含的文件列表很全。Xenu检查完毕后,会生成一个详细的报告,我们利用这个报告,适当的查找替换一下,就是一个Sitemap文件了。

第一步 使用Xenu检查网站链接

使用方法相信大家都比较熟悉,只有简单的选项。如果没有Xenu的点这里下载:Xenu 1.2d 下载

第二步 截取生成报告的需要内容

查看源文件,找到“List of valid URLs you can submit to a search engine”这一部分,将<pre>到</pre>之间的内容复制到文本编辑器,删除<pre>和之前的内容,及尾部无用的代码,保存为html文件,备用。

第三步 XML文件格式

0.84标准的XML格式Sitemap文件标准格式:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">


<url>
 <loc>http://www.example.com/abc.html</loc>
</url>


</urlset>

蓝色部分为文件的头和尾,红色部分为网址的列表语法,绿色部分为URL地址。

第四步 分析刚才保存的html文件

刚才保存的html文件中,每一个URL的格式都是这样的:

 <a href=http://www.lesishu.com/ TARGET="Xenu">http://www.lesishu.com/</a>

我们来看一下与XML格式的对应关系:

<url>
<loc>
http://www.example.com/1.html</loc>
</url>


如上所示,只要将HTML文件中的红色部分替换为XML的红色部分蓝色部分替换为XML的蓝色部分,即是XML格式了。但HTML格式中加粗部分,为变化内容。

第五步 批量替换

我们可以借助专业的文本替换工具(下载:批量文本替换工具),或使用专业编辑器(如Editplus等)的正则替换,将上面所述进行批量替换。

第六步 加上XML的头和尾

将替换后的HTML文件,头部加上XML的头:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">

尾部加上XML的尾:
</urlset>

第六步 保存

另存为XML文件即可。

这样是不是很方便呢?检查完网站链接后,顺便就生成了完整的XML地图文件。还可以生成urllist.txt、urlist.html文件(某些搜索引擎可能会用到),一举多得。

2008年1月3日星期四

2007年度陕西互联网业界峰会

主办单位:陕西省互联网协会
组织承办:因特EinIT 

促进陕西互联网产业的发展,探寻共同合作的发展之路。总结2007年陕西互联网,共同分享成长和发展历程中的酸甜苦辣。与会者分享人脉、技术、经验和资源,寻求更大的主流突围的多方互动。

时间:2008年1月6日 下午 13:00 - 18:00

地点:西安软件园秦风阁7楼多功能厅

报名、详细信息查看

2008年1月2日星期三

Happy new year

2008来了,祝愿朋友们在新的一年里幸福、快乐!

2008是充满希望的一年,朋友们在希望的一年网站会蓬勃发展,财源会滚滚而来,身体会越来越好……别忘了给个红包 :)