观察Google、Bing、Baidu等搜索引擎对JS的感知

和传说中一样,百度和soso对js感冒,bing和Google对js表现说得过去,sogou和youdao对js的表现还有待观察。也就是说bing和google蜘蛛是一定会抓取js代码的。。

观察的办法很简单,就是看各个搜索引擎的“网页快照”,然后查看其中由js作用才显示的内容部分是否能被查看到。

搜狐个人博客首页大量使用脚本调用,可以作为样本来观察,就拿去百度一下,必应一下,谷歌一下,然后对比快照来的。。

由于搜狐博客屏蔽了除Googlebot、baiduspider、Nutch、msnbot、Slurp这些蜘蛛之外的蜘蛛,所以有道的快照是没有的,soso的快照是流氓蜘蛛抓来的?搜狗抓去自家搜狐个人博客首页的快照简直就是个杯具(那不是个人首页,倒像是特定通路获取的摘要数据)!!

PS:搜狐个人博客首页的日志列表可能是延迟加载的。bing和google的蜘蛛都没有抓取到内容。

测试:可以弄个单独的页面加入JS生成的内容,然后引导搜索引擎收录,然后查看“快照效果”,另外如果可以的话最好看下服务器文件访问日志关于蜘蛛是否抓去了js文件(如果你的js是放在单独的文件中的话)?

附注(常见蜘蛛):

百度的蜘蛛:baiduspider
  Google的蜘蛛: Googlebot
  腾讯Soso:Sosospider
  Yahoo的蜘蛛:Yahoo Slurp
  Msn的蜘蛛:Msnbot
  Altavista的蜘蛛:Scooter
  Lycos的蜘蛛: Lycos_Spider_(T-Rex)

搜狐博客的robots.txt内容:
http://blog.sohu.com/robots.txt

ser-agent: Googlebot
Disallow:

User-agent: baiduspider
Disallow:

User-agent: Nutch
Disallow:

User-agent: msnbot
Disallow:

User-agent: Slurp
Disallow:

User-agent: *
Disallow: /

百度弄了个“百度经验”

这个是不是说以后有更好的资源采集点了?!我看未必。。

刚看了下,全是生活指南方面的。。看来可以考虑啊。。

百度继百度有啊、百度百科、百度文库、。。。、百度开放平台、百度应用之后再次涉足内容生产。
目前看来百度涉足的行业有电子商务商品搜索、百科知识类搜索、自然语言知道类搜索、个人空间的权重已经比较低了(不过还是不能忽视)、文档下载类搜索、娱乐游戏类搜索(SNS型开心,人人的终结者?)、财经新闻咱就不说了(和和讯是合作关系?)、正在看到的涉足生活知识内容搜索。。

作为一个搜索引擎真想成为中文最大站内搜索?真想盖过韩国那个虾米网站?

百度这样下去大家以后都做碎片内容好了。。

PS:理由很简单,百度自身的内容在搜索结果中的排名那都是“相当稳定”的!

百度对新域名还是很敏感的

在百度搜索“洛阳聚会”的时候,惊讶的发现我在9.9号新注册的域名“luxun-db.org”竟然被“收录”了,快照是9.12日的,很是郁闷了。。首先这个域名是申请来想做个鲁迅相关主题内容的,由于站还没建起来只是修改了下域名IP指向。。就这样被百度给瞅见了(先前偶没有通过任何途径公开过这个域名的相关信息的,,真不知道百度是否是通过域名注册机构获取的新域名信息。。这个纯属猜测)。

PS: 看来我还是为这个域名暂时单独建一个页面比较好点!!

baidu luoyangjuhui

今日杂碎:百度一下,你就出错

您访问出错了
很抱歉,系统出错了,请稍后访问。
1.请您耐心等待几分钟,我们的服务很快就能恢复。
2.稍后,您可以通过下方搜索框继续搜索。

就这样一个提升信息。

而且发现其中一个网站(另一个正常)收录量降了很多(接近5000吧,好不容易被收到7700的!囧),还以为被百度盯上了!看到百度这个错误提示页面才稍微平衡些,更有可能是百度数据中心同步出问题了。。

留图纪念

百度:您访问出错了

更新:大概在9.30左右,收录恢复正常。。

杂碎2:9点左右,“洛阳哈他商贸有限公司”通知过去先观察3天,试用期是一个月,登记信息属实的话这3天包含在试用期内。下午过去。。

从百度导入的IP基本恢复!

依据Google Analytics 对于“洛阳生活:luoyanglife.com”的统计数据,百度导入流量从11月28日开始小幅下滑,然后29日回升,然后29日到30到12月1日,然后到2日,百度导入的IP到达历史最低谷。
然后2日开始回升,到4日基本恢复,从3日到5日(今天)看,百度导入的IP基本稳定。

有待继续观察。

留图纪念:

Search Engine: baidu
Search Engine: baidu

对于本博客的百度导入IP倒是没有多大的下滑,反而是有少许上升!

终于明白一个道理:不要迷信百度,百度只是一个传说!

努力使自己的访客来源多样化。。

论坛帖子页面阅读宽度调整为512px

这个阅读宽度是参考百度的搜索结果页面的

百度的为“32 em”。

谷歌的为“42 em”,Google同样也为“42 em”。

中文必应的为“534 px”。

搜狗的为“37 em”。

有道的为“32 em”。

偶也没有多少数据能这些大个头比个高下,这里就不啰嗦哪个中文阅读宽度更适合中国人啦。

参考百度和有道的中文阅读体验,把“洛阳生活论坛”的阅读区域宽度设为“512 px”啦。

PS:美国版的bing的搜索结果页面单条右侧的展示效果很酷啊!中文必应的搜索结果右侧的摘要预览效果就去掉啦。。囧

🙁

附注:

em、px、pt的换算关系如下:

1em=16px
1em=12pt

1px=1/16 em=0.0625em
1px=3/4 pt=0.75pt

1pt=1/12 em≈0.0833em
1pt=4/3 px≈1.3333px

em、px、pt的转换。