网络营销就是新竞争力
当前位置:新竞争力首页 > 公司博客首页 > 樊孝山的博客
google “机器人”与baidu“蜘蛛侠”较量(一)

google在收录站点网页时是通过一个叫做robot(“机器人”)程序实现的,baidu类似的程序被叫做sprider("蜘蛛")。一个站点被机器人或蜘蛛抓取的页面越多,搜索引擎能为用户提供的信息越丰富,因此机器人和蜘蛛算法的优劣对搜索引擎性能有直接的影响。下面就请静观机器人和蜘蛛的较量。

第一回合:对动态网页的抓取

搜索引擎对动态网页(asp、jsp、php、cfm等动态脚本语言编写的网页)抓取能力有限,特别是当动态网页链接后带有参数时,更不利于抓取程序抓取。但动态网页因其强大的交互功能在网站开发中得到了广泛的应用,目前很多网站都是通过动态网页来展示网站主要信息的。机器人和蜘蛛只有去不断提升对动态网页的抓取能力,才能收录更多的站点页面。通过Google、baidu对网站www.ftchinese.com动态页面story.jsp的收录情况分析发现:

机器人对story.jsp动态页面参数达到3个时不再收录

蜘蛛对story.jsp动态页面参数达到2个时不再收录

Ftchinese.com的主要页面信息(新闻信息)都是通过story.jsp产生的,这样直接导致baidu比google对ftchinese.com页面的收录少了一个数量级。通过site:www.ftchinese.com发现,google收录页面数:11000篇,baidu收录页面数:571篇。

当然,对页面是否被收录,还有其他因素的影响,比如url长度等。但从机器人和蜘蛛在对具体网站收录情况的比较分析,可以发现,我们的“蜘蛛侠”,在动态网页抓取方面,还要苦练内功!

第二回合:对深层目录下网页的抓取

(待续…..)

    发表评论:

      昵称:
      密码:
      标题:
    “新竞争力”是深圳市竞争力科技有限公司的注册商标
    深圳市竞争力科技有限公司 版权所有
    电话:86-755-26502263  Email:info@jingzhengli.cn