南京网基网站优化技术有限公司
首页 | 联系方式 | 加入收藏 | 设为首页

服务项目

联系方式

联系人:刘小姐
电话:400-807-6757
手机:18042313315
邮箱:service@xinlecd.com

当前位置:首页 >> 新闻中心 >> 正文

搜索引擎爬虫是怎么工作的

编辑:南京网基网站优化技术有限公司   时间:2013/03/29   字号:
摘要:搜索引擎爬虫是怎么工作的
我们只是看到搜索引擎收录的网页,但不知道 搜索引擎是怎么爬行抓取网页的,下面简单说明一下:
首先,搜索引擎爬虫在进行抓取的时候,会采取两种方式来抓取:深度优先和宽度优先的方式进行爬取。
第一种,深度优先遍历抓取。深度优先抓取就类似后知博客这样的,千龙网络首页>网站优化>下级栏目,首选抓取是以这样的方式来抓取的,等到抓取完毕这些栏目之后,在进行抓“网站优化”栏目下的文章,这样就是深度优先策略,类似于家庭关系一样。长子、次子然后是长孙等这样的关系,后知博客没有那么深的栏目,所以看不到这样的效果。
第二种,就是宽度优先的遍历抓取。这种方式的抓取,深度是不断的在增加的。类似于这样的“首页 > 网站优化技术 > 网站日志如何分析”爬虫来的你网站,会顺着一个栏目一级级向下抓取,等这个“网站优化技术”栏目下被抓取完毕后,在进行其子下一个栏目。这样的宽度抓取是有一定的原因的,基于网站布局的问题,往往是重要的页面距离种子站点(种子站点是爬虫开始抓取癿起点)是比较近的,这样符合习惯。所以,你可以看到一个大型门户站点,最容易看到的是一些实事新闻,这点是距离种子站点越近可以理解为越重要的页面;其次,中文万维网的深度没有我们想象的那么深,到达一个网页路径不仅仅是一个,所以爬虫总能找到最近的路径到达当前页面,据相关数据表明中文万维网的深度为17;还有一点就是,多爬虫的合作策略,基于这个规则大部分的抓取的起始网页为站内的,逐渐的才会转向站外的链接,抓取的封闭性是比较强的。
了解爬虫是怎么工作,我们在制作网站的时候就从分考虑这个因素,让制作出的网站更符合搜索引擎的收录原理,更符合seo排名。
上一条:百度快照不更新的几个原因 下一条:如何增加关键词密度