百度搜索引擎工作原理是什么?

2016-09-19 17:23  阅读 502 次 评论 0 条

学习搜索引擎优化,搜索引擎的工作原理是必须要了解的,今天我们要说的是百度搜索引擎的工作原理,在了解了搜索引擎的工作原理之后,就会涉及到收录方面的一些问题,那么网站不收录又与那些因素有关系呢?

我们先来了解一下什么是搜索引擎蜘蛛?搜索引擎蜘蛛是抓取信息的程序。各大搜索引擎所对应的蜘蛛又有所不同。

百度蜘蛛:baiduspider

谷歌蜘蛛:Googlebot

360蜘蛛:360spider

搜狗蜘蛛:sogounewsspider

……

搜索引擎工作原理

 

一、搜索引擎工作流程

1、抓取:顺着链接爬行,抓取页面信息。

蜘蛛顺着链接爬行,然后抓取,又分深度和广度抓取。广度抓取:抓首页,栏目页,栏目页里面的分页,一级一级的抓取。深度抓取:首页,栏目页,栏目页分页,栏目页)蜘蛛顺着链接抓取。

2、过滤:若内容质量不行就过滤,比如:采集的内容,文不对题的内容,不丰富的内容。若一些质量好的内容迟迟不收录,是因为需要一个周期,过一段时间之后就会收录的。

3、储存索引库:把有质量的信息提取和组织建立索引库。

4、展现:存放临时索引库里面的内容,经过一些算法的排序,用户在搜索某一关键词的时候,检索器根据用户输入的查询关键字,在索引库中快速检测出有价值的内容给予展现。


二、网站出现不收录的原因

1、是否允许蜘蛛抓取。首先要看的就是是否有蜘蛛来你网站抓取,然后再分析其它原因。Robots文件中禁止蜘蛛抓取,蜘蛛就不会来抓取。

2、需要一个周期。好的内容放在临时索引库里面,经过一些算法排序。若一些质量好的内容迟迟不收录,是因为这也是需要一个周期的。

3、内容质量不行。在过滤的时候就直接被过滤了。

4、蜘蛛无法进行识别的东西,那么蜘蛛直接就过滤了。蜘蛛无法识别的有哪些呢?

(1)Js蜘蛛识别不了,建议只用一两处即可。

(2)图片上的内容,人眼可识别,但蜘蛛不能识别,需要加alt属性。

(3)Flash比如说视频。需在视频的上下文解释一下这个视频的主要内容。

(4)iframe框架。层级比较多。

(5)嵌套table。

5、需要登录的信息页面。蜘蛛无法进入这样的页面。


三、注意事项

1、已收录的内容,不要改动整篇文章内容尤其是标题,不要移动,不要删除,否则就会形成死链。

2、展现结果需要一定的时间(2个月之内都是正常的)。网站上线一个星期了还没收录,这是需要一个周期时间的。

3、内容的丰富度。文字、图片、视频等。

4、吸引蜘蛛。主动向搜索引擎提交(可重复提交),链接。主动出击。

5、蜘蛛的跟踪,网站IIS日志。

本文地址:http://www.liuxinseo.com/266.html
版权声明:本文为原创文章,版权归 星雨 所有,欢迎分享本文,转载请保留出处!

发表评论


表情