百度、谷歌、搜狗等这些搜索引擎都是提供内容,给广大的搜索用户,那么他们是怎么发现这些内容的 呢?说白了,就是他们各自己的蜘蛛程序,到各大互联网网站去抓取内容,就是网并且存档下载的形式。蜘蛛抓取内容,就是从权威网站、高权重网站开始的。这也 就是为什么我们要发布外链,权重越高对于网站排名越好的原因之一。
2、了解下管理蜘蛛的控制器
我们知道,互联网 中的内容,或者说叫网页,是以亿为单位计算的,所以用一只蜘蛛程序那明显是不可能完成抓取任务的。需要成千上万的蜘蛛程序,这时候就需要一个管理蜘蛛程序 的一个控制器。它的作用包括:要给蛛蛛分类、去哪里抓取?多长时间去一次,这么说起来象不象公交的调度呢。对了,你可以把它理解公共汽车站的调试室,这个 控制哭掌握着所有的蜘蛛的日常工作。
所以我们的网站越靠近互联网上的权威网站,越让蜘蛛程序省事省力,那么我们对它就越友好,所以这里就需要我们做好网站的内部优化,让蜘蛛程序无阻碍,并且要靠近开始抓取的那个源头。
3、蜘蛛把抓取来的文件放入原始数据库
原始数据库就有库房的功能。在这个仓库里边,开始对这些数据,进行编号,提取的时候是以URL为依据,然后进行分类。值得一提的说,百度的快照也是从这 里产生的。这里的数据是最原始的,没有经过过滤的,也就是抓取来的网页有很多是垃圾。下一部是干什么呢,我想大家应该有些小清楚了吧。
4、网页分析
在这里,就要把前面抓取来的网页,开始做分析。去重,去除镱相网页,网页的权重的计算,全部是在这一块完成的。这里的网页分析,就是搜索算法的核心之一 了,就象百度这么些年来,它的算法是核心机密,是不会被我们所知道的,那么我们到底能不能分析出它的一个算法的秘密呢,是可以的你接着往后面看就可以了。
5、搜索引擎的索引库
这里最主要的功能就是索引了,就是把各自网页的关键词,和每个页面相对应该。比如我们搜索”114查标网“那么它就是通过索引,把114查标网这个关键 词,和含有这个关键词的页面都联系起来,然后通前面的权重计算直接返回给搜索者。这个索引库里边包括,成千万级别的,甚至是亿万级别的、关键词,关键词的 位置,关键的标签。以及各网页的属性。这里是搜索引擎内容的最的一个系统,走到这里,只需要等待关键词被激怒。然后返回结果就可以了。
6、搜索引擎的检索系统
这是针对我们用户而言的,当我们输入一关键词组的时候,正式启动了搜索引擎的检索系统,他会对这些我们输入的关键词,进行分词,比如,我们输入,商标注 册就有可能被分为、商标、注册、商标注册这个组词,当然了他的分词系统相当复杂,并象我举的例子这么简单。分完之后,激活搜索引擎的索引库,前面说过了索 引库就是关键词和网页形成联系的一个地方。然后返回一个排列结果,给用户。
7、搜索引擎的最后一个功能
就是用户接口,当你搜索完成之后,搜索引擎返回结果给你,然后会将你的一系列动作做保存,比如你的查询时间、查询关键词、你的IP、点击的URL、查询的时间都进行保存。用于提高用户体验。
介绍到这里搜索引擎的基本原理算是介绍完了,那么回归到我们的主题,我们如何利用发现搜索引擎的算法呢?其实方法也很简单
伍佰目录声明:本站部分文章来源于网络,版权属于原作者所有。如有转载或引用文章/图片涉及版权问题,请联系我们处理.我们将在第一时间删除!
联系邮箱:tsk@qq.com