当前位置:伍佰目录 » 站长资讯 » 站长资讯 » 搜索引擎 » 文章详细

搜索引擎如何判断内容与链接的相关性

来源:站长分类目录 浏览:519次 时间:2014-10-24
  随着搜索引擎不断的升级,判断垃圾网站的方法也越来越多样化,但许多意图操作的人还是会想出其他方法,想要躲避搜索引擎的侦测,我们来看看常见的例子与其破绽。
  有些人会认为,既然link farm (链接农场) 有以下链接特性,因此就会思考做出不一样的链接状态。
  例如刻意在许多页面,链接到无辜的第三方网站或是政府网站。
  其实这样的做法还是没有办法躲避侦测,因为链接农场可以自己操作外部的链接,但是没有办法“自然的”操作链进来的链接。
  顶多可以购买少数的高权重的网站来抬高身价,但是要达成多样性且高质量的话,所花的代价根本不敷成本。
  并且故意链接到无辜的第三方网站,更容易因第三方网站的外部链接 (如百度网站管理工具),而自曝身份。所以要把人为链接操作到自然并且有效,除非投入大量的人力与财力,否则是不可能有效的。就算短期有效果,随着搜索引擎的算法改善,更可能一夕完全失效。
  除了通过链接策略外,还可以通过内容与链接的相关性来了解链接农场。也就是链接最基本的规范 = 内容必须相关。如果在网页内容插入不相关的链接,并且没有NoFollow,如果不相关链接类型的数目越多,则就越可能是Link farm。
  网站是否为link farm (链接农场),其实只需要看整体链接状态,以及整体不相关非NoFollow的链接数目,就可以知道。
  但是相关性如何判断呢?一般被用来判断网页相关性的方法,有TF-IDF、Euclidean Distance、Cosine Similarity、Jaccard Coef?cient、Pearson Correlation Coef?cient等等。
  为了正确的了解这些算法是否可以自动判读文件相关性,小脑袋百度竞价助手列举了三个步骤来分析:
  第一步是由已经人为的分类目录中导出所有的资料,汇入MySQL中,以备后面程序使用。
  第二步是资料的预处理步骤,先进行网页资料抓取,然后取出我们需要的资料,分成英文与中文分别处理字词的分析,让抓取的资料还原到基本的单词。
  第三步就是把第二步处理过的资料,进行算法计算与比较。由此便可以知道各算法计算出的相关性数值,并且比较各种不同算法的精准度。
  结果发现所有的算法在所有的资料实验中,其精准度都达80%以上,并且某些算法其精准度还达90%以上。
  这种方式说明: 使用最简单的方法、以最便宜的硬件,就可以快速轻易的知道网页间的相关性。所以百度等搜索引擎会不知道吗? 当然会比我们更清楚。所以各种SEO的作弊行为,搜索引擎都迟早会要发现的,好好的进行真正的网站优化才是上上之策。
  以上由小脑袋百度竞价助手提供试用编写,试用注册:http://vip.xiaonaodai.com/index.php?act=register&fromid=7。
  咨询QQ:928122192 咨询热线:025-68781265
伍佰目录声明:本站部分文章来源于网络,版权属于原作者所有。如有转载或引用文章/图片涉及版权问题,请联系我们处理.我们将在第一时间删除! 联系邮箱:tsk@qq.com

快速链接

最新收录

最新点入