基于网页链接的通用识别方式。前面介绍的垃圾网页识别技术并不具有通用性,而且非常被动,总是等到出现一种作弊方式后才针对性的采用一种相应的补救措施,有些事后诸葛亮的做法。而下面要介绍的基于链接结构以及稍后介绍的机器学习分类法与作弊方式均无关,具有很强的通用性。

长春网站建设

Trust Rank算法是一种基于链接结构的用来识别垃圾网页的经典算法。这个算法的假设条件是页面A链接到页面B则意味着页面A推荐页面B的内容,因此页面A的Trust Rank值可以传递分配一部分给页面B。也就是说质量高的网页通常只会被质量更高的网页链接指向。

长春网站建设

于是可以先构建一定数量的具备较高权威内容或者较多出链接的知名网页作为起点种子网页,然后将它们的Trust Rank值按照出链接数量比例传递分配到第二层页面,按照同样的方法将Trust Rank值传递分配到第三、四层,以此类推。这样,通常越远离第一层种子网页的Trust Rank值越小,越有可能是垃圾网页。于是可以设定一个阈值,当低于这个值时将其判断为垃圾页面。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。