网页净化和消重
随着网络技术的飞速发展,网络提供给人们的信息资源越来越多,要想在浩瀚的网络资源中查找到有用的信息,搜索引擎起到了重要作用。但是现在的搜索引擎技术并不完善,存在一些亟待解决的问题,最主要的问题之一是存在大量的重复网页。
网页消重技术是指对内容重复的网页进行识别,处理和合并,以节省网页数据库的存储空间和在网页数据库上进行操作的时间的过程。
网页净化和消重是大规模搜索引擎系统预处理环节的重要组成部分。
网页净化(noise reduction):识别和清除网页内的噪声内容(如广告、版权信息等),并提取网页主题以及与主题相关的内容。
网页消重 (replicas or near—replicas detection):去除所搜集网页集合中主题内容重复的网页。
在网页净化和消重的过程中搜索引擎把抓取的网页净化掉里面与网站主题无关的内容。比如。广告、版权信息等等,这个步骤是为了增加网站主题的准确性,提高反馈给用户信息的精准性,从而提高用户体验!消重就是消除网页当中的重复内容,我们日常访问的网站当中,内容可以是一对多,也就是同一个内容可能是多个URL当中都存在的!这个步骤保证了在信息反馈给用户的时候不至于过多的出现重复的网页让人产生反感!
在净化网页当中搜索引擎会根据几种方法来识别网站主题,一般常见的就是利用HTML代码来识别网站的内容,比如常用的容器标签等等来判断网页的正文内容和判断是否为网站主题相关!很多时候在判断网页重要内容的时候往往使用HTML代码的容器标签的可能性比较大,也就是为什么我们在SEO当中注重对关键字进行进行加粗之类的操作,也就是为了让搜索引擎识别判断给予网站主题相关的关键字较高的权重,从而提高关键字被返回给查询用户的几率,也就是提高网站关键词的排名!
当然一个网页除了内容和图片之外,可能还存在一些友情连接,或者相关内容的连接,那么搜索引擎是怎么处理这类问题的!这里值得一提的是一个网页的相关连接,搜索引擎在判断了网站主题之后对网站连接进行判断,把不相关的广告连接给净化掉,留下与主题相关的内容,然后把这个连接与正文内容一组合就成了净化后的网页!
在SEO当中我们提出的一个降低噪音干扰也就是网页净化环节当中的,因为在SEO当中很多信息会被搜索引擎识别为噪音,不为抓取更谈不上什么权重,所以我们在对一些不重要的信息尽量使用JS外部调用,来降低干扰信息对网站主题的干扰,这样可以加大蜘蛛爬行网站的速度,提高网站关键字的浓度,效果是非常好的!消重这个也是我们SEOer比较关心的一个话题,也就是在对网站内容进行判断是否为重复内容,这个也是我们对内容的原创伪原创,完全复制的一个判断!一般来说搜索引擎通过这个方法可以消除绝大多数转载的内容,这样返回给用户的内容大大增加了可度性!所以网页净化和消重在SEO当中影响也是可见而知的!
推荐阅读:
网页表示形式 HTMl标签树
网页信噪比
作者:搜索引擎营销-大鹏
转载请注明出处:http://www.ueoer.org/post/page-purification-eliminate-duplication.html
网页消重技术是指对内容重复的网页进行识别,处理和合并,以节省网页数据库的存储空间和在网页数据库上进行操作的时间的过程。
网页净化和消重是大规模搜索引擎系统预处理环节的重要组成部分。
网页净化(noise reduction):识别和清除网页内的噪声内容(如广告、版权信息等),并提取网页主题以及与主题相关的内容。
网页消重 (replicas or near—replicas detection):去除所搜集网页集合中主题内容重复的网页。
在网页净化和消重的过程中搜索引擎把抓取的网页净化掉里面与网站主题无关的内容。比如。广告、版权信息等等,这个步骤是为了增加网站主题的准确性,提高反馈给用户信息的精准性,从而提高用户体验!消重就是消除网页当中的重复内容,我们日常访问的网站当中,内容可以是一对多,也就是同一个内容可能是多个URL当中都存在的!这个步骤保证了在信息反馈给用户的时候不至于过多的出现重复的网页让人产生反感!
在净化网页当中搜索引擎会根据几种方法来识别网站主题,一般常见的就是利用HTML代码来识别网站的内容,比如常用的容器标签等等来判断网页的正文内容和判断是否为网站主题相关!很多时候在判断网页重要内容的时候往往使用HTML代码的容器标签的可能性比较大,也就是为什么我们在SEO当中注重对关键字进行进行加粗之类的操作,也就是为了让搜索引擎识别判断给予网站主题相关的关键字较高的权重,从而提高关键字被返回给查询用户的几率,也就是提高网站关键词的排名!
当然一个网页除了内容和图片之外,可能还存在一些友情连接,或者相关内容的连接,那么搜索引擎是怎么处理这类问题的!这里值得一提的是一个网页的相关连接,搜索引擎在判断了网站主题之后对网站连接进行判断,把不相关的广告连接给净化掉,留下与主题相关的内容,然后把这个连接与正文内容一组合就成了净化后的网页!
在SEO当中我们提出的一个降低噪音干扰也就是网页净化环节当中的,因为在SEO当中很多信息会被搜索引擎识别为噪音,不为抓取更谈不上什么权重,所以我们在对一些不重要的信息尽量使用JS外部调用,来降低干扰信息对网站主题的干扰,这样可以加大蜘蛛爬行网站的速度,提高网站关键字的浓度,效果是非常好的!消重这个也是我们SEOer比较关心的一个话题,也就是在对网站内容进行判断是否为重复内容,这个也是我们对内容的原创伪原创,完全复制的一个判断!一般来说搜索引擎通过这个方法可以消除绝大多数转载的内容,这样返回给用户的内容大大增加了可度性!所以网页净化和消重在SEO当中影响也是可见而知的!
推荐阅读:
网页表示形式 HTMl标签树
网页信噪比
作者:搜索引擎营销-大鹏
转载请注明出处:http://www.ueoer.org/post/page-purification-eliminate-duplication.html