网站优化

 找回密码
 立即注册
齐宁:搜索引擎知识 网页查重技术
查看: 12512|回复: 42

齐宁:搜索引擎知识 网页查重技术

网站优化公司 发表于 2016-2-23 15:57:19 | 显示全部楼层 |阅读模式
网页查重技巧来源竽暌冠复制检陈技巧,即断定一个文件内容是否存在抄袭、复制别的一个或多个文件的技巧。


  1993年Arizona大年夜学的Manber(Google现副总裁、工程师)推出了一个sif对象,寻找类似文件。1995年Stanford大年夜学的Brin(Sergey Brin,Google开创人之一)和Garcia-Molina等人在“数字图书不雅”工程中初次提出文本复制检测机制COPS(Copy Protection System)体系与响应算法[Sergey Brin et al 1995]。之后这种检测反复技巧被应用到引擎中,根本的核心技巧既比较类似。


  网页和R单的文档不合,网页的特别属性具有内容和格局等标记,是以在内容和格局上的雷同类似构成了4种网页类似的类型。
1、两个页面内容格局完全雷同。
2、两个页面内容雷同,但格局不合。
3、两个页面部分内容雷同并且格局雷同。
4、两个页面部分重要雷同但格局不合。


实现办法:


网页查重,起首将网页整顿成为一个具有标题和正文的文档,来便利查重。所以网页查重又叫“文档查重”。“文档查重”一般被分为三个步调,一、特点采取。二、类似度计算和评价。三、消重。


1.特点采取
我们在断定类似物的时刻,一般是才能用不变的特点进行比较,文件查重第一步也是进行特点采取。也就是将文档内容分化,由若干构成文档的特点集合表示,这一步是为了方面后面的特点比较计算类似度。
特点采取有很多办法,我们这里重要说两种比较经典的算法,“I-Match算法”、“Shingle算法”。
“I-Match算法”是不依附于完全的信息分析,而是应用数据集合的统计特点来采取文档的重要特点,将非重要特点摈弃。
“Shingle算法”经由过程采取多个特点词汇,比较两个特点集合的类似程度实现文档查重。


                                                               
2.类似度计算和评价
  对于引擎来说,反复的网页内容是异常有害的。反复网页的存在意味着这些网页就要被引擎多处理一次。更有害的是引擎的索引制造中可能会在索引库里索引两份雷同的网页。当有人萌芽时,在结不雅中就会出现反复的网页链接。所以无论是大年夜体验照样体系效力检索质量来嗣魅这些重负网页都是有害处的。


特点采取完毕后,就须要进行特点比较,因网页查重第二步就是类似度计算和评价。
I-Match算法的特点只有一个,当输入一篇文档,根据词汇的IDF值(逆文本频率指数,Inverse document frequency缩写为IDF)过滤出一些关键特点,即一篇文┞仿中特别高和特别低频的词汇往往不克不及反竽暌功这篇文┞仿的本质。是以经由过程文档中去掉落高频和低频词汇,并且计算出这篇文档的独一的Hash值(Hash简单的说就是把数据值映射为地址。把数据值作为输入,经计算后即可获得地址值。),那些Hash值雷同的文档就是反复的。


Shingle算法是采取多个特点进行比较,所以处理起来比较复杂一些,比较的办法是完全一致的Shingle个数。然后除以两个文档的Shingle总数减去一致的Shingle个数,这种办法计算出的数值为“Jaccard 系数”,它可以断定集合的类似度。Jaccard 系数的计算办法集合的交集除以集合的并集。


3.消重
   对于删除反复内容,引擎推敲到浩瀚收录身分,所以应用了最简单的最实用的办法。先被爬虫抓取的页面同时很大年夜程度也包管了优先保存原创网页。


   网页查重工作是体系中弗成缺氨赡,删除了反复的页面,所以引擎的其他环节也会削减很多不须要的麻烦,节俭了索引存储空间、削减了萌芽成本、进步了PageRank枷⒚效力。便利了引擎用户。


本文首发 齐宁收集营销策划 www.qi-ning.com 转载请注明作者信息。感谢!
齐宁 MSN: i@qining.org
回复

使用道具 举报

窦燕珺 发表于 2016-6-30 07:23:54 | 显示全部楼层
楼主是网站优化界的高人
回复 支持 反对

使用道具 举报

 楼主| 网站优化公司 发表于 2016-6-30 08:22:10 | 显示全部楼层
顶顶帝国网络多好
回复 支持 反对

使用道具 举报

系迩初 发表于 2016-6-30 06:29:10 | 显示全部楼层
这篇网站优化技术文章真心赞
回复 支持 反对

使用道具 举报

SEO外包 发表于 2016-6-30 08:26:32 | 显示全部楼层
难得一见的好技术贴
回复 支持 反对

使用道具 举报

 楼主| 网站优化公司 发表于 2016-6-30 05:41:07 | 显示全部楼层
很好哦,学到了不少SEO知识
回复 支持 反对

使用道具 举报

疙証屏 发表于 2016-11-4 09:20:44 | 显示全部楼层
SEO很难学,还得多多努力
回复 支持 反对

使用道具 举报

SEO优化 发表于 2016-11-4 08:18:47 | 显示全部楼层
难得一见的好技术贴
回复 支持 反对

使用道具 举报

咽牢孟 发表于 2016-11-4 08:17:12 | 显示全部楼层
帝国网络公司挺好 怎么说呢?最起码比很多公司好,无论是专业程度和服务态度,怎么说专业呢?做一个网站匹配人马很齐全,从策划,设计,程序,测试都由不同人来负责,很多网路公司恐怕都做不到,作为一个老客户,真心支持帝国网络!
回复 支持 反对

使用道具 举报

SEO优化 发表于 2016-11-4 13:56:06 | 显示全部楼层
很感谢帝国网络的刘总和他们团队、给我留下了很深刻的印象,希望我们接下来的合作一直愉快下去!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|

GMT+8, 2024-4-19 13:57网络网站优化公司

网站优化公司© 2006-2024 wangzhanyouhua.net Search Engine Optimization By 网站搜索引擎优化公司

快速回复 返回顶部 返回列表