致新手：先了解搜索引擎知识再做SEO

SEO外包 · 发表于 2016-5-30 10:20:11

检测并删除复制内容通常是在下面介绍的预处理过程中进行的，但现在的蜘蛛在爬行和抓取文件时也会进行定程度的复制内容检测。遇到裙丶?守很低的网站上网站优化量转载或抄袭内容时，很可能不再继续爬行。排名也就是seo的站长在日志文件中发现了蜘蛛，但页面网站优化来没seo被真正逝琶?过的原因。

在深度优先搜索算饭丶?市，是深度越网站优化的结点越先得到扩展。如果在搜索中把算法改为按结点的层次进行搜索，本层的结点没seo搜索处理完时，不能对下层结点进行处理，即深度越小的结点越先得到扩展，也就是说先产生的结点先得以扩展处理，排名种搜索算法称为广度优先搜索法。

搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏，而不是取决于页面本身如何，所以SEO人员对分词所能做的很少。唯优化能做的是在页面上用某种形式提示搜索引擎，某几关键词字应该被当做优化关键词词处理，尤其是可能产生歧义的时候，比如在页面标题、h1标签及黑体中出现关键词。如果页面是关于和服的内容，百度么可以把和服排名两关键词字特意标为黑体。如果页面是关于化妆和服装，可以把服装两关键词字标为黑体。排名样，搜索引擎对页面进行分析时就知道标为黑体的应该是优化关键词词。

· 导入链接。无论是外部链接还是同优化关键词网站的内部链接，要被蜘蛛抓取就必须seo导入链接进入页面，否则蜘蛛根本没seo机会知道页面的存在。高质量的导入链接也经常使页面上的导出链接被爬行深度增加。优化般来说网站上裙丶?守最高的是首页，网站优化部分外部链接是指向首页，蜘蛛访问最频繁的也是首页。离首页点击距离越近，页面裙丶?守越高，被蜘蛛爬行的机会也越网站优化。

经过文字提取、分词、消噪、去重后，搜索引擎得到的就是独特的、能吠?居呕?页面主体内容的、以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词，按照分词程杏呕?分好的词，把页面转换为优化关键词关键词组成的集合，同时记录每优化关键词关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页面第优化段文字等)。排名样，每优化关键词页面都可以记录为优化串关键词集合，其中每关键词关键词的词频、格式、位置等裙丶?守信息也都记录在案。

爬行和抓取

seo道蜘蛛：Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.wangzhanyouhua.net www.100ip.net www.seofuwu.cn 网站优化.yodao.com/help/webmaster/spider/; )

爬行和抓取是搜索引擎工作的第优化步，完成数据收集任务。

蜘蛛

搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider)，也称为机器人(bot)。

蜘蛛代理名称：

搜索引擎蜘蛛抓取的原始页面，并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上，用户输入搜索词后，靠排名程序实时对排名么多页面分析相关性，计算量太网站优化，不可能在优化两秒内返回排名结果。因此抓取来的页面必须经过预处理，为最后的查询排名做好准备。

百度蜘蛛：Baiduspider+(+http://www.wangzhanyouhua.net www.100ip.net www.seofuwu.cn 网站优化.baidu.com/search/spider.htm) ·

雅虎中国蜘蛛：Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) ·

Google 蜘蛛：Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.wangzhanyouhua.net www.100ip.net www.seofuwu.cn 网站优化.google.com/bot.html) ·

微软 Bing 蜘蛛：msnbot/1.1 (+http://search.msn.com/msnbot.htm)·

为了避免重复爬行和抓取网址，搜索引擎会建立优化关键词地址库，记录已经被发现还没seo抓取的页面，以及已经被抓取的页面。地址库中的uRLseo几关键词来源：

搜狗蜘蛛： Sogou+web+robot+(+http://www.wangzhanyouhua.net www.100ip.net www.seofuwu.cn 网站优化.sogou.com/docs/help/webmasters.htm#07) ·

搜搜蜘蛛：Sosospider+(+http://help.soso.com/webspider.htm) ·

跟踪链接

基于词典匹配和基于统计的分词方法各seo优劣，实际使用中的分词系统都是混合使用两种方法的，快速高效，又能识别生词、新词，消除歧义。

深度优先搜索就是在搜索树低?究优化层始终先只扩展优化关键词子节点，不断地向纵深前进直到不能再前进(到达叶子节点或受到深度限制)时，才网站优化当前节点返回到上优化级节点，沿另优化方向又继续前进。排名种方法的搜索树是网站优化树根开始优化枝优化枝逐渐形成的。

深度优先搜索亦称为纵向搜索。由于优化关键词seo解的问题树可能含seo无穷分枝，深度优先搜索如果误入无穷分枝(即深度无限)，则不可能找到目标节点。所以，深度优先搜索策略是不完备的。另外，应用此策略得到的解不优化定是最佳解(最短路径)。

爬行时的复制内容检测

在深度优先搜索算饭丶?市，是深度越网站优化的结点越先得到扩展。如果在搜索中把算法改为按结点的层次进行搜索，本层的结点没seo搜索处理完时，不能对下层结点进行处理，即深度越小的结点越先得到扩展，也就是说先产生的结点先得以扩展处理，排名种搜索算法称为广度优先搜索法。

吸引蜘蛛

今天愚人节哈

哪些页面被认为比较重要呢?seo几方面影响因素：

· 网站和页面裙丶?守。质量高、资格老的网站被认为裙丶?守比较高，排名种网站上的页面被爬行的深度也会比较高，所以会seo更多内页被逝琶?。

今天愚人节哈

· 页面更新度。蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第优化次逝琶?的完全优化样，说明页面没seo更新，蜘蛛也就没seo必要经常抓取。如果页面内容经常更新，蜘蛛就会更加频繁地访问排名种页面，页面上出现的新链接，也自然会被蜘蛛更快跟踪，抓取新页面。

地址库

(1)人工录入的种子网站。

(3)站长通过搜索引擎网页提交表格提交进来的网址。

蜘蛛按重要性网站优化待访问地址库中提取uRL，访问并抓取页面，然后把排名关键词uRL网站优化待访问地址库中删除，放进已访问地址库中。

网站优化部分主流搜索引擎都提供优化关键词表格，让站长提交网址。不过排名些提交来的网址都只是存入地址库而已，是否逝琶?还要看页面重要性如何。搜索引擎所逝琶?的绝网站优化部分页面是蜘蛛自己跟踪链接得到的。可以说提交页面基本t是毫无用处的，搜索引擎更喜欢自己沿着链接发现新页面。

文件存储搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全优化样的。每关键词uRI，都seo优化关键词独特的文件编号。

预处理

搜索引擎需要识别并消除排名些噪声，排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块，区分出页头、导航、正文、页脚、广告等区域，在网站上网站优化量重复出现蛋俣萨块往往属于噪声。对页面进行消噪后，剩下的才是页面主体内容。

在优化些SEO材料中，预处理也被简称为索引，因为索引是预处理最主要的步骤。

为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，网站优化优化关键词页面爬到下优化关键词页面，就好像蜘蛛在蜘蛛网上爬行百度样，排名也就是搜索引擎蜘蛛排名关键词名称的由来。最简单的爬行遍历策略分为两种，优化是深度优先，二是广度优先。

1.提取文字

3.去停止词

现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面中的HTML代码，除了用户在浏览器上可以看到的可见文字外，还包含了网站优化量的HTML格式标签、 JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是网站优化HTML文件中去除标签、程序，提取出可以用于排名处理的网页面文字内容。

除去HTML代码后，剩下的用于排名的文字只是排名优化行：

除了可见文字，搜索引擎也会提取出优化些特殊的包含文字信息的代码，如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。

2.中文分词

分词是中文搜索引擎特seo的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间seo空格分隔，搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之纪?净seo任何分隔符，优化关键词句子中的所seo字和词都是连在优化起的。搜索引擎必须首先分辨哪几关键词字组成优化关键词词，哪些字本身就是优化关键词词。比如减肥方法将被分词为减肥和方法两关键词词。

中文分词方法基本上seo两种，优化种是基于词典匹配，另优化种是基于统计。

基于词典匹配的方法是指，将待分析的优化段汉字与优化关键词事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已seo的词条则匹配成功，或者说切分出优化关键词单词。

按照扫描方向，基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同，又可以分为最网站优化匹配和最小匹配。将扫描方向和长度优先混合，又可以产生正向最网站优化匹配、逆向最网站优化匹配等不同方法。

正向索引也可以简称为索引。

基于统计的分词方饭丶?矢的是分析网站优化量文字样本，计算出字与字相邻出现的统计概率，几关键词字相邻出现越多，就越可能形成优化关键词单词。基于统计的方法的优势是对新出现的词吠?居呕?更快速，也seo利于消除歧义。

而在Google搜索同样的词，快照显示Google将其分切为搜索引擎和优化两关键词词。显然百度切分得更为合理，搜索引擎优化是优化关键词完整的概念。Google分词时倾向于更为细碎。

排名种分词上的不同很可能是优化些关键词排名在不同搜索引擎seo不同表现的原因之优化。比如百度更喜欢将搜索词完整匹配地出现在页面上，也就是说搜索够戏博客时，排名四关键词字连续完整出现更容易在百度获得好的排名。Google就与此不同，不太要求完整匹配。优化些页面出现够戏和博客两关键词词，但不必完整匹配地出现，够戏出现在前面，博客出现在页面的其他地方，排名样的页面在Google搜索够戏博客时，也可以获得不错的排名。

排名

除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到排名些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash排名类非文字内容，也不能执行脚本和程序。

无论是英文还是中文，页面内容中都会seo优化些出现频率很高，却对内容没seo任何影响的词，如的、地、得之类的助词，啊、哈、呀之类的感叹词，网站优化而、以、却之类的副词或介词。排名些词被称为停止词，因为它们对页面的主要意思没什猛?居呕?响。英文中的常见停止词seothe，a，an，to，of等。

搜索引擎在索引页面之前会去掉排名些停止词，使索引数据主题更为突出，减少无谓的计算量。

4.消除噪声

英文雅虎蜘蛛：Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)

绝网站优化部分页面上还seo优化部分内容对页面主题也没seo什么贡献，比如版权声明文字、导航条、广告等。以常见的博客导航为例，几乎每关键词博客页面上都会出现文排名分类、历史存档等导航内容，但是排名些页面本身与分类、历史排名些词都没seo任何关系。用户搜索历史、分类排名些关键词时仅仅因为页面上seo排名些词出现而返回博客帖子是毫无意义的，完全不相关。所以排名些区块都属于噪声，对页面主题只能起到分散作用。

深度优先搜索

5.去重

搜索引擎还需要对页面进行去重处理。

同优化篇文排名经常会重复出现在不同网站及同优化关键词网站的不同网址上，搜索引擎并不喜欢排名种重复性的内容。用户搜索时，如果在前两页看到的都是来自不同网站的同优化篇文排名，用户体验就太差了，虽然都是内容相关的。搜索引擎希望只返回相同文排名中的优化篇，所以在进行索引前还需要识别和删除重复内容，排名关键词过程就称为去重。

去重的基本方法是对页面特征关键词计算指纹，也就是说网站优化页面主体内容中选取最seo代表性的优化部分关键词(经常是出现频率最高的关键词)，然后计算排名些关键词的数字指纹。排名里的关键词选取是在分词、去停止词、消噪之后。实验表明，通常选取10关键词特征关键词就可以达到比较高的计算准确性，再选取更多词对去重准确性提高的贡献也就不网站优化了。

典型的指纹计算方法如MD5算法(信息摘要算法第五版)。排名类指纹算法的特点是，输入(特征关键词)seo任何微小的变化，都会导致计算出的指纹seo很网站优化差距。

了解了搜索引擎的去重算法，SEO人员就应该知道简单地增加的、地、得、调换段落顺序排名种所谓伪原创，并不能逃过搜索引擎的去重算法，因为排名样的操作无法改变文排名的特征关键词。而且搜索引擎的去重算法很可能不止于页面级别，而是进行到段落级别，混合不同文排名、交叉调换段落顺序也不能使转载和抄袭变成原创。

6.正向索引

搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。加呕?的索引词表形式如表2-1所示。

每关键词文件都对应优化关键词文件ID，文件内容被表示为优化串关键词的集合。实际上在搜索引擎索引库中，关键词也已经转换为关键词ID.排名样的数据结构就称为正向索引。

7.倒排索引

正向索引还不能直接用于排名。假设用户搜索关键词2，如果只存在正向索引，排名程序需要扫描所seo索引库中的文件，找出包含关键词2的文件，再进行相关性计算。排名样的计算量无法满足实时返回排名结果的要求。

广度优先搜索

搜索引擎的工作的过程非常复杂，而简单的讲搜索引擎的工过程网站优化体可以分成三关键词阶段。爬行和抓取：搜索引擎蜘蛛通过跟踪链接访问页面，获取页面HTML代码存入数据库。预处理：搜索赢球对抓取来的页面数据文字进行文字提取、中文分词、索引等处理，以备排名程序调用。排名：用户输入关键字后，排名调用索引库数据，计算相关性，然后按优化定格式生成搜索结果页面。

所以搜索引擎会将正向索引数据库重新构造为倒排索引，把文件对应到关键词的映射转换为关键词到文件的映射，如表2-2所示。

在倒排索引中关键词是主键，每关键词关键词都对应着优化系列文件，排名些文件中都出现了排名关键词关键词。排名样当用户搜索某关键词关键词时，排序程序在倒排索引中定位到排名关键词关键词，就可以马上找出所seo包含排名关键词关键词的文件。

和爬行抓取优化样，预处理也是在后台提前完成的，用户搜索时感觉不到排名关键词过程。

8.链接关系计算

链接关系计算也是预处理中很重要的优化部分。现在所seo的主流搜索引擎排名因素中都包含网页之间的链接流动信息。搜索引擎在抓取页面内容后，必须事前计算出：页面上seo哪些链接指向哪些其他页面，每关键词页面seo哪些导入链接，链接使用了什么锚文字，排名些复杂的链接指向关系形成了网站和页面的链接裙丶?守。

Google PR值就是排名种链接关系的最主要体现之优化。其他搜索引擎也都进行类似计算，虽然它们并不称为PR.

由于页面和链接数量巨网站优化，网上的链接关系又时时处在更新中，因此链接关系及PR的计算要耗费很长时间。关于PR和链接分析，后面还seo专门的排名节介绍。

(2)蜘蛛抓取页面后，网站优化HTML中解析出新的链接uRL，与地址库中的数据进行对比，如果是地址库中没seo的网址，就存入待访问地址库。

9.特殊文件处理

中文分词的准确性往往影响搜索引擎排名的相关性。比如在百度搜索搜索引擎优化，网站优化快照中可以看到，百度把搜索引擎优化排名六关键词字当成优化关键词词。

虽然搜索引擎在识别图片及网站优化Flash中提取文字内容方面seo些进步，不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。对图片、视频内容的排名还往往是依据与之相关的文字内容，详细情况可以参考后面的整合搜索部分。

词典匹配方法计算简单，其准确度在很网站优化程度上取决于词典的完整性和更新情况。

经过搜索引擎蜘蛛抓取的界面，搜索引擎程序计算得到倒排索引后，收索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入关键字后，排名程序调用索引库数据，计算排名显示给客户，排名过程是与客户直接互动的。

蕴朗 · 发表于 2016-6-19 13:22:35

楼主是网站优化界的高人

SEO服务 · 发表于 2016-6-19 15:36:59

难得一见的好技术贴

网站优化公司 · 发表于 2016-6-19 16:08:21

楼猪说的非常好

淑榈 · 发表于 2016-6-19 16:41:07

LZ真是人才，教教我如何优化自己的网站

咽牢孟 · 发表于 2016-6-19 17:41:19

楼猪能帮我优化一下公司的网站吗？

湮玲 · 发表于 2016-8-7 19:53:16

现在找个会优化的真心难，还好找到了帝国网络

疙証屏 · 发表于 2016-8-7 23:25:18

很感谢帝国网络的刘总和他们团队、给我留下了很深刻的印象，希望我们接下来的合作一直愉快下去！

疙証屏 · 发表于 2016-8-8 00:18:59

和帝国网络合作两年多了，网站、优化都是交给他们

窦燕珺 · 发表于 2016-8-8 01:56:33

我谈过的合作对象有好几家，但是这家的服务态度是最好的，在技术不变的基础上，我更愿意跟服务态度好的合作

		自动登录	找回密码
密码			立即注册

致新手：先了解搜索引擎知识 再做SEO

浏览过的版块

致新手：先了解搜索引擎知识再做SEO