什么是分词技术?分词技术是搜索引擎针对用户提交查询的关键串进行的查询处理后,根据用户的关键词串用各种匹配方法进行的一种技术。分词技术最早研究发明的是谷歌,也是最成熟的技术,中文分词技术大家都很清楚的。虽然谷歌是分词技术的创始者,但在中文比之英文要复杂得多,有多种语义,所以中文分词技术这方面是百度领先。 中文分词有三种方法: 1.字符串匹配的分词法 2.词义分词法 3.统计分词法。 在这里就不详细介绍了,实例为主。我们以“中文分词技术”为例,假设它是网页的关键词,如何对它进行分词来使我们的网页排名更靠前,让更多人搜索到。百度分词:字符串匹配的分词是“中文分词技术”,词义分词是“中文分词”、“分词技术”,统计分词是“中文”、“分词”、“技术”。一个词百度可以分这么多个,而我们要提取对网站有用的词语,百度也会根据词语的匹配、词义的匹配、词语出现的频率,决定根据那些词语捕捉网页。 在百度输入“中文分词技术”,排在第一页上的都是“中文分词技术”为标题的网页,除了第一位网站,是“中文分词”为标题。可能有人会觉得奇怪,其实不然在标题意思相近,文章的被关注率,网站主题,网站的外链及权重就决定了它的排名,当然这不是我们现在探讨的。我们从搜索结果可以看到,红色的字体大都为“中文分词技术”,说明在网站条件相当的情况下,先显示标题匹配的网页。然后在往后看,用百度快照查看网页,你会发现,“中文分词技术”、“中文分词”、“中文”字体为黄色,“分词技术”、“分词”为蓝色,“技术”为绿色。百度分别给它们的权重是黄色》蓝色》绿色,这样我们就知道如何选取关键词了。优先选择“中文分词技术”、“中文分词”(“中文”这个词就不用考虑了,跟我们的文章主题不符),然后再选择“分词技术”,虽然“分词技术”权重稍低,但符合我们文章主题。 通过分词技术,结合文章主题与网民的搜索习惯,我们可以为自己的网站确定关键词,其实这也是seo的由来。分词技术是搜索引擎的核心技术之一,如果你在这方面有研究的话,在提上网站排名方面,就能如鱼得水了。
|