Sitemap.xml是google搞出来的,也就是网站地图,不过这个网站地图是用xml写的,并且要按google的标准来写,并且要将写出来的┞封个文件sitemap.xml上传到本身的办事器空间中去。今朝,Google, Yahoo, MSN都已经声明支撑这种格局,Baidu还没有声明支撑,但估计走这一步也是大年夜势所趋。这将是向浩瀚引擎供给你网站信息的一种很好的办法。
提交sitemap一是有利于抓取一些正常抓取过程中无法抓取的网址,比如动态网页,包含大年夜量AJAX的网页或者flash的页面。二是为蜘蛛指明“工作偏向”。Sitemap就是你网站上页面的列表,googlebot就按照这个去一个个的抓取收录页面,显然比它本身去找会效力高,并且要全。Google网站上有完全的关于sitemap.xml的具体解释:
http://www.google.com/support/webmasters/bin/answer.py?answer=40318&hl=zh_CN
但很多站长看后仍然不会操作,下面这个教程就是手把手教会你创建Sitemap.xml。
<!--[if !supportLists]-->1. <!--[endif]-->Sitemap.XML 的格局
完全格局如下:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >
<url>
<loc>http://www.yrtrip.com/default.asp</loc>
<lastmod>2008-07-17</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc> http://www.yrtrip.com/search2.asp?id=32003044&sq=1</loc>
<lastmod>2008-07-17</lastmod>
<changefreq>weekly</changefreq>
<priority>0.9</priority>
…
…
</urlset>
下面,对以上标签分别加以解释
<!--[if !supportLists]-->a) <!--[endif]--><?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >
切记:一个字符也不克不及错,即使多一个空格,google网站采集时也会报错。别的,切切别忘了在文件的末尾加上</urlset>标签。
<!--[if !supportLists]-->
b) url:每个标签包含一个网页地址,是以下标签的父标签。
c) http://www.yrtrip.com/default.asp
这里是页面链接地址,也就是你欲望蜘蛛拜访的地址。
切记:在地址中出现的某些特别字符须要应用转义字符,不然,google也会报错。最典范的就是 & 号,经常在动态网址中出现,在提交地址中必须写成 & 如:提交http://www.yrtrip.com/search2.asp?id=32003044&sq=1,google治理员对象就会报错,而改为 http://www.yrtrip.com/search2.asp?id=32003044&sq=1提交后就没有问题了。我看到网上有人说sitemap.xml只能提交一个参数的网页的说法,其实多半是因为没有应用转义字符而导致掉足的。其他的转义字符就不一一列出了,大年夜家可以在网上查。
d) lastmod:页面最后修改时光
这个很重要。Google的机械人会在索引此链接前先和前次索引记录的最后更新时光进行 比较,如不雅时光一样就会跳过不再索引。所以如不雅你的链接内容基于前次Google索引时的内容有所改变,应当更新该时光,让Google下次索引时会从新 对该链接内容进行分析和提取关键字。这里必须用ISO 8601中指定的时光格局进行描述,格局化的时光格局如下:
年:YYYY(2008)
年和月:YYYY-MM(2008-06)
年代日:YYYY-MM-DD(2008-06-04)
年代日小时分钟:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37+08:00)
年代日小时分钟秒:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37:30+08:00)
这里需留意的是TZD,TZD指定就是本地时光区域标记,像中国就是+08:00了
切记:其他格局可能引起掉足,比如将2008-08-08 写成2008-8-8就会出问题。
e) changefreq:页面内容更新频率。
f) priority:相对于其他页面的优先权
定于0.0 - 1.0之间 。
切记:建议将各类网页根据重要性给出不合的数值,以便利蜘蛛的采集,不要耍小聪慧全部写1.0,google治理对象会报错的。
这里可以用来描述的单词共这几个:"always", "hourly", "daily", "weekly", "monthly", "yearly",具体含义我就不消说清楚明了吧,光看单词典意思就明白了。
3. 提交
2. Sitemap.xml制造方法
主动方法一般应用生成对象主动生成,只需输入本身的网址,就可以获得完全的xml文件。这种方法一氨善?于静态网站,在此不再赘述。但须要提示的是,网上的对象良莠不齐,生成的文件经常出缺点,不必定能经由过程google的校验,应用者需卖力辨别。
手工方法则是由站长手工填写或写法度榜样完成均可,代码很简单,大年夜家可以到网上查找。
制造方法无非两种,主动方法和手动方法。
Sitemap.xml制造完成后,就须要将xml文件提交到相干引擎。
Google提交网址:http://www.google.com/webmasters/sitemaps/?hl=zh-CN
Yahoo提交网址:http://sitemap.cn.yahoo.com/
这两行就相当于网页文件中的<html>标签一样的感化。不必管这两行什么意思,照抄即可。
提交后,一般在几个小时之内,体系就开端下载处理了。
4. Sitemap.xml的校验
至于你的网站地图是否相符标准,最便利的手段就是应用google的治理员对象了。
在他下载你的sitemap.xml后几天内,这个对象就会将具体的分析结不雅反馈回来,包含:sitemap.xml中包含了若干地址,google已将若干地址参加索引,sitemap.xml中出现了哪些缺点,甚至蜘蛛采集过程中碰到的各类问题,比如哪些网页有404,500缺点都邑具体的列举出来,异常便利。
如不雅你提交的xml文件一切无误,那么接下来,你就是等着让它的蜘质攀来爬了,sitemap的文件告诉了文件更新的频率,如许蜘质攀来得更勤快,页面被收录当瘸就镣更快。
</url>
5分半钟:Google网站地图 Sitemap.xml |