愁闷二:robots.txt写法遵守规矩,引擎也赐与遵守!那么就是眼镜蛇以上文┞仿的剖断缺点!不是51的robots.txt缺点!
什么是robots.txt文件?
引擎经由过程一种法度榜样robot(又称spider),主动拜访互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot拜访的部分,如许,该网站的部分或全部内容就可以不被引擎收录了,或者指定引擎只收录指定的内容。
因为刚写了51是因为二级玉米泛滥和站点垃圾造成被封,去站长站看见“眼镜蛇”写的是因为51的robots.txt的原因。
我细心看了51的robots.txt而最后要驳反“眼镜蛇”的断定和定论!
每个站点都必须要有robots.txt吗?
不必定,看情况
那么robots.txt是针对任何引擎吗?
不必定,引擎的概念是什么先搞明白!至少他有蜘蛛,并且遵守robots.txt语法。像百度,google,yahoo都遵守
第一结不雅为
官方的robots.txt
robots.txt放在哪里?
根目次下,就是经由过程 http://www.abc.com/robots.txt等浏览拜访到的!
robots.txt怎么写?
请萌芽:http://www.robotstxt.org/
因为眼镜蛇说百度杀了51是因为51的robots.txt
“51.com消掉原因是公司想借机炒作?”
(接洽到五一国庆阁下百度大年夜范围检查并封杀作弊网站,开端让业界认为51.com是百度处罚的网站之一,
经由过程某同伙提示到51.com的robots.txt文件,让大年夜家明白了百度网站只收录一页的原因,
并不是引擎工资所至,而是51.com自身原因。 )
愁闷一:五一成“国庆”了!
分析辩驳:
因为51的主页都在home下或者这个二级玉米下,那么就这个来说!
1:http://www.51.com/robots.txt 18行
Disallow: /home/ (假设只针对百度,因为google 没把51怎么着,而之后分析则套用google的一些现象比较百度,除非他们不是一样性质的遵守robots.txt的引擎!)
百度给出的定义:
http://www.baidu.com/search/robots.html
那么就是说袈溱http://www.51.com/home/index.htm/index.html/index.shtml不克不及被收录,因为home目次下无主页!
那是不是如今该可以返回到http://www.51.com/了呢?这个做法给引擎造成若干麻烦?造成若干垃收受接收录?
http://www.51.com/home/index.htm 404缺点
却在之前百度收录了我的http://home.51.com/home.php?user=piaoge999或者http://piaoge999.51.com呢?
http://www.51.com/home/index.html 404缺点
http://www.51.com/home/index.shtml 404缺点
http://www.51.com/home/index.php 404缺点
http://www.51.com/home/ 404缺点
肯定HOME下无默认首页文件,一般都是404页,如许多引擎会很不友爱的,那么当然细心点的┞肪点都邑杜绝被引擎视为逝世连接。
51的错法就是"Disallow:/help/"则许可robot拜访/help.html,而不克不及拜访/help/index.html
剖断:Disallow: /home/ 对于百度精确!
因为有:User-agent: * (针对所有)
查看:site:51.com/home ,site:51.com/home/ ,site:www.51.com/home , site:www.51.com/home/
在google都有收录,而不是樊篱了home下任何,而只是home下的默认首页!
今朝看不见百度的现象,根据User-agent: * (针对所有)解释百度当时也是如许!(80%一样)
再查:site:home.51.com
51 博客网迎接您home.51.com/ - 类似网页
似乎home.51.com/下有首页,似乎home面前目今也有首页!
我们点以前则跳转到http://www.51.com/,因为今朝引擎都可以辨认和收录url转发而非跳转!
随便查下home.51.com/的┞肪点拜访应用情况!
比如:第二结不雅
献给我最爱的00
home.51.com/home.php?user=nicolelove - 5k - 弥补材料 - 网页快照 - 类似网页
而你应用“http://nicolelove.51.com ”也拜访的是此“home.51.com/home.php?user=nicolelove”
也可以 :http://www.51.com/home/Index.php?user=nicolelove (home下的任何其他文件可以收录和拜访)
点肯定急速返回到“http://www.51.com/”如许的做法稍微比404缺点返回友爱了一些,可是假如我今天申请了,明天51删除我了,
也可以:http://51.com/home/Index.php?user=nicolelove 拜访而到http://www.51.com/home/Index.php?user=nicolelove
也可以:http://www.51.com/home.php?user=aiyoweiyaaaa到http://home.51.com/home.php?user=aiyoweiyaaaa
严格按照URL嗣魅这个可以说是多URL或者路径重叠,或者纷乱,只是一些没告诉那些站长,只告诉站长
“http://nicolelove.51.com ”就是你的主页url
弥补:
<*** LANGUAGE="Java***">
<!--
var t = addAccessRec();
if (isLoginF == 'y' && isLoginHide != 'y') {
if (isAddAccess == 'y' && t[0] == true) {
var URL = "addAccessCount.php?user=nicolelove&visituser=&time=1178309340";
addAccess(URL); // 增长访客记录
}
}
if (isAddCount == 'y' && t[1] == true) {
var URL = "addClickCount.php?user=nicolelove&time=1178309340";
addAccess(URL); // 增长点击数
}
function addAccess(URL)
{
var oXMLHttp = new InitAjax();
oXMLHttp.open("GET",URL,true); //异步
oXMLHttp.setRequestHeader('charset','GBK');
oXMLHttp.Send(null);
在http://www.yookee.org/dispbbs_17_313_1.htm“引擎优化优化之“不要随便马虎应用泛解析” 特别拿51来分析了的!
}
LoadXMLHTTP("/home/addMyVisitors.php?who=nicolelove");
//-->
</***>
"Disallow:/help/"则许可robot拜访/help.html,而不克不及拜访/help/index.html
看下最后第三段代码!
引擎在更多时是不许可如许的现象的。二级玉米和自力玉米都可以认为不合域下的┞肪点和网页!
比如:http://piaoge999.51.com 这个是不存在申请的url站站点,那么你输入回车后就会提示:该用户不存在
提示URL为:http://home.51.com/home.php?user=piaoge999
降低了若干百度的技巧靠得住性的讽刺?
只是没这个写的具体,而这个文┞仿飘哥则做了70%的分析列举解释。要解释的是51被封是接洽到潦攀滥用泛解析!
而辩驳“眼镜蛇”的是针对他说51的robots.txt的问题造成被封!而51的robots.txt写法相符和遵守!
飘哥到今天还没应用过robots.txt,只是之前帮一个同伙大年夜google拒绝收录而找汗青记录发明他的玉米曾经存在robots.txt
内容写法是禁止收录此站。告诉之则给google写信赐与了收录。因为那玉米停了一段时光,google则照样按照当时robots.txt赐与封闭!
此文停止,51的robots.txt有错吗?51的robots.txt是针对百度的吗?百度是根据51的robots.txt把他杀了的吗? |