一个想不到的原因影响了我们站的收录

浏览: 39974日期:2017-01-09 18:26:59
作者:xiaojiong

  弱弱的问一下,为什么我发的文章不能换行? 和一个朋友花了一个多月的时间做了个健康方面的站,上线后找人加内容,一星期后去baidu和google都提交了,结果第二天都收录了。 baidu一百多篇,google一千多篇,一切的情况都还好。 但接下来的一周才发现问题了,眼看一个星期过去了,baidu不再更新快照,两个星期,还是不更新,内容我们每天都在加,加得还不少,应该都是原创。但google一直在更新,还很快。 外链也在加,怕一下子加多了,每天按两三个的速度在增加,虽然在baidu里domain出来的东西没有几个。 接下来的日子,我也试着在网上寻找为什么会这样子,也没有明确的一个说法,说得最多的就是我们可能在作弊,但我们没有。在这个期间,我也在看apache的日志,发现baidu只来了首页和其它几个简单的内页,就没有继续向里面走了。下面我说说baidu在爬我们网站的规律:

  1. 每隔一个小时左右来一次,几乎只爬首页。

  2. 每次来都爬了robots.txt的。 问题就是出在这个robots.txt上,因为在网站上线一个星期后,也就是在baidu收录我们之后,我们为网站做了urlrewrite, 也就是加了个.htaccess文件。 网站是php的,用了一个框架,在htaccess文件里,有这么一条规则,就是如果发现没有的文件,就重定向到一个我们写好的页面,本意是友好的提示用户这个页面不存在。但,这个条规则用在robots.txt上就出问题了,baidu试图取robots.txt的时候,返回的不是他期望的格式,而是我们的出错页面。 这就是问题的根源了,baidu肯定认为我们不希望他来抓取我们的网站,所以不再向下爬了。

  于是,我去baidu上下载了一个标准的robots.txt文件,放在了根目录下,测试了一下能不能下载,OK。可以了,这时候已经是晚上12点多了。也不管了,睡去了。 第二天早上起来,site:www.***.com,O my lady ga ga,更新了,更值得庆祝的是,在接下来的二十几个小时里,每次site都能收到不同的收录数量,当然,不一定都是增加,但总体来是增加的,最高的时候已经有一千多篇了。

  这就是这次我要写的东西了,希望大家在写Url Rewrite的时候,不要把robots.txt忽略了。