昨天是星期四,作为一个站长,星期四意味着怎么呢?星期四的时候百度会有一次大调整,所以星期四最好就是更新一些新的内容,好让baiduspider爬到。

先说昨天,昨天因为这个情况,我一时兴起想查看一下百度蜘蛛是否爬过我的站点,于是我在后台找了半天也没有找到,用FTP上传软件在根目录下也没有别人说的所谓的log文件夹,这可能是因为我用的wordpress缘故吧。找的过程走了很多弯路,不管百度和google上面搜索的文章都是千篇一律,我愣是没有找到。在群里咨询也没有人告诉我。知道今天有人告诉我要用笔记本打开MC-DOC文件。这才查看到。

步骤如图:

(1)在空间后台打开原始访问日志

(2)点击域名会下载一个压缩文件如图(3)形式

(3)解压下载的压缩文件,里面有一个MS-DOC文件

(4)用笔记本打开MS-DOC文件,查找baiduspider

[19/May/2011:07:43:07 -0700] "GET / HTTP/1.1" 200 13357 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

比如我的网址是www.cndwzone.com这就意味着百度蜘蛛在19/May/2011:07:43:07爬过,200 13357中的200协议代码代表了请求已完成也就是它发现这页并以入库了。19/May/2011:07:43:07-0700是日期,也就是蜘蛛来的日期和时间了。GET / HTTP/1.1" 200 13357 访问的页面 get表示获取200表示抓取成功。Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)是百度蜘蛛了。


那么究竟什么是spider?(引擎蜘蛛) spider是搜索引擎的一个自动程序。它的作用是访问互联网上的html网页,建立索引数据库,使用户能在搜索引擎中搜索到您网站的网页。 
       百度/谷歌等常用蜘蛛的识别:

百度的蜘蛛:baiduspider

Google的蜘蛛: Googlebot

腾讯Soso:Sosospider

Yahoo的蜘蛛:Yahoo Slurp

Msn的蜘蛛:Msnbot

Altavista的蜘蛛:Scooter

Lycos的蜘蛛: Lycos_Spider_(T-Rex)

如何查看百度蜘蛛是否来过我的网站,尤其对于长期不收录,百度快照不更新的新站来说,查看百度蜘蛛是否来过我的网站就很重要了,如果蜘蛛没有来,那就不要谈收录了,解决的办法就是尽快引开蜘蛛了,如果蜘蛛爬过了,要检查下网站是否存在一些百度不收录的原因,比如过度优化。以上都没有,就要等了,等百度大更新时,收录自然就有了!那么如何查看百度蜘蛛蜘蛛爬行记录?

(1)、对于某些特定的网站源码程序,后台具体百度蜘蛛(baiduspider)等搜索引擎蜘蛛爬行统计,新手可以完全在后台上面看得到,但是一般来讲,这个记录只统计爬行的次数等,无法更进一步对网站进行更进一步的优化;

(2)、下载百度蜘蛛统计软件也可以,有些统计软件的功能非常好用,比如百度每天来访多少次,谷歌蜘蛛来访多少次,百度蜘蛛IP,优化建议等都有,但是每款百度蜘蛛统计软件都是有缺陷的,凡是软件安装在服务器或是作为插件装在网站程序上面都会造成服务器的负担,另外效果方面肯定也是没有最原始的IIS数据来的可观实用;

(3)、在服务器上面直接查看IIS日志,这是最原始,也是最好用的第一手资料,本站在此强烈推荐!在IIS日志里,你可以看到百度谷歌等所有搜索引擎的来访记录,比如来访时间,访问网址,蜘蛛的IP,蜘蛛的详细名称或网址目录,访问结果等,一目了然,你可以据此对网站进行各方面军的优化。具体操作方法:记事本打开IIS日志内容,然后用ctrl+F查找Baiduspider,如果发现有Baiduspider 就说明百度蜘蛛爬行过,反之则没有。

以下是百度蜘蛛爬行检测代码意思:

2xx 成功

200 正常;请求已完成。

201 正常;紧接 POST 命令。

202 正常;已接受用于处理,但处理尚未完成。

203 正常;部分信息 — 返回的信息只是一部分。

204 正常;无响应 — 已接收请求,但不存在要回送的信息。

3xx 重定向

301 已移动 — 请求的数据具有新的位置且更改是永久的。

302 已找到 — 请求的数据临时具有不同 URI。

303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。

304 未修改 — 未按预期修改文档。

305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

306 未使用 — 不再使用;保留此代码以便将来使用。

4xx 客户机中出现的错误

400 错误请求 — 请求中有语法问题,或不能满足请求。

401 未授权 — 未授权客户机访问数据。

402 需要付款 — 表示计费系统已有效。

403 禁止 — 即使有授权也不需要访问。

404 找不到 — 服务器找不到给定的资源;文档不存在。

407 代理认证请求 — 客户机首先必须使用代理认证自身。

410 请求的网页不存在(永久);

415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。

5xx 服务器中出现的错误

500 内部错误 — 因为意外情况,服务器不能完成请求。

501 未执行 — 服务器不支持请求的工具。

502 错误网关 — 服务器接收到来自上游服务器的无效响应。

503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。
      根据这些可以多查看iis日志,研究蜘蛛爬行的路径,找出自己网站存在的问题,进而改正。相信好的网站会有好的排名。

对于长期不收录,百度快照不更新的新站来说,查看百度蜘蛛是否来过我的网站就很重要了,如果蜘蛛没有来,那就不要谈收录了,解决的办法就是尽快引开蜘蛛了,如果蜘蛛爬过了,要检查下网站是否存在一些百度不收录的原因,比如过度优化。以上都没有,就要等了,等百度大更新时,收录自然就有了!学会如何查看百度蜘蛛爬行记录是作为站长必须掌握的。

本文地址:http://www.cndwzone.com/archives/460.html

本站文章如无特别说明,皆为本人原创,转载请以链接形式注明原始出处和作者,谢绝不尊重版权者抄袭!

转载于:https://www.cnblogs.com/missyou/archive/2011/05/20/2052314.html

简谈如何吸引百度蜘蛛爬到你网站相关推荐

  1. 如何吸引百度蜘蛛天天刷网页

    如何吸引百度蜘蛛天天刷网页 作为站长都想让自己的网站发展壮大,但是如何发展壮大呢?大多数网站80%以上的流量来自于搜索引擎.所以发展网站的关键在于如何能让自己的网站内容被百度等搜索引擎天天更新收录,并 ...

  2. 系统检测到您正在使用网页抓取工具访问_造成Baiduspider(百度蜘蛛)抓取网站异常的原因有哪些...

    造成Baiduspider(百度蜘蛛)抓取网站异常的原因有哪些 有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都 ...

  3. 浅析如何从吸引蜘蛛爬取的角度进行网站内容优化建设

    众所周知,网站内容建设是网站的灵魂,因此,我们在建立网站基本框架之后,下一步就是做好网站的内容策略规划,只有保证网站内容的更新节奏才能让搜索引擎更好地收集网站内容促进网站关键词的排名提升.这是一般从网 ...

  4. 西安天讯:怎样添加百度蜘蛛访问网站日志log日志

    时间 s-sitename W3SVC1 \: date 2010-07-30 \:06:43 \\\\.;\\\\\服务器名称 s-computername MGL \\ 网站名称 s-ip .日志 ...

  5. 百度爬虫爬到虚拟链接 网站被黑_网站地图sitemap对SEO优化有什么作用?

    网站地图:是指明网站基本信息的页面,如网站结构.栏目.内容描述等,用户可以借助网站地图快速了解网站信息,反过来说,一个设计良好的网站地图应该起到让用户快速了解网站结构和内容的作用. 网站地图实际上并非 ...

  6. php通过函数怎么禁止百度蜘蛛抓取,怎么屏蔽百度蜘蛛抓取网站?

    百度蜘蛛抓取我们的网站是希望将我们的网页收录到它的搜索引擎里,未来当用户搜索时,能为我们带来一定的SEO流量.当然我们并不是希望搜索引擎什么都抓取. 所以,这时我们只希望我们希望在搜索引擎被搜索到的内 ...

  7. 李亚涛:python判断日志中的IP是否为百度蜘蛛

    大家好,今天给大家分享一下如何利用python判断网站日志中的IP是否为百度蜘蛛IP 大家知道网站日志其实是后缀是.log的文件,自己有网站的可以下载日志,比如我下载的日志文件: 打开如下图: 转存失 ...

  8. HTML哪些百度收录,四招让网站内容快速被百度收录

    一.网站不收录 第一确定是否是刚上线1-3个月的新站,还是半年以上的老网站! 如果为新网站: 上线后首页收录时间1个周内,大量的内录收录,及被搜索抓取放出收录时间需有10-20天.网站如有很多空白页面 ...

  9. 网站服务器蜘蛛日志怎么看,如何查看百度蜘蛛,google蜘蛛爬取记录?《网站日志分析篇》...

    也许各位常常看到别人在群里聊天,某某人的网站出现什么问题了...别人建议查看网站的日志文件,分析蜘蛛的爬取情况.可是如何去分析日志文件却很少有人去提,接下来我会大概介绍一下,如何去分析网站的日志文件, ...

最新文章

  1. Android 画面设置模糊,如何在Android中模糊图像的某些部分?
  2. 解决AW2013用led_classdev_register()注册red但/sys/class/leds下看不到red的问题
  3. Castle.ActiveRecord的ProxyFactory配置
  4. python制作桌面小程序_微信小程序在线制作:快速生成一个餐饮小程序
  5. PostgreSQL的checkpoint能否并行
  6. 【java笔记】Properties类
  7. UnityMMO资源整合服务器部署
  8. 这不是一篇技术型的文章,而是一篇能让你在IT世界中畅游的方法
  9. 大三开学,百度面试感受
  10. openwrt-wps功能的实现(一)
  11. 极米和当贝投影仪应该怎样抉择?一文告诉你答案
  12. 中国电影|嘉宝盘点近几年国内票房突破30亿的影片
  13. java报表开发(bi报表开发)
  14. java lang arithmetic_java.lang.ArithmeticException: Rounding necessary
  15. PTA R7-5 Jack cheng的烦恼3
  16. java中lock底层实现_Synchronized与Lock的底层实现解析
  17. 如何去掉ppt模板中自带的背景音乐(没有小喇叭)
  18. 【Apple Studio Display】-苹果5K显示器黑屏问题处理
  19. 【go】goland安装格式化插件gofmt、goimports、gometalinter常见问题
  20. 猫头鹰的深夜翻译:在JAVA中记录日志的十个小建议

热门文章

  1. 完爆面试官!腾讯+字节+阿里面经真题汇总,成功定级腾讯T3-2
  2. MoveIt教程[9]:Motion Planning API
  3. python批量将excel转成pdf_使用Python转换PDF,Word/Excel/PPT/md/HTML都能转!
  4. CAD中平分角操作你还不会吗?
  5. 机器学习也将解决量子问题
  6. 普中A2开发板红绿灯实验
  7. 如何让eclipse ADT 模拟器显示虚拟键盘
  8. USB驱动程序之USB总线驱动程序学习笔记
  9. Codeforces 630K Indivisibility 容斥原理
  10. 字节与KB之间的换算关系