问题

抓取数据时,通常调试信息是:

DEBUG: Crawled (200) <GET http://www.techbrood.com/> (referer: None)

如果出现

DEBUG: Crawled (403) <GET http://www.techbrood.com/> (referer: None)

表示网站采用了防爬技术anti-web-crawling technique(Amazon所用),比较简单即会检查用户代理(User Agent)信息。

解决方法

在请求头部构造一个User Agent,如下所示:

    def start_requests(self):yield Request("http://www.techbrood.com/",headers={'User-Agent': "your agent string"})

By Techbrood Co.

Scrapy: 爬虫返回403错误相关推荐

  1. scrapy爬虫返回302,301,解决方法

    scrapy爬虫返回302,301,解决方法 参考文章: (1)scrapy爬虫返回302,301,解决方法 (2)https://www.cnblogs.com/s5vc/p/10437242.ht ...

  2. scrapy爬虫 出现10054错误 远程主机强迫关闭了一个现有的连接

    ** 解决:python爬虫 出现10054错误 远程主机强迫关闭了一个现有的连接 ** 问题: 1,网络问题. 确定是否是本机或爬虫目标网站出现网络问题 2,单位时间内请求页面频率过高 3,网站监测 ...

  3. python爬虫遇到403错误

    这段时间我很想去p站爬一爬,之前有试过,但都失败了,有一次用phantomJS尝试,结果卡死在登录页面,太复杂了.有一次卡死在编码上,一直无法获取到页面.这次是卡死在403上,我获取了图片的链接,正要 ...

  4. 爬虫出现403错误解决办法

    转载自https://blog.csdn.net/jsqfengbao/article/details/44594985 在python写爬虫的时候,html.getcode()会遇到403禁止访问的 ...

  5. img标签src引用网络图片,页面不显示,返回403错误,网络图片地址在浏览器能加载,放html却不能显示

    在html页面加入<meta name="referrer" content="no-referrer">标签,就可以解决页面加载网络图片的问题, ...

  6. PHP Curl出现403错误的解决办法 beecloud webhook订单状态返回 服务器403的问题

    http://write.blog.csdn.net/postedit PHP Curl出现403错误的解决办法 作者: 字体:[增加 减小] 类型:转载 时间:2014-05-29 我要评论 这篇文 ...

  7. scrapy爬虫使用简明教程

    目录 一.基本框架介绍 二.安装与基本命令 三.scrapy框架基本使用及完整案例 四.各组件的一些用法说明 一.基本框架介绍 Scrapy框架介绍: Scrapy是: 由Python语言开发的一个快 ...

  8. Scrapy爬虫教程二 浅析最烦人的反爬虫手段

    最近一直在弄爬虫,也爬取了知名网站的一些数据(这里只是个人学习使用,不是商用!!!),大家都知道,爬虫和反爬虫一直以来都是相爱相杀的,爬虫程序员希望破解反爬虫手段,反爬虫程序员希望建立更加有效的反爬虫 ...

  9. html403禁止访问怎么解决,http出现“禁止访问 403”错误的起因和解决方法

    如果某个网页出现问题,访问这个网页的用户就会被返回 403错误,这类问题大多数出现在http脚本发生错误的故障上,不过 403 错误也有很多细节分类,比如 403.1 就是禁止执行访问错误.阅读下文了 ...

  10. 奇怪的curl 403错误

    最近在一家公司实习,按照他们技术总裁的要求写一个URL连接检查器,从数据库里面select出url后判断他的访问状态生成报告,php或者python任选,我自然选择了自己最熟悉的php了 但是程序跑了 ...

最新文章

  1. 使用读写锁解决读者-写者问题
  2. java的reflection
  3. tomcat 7 下添加 shared/lib 文件夹
  4. 使用js在桌面上写一个倒计时器_论一个倒计时器的性能优化之路
  5. mysql for vs2013_mysql vs2013
  6. vue php tree,Vue 实现树形视图数据功能
  7. UNIX环境高级编程(三)—— 静态链接库与动态链接库
  8. php怎么把图片设置为背景,ppt怎么把图片设为背景
  9. 【Errors】Errors during downloading metadata for repository ‘AppStream‘:
  10. 《云计算》-MySqlXmind-一张图看懂MySql知识结构
  11. js 点击往div里添加图片(实例)
  12. 论 致命错误c0000005
  13. 激光雷达相机外参标定
  14. 万字好文!Redis 到底是怎么实现“附近的人”这个功能的呢?
  15. 无需打开软件排版设计海报的在线工具!
  16. python中numpy是什么意思_python中numpy是什么
  17. repo git 更新某个文件目录总结
  18. 黑苹果MacOS Sierra读写Windows NTFS盘的方法(非第三方软件)
  19. MapReduce 数据倾斜以及解决思路
  20. 转载:16条有用的句子

热门文章

  1. Differential Geometry之第二章曲线的局部理论
  2. 努比亚手机浏览器 安全证书失效_今日热闻 | OnePlus 8海外版发布、Redmi科幻大片第一部公布、努比亚Play 5G宣布、快播正式破产拍卖...
  3. Unite Beijing 2018 | 精彩游戏案例议题曝光
  4. Cisco路由器密码设置
  5. oracle oaf界面个性化,OAF—个性化和扩展维护
  6. ios7禁止屏幕旋转,强制竖屏
  7. 安装mysql数据库出现问题_安装mysql数据库及问题解决方法
  8. 人体的神经系统图 分布,人神经系统分布图高清
  9. sap相同服务器文件复制粘贴,SAP GUI的快捷复制粘贴和栅格操作
  10. 有哪些免费的可以下载png图片的网站啊?