文章目录

  • 一、图片验证码概述
    • (一)机器视觉
    • (二)OCR库概述
      • (1)Tesseract 简介
      • (2)Tesseract 缺点
  • 二、方式一:Selenium手动打码
  • 三、方式二:使用三方打码平台
    • (一)简介
    • (二)超级鹰

一、图片验证码概述

(一)机器视觉

从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。

我们将重点介绍机器视觉的一个分支:文字识别,介绍如何用一些Python库来识别和 使用在线图片中的文字。

我们可以很轻松的阅读图片里的文字,但是机器阅读这些图片就会非常困难,利用这种人类用户可以正常读取但是大多数机器人都没法读取的图片,验证码(CAPTCHA)就出现了。 验证码读取的难易程度也大不相同,有些验证码比其他的更加难读。

将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现 OCR 的底层库并不多,目前很多库都是使用共同的几个底层 OCR 库,或者是在上面 进行定制。

(二)OCR库概述

在读取和处理图像、图像相关的机器学习以及创建图像等任务中,Python一直都是非常出色的语言。虽然有很多库可以进行图像处理,在这里我们简单介绍下:Tesseract

(1)Tesseract 简介

我们知道 Google 是一家以 OCR 和机器学习技术闻名于世的公司,Tesseract 这个 OCR 库就是由 Google 赞助的。

(2)Tesseract 缺点

用 Tesseract 读取硬盘里图片上的文字,可能不怎么令人兴奋,但当我们把它和网络爬 虫组合使用时,就能成为一个强大的工具。

但是网站上的图片可能并不会像我们普通的图片那样,看的很明显,简洁明了,对于这种图片,我们使用 Tesseract 处理图片就显得心有余而力不足了。也就是说,Tesseract 只适 合处理简单的图片,往往我们在做爬虫时,图片验证码的图片并不会很容易就被识别出来, 所以,Tesseract 的使用是会受到限制的。

鉴于 Tesseract 存在限制,我们可以使用 Selenium 手动输入验证码。


下面我们介绍两种破解简单验证码的方法,借助于实例来更好的说明。本文使用国家税务局发票验证时产生的验证码为例。

二、方式一:Selenium手动打码

手动打码意思就是人工输入验证码进行验证

注意:不使用谷歌浏览器,谷歌需要安装证书,所以使用IE浏览器

  1. 安装IE浏览器,安装ie的驱动,配置ie浏览器:https://www.cnblogs.com/misswjr/p/9453566.html
  2. 安装根证书,手动安装:https://inv-veri.chinatax.gov.cn/
# 1. 导入webdriver
from selenium import webdriver# 2. 调用IE浏览器
driver = webdriver.Ie(executable_path=r'D:\IEDriverServer_x64_2.48.0\IEDriverServer.exe')driver.maximize_window()# 3. 请求
driver.get(url='https://inv-veri.chinatax.gov.cn/')# 查找并输入发票代码
driver.find_element_by_id('fpdm').send_keys('033001700211')# 查找并输入发票号码
driver.find_element_by_id('fphm').send_keys('56894556')# 查找并输入开票日期
driver.find_element_by_id('kprq').send_keys('20180108')# 查找并输入校验码
driver.find_element_by_id('kjje').send_keys('005323')

手动输入验证码并验证

# 输入验证码
yzm = input('请输入验证码:')driver.find_element_by_id('yzm').send_keys(yzm)# 找到并点击查验
driver.find_element_by_id('checkfp').click()

三、方式二:使用三方打码平台

(一)简介

验证打码是一种区别用户是计算机还是人的公共全自动程序。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。打码工作的原理即协助通过图灵测试。自动软件能 模拟所有的网络操作,但不能完成图灵测试。这时候,自动软件将验证码图像输送到客户端, 并等待输入。打码人通过识别验证码图像,输入正确的验证码,从而帮助自动软件完成操作。 为了限制自动软件,验证码加密技术又进一个台阶,开发出即使是人类本身也较难以辨认的 验证码。这也是为何普通用户在体验网络的时候,有时要输入一些难以辨认的验证码的起因。
打码平台有很多:斐斐打码、云打码、超级鹰等。每一个打码平台都差不多,都是发送请求到指定端口,等待返回数据即可。本文主要介绍超级鹰打码平台。

(二)超级鹰

网址:http://www.chaojiying.com/
使用:查看开发文档 --> 选择 Python 语言 --> 左侧选择跨平台 HTTP 标准WEB 接口
从开发文档中,我们可以很容易的找到:接口地址、请求方式、参数设置等信息。

请求方式:POST

接口网址:http://upload.chaojiying.net/Upload/Processing.php

参数:
user=用户账号
pass=用户密码 //或 pass2=用户密码的md5值(32位小写)
softid=软件ID 在用户中心,软件ID处可以生成
codetype=验证码类型 在价格体系中选用一个适合的类型 点击这里进入
len_min=最小位数 //默认0为不启用,图片类型为可变位长时可启用这个参数

以下两个参数选其一 :(图片文件的宽推荐不超过460px,高不超过310px)

userfile=图片文件二进制流(或是称之为内存流,文件流,字节流的概念)
file_base64=图片文件base64字符串

使用代码:

import requests,base64
# 读取文件
fp = open('CheckCode.png','rb')  # 验证码图片文件
image = base64.b64encode(fp.read())
fp.close()
post_url = 'http://upload.chaojiying.net/Upload/Processing.php'# 定义参数字典
data = {'user':'Zzzp123456','pass':'zp7512799','softid':'4be272df806cd393a5c1b59e48f1a076','codetype':'1902','file_base64':image
}response = requests.post(url=post_url,data=data)
print(response.json()['pic_str'])

Python(爬虫篇)--- 验证码破解【一】图片、文字验证码相关推荐

  1. 【python爬虫】easyocr识别gif图片文字

    使用easyocr直接识别gif格式的图片会报错,如下所示: 图片地址:https://code.nongji360.com/images/u/0o2o.gif import easyocr read ...

  2. 网易云音乐python爬虫(Js破解)

    网易云音乐下载python爬虫(Js破解) 最近做了一个网易云音乐下载的python爬虫,功能就是输入歌曲的名字,程序自动下载网易音乐搜索界面的第一首歌(一般都是原唱排第一位).本文很适合小白学习,写 ...

  3. 使用Python爬虫爬取网络美女图片

    代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip instal ...

  4. python爬虫实现批量下载百度图片

    今天和小伙伴们合作一个小项目,需要用到景点图片作为数据源,在百度上搜索了一些图片,感觉一个一个手动保存太过麻烦,于是想到用爬虫来下载图片. 本次代码用到了下列一些python模块,需要预先安装Beau ...

  5. Python+爬虫技术获取斗鱼直播图片(整理)

    核心内容: 1.爬虫的基本原理 2.利用Python爬取数据的方法(使用urllib爬取数据) 3.从斗鱼直播平台爬取图片 最近因为工作的原因,要利用爬虫的相关技术,获取html网页相关的数据,特意总 ...

  6. 用Python爬虫来爬写真网图片

    用Python爬虫来爬写真网图片 1.我们先要知道Python爬虫的原理 基本的Python爬虫原理很简单,分为三步 获取网页源码 通过分析源码并通过代码来获取其中想要的内容 进行下载或其他操作 话不 ...

  7. 电影天堂APP项目开发之Python爬虫篇,共18课时/5时33分

    电影天堂APP项目开发之Python爬虫篇,共18课时/5时33分,是电影天堂APP项目开发课程的第一篇章,讲解使用requests和bs4库,爬取和解析电影天堂网站数据,并讲数据保存到SQLite数 ...

  8. Python爬虫——利用Scrapy批量下载图片

    Python爬虫--利用Scrapy批量下载图片 Scrapy下载图片项目介绍 使用Scrapy下载图片 项目创建 项目预览 创建爬虫文件 项目组件介绍 Scrapy爬虫流程介绍 页面结构分析 定义I ...

  9. 用Python 爬虫,如何破解谷歌验证码?

    ReCAPTCHA 介绍 可能大家还没听说过什么是 ReCAPTCHA,可能由于某些原因,这个验证码在国内出现不多,不过想必大家应该多多少少见过或用过.它长这个样子: 这时候,只要我们点击最前面的复选 ...

  10. 作为一只Python爬虫:如何破解滑动验证码

    做爬虫总会遇到各种各样的反爬限制,反爬的第一道防线往往在登录就出现了,为了限制爬虫自动登录,各家使出了浑身解数,所谓道高一尺魔高一丈. 今天分享个如何简单处理滑动图片的验证码的案例. 类似这种拖动滑块 ...

最新文章

  1. 交换机和路由器的区别_路由器与交换机的区别?
  2. 微软看了下“打工人”的脑电波,难怪视频会议总犯困!斯坦福:女性尤甚
  3. php星期_高手指点PHP星期几获取方法
  4. 英雄无敌3版的仙剑奇侠传
  5. 清单革命:为什么不仅是工具革命
  6. matlab调用q外部exe文件,Matlab GUI调用外部程序生成exe,DOS窗口输入问题
  7. [PAT乙级]1046 划拳
  8. xor方程组消元 UVA 11542 Square
  9. 第二十五期:搞定Linux Shell文本处理工具,看完这篇集锦就够了
  10. 服务器克隆机网络端口排错
  11. 计算机网络技术与应用应用题,计算机网络技术与应用题库答案.pdf
  12. javascript Number object
  13. 一个简单的samba案例(测试与思考)
  14. mybatis中关联关系,一对多,一对一,多对多,数据库建立方式,怎么体现这种逻辑关系,嵌套查询,嵌套结果查询,包含测试
  15. 计算机专业毕业设计资料免费下载
  16. ELK-部署Logstash
  17. 电脑重装系统蓝屏是什么原因
  18. bing搜索崩溃无法访问?别慌,我来教你各大搜索引擎的选择
  19. Intent的设想与天马行空
  20. VMware8虚拟机安装教程

热门文章

  1. css3网站代码 html5_让你心动的 HTML5 CSS3 效果【附源码下载】
  2. 今天也要加油鸭!!!!!
  3. 【数学建模】多元线性回归模型 - 序
  4. 程序员才是真正的“老司机”,30个IT术语这样解释,新手秒懂
  5. Qt——管道FIFO的创建与使用【未完成】
  6. 三分钟编程系列,教你用C++制作3D台球游戏,有源代码!
  7. 简易理解并计算二进制除法
  8. memset()与memcpy()函数及其作用
  9. 不能按常规管理计算机人才,人才队伍管理存在的问题自查报告.doc
  10. 小计算机cv值怎么计算方法,Cv值(cv值与流量如何换算)