使用ddddocr解决某汽车论坛网站字体反爬
使用ddddocr解决某汽车论坛网站字体反爬
链接地址:aHR0cHM6Ly9jbHViLmF1dG9ob21lLmNvbS5jbi9iYnMvdGhyZWFkLzIyMTRiYWZhMDIyMGY4MGQvMTAxMTIzODE0LTEuaHRtbA==
打开网页后,需要获取文章的正文内容,如果使用常规的办法,获取到的是存在乱码的内容
可以看到有少许的文字出现乱码,然后在网页f12 查看
其网页中确实不是常规的文字,而是这个网站的自定义字体。如果直接忽略这个文字,肯定是不可行的,得想办法把图片变成文字。
在源代码中搜索【tff】可以找到字体文件的地址,下载这个字体文件下来
然后在网站 http://font.qqe2.com/index-en.html 中可以进行在线查看
那么尝试先使用python把ttf文件转换为一个一个的图像
在转换的时候需要注意,尽量把需要识别的内容放置在中间,并在在周边留有一定的空白,这样可以提高识别的准确率。
接下来就是要ocr来将图片转换为文字了,这里我是用的是ddddocr,安装相对来说很方便
pip install ddddocr
接着把每一张图片放到ddddocr这个模型去识别,就可以得到每一张图片的文字内容,最后得到一个文件名个文字的映射关系,是用方法也非常简单。
Oocr = ddddocr.DdddOcr() # 初始化识别模型
text = Oocr.classification(img_bytes=image_io) # 把图片的字节放到模型中,返回识别的文字
最后再请求一次,然后通过ocr识别得到的映射关系替换自定义字体
可以看到识别非常的准备,完美解决了字体反爬的问题
使用ddddocr解决某汽车论坛网站字体反爬相关推荐
- pythonttf字体反爬虫_Python爬虫---汽车之家字体反爬
本篇文章给大家带来的内容是关于Python爬虫---汽车之家字体反爬,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 目标网站:汽车之家 目标网址:https://club.autoh ...
- web爬虫——某电影网站字体反爬
某电影网站字体反爬 爱好学习及分享,若文章侵权,优先联系本人删帖处理. 几个关键点 base字体文件分析 打开目标网页,找到woff文件链接 下载该woff文件,并在字体编辑器里打开 记录下数字与字符 ...
- 实习僧网站字体反爬破解思路及步骤分享
需要用到的第三方包 fontTools 崔庆才博客:今天,我终于弄懂了字体反爬是个啥玩意! 哔哩哔哩视频:python零基础一节课带你玩转字体反爬 测试网站选取了实习僧:实习僧 TTF(TrueTyp ...
- 爬虫:汽车之家字体反爬
1.我的目的 汽车之家对某些字体进行了反爬虫操作,直接获取是一堆乱码,这次要做的是对这些乱码进行转化,转化为我们想要的符号\汉字 2.前提知识 首先得了解一下字体反爬虫是什么意思: 当前css可以指定 ...
- Python爬虫六:字体反爬处理(猫眼+汽车之家)-2018.10
环境:Windows7 +Python3.6+Pycharm2017 目标:猫眼电影票房.汽车之家字体反爬的处理 ---全部文章: 京东爬虫 .链家爬虫.美团爬虫.微信公众号爬虫.字体反爬.Djang ...
- 如何去除网页噪声提取数据(02) —— 汽车之家(字体反爬)
如何去除网页噪声提取数据(02) -- 汽车之家(字体反爬) 1. 需求介绍 继去哪儿网之后,我又盯上了汽车之家这个网站,这个网站的反爬策略挺有意思的,采用了时下最流行的字体反爬技术,让我心神荡漾,对 ...
- Python爬虫:字体反爬处理(猫眼+汽车之家)-2018.10
环境:Windows7 +Python3.6+Pycharm2017 目标:猫眼电影票房.汽车之家字体反爬的处理 -全部文章: 京东爬虫 .链家爬虫.美团爬虫.微信公众号爬虫.字体反爬.Django笔 ...
- k 近邻算法解决字体反爬手段|效果非常好
字体反爬,是一种利用 CSS 特性和浏览器渲染规则实现的反爬虫手段.其高明之处在于,就算借助(Selenium 套件.Puppeteer 和 Splash)等渲染工具也无法拿到真实的文字内容. 这种反 ...
- python爬虫进阶-汽车之家贴吧信息(字体反爬-动态映射)
目的 获取汽车之家贴吧的内容信息 详细需求 汽车之家贴吧 思路解析 一.F12获取目标信息-进行分析 二.字体反爬解析-根据上一篇的文章,直接搜索关键词就好 三 根据其后的链接,保存为ttf在本地,查 ...
最新文章
- windows下mysql和linux下mysql主从配置
- php sqlsrv_query,sqlsrv_query
- html 怎么播放avi视频,iPhone4S视频格式播放巧用苹果转换器
- js调用ios和安卓方法
- 计算机对英语口语考试成绩,英语口语考试面对“电脑考官” 有何临场技巧
- 高职学生如何成为编程高手
- Android系统(116)---APP启动过程
- c 取oracle 错误代码,转载ORA-01591错误故障处理
- 兼容IE和Firefox
- php redis 日志模式,Redis的PHP客户端
- vue+vuex初入门
- 桌面被恶意软件放上几个ie图标删除不了怎么办?
- [2018.07.31 T3] 第三题
- 【GNSS】GNSS数据下载工具
- 财报季 | 贝壳找房2021年上半年营收449亿元,月活用户达5000万
- python卡方检验计算pvalue值_如何用python计算临界值(critical value)和p值(p value)(scipy)...
- uniapp设置整个页面背景颜色渐变,设置单个页面背景颜色
- html5源码笔记(三)【爱创课堂专业前端培训】
- latex 表格标题分行和居中
- 4.2 图书借阅系统数据库设计 --MySQL
热门文章
- plt.plot()函数样式
- 信通院魏亮:产业数字化让传统赛道产生新赛道
- 强化学习汇总 - Mofan教程
- 【特征选择_论文阅读_毕业论文】01_张璐_西电_基于深度空间特征学习的极化SAR图像分类_2019
- 三、redis数据存储之跳跃表(SKIP LIST)
- natsort:一款非常棒的 Python 排序库
- 华为新员工转正笔试题(附答案)
- P1533数字翻转 升级版
- Altium Designer 20 入门基础知识(2)
- 利用爬虫获取猫眼电影热门前100数据