使用ddddocr解决某汽车论坛网站字体反爬

链接地址:aHR0cHM6Ly9jbHViLmF1dG9ob21lLmNvbS5jbi9iYnMvdGhyZWFkLzIyMTRiYWZhMDIyMGY4MGQvMTAxMTIzODE0LTEuaHRtbA==

打开网页后,需要获取文章的正文内容,如果使用常规的办法,获取到的是存在乱码的内容


可以看到有少许的文字出现乱码,然后在网页f12 查看


其网页中确实不是常规的文字,而是这个网站的自定义字体。如果直接忽略这个文字,肯定是不可行的,得想办法把图片变成文字。

在源代码中搜索【tff】可以找到字体文件的地址,下载这个字体文件下来

然后在网站 http://font.qqe2.com/index-en.html 中可以进行在线查看

那么尝试先使用python把ttf文件转换为一个一个的图像


在转换的时候需要注意,尽量把需要识别的内容放置在中间,并在在周边留有一定的空白,这样可以提高识别的准确率。

接下来就是要ocr来将图片转换为文字了,这里我是用的是ddddocr,安装相对来说很方便

pip install ddddocr

接着把每一张图片放到ddddocr这个模型去识别,就可以得到每一张图片的文字内容,最后得到一个文件名个文字的映射关系,是用方法也非常简单。

Oocr = ddddocr.DdddOcr()  # 初始化识别模型
text = Oocr.classification(img_bytes=image_io)  # 把图片的字节放到模型中,返回识别的文字

最后再请求一次,然后通过ocr识别得到的映射关系替换自定义字体


可以看到识别非常的准备,完美解决了字体反爬的问题

使用ddddocr解决某汽车论坛网站字体反爬相关推荐

  1. pythonttf字体反爬虫_Python爬虫---汽车之家字体反爬

    本篇文章给大家带来的内容是关于Python爬虫---汽车之家字体反爬,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 目标网站:汽车之家 目标网址:https://club.autoh ...

  2. web爬虫——某电影网站字体反爬

    某电影网站字体反爬 爱好学习及分享,若文章侵权,优先联系本人删帖处理. 几个关键点 base字体文件分析 打开目标网页,找到woff文件链接 下载该woff文件,并在字体编辑器里打开 记录下数字与字符 ...

  3. 实习僧网站字体反爬破解思路及步骤分享

    需要用到的第三方包 fontTools 崔庆才博客:今天,我终于弄懂了字体反爬是个啥玩意! 哔哩哔哩视频:python零基础一节课带你玩转字体反爬 测试网站选取了实习僧:实习僧 TTF(TrueTyp ...

  4. 爬虫:汽车之家字体反爬

    1.我的目的 汽车之家对某些字体进行了反爬虫操作,直接获取是一堆乱码,这次要做的是对这些乱码进行转化,转化为我们想要的符号\汉字 2.前提知识 首先得了解一下字体反爬虫是什么意思: 当前css可以指定 ...

  5. Python爬虫六:字体反爬处理(猫眼+汽车之家)-2018.10

    环境:Windows7 +Python3.6+Pycharm2017 目标:猫眼电影票房.汽车之家字体反爬的处理 ---全部文章: 京东爬虫 .链家爬虫.美团爬虫.微信公众号爬虫.字体反爬.Djang ...

  6. 如何去除网页噪声提取数据(02) —— 汽车之家(字体反爬)

    如何去除网页噪声提取数据(02) -- 汽车之家(字体反爬) 1. 需求介绍 继去哪儿网之后,我又盯上了汽车之家这个网站,这个网站的反爬策略挺有意思的,采用了时下最流行的字体反爬技术,让我心神荡漾,对 ...

  7. Python爬虫:字体反爬处理(猫眼+汽车之家)-2018.10

    环境:Windows7 +Python3.6+Pycharm2017 目标:猫眼电影票房.汽车之家字体反爬的处理 -全部文章: 京东爬虫 .链家爬虫.美团爬虫.微信公众号爬虫.字体反爬.Django笔 ...

  8. k 近邻算法解决字体反爬手段|效果非常好

    字体反爬,是一种利用 CSS 特性和浏览器渲染规则实现的反爬虫手段.其高明之处在于,就算借助(Selenium 套件.Puppeteer 和 Splash)等渲染工具也无法拿到真实的文字内容. 这种反 ...

  9. python爬虫进阶-汽车之家贴吧信息(字体反爬-动态映射)

    目的 获取汽车之家贴吧的内容信息 详细需求 汽车之家贴吧 思路解析 一.F12获取目标信息-进行分析 二.字体反爬解析-根据上一篇的文章,直接搜索关键词就好 三 根据其后的链接,保存为ttf在本地,查 ...

最新文章

  1. windows下mysql和linux下mysql主从配置
  2. php sqlsrv_query,sqlsrv_query
  3. html 怎么播放avi视频,iPhone4S视频格式播放巧用苹果转换器
  4. js调用ios和安卓方法
  5. 计算机对英语口语考试成绩,英语口语考试面对“电脑考官” 有何临场技巧
  6. 高职学生如何成为编程高手
  7. Android系统(116)---APP启动过程
  8. c 取oracle 错误代码,转载ORA-01591错误故障处理
  9. 兼容IE和Firefox
  10. php redis 日志模式,Redis的PHP客户端
  11. vue+vuex初入门
  12. 桌面被恶意软件放上几个ie图标删除不了怎么办?
  13. [2018.07.31 T3] 第三题
  14. 【GNSS】GNSS数据下载工具
  15. 财报季 | 贝壳找房2021年上半年营收449亿元,月活用户达5000万
  16. python卡方检验计算pvalue值_如何用python计算临界值(critical value)和p值(p value)(scipy)...
  17. uniapp设置整个页面背景颜色渐变,设置单个页面背景颜色
  18. html5源码笔记(三)【爱创课堂专业前端培训】
  19. latex 表格标题分行和居中
  20. 4.2 图书借阅系统数据库设计 --MySQL

热门文章

  1. plt.plot()函数样式
  2. 信通院魏亮:产业数字化让传统赛道产生新赛道
  3. 强化学习汇总 - Mofan教程
  4. 【特征选择_论文阅读_毕业论文】01_张璐_西电_基于深度空间特征学习的极化SAR图像分类_2019
  5. 三、redis数据存储之跳跃表(SKIP LIST)
  6. natsort:一款非常棒的 Python 排序库
  7. 华为新员工转正笔试题(附答案)
  8. P1533数字翻转 升级版
  9. Altium Designer 20 入门基础知识(2)
  10. 利用爬虫获取猫眼电影热门前100数据