以下方式都是比较有意思而非是非常有效的做法,

一:前端高危数据的特殊显示

去哪儿网、猫眼电影、美团,都可喜欢在价格字体上做文章:

1:去哪儿网

网上表明标注的价格在html源码中竟然不一样,

仔细分析他们的CSS就会发现他们用了一个字体,正常字体是0123456789 在官方字体中替换为:(这是他们以前的做法,现在已经更新因此图来自网络)

或者价格的显示与html中的顺序不同

2:猫眼电影

每次都不同的字符集,需要对应采集一起解码。

3:过去美团也采用过font的思路,用backgfround拼接,数字其实是图片,用不同的偏移量显示不同的字符。还个比较狠的,呈现的数值是SVG矢量图。

4:部分微信公众号会穿插各种蜜汁字符,再用样式调整隐藏他们,比如他:叨逼姐说

5:用display:none来随机化网页源码,有网站还会随机类和id的名字再加点随机的trtd,更加不好捕捉.比如:全网代理ip

二:各种异步加载反复嵌套

网易云音乐也怕爬什么都是异步加载嵌套在iframe里的,包括他的整个主页,而且src=”about:blank”

三:别以为后端汉子就不花哨

1:还有的网站识别出爬虫后会反骂一句话:

比如IT桔子,会返回Fack you Spider, 还有个麦子金服会返回一个go away,然后一般我就会解开加密后在hreder里加个呵呵,再发给他。

4:还有ip方面的操作

比如新浪知乎的反爬虫机制会对ip异常或者不带cookie的跳转到访客系统中,如果用模拟登陆就会反复出现验证码,这就涉及到是否是白ip,他的判定机制也和其他网站不同,其他主要是看近期常用登陆地ip为白,他是用注册时ip为白,因此只要用服务器去注册一个号,就基本轻松过了(17年实测)。

还有些佛系反爬虫,每个ip的第一次访问秒回数据,但是第二次就必然sleep 12 秒才返回,这招其实很佛系,你爬可以,别让我老板发现数据量太夸张了。一般这种就程序放着慢慢来吧,因为换个可靠ip也得好几秒。对方这么坦诚咱们也不乱来。

5:网页数据转化为图片的

比如站大爷的免费代理端口数据是扭曲图片构成的数字

还有各种网站用了不同的奇葩手法,用文中没有的类别的,欢迎各位看官放在评论区,回头我搞搞看补充上来。

作者:十四君

更多Python视频、源码、资料加群683380553免费获取

转自:https://zhuanlan.zhihu.com/p/45335052

关于反爬虫我见到的各种前后端奇葩姿势相关推荐

  1. extjs 前后端分离_为什么我不喜欢「前后端分离」(个人观点,欢迎来喷)

    我不知道国外有没有「前后端分离」的运动,我只知道国内的大公司喜欢搞这个. 前后端分离大概的意思就是后端只给前端提供数据,前端负责 HTML 渲染(可以在服务器渲染,也可以在浏览器渲染)和用户交互. 说 ...

  2. Java前后端分离(Ajax和Json)

    为什么要前后端分离? 在以前的学习代码中,可以看出来我们在jsp页面页面上也通过EL表达式和jstl写了很多的java程序,这实际上在前端的页面中混入了很多后端的逻辑,这就是传统的web开发.在传统的 ...

  3. 关于前后端分离 的腹黑意淫

    搞笑 https://www.v2ex.com/t/298014?p=4 我不知道国外有没有「前后端分离」的运动,我只知道国内的大公司喜欢搞这个. 前后端分离大概的意思就是后端只给前端提供数据,前端负 ...

  4. 用前考虑清楚,伤敌一千自损八百的字体反爬虫

    内容选自即将出版的<Python3 反爬虫原理与绕过实战>,本次公开书稿范围为第 6 章--文本混淆反爬虫.本篇为第 6 章中的第 4 小节,其余小节将逐步放送. 字体反爬虫开篇概述 在 ...

  5. 如何设计一款暗度陈仓的反爬虫

    本文授权转载自搜狐技术产品,特此感谢. 明修栈道.暗渡陈仓是一组出自<史记·淮阴侯列传>的成语,指将真实的意图隐藏在表面行动的背后,用明显的行动迷惑对方,使敌产生错觉,从而忽略我方的真实意 ...

  6. 大型企业都在用的Python反爬虫手段,破了它!

    SVG 映射反爬虫 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这 ...

  7. 大厂在用的Python反爬虫手段,破了它!

    SVG 映射反爬虫 SVG 是用于描述二维矢量图形的一种图形格式.它基于 XML 描述图形,对图形进行放大或缩小操作都不会影响图形质量.矢量图形的这个特点使得它被广泛应用在 Web 网站中. 接下来我 ...

  8. 一线大厂在用的反爬虫方法,看我如何破了它!

    内容选自即将出版的<Python3 反爬虫原理与绕过实战>,本次公开书稿范围为第 6 章--文本混淆反爬虫.本篇为第 6 章中的第 3 小节 SVG 反爬虫. SVG 映射反爬虫 SVG ...

  9. 【过于硬核慎入】这是我遇到过的最强反爬虫(反反爬虫教程)

    https://www.passkou.com/ 阅读本文前 在阅读本文前,你需要具有以下所有知识,否则你无法读懂: HTML + JS 基础 HTTP 基本知识 简单的密码学知识(MD5.AES) ...

最新文章

  1. WMI Series :管理对象的信息查询和方法访问
  2. Android中通过SeekBar手动控制ProgressBar与模拟下载自动更新进度条
  3. MySQL数据库的可视化管理工具连接时一些问题解决~
  4. MVVM及MVVMLight相关资料
  5. 客户端程序自动更新(升级)的方式
  6. c语言字符串匹配函数index,C语言(函数)学习之index、rindex
  7. 《Python编程从入门到实践》记录之Python函数返回值
  8. Snabbdom(虚拟dom-5-patch函数)
  9. 【a202】【9208】输油管道问题
  10. php中几个操作函数参数的函数func_num_args() func_get_args() func_get_arg($i)php
  11. Dubbo 服务 IP 注册错误踩坑经历
  12. 待解决的问题 POJ 3225 Help with Intervals 线段树 码力
  13. java opencv教程_史上最全 java 集成 opencv 教程
  14. DB2 DIgits函数用法
  15. matlab ctradon函数,Radon变换入门matlab CT原理
  16. 如何批量将 png 图片转换为 jpg 格式
  17. java编程加载窗口,插入图片
  18. echarts 关系图 力引导布局
  19. kali如何对网站进行ddos攻击
  20. 玉蟾宫【洛谷P4147】

热门文章

  1. 线性代数系列(八)--基变换、左逆、右逆和伪逆
  2. 身份证号验证 银行卡号验证
  3. DJI SDK之导入篇--将SDK配置到自己的应用程序中
  4. C++——Windows 程序开发
  5. 如何提高用户体验之某费控独角兽公司的分享-现场分享
  6. Android 外接设备获取驱动和获取申请权限
  7. php new mpdf,php – mpdf无视javascript
  8. 王兴:人不能太安逸了,不然稍微努力一点,就觉得自己在拼命
  9. proto3默认值与可选项
  10. swing中播放音频文件,封装成类,完美应用