下方两幅图是最近爬取某保险网站和拉勾的招聘数据,大家随意感受一下

Python爬虫人工智能教程: www.python88.cn

编程资源网:www.python66.cn

截图部分保险业务员微信二维码

截图部分拉勾网爬取信息

本文主要讲爬取某保险网站所有卖保险的人的微信号,个人网站,所在地区、所属保险公司等信息,代码已上传到QQ群(627714866)

开发环境:

乌班图、pycharm、mysql、redis、mongodb

爬虫技术:

requests、redis加密对数据去重、xpath、os模块、保存csv、mysql、面向对象写法

废话不多说,直接上代码

1、pymongo、pymysql、redis, hashlib用于对redis字段加密

2、创建一个类,并初始化数据(网站是post请求,需要带data)

headers、post请求数据、初始化csv文件、创建数据库连接对象(具体技术不明白的请查阅相关资料)

3、最大重复请求3次,增加程序健壮性

4、获取数据列表

(具体提取方式请根据post请求URL查看前端代码)

5、返回con_list列表、下一页URL和data数据

(注意:所有URL都一样,不一样的是传的data数据,主要还是构造data数据)

6、获取展业证号

因为展业证号对应的详情页有多种页面结构,所以需要根据页面中特有的信息做一些判断,选择合适的提取方式提取

7、构造增量式爬虫

利用hashlib对提取的名字信息生成哈希加密指纹,并利用redis的集合数据类型,保存加密字段,如果该加密字段能sadd保存到redis,则返回值是1,如果不能sadd保存,则返回值是0(作用:实现根据姓名字段判断到数据库是执行更新操作还是增加操作,也即增量含义)

8、保存mysql

根据res返回值,是1还是0,对应执行增加insert操作和更新update操作

同时分表存储,方式有点lowb,判断字段而已,

9、保存mongodb

10、保存csv和构造保存二维码图片命名格式

11、启动程序

遍历两个条件,公司名称和信用等级,只做示意,公司取两个,信息用等级取2个,next_url为初始URL

  • 《500G python web、爬虫、数据分析、机器学习、大数据、前端实战项目视频代码免费分享》

  • 100%教会你python爬取微信好友性别比例和城市分布信息

  • 100%教会你用python代码实现多线程并发死循环短信轰炸器

  • 史上最全100本免费python编程书籍和python教程

  • 10分钟100%教你用python代码实现车辆识别程序

后期爬取拉勾数据代码也已经实现,会继续更新

本文代码和一些python教程已经上传到QQ群(627714866),有兴趣的同学可以加群下载,本文只限于技术交流,请勿用于商业用途

python爬虫人工智能大数据公众号

本公众号长期提供各种免费视频学习资源,欢迎与作者相互探讨学习

公众号回复“资料”获取500GB相关视频教程,部分教程分类和截图如下:

python、django 、flask、数据分析、爬虫、运维、大数据、量化金融、机器学习、深度学习、自然语言处理、人工智能、电子书

0、python入门教程

1、Django教学网站项目实战视频,带xadmin后台和源码:

2、Flask项目实战视频和源码:

3、爬虫项目实战视频和源码:

4、数据分析项目实战和源码:

5、全部资料

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据相关推荐

  1. Python爬虫系列之爬取某社区团微信小程序店铺商品数据

    Python爬虫系列之爬取某社区团微信小程序店铺商品数据 如有问题QQ请> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流,请勿用于非法用途 数据库仅用于去重使用,数据主要存 ...

  2. 100行代码爬取全国所有必胜客餐厅信息

    点击上方"极客猴",选择"置顶公众号" 第一时间获取Python技术干货! 题图: by jinovich from Instagram 阅读文本大概需要 10 ...

  3. 100 行代码爬取全国所有必胜客餐厅信息

    阅读文本大概需要 10 分钟. 当我刚接触 Python 时,我已经被 Python 深深所吸引.Python 吸引我的地方不仅仅能用其编写网络爬虫,而且能用于数据分析.我能将大量的数据中以图形化方式 ...

  4. 利用Python爬取全国250m精度的人口数据、房价数据等数据 | CSDN博文精选

    作者 | 中原百科来源 | CSDN博客 (一) 我的第一篇博客写的就是爬取人口数据基于腾讯位置大数据平台的全球移动定位数据获取(Python爬取),精度是1000m,后来有朋友和我说有个网站开放过2 ...

  5. 每日一练:Python爬虫爬取全国新冠肺炎疫情数据实例详解,使用beautifulsoup4库实现

    Python 爬虫篇 - 爬取全国新冠肺炎疫情数据实例详解 效果图展示 第一章:疫情信息的下载与数据提取 ① 爬取页面数据到本地 ② json 字符串正则表达式分析 ③ 提取数据中的 json 字符串 ...

  6. Python爬取全国大学排名 用pyecharts进行大屏可视化

    爬取全国大学排名 用pyecharts进行可视化 院校网址:http://college.gaokao.com/schlist/p F12 先找到对应的全部list 需要先安装requests,lxm ...

  7. Python爬虫实战之 爬取全国理工类大学数量+数据可视化

    上次爬取高考分数线这部分收了个尾,今天咱们来全面爬取全国各省有多少所理工类大学,并简单实现一个数据可视化.话不多说,咱们开始吧. 第一步,拿到url地址 第二步,获取高校数据 第三步,地图可视化 第四 ...

  8. 用python爬取考研信息网_【高考、考研党的福利】使用Python爬取全国高校及GIS/RS专业信息【附代码和Excel】...

    题外话:前一段时间翻译了一部关于GIS的纪录片,然后发了一篇文章,没想到有这么多人感兴趣,为了让广大GISER知道有这部神片,遂想投稿至GIS相关的专栏,不曾想居然还没人开设,真是"绕树三匝 ...

  9. 爬虫实战—轻松爬取全国40城5000+地铁站点数据!附源码和数据集

    原文链接:小一教你轻松爬取全国40城5000+地铁站点数据!附源码和数据集 大家好,我是小一 上一篇文章讲了一个失败的数据分析案例,导致失败最最主要的原因就两个字:数据 有时候,爬虫爬到的数据是很珍贵 ...

最新文章

  1. [RDMA] 高性能异步的可靠消息传递和RPC :Accelio
  2. 【Java】SAX解析characters 错误截取问题的解决
  3. python2.7是什么_python2.7是什么
  4. spring boot 邮件端口_springboot集成qq邮件发送功能
  5. 使用WSDL工具生成C#使用的WebService声明文件
  6. RN 0.26 引用方式中哪些属于React,哪些属于React Native
  7. Arduion 底层原理之 Uart函数 串口收发 串口协议解析
  8. pyaudio 声音处理
  9. 如何判断你是合格的高级iOS开发工程师?
  10. 一个屌丝程序员的青春(八六)
  11. open wrt 跟换主题_分享个openwrt主题 可以简单自定义的 主题
  12. openstack ice自定义调度算法项目详解(horizon、novaclient、api、scheduler、db、自定义数据库)
  13. 根据json 动态生成页面——问卷页面
  14. html 选项按照abcd,怎么把Word里的多个题目的ABCD 选项快速排列整齐
  15. 数据来源渠道及采集工具_鹰眼智客大数据可以采集哪些渠道客源?
  16. IDEA:java:无效的源发行版:14
  17. 序列生成与滑动平均滤波
  18. 视频编辑软件:迅捷视频工具箱
  19. laravel-debugbar 不显示解决办法
  20. 06.Logistic回归与最大熵模型(学习笔记)

热门文章

  1. 账号注册、登录、注销---网上商城Web
  2. 避雷!小程序全局userInfo值为空的问题
  3. 谈钱加深感情:2017年要怎么赚钱?我有5种可能靠谱的赚钱方式
  4. ubuntu中vim简易配置
  5. 用linux写俄罗斯方块代码,linux下使用C写俄罗斯方块
  6. 什么软件可以把文字朗读出来?这三个软件安利给你
  7. Intel QSV加速FFmpeg
  8. 【EasyExcel】的一些用法
  9. Android10.0 StatusBar之状态栏
  10. python3.8.2汉化包-Python3.8.2 软件介绍(附安装包)