Python爬虫-2018年-我破解天某查和启某宝企业数据爬虫--破解反爬技术那些事情

最近在自己用python+mongdb写了一套分布式多线程的天某查爬虫系统,实现了对天查整个网站的全部数据各种维度的采集和存储,并且根据天查网页的数据结构建立了19个表来存储19个维度的数据,很多做技术的朋友在爬天查的时候会遇到以下几个问题,我把我的经历和解决方案分享给大家。(需要爬虫技术交流的朋友欢迎加我qq:2779571288)

1、天某查和启某宝哪一个的数据更难爬呢?

其实在准备爬天查数据的时候,我对启宝、企查类似的网站分布从数据的完整性和数据的更新及时性分析了,结果个人觉得天某查的数据比其他网站的要完整,数据维度要多一些,数据更新的时候也比较快,所以最后选择了爬取天某查里面的企业数据

2、天某查的19个核心数据维度:

首先整个网站有主要核心数据有以下19大模块:1基本信息、2法人代表、3主要成员、4股东&出资、5变更记录、6公司年报、7司法风险、8舆情事件、9岗位招聘、10商品信息、11网站备案、12商标数据、13专利数据,、14 作品著作权软件著作权、16对外投资关系、17税务评级、18行政处罚、19进出口信用、20企业评级信用等十九个维度的企业数据,如果把这些数据爬下来,并且结构化,实现可以查询可以检索使用,可以导出到excel,可以生成企业报告,那么需要建立数据库来存储这些数据,像这种非结构化的数据我们选择mongdb数据库是最合适的。

3. 采集速度太频繁了,会被封IP问题 怎么解决

当我们发出去的http请求到天查网站的时候,正常情况下返回200状态,说明请求合法被接受,而且会看到返回的数据,但是天查有自己的一套反爬机制算法,如果检查到同一个IP来不断的采集他网站的数据,那么他会被这个IP列入异常黑名单,您再去采集它网站数据的时候,那么就永远被拦截了。怎么解决这个问题呢,其实很简单,没有错用代理IP去访问,每一次请求的时候都采用代理IP方式去请求,而且这个代理IP是随机变动的,每次请求都不同,所以用这个代理IP技术解决了被封的问题。

4  天某查2个亿的数据量怎么存储?需要多少的代理IP

我在写爬虫去爬天查的时候,刚开始使用网上的免费或者收费的代理IP,结果90%都被封号,所以建议大家以后采集这种大数据量网站的时候 不要使用网上免费的或者那种收费的IP,因为这种ip几秒钟就会过期,意思就是你没有采集网或者刚刚访问到数据的时候,这个IP就过期了导致你无法采集成功,所以最后我自己搭建了自己的代理池解决了2个亿天查数据的采集封IP问题。(需要爬虫技术交流的朋友欢迎加我qq:2779571288)

最新2018我破解了天某查 企某查 启某宝 企某猫和全国源站工商企业大数据爬虫系统相关推荐

  1. 2018信用服务业市场:天眼查、企查查、启信宝、企查猫处第一梯队

    信用服务业概况及特征 信用服务本质上是帮助市场交易主体解决信息不对称的一种信息咨询活动.在国外,信用服务业可细分为十个分支行业,即企业资信调查(企业征信).消费者征信(个人征信).财产征信.资信征信. ...

  2. 2018中国房地产百强企业大数据研究报告!

    2017年,房地产市场在中国步入新时代的大背景下,将迎来高质量的发展阶段和多层次的全新发展格局,房地产企业应主动转变发展思路,适应行业发展的重大变革,挖掘新时代的发展机遇.为此,中国房地产TOP10研 ...

  3. 2018.11:大数据在政府统计中的应用、瓶颈及融合路径(余芳东)

    内容摘要:应用大数据是未来政府统计发展的必然趋势.本文系统梳理当前政府统计应用大数据的基本类型,研究探索大数据统计应用实践和基本方法思路,剖析大数据统计应用面临的困难和瓶颈,提出推进大数据与政府统计工 ...

  4. CCF大专委2018年大数据发展趋势预测

    CCF大专委2018年大数据发展趋势预测 周涛,卞超轶,潘柱廷,查礼,程学旗 中国科学院计算技术研究所 论文引用格式:周涛, 卞超轶, 潘柱廷, 等. CCF大专委2018年大数据发展趋势预测[J]. ...

  5. 一文看懂 BDTC 2018:探秘大数据新应用(附 PPT 下载)

    12 月 8 日,北京新云南皇冠假日酒店,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN.中科天玑数据科技股份有限公司协办的 2018 中国大数据技术大会(BDTC)圆满落下帷幕. 从 ...

  6. 深度探秘大数据新应用,2018 中国大数据技术大会(BDTC)强势来袭!

    2018 年12 月 6 -8日,由中国计算机学会主办,CCF大数据专家委员会承办,CSDN.中科天玑数据科技股份有限公司协办的2018 中国大数据技术大会(BDTC),在北京新云南皇冠假日酒店隆重召 ...

  7. 启xin宝app的token算法破解

    启xin宝app的token算法破解--抓包分析篇(一) 转:https://blog.csdn.net/qq_34067821/article/details/100050472 为了提升逆向技术, ...

  8. 启xin宝app的token算法破解——抓包分析篇(一)

    为了提升逆向技术,最近几日研究了企cha查的sign和启xin宝的token算法,目前已经成功破解,两个app均是最新版,并将企cha查写成爬虫小demo,放在github上,详情查看 https:/ ...

  9. 一文看懂BDTC 2018:探秘大数据新应用(附PPT下载)

    戳蓝字"CSDN云计算"关注我们哦! 12 月 8 日,北京新云南皇冠假日酒店,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN.中科天玑数据科技股份有限公司协办的 2 ...

最新文章

  1. (读书笔记).NET大局观-.NET语言(1)
  2. 非计算机专业的学生,从事编程工作的上升壁垒是什么?
  3. 【zookeeper+Dubbo】Dubbo与SpringBoot整合的三种方式
  4. 学习率对神经网络迭代次数的影响
  5. 【转】80后安稳上班,90后看心情上班,95后……太形象了!
  6. xss权限维持(小技巧)
  7. 《剑指offer》两个链表的第一个公共节点
  8. 关于 php mysql pdo cannot find driver 解决方案
  9. teststand调用python模块_TestStand 基本知识[10]--在序列中调用代码模块之--LabVIEW
  10. 编译并运行Java文件
  11. mysql判断时间是否在某个区间_如何正确理解 RT 并监控 MySQL 的响应时间
  12. apache日志管理
  13. socket套接字选项列表
  14. python输出字体的大小_Python之美——一只数据狗的笔记[长期更新]
  15. jsp+servlet图书管理系统
  16. Ubuntu系统腾讯会议使用ffmpeg屏幕录制+声音录制
  17. 通信——大学专业课程
  18. 国内嵌入式公司比较排名
  19. 同表复制一列的数据到另一列
  20. (附源码)python个人健康自助记录查询系统 毕业设计 152015

热门文章

  1. JS 和 vue 时间倒计时(天、时、分、秒)
  2. 巧学JAVA--------扑克牌小游戏
  3. 安卓代替系统默认电话应用
  4. C语言思维导图(4)——简单函数
  5. n个点坐标解三角形个数
  6. 使用 Google Fonts 为网页添加美观字体
  7. 【献血小常识】------- 献血者血液化验有哪些项目?
  8. 小安安日本文化行16 母亲节
  9. 【安安教具】-【数学】-【实数】模拟器 教你如何用python制作实数模拟器 python小项目创作
  10. docker高级网络配置、高级数据卷机制和Dockerfile说明