前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

当需要进行大规模查询时(比如目前遇到的情形:查询某个省所有发债企业的YY评级分数),人工查询显然太过费时,那就写个爬虫吧。

由于该爬虫实在过于简单,就只简单概述下。

一、请求端

通过观察YY评级的网页信息,如下图(F12或右击进入检查,点击network—>XHR—>headers)。

红色框表明是个get请求(其实这种网页基本都是Ajax get,需要总结实际url的规律的)。

绿色框即为实际URL,通过分析该URL,其由两部分组成。前半部分为“https://web.ratingdog.cn/v1/search?”,后半部分为黄色框内内容用“&”符号连接后的结果。黄色框内的内容,只有企业名称为变量,且为已知变量,那URL即可据此确定了。

另外需注意,YY评级需要登录才可查询数据,在构建头部信息进行访问时,一定要提前登录,并在头部信息中放入登录信息和登录状态。

二、响应端

通过观察网页的响应信息(F12或右击进入检查,点击network—>XHR—>response),如下图。响应信息及其简单,我们所需要的YY评级分数安详地躺在那里,简单到一个正则表达式就可以提取出该数据。正则如下:

"msg".*?"IssuerName":"(.*?)","YYRating":"(.*?)/10","IntrinsicRating".*?"

三、代码

所需数据较少,代码相对简单,就不建立函数了,直接一路到底吧。如下:

运行代码后,得到结果如下。安徽省的100多条数据,就到了本地了

源代码文档加群:1136192749

Python实现YY评级分数的爬取,并保存数据(附代码)相关推荐

  1. python+selenium爬虫,使用selenium爬取热门微博数据

    python爬虫使用selenium爬取热门微博数据 完整代码 from selenium.webdriver import Chrome import time import csvf = open ...

  2. Python爬虫:Xpath爬取网页信息(附代码)

    Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...

  3. python 百度百科 爬虫_爬虫爬取百度百科数据

    以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...

  4. python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!

    2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...

  5. python爬虫表格table_Python基于pandas爬取网页表格数据

    以网页表格为例:https://www.kuaidaili.com/free/ 该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不 ...

  6. python房子代码_基于python的链家小区房价爬取——仅需60行代码!

    简介 首先打开相关网页(北京链家小区信息). 注意本博客的代码适用于爬取某个城市的小区二手房房价信息. 如果需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多. 效果展示 因为只需要60行 ...

  7. python爬取南京市房价_基于python的链家小区房价爬取——仅需60行代码

    简介 首先打开相关网页(北京链家小区信息). 注意本博客的代码适用于爬取某个城市的小区二手房房价信息. 如果需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多. 效果展示 因为只需要60行 ...

  8. python 爬虫实例-python爬虫实例,一小时上手爬取淘宝评论(附代码)

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...

  9. Python爬虫实例,一小时上手爬取淘宝评论(附代码)!

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...

最新文章

  1. PIE SDK点元素的绘制
  2. springboot控制接口返回的字段_SpringBoot实战:SpringBoot之Rest Full接口自定义返回数据类型(ResponseBodyAdvice)...
  3. WPF 基础控件之 DataGrid 样式
  4. oh,我的老伙计,你看看这近五十个dapr视频
  5. JMeter - 如何创建可重用和模块化测试脚本
  6. IDEA打包jar包并运行
  7. 浅谈文字编码和Unicode(上)
  8. kernel input device
  9. 石开kk高中计算机考试,石开KK电脑考试软件
  10. Java10-I/O
  11. 第十六届全国大学生智能汽车比赛—摄像头算法控制总结
  12. python易盾滑动验证码
  13. 用了TCP协议,就一定不会丢包嘛?
  14. What?Tomcat-竟然也算中间件?
  15. 数据标注是什么,如何高效完成数据标注?
  16. 华硕笔记本U盘装系统教程
  17. matlab图像对折,Matlab下如何将一个索引图像进行对折小程序--原创
  18. ElementUI多重条件、嵌套条件查询
  19. 网站用户行为数据收集和分析方法
  20. 同步电路出现异步清零可以吗_异步清零和同步清零置数区别

热门文章

  1. php 001 002累加,「老叶PHP笔记」002 PHP环境调试——phpStudy
  2. 明天上午10点,准时开抢!
  3. ecc算法的代码实现
  4. 双模sa_中科院博士生实力解读:NSA和SA有啥区别?5G双模才是主流!
  5. NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC
  6. Kubernetes 1.12.0 Kube-controller-manager之replicaset-controller源码阅读分析
  7. 思科网络维护和故障检测
  8. 【蓝桥杯选拔赛真题36】Scratch水果超市小程序 少儿编程scratch蓝桥杯选拔赛真题讲解
  9. git常用命令|git迁移仓库地址
  10. 路由器PPTP穿透的经验分享