Python实现YY评级分数的爬取,并保存数据(附代码)
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
当需要进行大规模查询时(比如目前遇到的情形:查询某个省所有发债企业的YY评级分数),人工查询显然太过费时,那就写个爬虫吧。
由于该爬虫实在过于简单,就只简单概述下。
一、请求端
通过观察YY评级的网页信息,如下图(F12或右击进入检查,点击network—>XHR—>headers)。
红色框表明是个get请求(其实这种网页基本都是Ajax get,需要总结实际url的规律的)。
绿色框即为实际URL,通过分析该URL,其由两部分组成。前半部分为“https://web.ratingdog.cn/v1/search?”,后半部分为黄色框内内容用“&”符号连接后的结果。黄色框内的内容,只有企业名称为变量,且为已知变量,那URL即可据此确定了。
另外需注意,YY评级需要登录才可查询数据,在构建头部信息进行访问时,一定要提前登录,并在头部信息中放入登录信息和登录状态。
二、响应端
通过观察网页的响应信息(F12或右击进入检查,点击network—>XHR—>response),如下图。响应信息及其简单,我们所需要的YY评级分数安详地躺在那里,简单到一个正则表达式就可以提取出该数据。正则如下:
"msg".*?"IssuerName":"(.*?)","YYRating":"(.*?)/10","IntrinsicRating".*?"
三、代码
所需数据较少,代码相对简单,就不建立函数了,直接一路到底吧。如下:
运行代码后,得到结果如下。安徽省的100多条数据,就到了本地了
源代码文档加群:1136192749
Python实现YY评级分数的爬取,并保存数据(附代码)相关推荐
- python+selenium爬虫,使用selenium爬取热门微博数据
python爬虫使用selenium爬取热门微博数据 完整代码 from selenium.webdriver import Chrome import time import csvf = open ...
- Python爬虫:Xpath爬取网页信息(附代码)
Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...
- python 百度百科 爬虫_爬虫爬取百度百科数据
以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...
- python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!
2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...
- python爬虫表格table_Python基于pandas爬取网页表格数据
以网页表格为例:https://www.kuaidaili.com/free/ 该网站数据存在table标签,直接用requests,需要结合bs4解析正则/xpath/lxml等,没有几行代码是搞不 ...
- python房子代码_基于python的链家小区房价爬取——仅需60行代码!
简介 首先打开相关网页(北京链家小区信息). 注意本博客的代码适用于爬取某个城市的小区二手房房价信息. 如果需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多. 效果展示 因为只需要60行 ...
- python爬取南京市房价_基于python的链家小区房价爬取——仅需60行代码
简介 首先打开相关网页(北京链家小区信息). 注意本博客的代码适用于爬取某个城市的小区二手房房价信息. 如果需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多. 效果展示 因为只需要60行 ...
- python 爬虫实例-python爬虫实例,一小时上手爬取淘宝评论(附代码)
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
- Python爬虫实例,一小时上手爬取淘宝评论(附代码)!
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
最新文章
- PIE SDK点元素的绘制
- springboot控制接口返回的字段_SpringBoot实战:SpringBoot之Rest Full接口自定义返回数据类型(ResponseBodyAdvice)...
- WPF 基础控件之 DataGrid 样式
- oh,我的老伙计,你看看这近五十个dapr视频
- JMeter - 如何创建可重用和模块化测试脚本
- IDEA打包jar包并运行
- 浅谈文字编码和Unicode(上)
- kernel input device
- 石开kk高中计算机考试,石开KK电脑考试软件
- Java10-I/O
- 第十六届全国大学生智能汽车比赛—摄像头算法控制总结
- python易盾滑动验证码
- 用了TCP协议,就一定不会丢包嘛?
- What?Tomcat-竟然也算中间件?
- 数据标注是什么,如何高效完成数据标注?
- 华硕笔记本U盘装系统教程
- matlab图像对折,Matlab下如何将一个索引图像进行对折小程序--原创
- ElementUI多重条件、嵌套条件查询
- 网站用户行为数据收集和分析方法
- 同步电路出现异步清零可以吗_异步清零和同步清零置数区别
热门文章
- php 001 002累加,「老叶PHP笔记」002 PHP环境调试——phpStudy
- 明天上午10点,准时开抢!
- ecc算法的代码实现
- 双模sa_中科院博士生实力解读:NSA和SA有啥区别?5G双模才是主流!
- NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC
- Kubernetes 1.12.0 Kube-controller-manager之replicaset-controller源码阅读分析
- 思科网络维护和故障检测
- 【蓝桥杯选拔赛真题36】Scratch水果超市小程序 少儿编程scratch蓝桥杯选拔赛真题讲解
- git常用命令|git迁移仓库地址
- 路由器PPTP穿透的经验分享