python--真气网监测站点数据的抓取
笔者从事环保行业,因为最近的项目需要从真气网拿监测站点的数据,所以开发了下面的爬虫抓取数据。
下图每一个红色的框就是每一个站点的AQI值,单机鼠标,显示如图亦庄开发区的AQI值及污染因子6参数、首要污染物、空气等级、站点类型等信息,我们本次只拿AQI值及污染因子6参数。
打开F12看一下,红色的框Data是一串字母,怀疑是被网站加密了,得找加密的算法了。
下图就是我在Sources中找到网页动态加载的方法,getParam方法就是生成上面加密的方法,后面就容易找到加密的js文件。加密的Data请求网页返回的数据也是加密的,然后也是用到同一个js文件解密,就可以等到数据了。
下图就是解析后的数据,一个站点24个小时的数据,拿到原始数据后一看居然没有首要污染物,mmp,只有自己算每一个污染因子的IAQI(空气质量分指数),6个因子算完以后,最大值就是这个站点本小时的AQI值。
下面两张图就是需要的数据和公式,不算难。辛亏python的计算库很多,笔者用pandas就解决了。
下图就是公式的算法。
至此,这个爬虫也就完成了,Mongodb查一下数据,没问题。如有错误,欢迎指正,谢谢!
python--真气网监测站点数据的抓取相关推荐
- python爬知识星球付费数据_python抓取知识星球精选帖,制作为pdf文件
版权声明:本文为xing_star原创文章,转载请注明出处! 背景: 这两年知识付费越来越热,我也加入了不少知识星球,总觉得信息有些过载了.一天不看,就有500+的内容显示未读,弄的自己格外的焦虑.感 ...
- java取网页数据_Java抓取网页数据(原来的页面+Javascript返回数据)
转载请注明出处. 有时候因为种种原因.我们须要採集某个站点的数据.但因为不同站点对数据的显示方式略有不同! 本文就用Java给大家演示怎样抓取站点的数据:(1)抓取原网页数据.(2)抓取网页Javas ...
- 关于淘宝网评论数据的抓取
关于淘宝网评论数据的抓取 第一步 如何获取商品基本信息 我们打开多张淘宝的商品网页,分析网页的URL组成,寻找其中的规律,下面给出一个例子 我们发现了一个规律就是http://item.taobao. ...
- python爬取公交车站数据_Python爬虫实例_城市公交网络站点数据的爬取方法
爬取的站点:http://beijing.8684.cn/ (1)环境配置,直接上代码: # -*- coding: utf-8 -*- import requests ##导入requests fr ...
- PythonStock(37)股票系统:Python股票系统发布V2.0版本,改个名字吧,叫Python全栈股票系统2.0,可以实现数据的抓取(akshare),统计分析,数据报表展示。
目录 前言 1,关于Python全栈股票系统V2.0 2,在CSDN上居然有人给代码打包收费下载!! 2,更新docker镜像 3,总结 前言 使用Python开发一个web股票项目. [github ...
- Python,网络爬虫selenium与pyautogui抓取新浪微博用户数据
Python,网络爬虫selenium与pyautogui抓取新浪微博用户数据 不需要登陆新浪微博账户,直接运行就可以通过python爬虫爬取新浪微博用户数据.本例selenium与pyautogui ...
- Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR
Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR方案 用ocr与pyautogui,以及webbrowser实现功能:设计爬虫抓取新浪微博数据,比如,抓取微博用 ...
- python爬虫原理和运营商SDK数据建模抓取的区别
当今是个不折不扣的大数据时代,大数据贯穿了我们的衣食住行,可以这么说,大数据是目前最宝贵的数据宝藏! 什么是Python爬虫? Python爬虫又叫网络爬虫 关于Python爬虫,我们需要知道的有: ...
- Python之 - 使用Scrapy建立一个网站抓取器,网站爬取Scrapy爬虫教程
Scrapy是一个用于爬行网站以及在数据挖掘.信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架,广泛用于工业. 在本文中我们将建立一个从Hacker News爬取数据的爬虫,并将数据按我 ...
最新文章
- 收藏功能_微信强大的收藏功能,你们用了吗?
- 传感器实训心得体会_传感器实训心得
- RightScale发布2017年度云调查报告
- python与excel的区别-python比较两个excel表格的差异
- 【译】Go语言声明语法
- 面向对象编程(OOP)和面向过程编程
- java正则表达式 s报错_Java基础--正则表达式的规则
- VTK:Rendering之DiffuseSpheres
- Touch the AppCache manifest file
- 和男朋友出去玩,该去哪里​?
- Linux操作Oracle(5)——Oracle11g 卸载OPatch安装补丁的方法【rollback已安装的补丁】及报错问题解决
- bootstrapSwitch bootstrap 的开关组件扩展
- 【OpenCV入门指南】第八篇 灰度直方图
- linux下多条命令组合使用
- 微信机器人接口,微信ipad协议
- rainmeter频谱动效和动态挂件
- oop-klass_在PHP和MySQL中处理时间和日期-OOP版本
- 1949. 坚定的友谊
- 音频可视化图形引擎—Specinker
- 7-11 群发邮件 (10 分)