python 网络爬虫 选择日期提交得到数据
问题背景:需要统计雁门关10年的客流量数据,每次需要选择时间,然后提交,网页上回返回客流量数据,网址链接:http://www.yanmenguan.cn/yuce/index/cid/166.shtml
思路:网页选择时间,然后提交时间,页面返回一个数据,和工作上遇到的POST类似,考虑通过python编写一个post循环得到相应的数据并保存到excel。
步骤:
1、在chrome打开网页,F12进入调试状态
选择network找到Form Data就是每次post给后台服务器的数据,可以发现post的data有时间date和dosubmit信息。
2、python脚本编写
# coding=utf-8
import requests
import datetime
post_url = "http://www.yanmenguan.cn/yuce/index/cid/166.shtml"# 现在的时间
now = datetime.datetime.now()
# 递减的时间
delta = datetime.timedelta(days=-1)
# 10年后的时间
endnow = now - datetime.timedelta(days=3662)
# 10年后的时间转换成字符串
endnow = str(endnow.strftime('%Y-%m-%d'))
offset = nowcsvfile = open('output.csv', 'w') # 创建记录信息
csvfile.write('时间' + ",")
csvfile.write('人数' + "\n")# 当日期减少到10年后的日期,循环结束
while str(offset.strftime('%Y-%m-%d')) != endnow:offset += deltadata = {'date': str(offset.strftime('%Y-%m-%d')),'dosubmit': '查询 '}tqHtml = requests.post(post_url, data=data)res = tqHtml.textnum = res[10300:10400].split('<')[0]print('统计到' + str(offset.strftime('%Y-%m-%d')) + '的来访客流量')csvfile.write(str(offset.strftime('%Y-%m-%d')) + ",")csvfile.write(num + "\n")
代码中首先计算了10年的时间天数为3662,达到对应的时间字符串,爬虫的数据放在csv文件中。通过requests模块进行post,返回的html文件,尝试了json等方式都无法提取到相应的客流量数据,最后采用了字符串的处理方法,通过split解析出了相应的人数信息。
python 网络爬虫 选择日期提交得到数据相关推荐
- Python网络爬虫实例1:股票数据定向爬虫
Python网络爬虫实例:股票数据定向爬虫 一.功能描述 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 技术路线:requests-bs4-re 二.候选数据网站选择 候选网站 ...
- python网络爬虫系列(六)——数据提取 lxml模块
一.数据提取-lxml模块 知识点 了解 lxml模块和xpath语法的关系 了解 lxml模块的使用场景 了解 lxml模块的安装 了解 谷歌浏览器xpath helper插件的安装和使用 掌握 x ...
- python网络爬虫系列(五)——数据提取 jsonpath模块
一.数据提取概述 知识点 了解 响应内容的分类 了解 xml和html的区别 1. 响应内容的分类 在发送请求获取响应之后,可能存在多种不同类型的响应内容:而且很多时候,我们只需要响应内容中的一部分数 ...
- python网络爬虫到底合不合法?怎么样才算合法?
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:python学习教程 想要学习Python?有问题得不到第 ...
- Python 网络爬虫实战:猫眼电影 38950 条评论数据告诉你《无名之辈》是否值得一看?
11月16日,一部无流量明星.无大制作.无大IP的"三无"国产电影<无名之辈>上映后,竟然连续打败了超级英雄"毒液".会魔法的"神奇动物& ...
- 【Python】猎聘网招聘数据爬虫(Python网络爬虫课设简要)
[Python]猎聘网招聘数据爬虫(Python网络爬虫课设简要) 注: 本文仅供学习交流使用! 合肥学院-20信管-20302211009 项目文件可自行前往博客主页下载或联系作者qq(341625 ...
- 实战|手把手教你利用Python网络爬虫获取新房数据
一.项目背景 大家好,我是J哥. 新房数据,对于房地产置业者来说是买房的重要参考依据,对于房地产开发商来说,也是分析竞争对手项目的绝佳途径,对于房地产代理来说,是踩盘前的重要准备. 今天J哥以惠民之家 ...
- Python 网络爬虫笔记8 -- 股票数据定向爬虫
Python 网络爬虫笔记8 – 股票数据定向爬虫 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Pyth ...
- Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR
Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR方案 用ocr与pyautogui,以及webbrowser实现功能:设计爬虫抓取新浪微博数据,比如,抓取微博用 ...
最新文章
- BZOJ1922: [Sdoi2010]大陆争霸
- html与java接口_html用ajax请求服务器后端java接口跨域问题解决
- java组件化的优势_组件化编程开发如何判断组件的优劣性
- 杀毒软件:看企业版与单机版之间区别
- 【tool】kali linux关于postgresql的使用
- 是逻辑运算符 java_跟我学java编程—Java逻辑运算符
- PHP register_shutdown_function函数详解
- 利用构造函数实现累加
- 经纬度(度分秒)坐标转换为小数格式(weixin公众号【图说GIS】)
- ORACLE 11G使用exp或者pl/sql导出空表
- 为什么DataGridView不出现滚动条?它的ScrollBars属性我设置为Both了
- 西游记中最顶尖的妖怪
- SIGMOD 2017论文的摘要与看法
- (8)Artemis检测(僵尸连接、慢消费者、代理异常)
- java map字典序_java中对map的字典序排序
- Entity Framework优缺点及使用方法总结
- 【PG】PG基础操作
- chrome硬件加速_如何在Chrome中打开和关闭硬件加速
- 如何发表一篇核心期刊论文
- 今天15:00| ICML专场四,7位PhD来袭!
热门文章
- 增强学习(一) ----- 基本概念
- 使用SGD(Stochastic Gradient Descent)进行大规模机器学习
- window下Java的环境变量的配置
- matlab中的cellstr的用法,matlab中的cell array, cellstr()和char()的用法
- Pandas实战教程 | DataFrame连接 pd.concat()
- 更新pip到指定版本
- IDEA在当前类中查找方法快捷键--转
- 李宏毅深度学习——第一天(Bias and Variance)
- 阿里巴巴的五大平台野心,让“连接”论成为过去式
- 主成分分析(PCA)——以2维图像为例