问题背景:需要统计雁门关10年的客流量数据,每次需要选择时间,然后提交,网页上回返回客流量数据,网址链接:http://www.yanmenguan.cn/yuce/index/cid/166.shtml

思路:网页选择时间,然后提交时间,页面返回一个数据,和工作上遇到的POST类似,考虑通过python编写一个post循环得到相应的数据并保存到excel。

步骤:

1、在chrome打开网页,F12进入调试状态

选择network找到Form Data就是每次post给后台服务器的数据,可以发现post的data有时间date和dosubmit信息。

2、python脚本编写

# coding=utf-8
import requests
import datetime
post_url = "http://www.yanmenguan.cn/yuce/index/cid/166.shtml"# 现在的时间
now = datetime.datetime.now()
# 递减的时间
delta = datetime.timedelta(days=-1)
# 10年后的时间
endnow = now - datetime.timedelta(days=3662)
# 10年后的时间转换成字符串
endnow = str(endnow.strftime('%Y-%m-%d'))
offset = nowcsvfile = open('output.csv', 'w')  # 创建记录信息
csvfile.write('时间' + ",")
csvfile.write('人数' + "\n")# 当日期减少到10年后的日期,循环结束
while str(offset.strftime('%Y-%m-%d')) != endnow:offset += deltadata = {'date': str(offset.strftime('%Y-%m-%d')),'dosubmit': '查询 '}tqHtml = requests.post(post_url, data=data)res = tqHtml.textnum = res[10300:10400].split('<')[0]print('统计到' + str(offset.strftime('%Y-%m-%d')) + '的来访客流量')csvfile.write(str(offset.strftime('%Y-%m-%d')) + ",")csvfile.write(num + "\n")

代码中首先计算了10年的时间天数为3662,达到对应的时间字符串,爬虫的数据放在csv文件中。通过requests模块进行post,返回的html文件,尝试了json等方式都无法提取到相应的客流量数据,最后采用了字符串的处理方法,通过split解析出了相应的人数信息。

python 网络爬虫 选择日期提交得到数据相关推荐

  1. Python网络爬虫实例1:股票数据定向爬虫

    Python网络爬虫实例:股票数据定向爬虫 一.功能描述 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 技术路线:requests-bs4-re 二.候选数据网站选择 候选网站 ...

  2. python网络爬虫系列(六)——数据提取 lxml模块

    一.数据提取-lxml模块 知识点 了解 lxml模块和xpath语法的关系 了解 lxml模块的使用场景 了解 lxml模块的安装 了解 谷歌浏览器xpath helper插件的安装和使用 掌握 x ...

  3. python网络爬虫系列(五)——数据提取 jsonpath模块

    一.数据提取概述 知识点 了解 响应内容的分类 了解 xml和html的区别 1. 响应内容的分类 在发送请求获取响应之后,可能存在多种不同类型的响应内容:而且很多时候,我们只需要响应内容中的一部分数 ...

  4. python网络爬虫到底合不合法?怎么样才算合法?

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:python学习教程 想要学习Python?有问题得不到第 ...

  5. Python 网络爬虫实战:猫眼电影 38950 条评论数据告诉你《无名之辈》是否值得一看?

    11月16日,一部无流量明星.无大制作.无大IP的"三无"国产电影<无名之辈>上映后,竟然连续打败了超级英雄"毒液".会魔法的"神奇动物& ...

  6. 【Python】猎聘网招聘数据爬虫(Python网络爬虫课设简要)

    [Python]猎聘网招聘数据爬虫(Python网络爬虫课设简要) 注: 本文仅供学习交流使用! 合肥学院-20信管-20302211009 项目文件可自行前往博客主页下载或联系作者qq(341625 ...

  7. 实战|手把手教你利用Python网络爬虫获取新房数据

    一.项目背景 大家好,我是J哥. 新房数据,对于房地产置业者来说是买房的重要参考依据,对于房地产开发商来说,也是分析竞争对手项目的绝佳途径,对于房地产代理来说,是踩盘前的重要准备. 今天J哥以惠民之家 ...

  8. Python 网络爬虫笔记8 -- 股票数据定向爬虫

    Python 网络爬虫笔记8 – 股票数据定向爬虫 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Pyth ...

  9. Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR

    Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR方案 用ocr与pyautogui,以及webbrowser实现功能:设计爬虫抓取新浪微博数据,比如,抓取微博用 ...

最新文章

  1. BZOJ1922: [Sdoi2010]大陆争霸
  2. html与java接口_html用ajax请求服务器后端java接口跨域问题解决
  3. java组件化的优势_组件化编程开发如何判断组件的优劣性
  4. 杀毒软件:看企业版与单机版之间区别
  5. 【tool】kali linux关于postgresql的使用
  6. 是逻辑运算符 java_跟我学java编程—Java逻辑运算符
  7. PHP register_shutdown_function函数详解
  8. 利用构造函数实现累加
  9. 经纬度(度分秒)坐标转换为小数格式(weixin公众号【图说GIS】)
  10. ORACLE 11G使用exp或者pl/sql导出空表
  11. 为什么DataGridView不出现滚动条?它的ScrollBars属性我设置为Both了
  12. 西游记中最顶尖的妖怪
  13. SIGMOD 2017论文的摘要与看法
  14. (8)Artemis检测(僵尸连接、慢消费者、代理异常)
  15. java map字典序_java中对map的字典序排序
  16. Entity Framework优缺点及使用方法总结
  17. 【PG】PG基础操作
  18. chrome硬件加速_如何在Chrome中打开和关闭硬件加速
  19. 如何发表一篇核心期刊论文
  20. 今天15:00| ICML专场四,7位PhD来袭!

热门文章

  1. 增强学习(一) ----- 基本概念
  2. 使用SGD(Stochastic Gradient Descent)进行大规模机器学习
  3. window下Java的环境变量的配置
  4. matlab中的cellstr的用法,matlab中的cell array, cellstr()和char()的用法
  5. Pandas实战教程 | DataFrame连接 pd.concat()
  6. 更新pip到指定版本
  7. IDEA在当前类中查找方法快捷键--转
  8. 李宏毅深度学习——第一天(Bias and Variance)
  9. 阿里巴巴的五大平台野心,让“连接”论成为过去式
  10. 主成分分析(PCA)——以2维图像为例