爬取思路是这样的,先挖取所有股票的代码,放进数据库,然后根据股票代码爬取每一只股票的评论,多了,一定要加入代理池,我这里用的上上一篇文章写的代理池,我们给每个股票代码赋予一个状态值,一开始是outstanding,也就是1.如图

嗯!当一个所有初始的股票状态都为outstanding;当开始爬取的时候状态改为:processing;爬取完成状态改为:complete;失败的股票重置状态为:outstanding。为了能够处理股票进程被终止的情况、我们设置一个计时参数,当超过这个值时;我们则将状态重置为outstanding。

股票代码的爬取很简单,直接访问主页就好了

代码上比较简单,如图是其中一段

爬取之后我们看看数据库

这里5000来只股票

接下来看看股票评论的ajax请求

随便点开一只股票,然后点击里面的讨论就会触发该请求,评论时个json数据,解析之后直接提取就好了,这里简单说说URL里面的参数

如图

我们再处理一下

晚上开电脑跑了一个通宵,还以为自己的高性能电脑很吊,结果也只是跑了30万条数据,上两张结果图

谢谢大家阅读!谢谢蜗牛仔大大的文章,真的牛逼!

python爬虫股票市盈率是什么意思_神级的爬虫工程师用Python教你爬取全站股票评论!买哪只有底呢!...相关推荐

  1. python爬取股吧评论_神级的爬虫工程师用Python教你爬取全站股票评论!买哪只有底呢!...

    爬取思路是这样的,先挖取所有股票的代码,放进数据库,然后根据股票代码爬取每一只股票的评论,多了,一定要加入代理池,我这里用的上上一篇文章写的代理池,我们给每个股票代码赋予一个状态值,一开始是outst ...

  2. python交流企鹅裙_神级程序员巧用python开发王者荣耀把妹神器,一路升级上王者!...

    Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理 ...

  3. Python爬虫尝试-爬取指定股票的财务报表(东方财富网)

    Python爬虫 爬取财务报表(东方财富网) 爬取指定股票的财务报表 需求确认 思考实现 获取所有报告的url地址 根据获取的url地址下载文件或者输出正文内容 爬取指定股票的财务报表 需求确认 最经 ...

  4. python动态页面元素爬取_Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过浏览器审查元素解析真实网页地址...

    由于主流网站都使用JavaScript展示网页内容,和前面简单抓取静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,而是在HTML源码位置放上一段JavaScrip ...

  5. Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过浏览器审查元素解析真实网页地址...

    由于主流网站都使用JavaScript展示网页内容,和前面简单抓取静态网页不同的是,在使用JavaScript时,很多内容并不会出现在HTML源代码中,而是在HTML源码位置放上一段JavaScrip ...

  6. 我的第一篇博客:Python爬取新浪财经股票页面 并用matplotlib可视化输出结果

    (由于疫情在家闲着,开学至少得等到四月份,便在上个星期动起了学习python的念头,凭借着大一C语言微薄的基础草草学习语法后便开始了学写爬虫.跟着教学视频爬了几个静态网站后便开始尝试爬动态网站,同时也 ...

  7. 【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表

    [Python]大数据挖掘课程作业1--使用爬虫爬取B站评论.弹幕与UP主的投稿视频列表 数据挖掘部分的基本目标是:对于指定的UP主,能够获取其投稿视频列表:对于指定的视频,能够获取其视频标签.评论( ...

  8. python爬取所有股票报道

    前言 由于毕设是要对股票的新闻报道进行情感分析,所以爬取所有股票的个股资是必要的前提工作了.一开始准备直接在 [东方财富网](http://quote.eastmoney.com/stocklist. ...

  9. 【Python】使用Python做简易爬虫爬取B站评论

    目录 一.前言 二.分析网页 三.代码 1.头 2.获取根评论 3.获取子评论 四.总代码 五.总结 一.前言 B站评论没有查找功能,就随手写了一个爬虫爬取B站评论存储到本地txt中 首先需要安装py ...

  10. 经典爬虫:用Scrapy爬取百度股票

    前言 今天我们编写一个用 Scrapy 框架来爬取百度股票的代码,之前写过一篇爬取百度股票的文章(点我),代码的逻辑和这篇文章的逻辑是一样的,用到的解析器不同罢了. Scrapy 爬虫框架 Scrap ...

最新文章

  1. python有趣的小项目-Python几个有趣和特别的小故事
  2. Mybatis实体类属性名与数据库类名不对应的两种解决方法
  3. C# -- RSA加密与解密
  4. mvc 之 配置EF+oralce
  5. MySQL数据库事务及其特性
  6. 二分法查找的java简单实现
  7. java-idea-3批处理文件运行jar包
  8. windows下开发人员装机软件一览
  9. xx排排网数据加密(js逆向)
  10. Myeclipse10破解版安装包
  11. linux 百度网盘 限速,哈哈,我终于找到解除百度网盘账号限速的方法了,可是........
  12. iptables匹配statistic
  13. 笔记本闪屏是怎么回事呢?笔记本闪屏三个原因介绍
  14. 阿里云-云开发平台入门篇——静态网站的全生命周期实战
  15. linux永久修改dns
  16. 微信小程序Swiper组件轮播图片尺寸填坑
  17. Java网络编程笔记
  18. 重磅!谷歌开源TensorFlow 3D场景理解库
  19. 软件测试完后,运行后还有BUG,测试人员就应该背锅吗?
  20. 新冠疫情可视化(7月9日,7月10日)

热门文章

  1. 解锁新姿势:探讨复杂的 if-else 语句“优雅处理”的思路
  2. iphone x通知计算机,iPhone X砍掉通知栏运营商名称:需滑动显示
  3. CAS:1196090-89-7 (R)-2-氨基-2-甲基-6-庚酸 (R)- 2-(5‘-pentenyl)alanine
  4. 电赛机器视觉——基于pyzbar识别定位二维码和条形码
  5. 查看ip地址及设置启动项
  6. 数据解读 | 3万医护逆行背后,是谁在掏空家底驰援湖北
  7. Zabbix代理服务器
  8. Acronis Disk Director Suite V11.0.0.216使用详解
  9. float的基本用法
  10. BGP基础学习-实验报告