利用正则爬取东方财富网股吧评论.py
#正则爬取东方财富网股吧评论
import requests
import re
from bs4 import BeautifulSoup
url = 'http://guba.eastmoney.com/list,002769.html'
res = requests.get(url) #默认是UTF-8
html = res.text
soup = BeautifulSoup(html, 'html.parser')
#print(soup)
for results in soup:results = str(results)results = re.findall(r'<span class="l1">\d+</span>.*?title="(.*?)" >.*?<a href=".*?" data-popper="\d+" data-poptype="1" target="_blank">(.*?)</a><input.*? class="l5">(.*?)</span>', html)#results = re.findall(r'<span class="l1">\d+</span>.*?title="(.*?)">.*?data-popper="\d+" data-poptype="1" href="(.*?)" target="_blank">(.*?)</a><input.*? class="l5">(.*?)</span>', html)for result in results:#print(result)print(result[0],result[1],result[2])
利用正则爬取东方财富网股吧评论.py相关推荐
- 利用python爬取东方财富网股吧评论并进行情感分析(一)
利用python爬取东方财富网股吧评论(一) python-东方财富网贴吧文本数据爬取 分享一下写论文时爬数据用到的代码,有什么问题或者改善的建议的话小伙伴们一起评论区讨论.涉及内容在前人的研究基础之 ...
- selenium+chromedriver部署到云主机并爬取东方财富网的股票评论(一)
Selenium+ChromeDriver:可以更方便的爬取网站主页,而不用考虑加密抓包之类的内容.但也有其缺点,工作效率不如requests快.而且在Linux无面板主机部署起来略麻烦. 部分操作摘 ...
- python中plguba_Python量化交易进阶讲堂-爬虫抓取东方财富网股吧帖子
欢迎大家订阅<Python实战-构建基于股票的量化交易系统>小册子,小册子会陆续推出与小册内容相关的专栏文章,对涉及到的知识点进行更全面的扩展介绍.本篇专栏为小册子内容的加推篇!!! 前言 ...
- 手把手教你爬取东方财富网个股财经资讯
利用python爬取东方财富网财经资讯 业务需求 网页分析 网页内容获取 保存到本地 业务需求 需要爬取给定个股资讯,如给定个股:000998 隆平高科.当然你的标的也可以是一篮子股票. 网页分析 进 ...
- 爬取东方财富网股票行情数据和资讯
爬取东方财富网股票行情数据和资讯 这个需求源于我的一个练手项目 本篇博客参考:https://zhuanlan.zhihu.com/p/50099084 该博客介绍的东西本博客不做论述 使用技术: 语 ...
- 爬取东方财富网当日股票交易情况
爬取东方财富网当日股票交易情况 爬虫的第一步是得到数据的存放地址,因此,爬取股票行情数据之前,第一步工作是解析网页,寻找数据的url. 东方财富网股票行情界面如图: 此页面的链接为:http://qu ...
- [Python爬虫]爬取东方财富网公司公告需要注意的几个问题
在上一篇文章中,以爬取东方财富网公司公告为例,介绍了如何爬取利用ajax加载的网页,以及如何模拟翻页.但是,在实际应用的过程中,发现了一些问题.接下来就来一一分析解决. 问题一.公告数量过多,后面的公 ...
- 爬取东方财富网数据笔记
小白是如何学习爬虫的?首先先从简单的入手,在b站上寻找爬虫视频,这里推荐Python爬虫编程基础5天速成(2021全新合集)Python入门+数据分析_哔哩哔哩_bilibili 有编程基础的仅需要观 ...
- 教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!!
教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!! 代码展示: 开发环境: windows10 python3.6 开发工具: pycharm weddriver 库: sel ...
最新文章
- 红帽Linux 6.5上配置ASM流程
- HTML5 javascript修改canvas的大小
- CentOS-7.2、7.5模板机制作
- JS 时间转化为几分钟前 几小时前 几天前
- 【概念原理】四种SQL事务隔离级别和事务ACID特性
- python url加密_使用base64加密在URL传递(python和php版本)
- MongoDB 教程一: 安装和使用 (Mongodb启动命令mongod参数说明)
- 纯JS前端分页方法(JS分页)
- 谷歌 ICLR 2020 | 向量化召回也需要『预训练』
- commvault xtrabackup全实例备份失败 处于未决状态(下)
- 自定义Android Switch控件
- php 月份英文缩写,php如何实现月份转换
- HDU 4422 The Little Girl who Picks Mushrooms
- php免费利用飞信发送验证码,PHP 使用飞信API发送免费短信示例
- Fern wifi cracker 无线破解工具——图解
- BZOJ2827 千山鸟飞绝
- 【Error】 the public key is not available: NO_PUBKEY 4F4EA0AAE5267A6C
- 一种绘制有向图的方法<TSE93> - 1. 引言
- C# WPF新版开源控件库:Newbeecoder.UI
- 格拉姆角场GAF将时序数据转换为图像并应用于故障诊断
热门文章
- LeetCode知识点总结 - 377
- 拯救007 迪杰斯特拉最短路解决
- 聊一聊目前 Web 前端开发的一些困局
- java绘图扇形_PieChart扇形图的实现
- 对话Facebook人工智能实验室主任、深度学习专家Yann LeCun
- 电力用户用电信息采集系统
- python爬虫入门练习——爬酷6网视频
- android 自动换行linearlayout,Android LinearLayout实现自动换行效果
- vxWorks编译出现dld:error:Undefined symbols found字样
- EXCEL: 查找符合多个条件,并且不重复的数据的个数的3种方法:公式,数据透视表,数组公式