参考网址:http://guba.eastmoney.com/

采集目标:帖子标题,阅读数、评论数、链接、发布时间

代码如下:

import requests
from bs4 import BeautifulSoup
import time
import csv
import re
#复制请求头
head ={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding':'gzip,deflate',
'Accept-Language':'zh-CN,zh;q=0.9',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Cookie':'st_pvi=87732908203428;st_si=12536249509085;qgqp_b_id=9777e9c5e51986508024bda7f12e6544;_adsame_fullscreen_16884=1',
'Host':'guba.eastmoney.com',
'Referer':'http://guba.eastmoney.com/list,600596,f_1.html',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/65.0.3325.181Safari/537.36'}#设置数据存储方式,csv表格写入
f = open('dfcw.csv','a',newline='')
w = csv.writer(f)#获取帖子详细时间,列表也没有年份,可以作为获取帖子其他详细内容的通用方法
def get_time(url):try:q = requests.get(url,headers=head)soup = BeautifulSoup(q.text,'html.parser')ptime = soup.find('div',{'class':'zwfbtime'}).get_text()ptime = re.findall(r'\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}',ptime)[0]print(ptime)return ptimeexcept:return ''#获取列表页第n页的具体目标信息,由BeautifulSoup解析完成
def get_urls(url):baseurl = 'http://guba.eastmoney.com/'q = requests.get(url,headers=head)soup = BeautifulSoup(q.text,'html.parser')urllist = soup.findAll('div',{'class':'articleh'})print(len(urllist))for i in urllist:if i.find('a') != None:try:detailurl = i.find('a').attrs['href'].replace('/','')print(detailurl)titel = i.find('a').get_text()yuedu = i.find('span',{'class':'l1'}).get_text()pinlun = i.find('span', {'class': 'l2'}).get_text()ptime = get_time(baseurl+detailurl)w.writerow([detailurl,titel,yuedu,pinlun,ptime])print(baseurl + detailurl)except:pass
#循环所有页数
for i in range(1,101):print(i)get_urls('http://guba.eastmoney.com/list,600596,f_'+str(i)+'.html')
测试结果:
小结:

总的来说是一个比较简单的例子,帖子详情并没有采集,但是更新具体时间时已经进行了子链接的请求,可以顺便输出帖子的内容数据。

转自yqxmf.top

东方财富网-股吧论坛帖子信息采集相关推荐

  1. python中plguba_Python量化交易进阶讲堂-爬虫抓取东方财富网股吧帖子

    欢迎大家订阅<Python实战-构建基于股票的量化交易系统>小册子,小册子会陆续推出与小册内容相关的专栏文章,对涉及到的知识点进行更全面的扩展介绍.本篇专栏为小册子内容的加推篇!!! 前言 ...

  2. 利用python爬取东方财富网股吧评论并进行情感分析(一)

    利用python爬取东方财富网股吧评论(一) python-东方财富网贴吧文本数据爬取 分享一下写论文时爬数据用到的代码,有什么问题或者改善的建议的话小伙伴们一起评论区讨论.涉及内容在前人的研究基础之 ...

  3. [股吧]自己写的 东方财富网股吧 顶贴机 截图 自动拨号版 C# vs2005版

    [股吧]自己写的 东方财富网股吧 顶贴机 截图 自动拨号版 C# vs2005版 了解更多的我请去 http://hi.baidu.com/srxljl 呵呵,不让传图,算了,看这里吧:http:// ...

  4. 利用正则爬取东方财富网股吧评论.py

    #正则爬取东方财富网股吧评论 import requests import re from bs4 import BeautifulSoup url = 'http://guba.eastmoney. ...

  5. 华中数控机器人编程循环三次_我研究了下公司旗下的各机器人子公司的专利一直在同行业名列前茅,应该说技术不错,而_华中数控(300161)股吧_东方财富网股吧...

    华中数控: 机器人与智能产线,是公司"一核三军"战略规划中重点发展的三大业务板块之一,公司掌握工业机器人控制器.驱动器.伺服电机.机器人本体等关键核心技术,先后获得几项国际专利和多 ...

  6. python爬取论坛付费内容_Python进阶量化交易专栏场外篇20-爬虫抓取股票论坛帖子...

    欢迎大家订阅<教你用 Python 进阶量化交易>专栏!为了能够提供给大家更轻松的学习过程,笔者在专栏内容之外已陆续推出一些手记来辅助同学们学习本专栏内容,目前推出的扩展篇链接如下: 为了 ...

  7. python 爬取财经新闻股票_Python进阶量化交易专栏场外篇20-爬虫抓取股票论坛帖子...

    欢迎大家订阅<教你用 Python 进阶量化交易>专栏!为了能够提供给大家更轻松的学习过程,笔者在专栏内容之外已陆续推出一些手记来辅助同学们学习本专栏内容,目前推出的扩展篇链接如下: 为了 ...

  8. 动网论坛帖子跟帖展开/关闭测试

    看到动网论坛帖子列表里在用,就把它挖出来,核心是用浮动框架iframe来显示或隐藏跟帖列表. 共有3个文件和4个图片 在线演示:http://music.lzr.com.cn/apple/test/ ...

  9. 教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!!

    教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!! 代码展示: 开发环境: windows10 python3.6 开发工具: pycharm weddriver 库: sel ...

最新文章

  1. 罗格斯大学电气与计算机工程专业怎么样,美国电子工程排名 - 电子计算机工程的研究生教育,特别是偏向电路设计方向,请问是美国罗格斯大学新布朗斯维克校区好还是清华...
  2. 安全配置交换机端口 提高网络安全性
  3. 淘宝面试:说一下 ThreadLocal 的原理?网友:现在面试不看源码不行啊~
  4. 【C语言项目】贪吃蛇游戏(上)
  5. 学计算机土味情话,计算机土味情话
  6. Linux(debian7)操作基础(十二)之文件加密使用指南
  7. (20)HTML5 <summary>标签
  8. 台达编码器型号含义_台达伺服电机命名规则
  9. 《FLUENT 14流场分析自学手册》——1.5 湍流模型
  10. deepin安装NVIDIA显卡驱动
  11. hdu 1728 逃离迷宫
  12. Linux 用户账号安全管理,文件系统和日志
  13. MBUS CJ/T 188水表协议 Meter-Bus总线
  14. 微信订阅通知开发 (小白教程)微擎
  15. 远程链接linux桌面的软件,远程linux桌面软件
  16. 7-20 简单计算器
  17. Linux系统有哪些?盘点常用的 8 个Linux系统!
  18. 预习计算机组成原理之计算机的运算方法——笔记4
  19. 弘扬奥运精神,我们49行画个奥运五环
  20. JS数组操作 速查手册

热门文章

  1. 枚举型typedef
  2. FreeRTOS原函数库API
  3. 限塑令下的新材料——聚乳酸(PLA)
  4. Android Service服务的相关介绍
  5. hadoop2.X视频教程全集下载
  6. 【语音信号处理】自适应滤波方法——LMS算法
  7. 计算机专业的毕业证照片,拿到毕业证发朋友圈的句子 晒毕业照片的说说
  8. Handle ,HMODULE ,HINSTANCE,HINSTANCE
  9. 小程序 + 电商,玩转新零售
  10. 基于javaweb的仿天猫商城系统(java+jsp+springboot+ssm+mysql)