#导入模块
import requests
import pandas as pd
import time
from bs4 import BeautifulSoup
import jieba
from matplotlib import pyplot as plt
from wordcloud import WordCloud
from PIL import Image
import numpy as np
import pandas as pd#访问网页
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36"}
url_1 = "http://gubaf10.eastmoney.com/list,zssh000001,99_"
url_2 = ".html"
#逐一解析
for ii in range(70):url = url_1 + str(ii+1)+url_2html = requests.get(url,headers=header)soup = BeautifulSoup(html.content,'lxml')#阅读数read_counts = soup.find_all('span', attrs={'class':'l1 a1'})#评论数comment_counts = soup.find_all('span', attrs={'class':'l2 a2'})#标题数title_counts = soup.find_all('span', attrs={'class':'l3 a3'})#作者author_counts = soup.find_all('span', attrs={'class':'l4 a4'})#时间time_counts = soup.find_all('span', attrs={'class':'l5 a5'})for i in range(len(read_counts)-1):data1=[(read_counts[i+1].string,comment_counts[i+1].string,title_counts[i+1].find(name='a').get('title'),author_counts[i+1].find(name='font').string,time_counts[i+1].string)]data2 = pd.DataFrame(data1)data2.to_csv('guba.csv',header=False,index=False,mode='a+')print('page'+str(ii+1)+' has done')time.sleep(1)
#对爬取数据进行词云图制作
data = pd.read_csv("guba.csv",header=None,names=['阅读','评论','标题','作者','更新时间',])
data1 = data.loc[data.index[:],['标题']]
#使用jieba分词,获取词列表
#分词
data2 = str(data1)#必须把dataerame转换成字符串
cut = jieba.cut(data2)
string = ' '.join(cut)
print(string)
print(len(string))
#绘图准备
img = Image.open('86.jpg')
img_array = np.array(img)#将图片转化为数组
wc = WordCloud(background_color = 'white',mask = img_array,font_path = "STXINWEI.TTF")
wc.generate_from_text(string)#切好词放进去
#绘制图片
fig = plt.figure(1)#创建图片
plt.rcParams['font.sans-serif'] = 'SimHei'#设置字体
plt.imshow(wc)#按词云显示
plt.axis('off')#是否显示坐标
plt.show()#展示生成的词云图
plt.savefig('8.png',dpi = 1000)#dpi是图片清晰度

股吧评论的爬取及词云图的制作相关推荐

  1. Python豆瓣电影评论的爬取及词云显示

    Python豆瓣电影评论的爬取及词云显示 课程设计论文链接 前言 开发工具.核心库 系统相关技术介绍 系统分析与设计 系统功能模块组成 实现功能和目标 爬取模块设计 爬取过程中下一页的处理 窗口界面设 ...

  2. 金融作业:股吧评论_爬取、情绪与股价对比(贵州茅台和上证指数)

    效果图(情绪与股价) 文件夹"上证指数吧--股评文本情感分析"爬取了40W+条股吧--上证指数吧的股评文本数据,并通过分析这些股评文本积极.消极情况,计算每天的情绪指数(BI_in ...

  3. python爬取优词词典

    运用python爬取优词词典并制作索引 前期准备: 1.python学习 2.了解网络知识 3.了解爬虫原理 4.requests模块的运用知识 5.Beautiful模块的理解运用 6.数据库知识的 ...

  4. 豆瓣电视剧评论的爬取以及进行情感分析+生成词云

    很多时候我们要了解一部电视剧或电影的好坏时都会去豆瓣上查看评分和评论,本文基于豆瓣上对某一部电视剧评论的爬取,然后进行SnowNLP情感分析,最后生成词云,给人一个直观的印象 1. 爬取评论 以前段时 ...

  5. 京东书籍信息及评论内容爬取

    京东书籍信息及评论内容爬取 文章目录 京东书籍信息及评论内容爬取 前言 一.京东书籍商品页面分析 二.解析获取评论数 1.每个商品都有一个唯一的ID 2.分析标签,找到过滤词,进而找到需要的请求头 3 ...

  6. python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?

    开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...

  7. python爬携程景区评论_python爬取携程景点评论信息

    python爬取携程景点评论信息 今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为P ...

  8. Beautiful爬取海词网词汇意思和短语

    Beautiful爬取海词网词汇意思和短语 直接上代码 # -*- encoding:utf-8 -*- import urllib.request # 导入urllib库的request模块 fro ...

  9. 腾讯新闻评论数据爬取

    前言 鉴于最近在做观点挖掘的相关工作,观点的数据源是网络评论数据,于是第一个想到的就是新闻观点数据,一个热门的新闻可能一晚上就会有上万条评论,所以如何分析并利用好这些评论信息,将会是一件非常有意思的事 ...

最新文章

  1. 设置子元素在主轴(横轴)方向上的对齐方式为容器的开头_今日推送 CSS Flexbox布局(上)...
  2. 一本flash和搜索引擎交互的新书
  3. 【开发软件】推荐一款MAC OS X 下php集成开发环境mamp
  4. inventor中齿条怎么画_涨知识干货|瀑布怎么画?山水画刀画中的八种分类
  5. 转 在SQL Server中创建用户角色及授权(使用SQL语句)
  6. ubuntu linux 搭建ftp虚拟目录
  7. 老码农最后都去哪了?
  8. phpstom怎样导出数据库_详解mysql数据库sql优化技巧总结
  9. DDoS攻击重大历史事件
  10. 任务接单平台源码自动挂机阅读文章挣钱系统
  11. EXCEL 在空值中批量填入某个数值
  12. 上位机软件系统开发工具简介
  13. 查看服务器的外网IP
  14. Excel表格中的三维气泡图,你会做吗?
  15. uni-app 对照设计稿还原不同屏幕像素适配(iPhone X)
  16. 推荐几个帮你避坑和赚钱的公众号
  17. 中国传统文化讲坛之“春风拂槛”唐文化论坛成功举办
  18. 51单片机蜂鸣器播放天空之城
  19. 使用Layui制作界面及功能
  20. 帝国cms教程后台关键字和tag标签自动同步更新的方法

热门文章

  1. CPU处理器一致性协议MESI详解
  2. MyEclipse创建ssh项目和连接数据库
  3. 蓝桥杯Web前端练习-----渐变色背景生成器
  4. X5浏览器支持HTML5吗,腾讯X5 Blink内核 加强H5支持和渲染性能支撑
  5. 微软培训于苏州独墅湖
  6. Java回调(callback)机制
  7. C语言的文件的写入------C语言
  8. APM飞控学习之路:2 四旋翼的工作原理与系统组成
  9. 写给新手站长的一封信,有效的做网站排名
  10. flinksql 日期格式数据总结