股吧评论的爬取及词云图的制作

#导入模块
import requests
import pandas as pd
import time
from bs4 import BeautifulSoup
import jieba
from matplotlib import pyplot as plt
from wordcloud import WordCloud
from PIL import Image
import numpy as np
import pandas as pd#访问网页
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36"}
url_1 = "http://gubaf10.eastmoney.com/list,zssh000001,99_"
url_2 = ".html"
#逐一解析
for ii in range(70):url = url_1 + str(ii+1)+url_2html = requests.get(url,headers=header)soup = BeautifulSoup(html.content,'lxml')#阅读数read_counts = soup.find_all('span', attrs={'class':'l1 a1'})#评论数comment_counts = soup.find_all('span', attrs={'class':'l2 a2'})#标题数title_counts = soup.find_all('span', attrs={'class':'l3 a3'})#作者author_counts = soup.find_all('span', attrs={'class':'l4 a4'})#时间time_counts = soup.find_all('span', attrs={'class':'l5 a5'})for i in range(len(read_counts)-1):data1=[(read_counts[i+1].string,comment_counts[i+1].string,title_counts[i+1].find(name='a').get('title'),author_counts[i+1].find(name='font').string,time_counts[i+1].string)]data2 = pd.DataFrame(data1)data2.to_csv('guba.csv',header=False,index=False,mode='a+')print('page'+str(ii+1)+' has done')time.sleep(1)
#对爬取数据进行词云图制作
data = pd.read_csv("guba.csv",header=None,names=['阅读','评论','标题','作者','更新时间',])
data1 = data.loc[data.index[:],['标题']]
#使用jieba分词，获取词列表
#分词
data2 = str(data1)#必须把dataerame转换成字符串
cut = jieba.cut(data2)
string = ' '.join(cut)
print(string)
print(len(string))
#绘图准备
img = Image.open('86.jpg')
img_array = np.array(img)#将图片转化为数组
wc = WordCloud(background_color = 'white',mask = img_array,font_path = "STXINWEI.TTF")
wc.generate_from_text(string)#切好词放进去
#绘制图片
fig = plt.figure(1)#创建图片
plt.rcParams['font.sans-serif'] = 'SimHei'#设置字体
plt.imshow(wc)#按词云显示
plt.axis('off')#是否显示坐标
plt.show()#展示生成的词云图
plt.savefig('8.png',dpi = 1000)#dpi是图片清晰度

股吧评论的爬取及词云图的制作相关推荐

Python豆瓣电影评论的爬取及词云显示
Python豆瓣电影评论的爬取及词云显示课程设计论文链接前言开发工具.核心库系统相关技术介绍系统分析与设计系统功能模块组成实现功能和目标爬取模块设计爬取过程中下一页的处理窗口界面设 ...
金融作业：股吧评论_爬取、情绪与股价对比（贵州茅台和上证指数）
效果图(情绪与股价) 文件夹"上证指数吧--股评文本情感分析"爬取了40W+条股吧--上证指数吧的股评文本数据,并通过分析这些股评文本积极.消极情况,计算每天的情绪指数(BI_in ...
python爬取优词词典
运用python爬取优词词典并制作索引前期准备: 1.python学习 2.了解网络知识 3.了解爬虫原理 4.requests模块的运用知识 5.Beautiful模块的理解运用 6.数据库知识的 ...
豆瓣电视剧评论的爬取以及进行情感分析+生成词云
很多时候我们要了解一部电视剧或电影的好坏时都会去豆瓣上查看评分和评论,本文基于豆瓣上对某一部电视剧评论的爬取,然后进行SnowNLP情感分析,最后生成词云,给人一个直观的印象 1. 爬取评论以前段时 ...
京东书籍信息及评论内容爬取
京东书籍信息及评论内容爬取文章目录京东书籍信息及评论内容爬取前言一.京东书籍商品页面分析二.解析获取评论数 1.每个商品都有一个唯一的ID 2.分析标签,找到过滤词,进而找到需要的请求头 3 ...
python抓取微博评论_Python爬取新浪微博评论数据，你有空了解一下？
开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建安装Pyth ...
python爬携程景区评论_python爬取携程景点评论信息
python爬取携程景点评论信息今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的按下F12之后,F5刷新一下具体需要URL Request的方式为P ...
Beautiful爬取海词网词汇意思和短语
Beautiful爬取海词网词汇意思和短语直接上代码 # -*- encoding:utf-8 -*- import urllib.request # 导入urllib库的request模块 fro ...
腾讯新闻评论数据爬取
前言鉴于最近在做观点挖掘的相关工作,观点的数据源是网络评论数据,于是第一个想到的就是新闻观点数据,一个热门的新闻可能一晚上就会有上万条评论,所以如何分析并利用好这些评论信息,将会是一件非常有意思的事 ...

股吧评论的爬取及词云图的制作

股吧评论的爬取及词云图的制作相关推荐

最新文章

热门文章