python爬取数据热点词生成词云
这是当时在中国mooc学 用python玩转数据 时,写的一个小demo.
程序实现步骤
1.从某一网站爬取数据,比如我是在豆瓣爬取的书评
利用Requests库的get()爬取网页
使用BeatifulSoup库对爬取网页进行解析。
写入文件
2.对所爬取字符串分词
利用分词器 jieba ,逐行用jieba分词,单行代码如:
word_list=pseg.cut(subject)
3.去除停用词
很多如 “的”、“我们”这样的词以及一些符号对主题热点词分析并没有用,所以要删去过滤这些词。代码如:
stop_words =set(line.strip() for line in open('stopwords.txt',encodeing='utf-8'))
4.选择名词
jieba中的词性标签使用了传统方式,例如’n’是名词,’a’是形容词,’v’是动词。数据中的名词更能代表热点,可以单独选择名词进行后续处理,选择所有的名词放到一个列表中的代码如下:
for word, flag in word_list:if not word in stop_words and flag == '
python爬取数据热点词生成词云相关推荐
- [转载]Python爬取豆瓣影评并生成词云图代码
# -*- coding:utf-8 -*- ''' 抓取豆瓣电影某部电影的评论 这里以<我不是潘金莲为例> 网址链接:https://movie.douban.com/subject/2 ...
- python爬取网易云音乐生成王力宏歌曲词云
python爬取网易云音乐生成王力宏歌曲词云 # -*- coding:utf-8 -*- # 网易云音乐,通过歌手id生成词云 import requests import sys,re,os fr ...
- 详解使用Python爬取豆瓣短评并绘制词云
使用Python爬取豆瓣短评并绘制词云 成果如下(比较丑,凑合看) 1.分析网页 打开想要爬取的电影,比如<找到你>,其短评如下: 查看源代码 发现短评存放在<span>标签里 ...
- python爬取数据时报错:`aiohttp.client_exceptions.ClientConnectorCertificateError: Cannot connect to host sea
python爬取数据时报错:aiohttp.client_exceptions.ClientConnectorCertificateError: Cannot connect to host sear ...
- Python:爬取数据出现response.status_code为403解决方法
目录 前言 1. 原理 2. 代码 前言 出现403的返回结果 主要是有些服务器为了防止访问量过大,承受服务器的压力,或者是拒绝你的访问.服务器接收到这个信息,理应返回了这个403的信息 在前一块的代 ...
- python爬取B站评论制作词云
python爬取B站评论制作词云 江山代有才人出,B站评论占一半 废话不多说,咱们直接上代码` import imageio import jieba import wordcloud import ...
- 爬取京东评论并生成词云
import os import time import json import randomimport jieba import requests import numpy as np from ...
- python 爬取数据还要下载scrapy吗_python网络爬虫之Scrapy
本文分享的大体框架包含以下三部分 (1)首先介绍html网页,用来解析html网页的工具xpath (2)介绍python中能够进行网络爬虫的库(requests,lxml,scrapy等) (3)从 ...
- Python爬取数据存储到本地文本文件
前面说过Python爬取的数据可以存储到文件.关系型数据库.非关系型数据库.前面两篇文章没看的,可快速戳这里查看!https://mp.weixin.qq.com/s/A-qry4r3ymuCLXLB ...
最新文章
- python 多边形曲线
- IIS不支持apk文件下载问题
- 利用workerman+html开发简单的在线五子棋对战
- Signal Slot in Qt
- arraylist从大到小排序_经典排序方法的python实现和复杂度分析
- Oracle入门(十四.16)之捕获用户定义的异常
- CentOS5.5下SVN部署文档
- CentOS 7.2安装zabbix 3.0 LTS
- 对Gson解析的理解
- 易语言服务端与客户端怎么传送_配置中心是怎么推送的?动手实现一个 Long Polling 长轮询...
- 分享一种固定页教在页面底部的方法
- tkinter 文本框 值改变_【动图详解】PPT中文本框的使用方法,初学者必看!
- 我用Python写了一个论文降重工具
- eda交通灯控制器波形输入_用VHDL设计交通灯控制器
- opencv-python 银行卡卡号识别
- 【Python-Anaconda】jupyter notebook运行代码时出现异常——代码前面的[ ]中为空,跳转下一行,显示自动保存失败。面对这种情况该如何解决?
- 二元二次方程 c语言,C语言求解三元一次方程组的解
- Linux 磁盘管理的命令
- 跑语义分割程序时报错
- 服务器被攻击了怎么办?海外服务器有什么有特点?网址或者APP被攻击了怎么办?