这是当时在中国mooc学 用python玩转数据 时,写的一个小demo.

程序实现步骤

1.从某一网站爬取数据,比如我是在豆瓣爬取的书评

利用Requests库的get()爬取网页

使用BeatifulSoup库对爬取网页进行解析。

写入文件

2.对所爬取字符串分词

利用分词器 jieba ,逐行用jieba分词,单行代码如:

word_list=pseg.cut(subject)

3.去除停用词

很多如 “的”、“我们”这样的词以及一些符号对主题热点词分析并没有用,所以要删去过滤这些词。代码如:

stop_words =set(line.strip() for line in open('stopwords.txt',encodeing='utf-8'))

4.选择名词

jieba中的词性标签使用了传统方式,例如’n’是名词,’a’是形容词,’v’是动词。数据中的名词更能代表热点,可以单独选择名词进行后续处理,选择所有的名词放到一个列表中的代码如下:

        for word, flag in word_list:if not word in stop_words and flag == '

python爬取数据热点词生成词云相关推荐

  1. [转载]Python爬取豆瓣影评并生成词云图代码

    # -*- coding:utf-8 -*- ''' 抓取豆瓣电影某部电影的评论 这里以<我不是潘金莲为例> 网址链接:https://movie.douban.com/subject/2 ...

  2. python爬取网易云音乐生成王力宏歌曲词云

    python爬取网易云音乐生成王力宏歌曲词云 # -*- coding:utf-8 -*- # 网易云音乐,通过歌手id生成词云 import requests import sys,re,os fr ...

  3. 详解使用Python爬取豆瓣短评并绘制词云

    使用Python爬取豆瓣短评并绘制词云 成果如下(比较丑,凑合看) 1.分析网页 打开想要爬取的电影,比如<找到你>,其短评如下: 查看源代码 发现短评存放在<span>标签里 ...

  4. python爬取数据时报错:`aiohttp.client_exceptions.ClientConnectorCertificateError: Cannot connect to host sea

    python爬取数据时报错:aiohttp.client_exceptions.ClientConnectorCertificateError: Cannot connect to host sear ...

  5. Python:爬取数据出现response.status_code为403解决方法

    目录 前言 1. 原理 2. 代码 前言 出现403的返回结果 主要是有些服务器为了防止访问量过大,承受服务器的压力,或者是拒绝你的访问.服务器接收到这个信息,理应返回了这个403的信息 在前一块的代 ...

  6. python爬取B站评论制作词云

    python爬取B站评论制作词云 江山代有才人出,B站评论占一半 废话不多说,咱们直接上代码` import imageio import jieba import wordcloud import ...

  7. 爬取京东评论并生成词云

    import os import time import json import randomimport jieba import requests import numpy as np from ...

  8. python 爬取数据还要下载scrapy吗_python网络爬虫之Scrapy

    本文分享的大体框架包含以下三部分 (1)首先介绍html网页,用来解析html网页的工具xpath (2)介绍python中能够进行网络爬虫的库(requests,lxml,scrapy等) (3)从 ...

  9. Python爬取数据存储到本地文本文件

    前面说过Python爬取的数据可以存储到文件.关系型数据库.非关系型数据库.前面两篇文章没看的,可快速戳这里查看!https://mp.weixin.qq.com/s/A-qry4r3ymuCLXLB ...

最新文章

  1. python 多边形曲线
  2. IIS不支持apk文件下载问题
  3. 利用workerman+html开发简单的在线五子棋对战
  4. Signal Slot in Qt
  5. arraylist从大到小排序_经典排序方法的python实现和复杂度分析
  6. Oracle入门(十四.16)之捕获用户定义的异常
  7. CentOS5.5下SVN部署文档
  8. CentOS 7.2安装zabbix 3.0 LTS
  9. 对Gson解析的理解
  10. 易语言服务端与客户端怎么传送_配置中心是怎么推送的?动手实现一个 Long Polling 长轮询...
  11. 分享一种固定页教在页面底部的方法
  12. tkinter 文本框 值改变_【动图详解】PPT中文本框的使用方法,初学者必看!
  13. 我用Python写了一个论文降重工具
  14. eda交通灯控制器波形输入_用VHDL设计交通灯控制器
  15. opencv-python 银行卡卡号识别
  16. 【Python-Anaconda】jupyter notebook运行代码时出现异常——代码前面的[ ]中为空,跳转下一行,显示自动保存失败。面对这种情况该如何解决?
  17. 二元二次方程 c语言,C语言求解三元一次方程组的解
  18. Linux 磁盘管理的命令
  19. 跑语义分割程序时报错
  20. 服务器被攻击了怎么办?海外服务器有什么有特点?网址或者APP被攻击了怎么办?

热门文章

  1. 10月17日,微软开始推送Win8.1更新,批量激活用户不在此列
  2. 物联网卡管理平台哪家好
  3. CISCO路由器配置基础(2)
  4. java教育机构管理计算机毕业设计MyBatis+系统+LW文档+源码+调试部署
  5. 【OpenCV图像处理16】课程总结
  6. 浅谈格雷厄姆的《证券分析》
  7. [Eclipse] plugin
  8. ABAP---基础(一)
  9. 智能工牌:医美行业如何提升销售的客户洞察力,实现有效推进和快速成单
  10. 对比学习的应用(CLCaption,C-SWM,CMC,SGL)