3. 分析好评与差评的关键信息

依靠绘制词云图,来分析好评与差评的关键信息的区别

数据预处理

依靠上一篇爬取到的csv文件,来进行分析,首先导入文件,重点是短评正文的信息。
首先是使用结巴库来进行分词,然后去除停用词(停用词是网上公开的,可以自己去找。
代码:

import pandas as pd
import jiebadata = pd.read_csv("doubanliulangdiqiu.csv", encoding='GB18030')    # 读取数据
with open('stopword.txt','r') as f:stopWords = f.read() # 读取停用词
stopWords = ["\n",""," "]+ stopWords.split() # 把可能用的停用词加载进去data_cut = data['短评正文'].

爬虫实战之《流浪地球》豆瓣影评分析(二)相关推荐

  1. python 豆瓣评论数据分析_Python爬虫实战案例:豆瓣影评大数据分析报告之网页分析...

    个人希望,通过这个完整的爬虫案例(预计总共4篇短文),能够让爬虫小白学会怎么做爬虫的开发,所以在高手们看来,会有很多浅显的废话,如果觉得啰嗦,可以跳过一些内容~ 上一篇文章给大家简单介绍了Python ...

  2. python电影评论的情感分析流浪地球_《流浪地球》影评分析(一):使用Python爬取豆瓣影评...

    本文爬虫的步骤: 使用Selenium库的webdriver进行网页元素定位和信息获取: 使用BeautifulSoup库进行数据的提取: 使用Pandas库进行数据的存储. 后台回复python爬虫 ...

  3. 爬虫实战之《流浪地球》豆瓣影评分析(一)

    背景与挖掘目标 获取豆瓣评论数据 分析好评与差评的关键信息 分析评论数量及评分与时间的关系 分析评论者的城市分布情况 1. 背景与挖掘目标 豆瓣(douban)是一个社区网站.网站由杨勃(网名&quo ...

  4. Python 爬虫实战(1):分析豆瓣中最新电影的影评

    目标总览 主要做了三件事: 抓取网页数据 清理数据 用词云进行展示 使用的python版本是3.6 一.抓取网页数据 第一步要对网页进行访问,python中使用的是urllib库.代码如下: from ...

  5. python爬虫豆瓣电影评价_Python 爬虫实战(1):分析豆瓣中最新电影的影评

    目标总览 主要做了三件事: 抓取网页数据 清理数据 用词云进行展示 使用的python版本是3.6 一.抓取网页数据 第一步要对网页进行访问,python中使用的是urllib库.代码如下: from ...

  6. Python 爬虫实战(1):分析豆瓣中最新电影的影评并制作词云

    入门Python不久,想做个小项目练练手,碰巧最近一部国产电影<红海行动>反响不错,便萌生想法去抓取一下它最新的评论,并制作词云,来看看网页对这部电影的一些评价,接下来就是开始分析啦(分析 ...

  7. Python爬虫实践《流浪地球》豆瓣影评分析及实践心得

    一段多余的话 多余的话不多说,我想聊聊在进行实践分析中遇到的困难与心得. 下载jupyter进行分析的一些建议 我们安装juputer前,首先需要安装python,因为本人曾经上过自然语言处理课,所以 ...

  8. python爬虫实战:《星球大战》豆瓣影评分析

    #################更新于2018.2.2.彻底搞定小问题.开心############################ ''' Windows 7 系统 Sublime text 编辑 ...

  9. python爬虫影评_Python爬虫-爬取杀破狼豆瓣影评并小作分析~

    也是前几天看到一个公众号推了一篇文章,是爬取战狼的影评.今天自己也来试一下 我选择爬的是<杀破狼> image.png 然后就是打开短评页面,可以看到comment-item,这就是影评了 ...

  10. 爬虫实战2:豆瓣电影TOP250

    1.豆瓣简介 豆瓣是一个社交网站,起源于2005年,该网站以书影音起家,提供关于图书.电影.音乐唱片的推荐.评价和价格比较,以及城市独特的文化生活.本篇文章将从数据分析的角度来分析豆瓣网站.分析的维度 ...

最新文章

  1. python 青蛙跳台阶问题
  2. 大量更新后数据膨胀_段合并的原理探寻
  3. MTFBWU的完整形式是什么?
  4. 在pandas中遍历DataFrame行
  5. win10英文系统一键装机教程
  6. VS2008安装deffactory.dat文件错误解决方法
  7. github如何同步fork到自己仓库的代码
  8. 【批处理学习笔记】第二十二课:系统变量
  9. PMP第六版-49个子过程ITTO总结
  10. 中国姓氏英文翻译大全
  11. 电商系统之商品类目及商品属性史
  12. 博后招募 | 浙江大学陈华钧教授招聘知识图谱等方向博后及算法工程师
  13. 与众不同 独树一帜,传智播客2018春季课程发布会在京举行
  14. ubuntu 8000端口被占用
  15. DOS命令-格式化磁盘
  16. TAGS::Vim进阶索引[7]
  17. NFC通信基本原理 主动和被动通信
  18. java统计词频算法_Java实现的词频统计——功能改进
  19. ajax怎么解决报414,如何解决HTTP 414“请求URI太长”错误?
  20. Switch相关代码总结

热门文章

  1. CocosCreator官方教学视频(腾讯超清版)[20180428更新]
  2. 看看NVIDIA老黄"大玩具":AI芯片分量有多大
  3. java毕业设计在线航班订票系统Mybatis+系统+数据库+调试部署
  4. php eof bof,bof或者eof中有一个是真,或者当前的纪录已被删除,所需的操作要求...
  5. postfix电子邮件传输
  6. 发布订阅/回调模型的核心技术——观察者模式复习总结
  7. UiPath手把手教程培训
  8. 编程零基础应该如何开始学习Python?
  9. 在ubuntu16.04系统安装显卡驱动
  10. 联想大客户技术支持培训学习笔记(PC硬件篇)