本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

一、前言:

《灵笼》这部动漫国漫里面制作算是精良,但是剧情有太多瑕疵。网友弹幕更是两极分化,有点说剧情好,有点说剧情烂。也有得说人物建模好有点也说差,今天我们就来爬取这部国产动漫看看网友究竟在说啥?

二、爬取《灵笼》弹幕

1、思路
2、用到的库
3、代码
4、词云

1、思路

  • 通过爬虫爬取弹幕
  • 通过jieba分词对弹幕进行分词
  • 通过wordcloud绘制词云

2、用到的库

  • csv 用于csv文件的编写
  • request 用于请求网址
  • re 正则库用于提取html中的字母信息
  • jieba 用于汉字的分词
  • wordcloud 用于词云绘制

3、代码

# 爬取数据
import csv
# 数据请求库
import requests
# 正则表达式
import re
# 分词
import jieba
# 词云
import wordcloud# 1.定位url
url='https://api.bilibili.com/x/v2/dm/history?type=1&oid=129528808&date=2020-08-28'# 2.模拟登陆
# 设置h请求头防止反扒拦截
# 因为b站是登录后查看弹幕,因此这里需要加入自己电脑的cookie
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0',"Cookie":"_uuid=445F64D3-1530-41CF-09EC-C6029EF29EA659147infoc; buvid3=54281361-1A51-46A7-838B-7FB1214C81B953936infoc; CURRENT_FNVAL=16; LIVE_BUVID=AUTO9915845422486102; rpdid=|(u)~mYY~u0J'ul)RlRkkR); sid=4y1wx1oi; DedeUserID=229593267; DedeUserID__ckMd5=72ee797eb51fb8c3; SESSDATA=b7620543%2C1600240037%2Cd737d*31; bili_jct=03269466eb702a213723a0585db59cbe; bp_t_offset_229593267=428995725967649604; CURRENT_QUALITY=80; PVID=1; _ga=GA1.2.1605929815.1586006097; bp_video_offset_229593267=428995725967649604; blackside_state=1; bfe_id=fdfaf33a01b88dd4692ca80f00c2de7f"
}
# 请求数据
resp = requests.get(url,headers=headers)
# 解码数据,防止乱码
html=resp.content.decode('utf-8')
# 3.解析网页提取字幕
# 通过正则表达式,对返回html中的弹幕提取
res=re.compile('<d.*?>(.*?)</d>')
danmu=re.findall(res,html)# 4.保存数据
for i in danmu:with open (r'D:\360MoveData\Users\cmusunqi\Documents\GitHub\R_and_python\python\词云和爬虫\弹幕.csv','a',newline='',encoding='utf-8') as f:writer=csv.writer(f)danmu=[]danmu.append(i)writer.writerow(danmu)# 词云绘制============================================================
# 读取保存的csv文件
f = open (r'D:\360MoveData\Users\cmusunqi\Documents\GitHub\R_and_python\python\词云和爬虫\弹幕.csv',encoding='utf-8')
txt=f.read()
# jieba分词
txt_list=jieba.lcut(txt)
# 将分词后的列表通过空格连接
string=' '.join(txt_list)
# 绘制词云,内置参数需查看官方代码
w=wordcloud.WordCloud(width=1000,height=700,background_color='white',font_path="msyh.ttc",scale=15,stopwords={" "},contour_width=5,contour_color='red'
)
# 导出图片为png
w.generate(string)
w.to_file(r'D:\360MoveData\Users\cmusunqi\Documents\GitHub\R_and_python\python\词云和爬虫\ciyun.png')

4、词云


总结:绘制的词云最大的字和是害怕和猝不及防,你害怕还看个P呦。

python分析:爬取《灵笼》这部国产动漫弹幕,分析词云!看看网友究竟在说啥?相关推荐

  1. python生成QQ机器人爬取百度文库链接推送好友并生成词云

    QQ机器人爬取百度文库链接推送好友并生成词云 一.环境准备 二.实现QQ机器人 1.QQ机器人介绍 2.安装方法 3.实现自己的QQ机器人 三.百度文库内容链接爬取推送好友 代码实现: 思路分析 1. ...

  2. py获取《灵笼》第一集的弹幕———绘制词云图

    获取哔哩哔哩弹幕 访问弹幕的接口 heart中的cid参数查找 点击查看历史弹幕oid的查找 正则提取字幕写入txt jieba分词wordcloud生成词云图 访问弹幕的接口 前人栽树,后人乘凉.使 ...

  3. Python爬取唐人街探案3豆瓣短评并生成词云

    爬取唐人街探案3短评过程 要爬取的URL: https://movie.douban.com/subject/27619748/comments?start=20&limit=20&s ...

  4. python随机数生成十个数字的成语_python小白也可以分分钟爬取微博数据,并生成有个性的词云,你get到了吗?...

    Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理 ...

  5. python爬取春节祝福语,并生成心形词云

    前言 最近刚好在看爬虫,就爬取一下春节祝福语,生成个词云玩一玩,大家有兴趣可以试试,会奉上源代码,很简单.效果图如下: 环境 环境:windows, 语言:python,python版本是3.7 所依 ...

  6. python爬取网易云音乐薛之谦歌词数据,生成词云

    老薛最近频频上热搜,因为老薛的歌大部分是自己作词,所以感觉他的歌词和他应该有某种情感表达和联系吧. 于是用python爬了网易云音乐中老薛的歌词数据,并简单用wordcloud写了个词云统计. 难过, ...

  7. 几行代码爬取某东商品评论并写入数据库做成词云

    目录 闲言 成果 ​填坑 网址详解 代码 数据库:data_sql.py 源码 乱语 闲言 这几天忙的要老命啊,天天上网课,5,6个平台手机电脑电视全开,一整天盯着显示屏,我觉得迟早要崩溃,不仅如此, ...

  8. chrome动态ip python_用Python爬虫爬取动态网页,附带完整代码,有错误欢迎指出!...

    系统环境: 操作系统:Windows8.1专业版 64bit Python:anaconda.Python2.7 Python modules:requests.random.json Backgro ...

  9. Python爬虫爬取动态网页

    系统环境: 操作系统:Windows8.1专业版 64bit Python:anaconda.Python2.7 Python modules:requests.random.json Backgro ...

最新文章

  1. 避不开的算法,如何吃透?
  2. js高级教程阅读笔记 第五章-引用类型(5.6)
  3. 盘点六大在中国复制失败的O2O案例
  4. JavaScript toFixed(num) 函数
  5. 企业深入使用微服务后会面临哪些问题?云原生全链路灰度给了新思路
  6. (转)谷歌公开dopamine
  7. s5p4418 Android 4.4.2 驱动层 HAL层 服务层 应用层 开发流程记录(二 硬件抽象层HAL 第二种 ioctl操作方法)
  8. Markdown基本语法总结
  9. 用python写linux中的ls,Python实现Linux环境下的ls命令
  10. 73 forward动作
  11. 捕获和抛出异常(Ctrl+Alt+T)
  12. 路由器距离向量算法计算举例_文本去重算法:Minhash/Simhash/Klongsent
  13. mysql 下载教程_MySQL下载安装详情图文教程
  14. [渝粤教育] 西南科技大学 铁路交通信号控制 在线考试复习资料
  15. 警惕那些产生负价值的开发者
  16. Linux安装gcc和运行代码教程
  17. 安装Ofiice2016 错误提示“检查您的internet连接是否工作正常”等
  18. linux读取文件内容 cat,Linux 读取文件:cat 命令(拼接文件)
  19. 微信小程序:高德地图搜索周边poi接口实践
  20. matlab 二维矩形函数,科学网—利用MATLAB对非矩形域实现二维插值 - 张乐乐的博文...

热门文章

  1. android锁屏界面快捷键,Funtouch新特性 锁屏快捷键可以自定义
  2. Kotlin 非对称加密RSA
  3. HM编码器代码阅读(32)——帧间预测之AMVP/Merge模式(七)encodeResAndCalcRdInterCU函数:残差计算、变换量化
  4. 会计电算化什么是计算机硬件,会计电算化考试计算机硬件、软件.doc
  5. Android5.0之后打开开发者选项中的不保留活动,解决方案
  6. 边拆边聊——简单了解DLP投影结构与成像原理
  7. 电脑怎么提取图片中的文字?
  8. 全球回报最好的 40 个 VC 投资案例,我们可以从中学到什么?
  9. vxWorks启动时间
  10. 将xlsx文件转换成CSV文件方法