一、设计主要内容

在互联网时代,伴随着各种社交媒体的盛行,公众人物的一言一行也被无限放大,对于广大群众的价值导向作用也被进一步的激发。由此从大数据的角度对综艺节目进行分析和研究,实现一个基于Python的综艺明星分析系统。该系统可得出不同嘉宾的受众程度,最终分析出影响力大的公众人物,进行正向的舆论引导,稳定社会秩序。

本系统要具备公众人物分析、观众分析、节目分析、观众反馈、数据采集、数据预处理等功能。把综艺节目的数据作为数据源,利用大数据相关技术,用Python进行爬取弹幕数据和数据预处理,经过数据预处理之后最终存储到MySQL数据库中,然后经由Django框架来搭建后台,利用Axios将网页与后台进行交互获取数据,使用CSS、HTML、JavaScript语言对网页进行布局和实现动态效果。

在整个系统生命周期的开发实现过程中,先对系统进行需求分析,力求详尽具体,涵盖每个功能性需求和非功能性需求;再设计系统的功能和选择实现的算法;再对系统的总体结构和模块进行设计、实现和测试。

2.设计的基本内容、目标、拟采用的技术方案及措施

(1)设计的基本内容

本设计拟实现综艺明星分析系统,本系统要具备公众人物分析、节目分析、观众反馈、数据采集、数据预处理等功能。对公众人物的静态数据、动态数据、影响力等进行分析,对某名特定公众人物的粉丝群体进行分析,采集系统分析的数据,包括综艺节目的弹幕、评论以及用户的内部数据,对采集到的数据进行缺失值及异常值处理、文本处理,通过数据可视化技术生成词云图等图表,来将基本的内容呈现出来。

(2)设计的目标

实现一个基于Python的综艺明星分析系统。该系统可得出不同嘉宾的受众程度,最终分析出影响力大的公众人物,进行正向的舆论引导,稳定社会秩序。

拟采用的技术方案及措施

本系统把综艺节目的数据作为数据源,利用大数据相关技术,用Python进行爬取弹幕数据和数据预处理,经过数据预处理之后的数据和用户的注册信息最终存储到MySQL数据库中,然后经由Django框架来搭建后台,利用Axios将网页与后台进行交互获取数据,使用CSS、HTML、JavaScript语言来设计系统注册、登录与显示页面的样式布局和实现动态效果。

3.1环境搭建
(1)从官网下载python3安装包
(2)安装python,并配置环境变量:(安装时勾选加入Path,即可自动配置好环境变量。)此电脑-属性–高级系统设置–环境变量–系统变量–path–新建–(找到自己的python位置,一般是在C盘,复制路径,粘贴进入新建,分隔号是“;”,然后一直点确认就行了。)上面是win10的操作流程,如果是win7的话,直接在点击path,下面一条上加一个;后面加c:\python3就可以了,
(3)从官网下载pycharm安装包
(4)pycharm关联python,并配置国内镜像源:File–setting–选择Project:xxx–下拉选择Project Interpreter–然后在Proect Interpreter:栏里选择(如果没有选择的话,点show all然后添加自己python安装路径下的python.exe),接着点击右侧加号点击Manage Repositories,最后删除原有路径,添加清华镜像源(改成国内镜像源可以在安装库时避免一些错误)
3.2设计思路
用Python的Scrapy框架编写爬虫程序抓取《XXX兄弟》的《XXX兄弟》信息,爬取弹幕的短评、评分、评价数量等数据,并结合Python的多个库(Pandas、Numpy、Matplotlib),使用Numpy系统存储和处理大型数据,中文Jieba分词工具进行爬取数据的分词文本处理,wordcloud库处理数据关键词,最终通过图、网页动态图展示观众情感倾向和明星评分统计等信息。流程如图3.1所示。
部分代码展示:

# -*- coding: utf-8 -*-
"""
Created on Wed Mar  9 15:29:16 2022@author: 24587
"""import os
import pymongo
import json
import jsonpath
import lxml
import zlibdef parse(dir_path,season,episode,episode_name,comment_num,like_num):myclient=pymongo.MongoClient('mongodb://localhost:27017/')mydb=myclient['aiqiyi']file_list=os.listdir(dir_path)for i in file_list:if '.txt' in i:# 进行json的解析with open(dir_path+'/'+i,'r',encoding='utf-8') as f:data=f.read()data=data[:-14]index=data.find('(')data=data[index+1:]json_data=json.loads(data)uid_list=jsonpath.jsonpath(json_data,'$..uid')addTime_list=jsonpath.jsonpath(json_data,'$..addTime')content_list=jsonpath.jsonpath(json_data,'$..content')comment_list=[]min_len=min(len(uid_list),len(content_list),len(addTime_list))for j in range(min_len):comment_list.append({'季数':season,'期数':episode,'评论内容':content_list[j],'用户id':uid_list[j],'发布时间':addTime_list[j]})mydb.comment.insert_many(comment_list)if '.xml' in i:# 进行解码并进行xml的解析with open(dir_path+'/'+i,'rb') as f:data=f.read()xml_data=lxml.etree.XML(data)content_list=xml_data.xpath('//content/text()')uid_list=xml_data.xpath('//uid/text()')uname_list=xml_data.xpath('//name/text()')bullet_list=[]for j in range(len(uid_list)):bullet_list.append({'季数':season,'期数':episode,'弹幕内容':content_list[j],'用户id':uid_list[j],'用户名':uname_list[j]})mydb.bullet.insert_many(bullet_list)mydb.episode.insert_one({'季数':season,'期数':episode,'集名':episode_name,'评论数':comment_num,'点赞数':like_num})if __name__ in '__main__':dir_path=input("dir_path\n")season=input('season\n')episode=input('episode\n')episode_name=input('episode_name\n')comment_num=input('comment_num\n')like_num=input('like_num\n')parse(dir_path,season,episode,episode_name,comment_num,like_num)














Python实现的综艺大数据分析系统相关推荐

  1. 【大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统】

    [大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统-哔哩哔哩] https://b23.tv/z2OUTkp flask web框架,数据使用selenium模块爬取携程网获取数据,使用 ...

  2. 【大数据分析专业毕设之基于python的手机销售大数据分析可视化系统】

    [大数据分析专业毕设之基于python的手机销售大数据分析可视化系统] https://b23.tv/FKuPbsv flask web框架,数据使用requests模块爬取https://www.j ...

  3. (附源码)Python云顶之弈数据分析系统 毕业设计451545

    目 录 摘要 1 1 绪论 1 1.1研究背景 1 1.2开发意义 1 1.3系统开发技术的特色 1 1.4论文结构与章节安排 1 2 基于Python云顶之弈数据分析系统系统分析 3 2.1 可行性 ...

  4. 可视化大数据分析系统

    可视化大数据分析系统有很多,如果系统级都是收费的,如果大家想要了解可视化大数据分析系统,私信我就行.下面聊下5个常用的大数据可视化分析工具. 1.FineReport FineReport是一款纯Ja ...

  5. GIAC | 大数据分析系统在游戏领域的迭代与实践

    导语:6月23日,腾讯游戏数据分析系统负责人周东祥在 "GIAC全球互联网架构大会" 的分享了主题为<大数据分析系统在游戏领域的迭代与实践>的内容,具体的分享视频和PP ...

  6. 大数据项目实战——电信业务大数据分析系统

    基于大数据与hadoop的电信业务大数据分析系统 项目源代码:https://github.com/2462612540/Big_Data_Spark_Scala_hadoop/tree/master ...

  7. Python的网易云音乐数据分析系统 爬虫 echarts可视化 Flask框架 音乐推荐系统 源码下载

    Python的网易云音乐数据分析系统 爬虫 echarts可视化 Flask框架 音乐推荐系统 一.技术说明 网易云音乐数据(歌单.用户.歌词.评论)Python爬取Flask框架搭建ECharts. ...

  8. 智能交通大数据分析系统-实现功能

    智能交通大数据分析系统实现功能 以大数据.云计算.移动互联等先进信息技术为引领,以监控和维护道路通行秩序.保障道路畅通.有效预防和减少交通事故和交通拥堵为目标,实现分析大数据的分析研判. 在支队提供抓 ...

  9. 项目实战—教育平台大数据分析系统

    项目实战-教育平台大数据分析系统 一.数据准备 1.日志数据字段数据字典 2.日志文件test.log 二.项目需求 三.项目介绍 项目需求 数据源 技术栈 四.完整代码 一.数据准备 1.日志数据字 ...

最新文章

  1. hibernate 级联删除
  2. linux下如何查看某软件是否已安装
  3. MySQL 常用语法 之 DISTINCT
  4. 如何成为一个成功的 Java 开发人员?
  5. mysql8.0.15源码linux_源码安装mysql8.0.20
  6. 【C语言应用】使用查表法计算CRC8
  7. word自带公式编辑_原来有这样几种方式打开Word中的公式编辑器
  8. 边缘计算(二)边缘计算与智能制造
  9. 马里兰大学本科计算机科学,2020年马里兰大学本科专业设置
  10. the system clock has been set more than 24 hours
  11. Mac sudo: no valid sudoers sources found, quitting
  12. 【智能优化算法-正弦余弦算法】基于反向正弦余弦算法求解高维优化问题附matlab代码
  13. 批量复制提取Word中所有的表格到Excel(Python办公自动化)
  14. Spring学习-初识Spring
  15. 人工智能知识全面讲解:机器学习的类型
  16. linux coredump
  17. centos 7 vmstat命令详解
  18. matlab与卡尔曼滤波pdf,Kalman滤波器理论与应用:基于MATLAB实现 完整pdf高清版[3MB]...
  19. XSS(Cross Site Scripting)攻击简介
  20. JS 两数相除取百分比%并保留两位小数

热门文章

  1. 怎么发年终奖才能合理避税,工资总额固定的情况下。
  2. 幼儿园管理APP开发软件帮助宝宝更健康快乐的成长
  3. H5(nuxt)项目引入字体
  4. 降雨量预测血吸病虫风险
  5. JAVA 面试复习题
  6. 江南爱十大软装品牌 不同类型的窗帘,适合用在哪些地方?
  7. Nginx源码分析之 HTTP2
  8. 使用Postman测试接口时绕过登录
  9. 解读先电2.4 iaas-install-nova-{controller,comput}.sh 脚本
  10. 什么是 Web Workers?