目录

一、获取老番茄数据

二、python数据分析

1、读取数据源

2、查看数据概况

3、查看异常值

4.1、查看最大值(max函数)

4.2、查看最小值(min函数)

5.1、查看TOP3的视频(nlargest函数)

5.2、查看倒数3的视频(nsmallest函数)

6、查看相关性

7.1、可视化分析-plot

7.2、可视化分析-pyecharts

三、同步讲解视频


一、获取老番茄数据

首先,看下目标分析数据:

含字段:

  • 视频标题
  • 视频地址
  • 视频上传时间
  • 视频时长
  • 是否合作视频
  • 视频分区
  • 弹幕数
  • 播放量
  • 点赞数
  • 投币量
  • 收藏量
  • 评论数
  • 转发量
  • 实时爬取时间

基于这份老番茄数据,用python做了以下基础数据分析的开发。

二、python数据分析

1、读取数据源

import pandas as pd
df = pd.read_excel('老番茄.xlsx', parse_dates=['视频上传时间', '实时爬取时间'])  # 读取excel数据

2、查看数据概况

df.head(3)  # 查看前三行数据
df.shape  # 查看形状,几行几列
df.info()  # 查看列信息
df.describe()  # 数据分析
df['是否合作视频'].value_counts()  # 统计:是否合作视频
df['视频分区'].value_counts()  # 统计:视频分区

3、查看异常值

df2 = df[['视频标题', '视频地址', '弹幕数', '播放量','点赞数', '投币量', '收藏量', '评论数', '转发量', '视频上传时间']]  # 去掉不关心的列
df2.loc[df.评论数 == 0]  # 评论数是0的数据
df2.isnull().any()  # 空值
df2.duplicated().any()  # 重复值

4.1、查看最大值(max函数)

df2.loc[df.播放量 == df['播放量'].max()]  # 播放量最高的视频
df2.loc[df.弹幕数 == df['弹幕数'].max()]  # 弹幕数最高的视频

4.2、查看最小值(min函数)

df2.loc[df.投币量 == df['投币量'].min()]  # 投币量最小的视频
df2.loc[df.收藏量 == df['收藏量'].min()]  # 收藏量最小的视频

5.1、查看TOP3的视频(nlargest函数)

df2.nlargest(n=3, columns='播放量')  # 播放量TOP3的视频
df2.nlargest(n=3, columns='投币量')  # 投币量TOP3的视频

5.2、查看倒数3的视频(nsmallest函数)

df2.nsmallest(n=3, columns='评论数')  # 评论数倒数3的视频
df2.nsmallest(n=3, columns='转发量')  # 转发量倒数3的视频

6、查看相关性

# 查看spearman相关性(得出结论:收藏量&投币量,相关性最大,0.98)
df2.corr(method='spearman') 

7.1、可视化分析-plot

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 显示中文标签  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题
# 可视化效果不好
df2.plot(x='视频上传时间', y=['弹幕数', '播放量', '点赞数', '投币量', '收藏量', '评论数', '转发量'])

7.2、可视化分析-pyecharts

from pyecharts.charts import Line  # 折线图所导入的包
from pyecharts import options as opts  # 全局设置所导入的包
time_list = df2['视频上传时间'].astype(str).values.tolist()
line = (Line()  # 实例化Line# 加入X轴数据.add_xaxis(time_list)# 加入Y轴数据.add_yaxis("弹幕数", df2['弹幕数'].values.tolist()).add_yaxis("播放量", df2['播放量'].values.tolist()).add_yaxis("点赞数", df2['点赞数'].values.tolist()).add_yaxis("投币量", df2['投币量'].values.tolist()).add_yaxis("收藏量", df2['收藏量'].values.tolist()).add_yaxis("评论数", df2['评论数'].values.tolist()).add_yaxis("转发量", df2['转发量'].values.tolist()).set_global_opts(title_opts=opts.TitleOpts(title="老番茄数据分析"),legend_opts=opts.LegendOpts(is_show=True),)# 全局设置项
)

至此,基础数据分析工作完成了。

三、同步讲解视频

逐行代码视频讲解:

【python数据分析】4分钟讲解pandas数据分析老番茄

首发公众号文章:【Python数据分析案例】python数据分析老番茄视频数据


我是马哥,全网累计粉丝上万,欢迎一起交流python技术。

各平台搜索“马哥python说”:知乎、哔哩哔哩、小红书、新浪微博。

【Python数据分析】pandas常用基础数据分析代码相关推荐

  1. python如何实现选项功能_python几种常用功能如何实现 python几种常用功能实现代码实例...

    本篇文章小编给大家分享一下python几种常用功能实现代码实例,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看. 1.python 程序退出的几种方式 import sys s ...

  2. python判断语法_Python基础语法——代码规范判断语句循环语句

    Python基础语法 代码的执行顺序 从上到下 从左到右 代码规范 模块名,包名,普通数据量一般小写字母,多个单词之间用 _ 连接 不要用系统定义的名称,具有特殊意义的表示符,如:doc,txt之类的 ...

  3. 数据科学与python语言——Pandas统计分析基础(时间转换+聚合)

    Pandas统计分析基础(时间转换+聚合) 实验要求一 实验二要求 全部代码 实验要求一 #M表的时间戳类型转为datetime data_Mete['TIMESTAMP']=pd.to_dateti ...

  4. python利用pandas合并excel表格代码_利用Python pandas对Excel进行合并的方法示例

    前言 在网上找了很多Python处理Excel的方法和代码,都不是很尽人意,所以自己综合网上各位大佬的方法,自己进行了优化,具体的代码如下. 博主也是新手一枚,代码肯定有很多需要优化的地方,欢迎各位大 ...

  5. redhat常用基础命令代码

    redhat常用基础命令 1.登陆和关机,重启和切换用户,创建删除用户 远程登陆redhat: ssh root@192.168.xx.xx ssh为远程登陆选择的通道,root为用户名,192.16 ...

  6. python读取dat数据anaconda_基于python的大数据分析-pandas数据读取(代码实战)

    我们常见的数据存储格式无非就是csv.excel.txt以及数据库等形式. 数据读取 在pandas中可以使用一些函数完成数据的读取.比如read_csv.read_excel.read_table. ...

  7. 学python需要什么文化基础-数据分析需要掌握那些基础知识?

    在这个信息对称的时代,数据分析师的工作将为领导决策提供重要的价值,在企业的地位备受重视.因此,这个职业也吸引了越来越多的人,那么想成为一名数据分析师,以下这些基础的知识是必须要掌握的. />北京 ...

  8. python安装pandas库cmd_python数据分析之pandas安装

    (其实最好是用binary文件安装,例如pandas-0.9.1.win32-py2.7.exe,则不会出现下面问题) 1,下载,cmd命令行进入下载解压目录,python setup.py inst ...

  9. Python之pandas库--基础

    目录 创建新的工作簿 新建工作簿同时写入数据 设置索引 读取数据 txt和CSV文件转化 读取数据库内容 pandas数据结构 DataFrame用法 实现VLOOKUP功能 需求:将总分调整顺序,放 ...

最新文章

  1. 我对序列化(Serializable)的理解
  2. 【Jenkins系列1】Jenkins定时任务设置
  3. Springboot配置拦截器出现“No mapping for GET“静态资源的情况
  4. php中上传图片怎么显示出来,PHP上传图片类显示缩略图功能
  5. Servlet高级应用---Servlet与缓存
  6. 六界仙尊h5服务器维护多久,《六界仙尊》5月6日更新维护 公开虚天BOSS坐标
  7. Leetcode 200.岛屿数量
  8. java数组验证哥德巴赫猜想_验证哥德巴赫猜想的JAVA代码
  9. FPGA 429 接口设计
  10. 如何使用计算机管理员账户,如何使用管理员身份运行程序【图解】
  11. cnckpi绩效考核模板_综合绩效审查模板
  12. 【一键安装+Docker】无视系统,十几个ROS版本任你选择
  13. Keras框架使用Vnet2d模型对遥感图像语义分割
  14. “中年跳槽,伤筋动骨”:35岁跳槽,你可要想清楚
  15. 创建动态的XML数据
  16. 程序猿和hr面试时的巅峰对决
  17. 遇见狂神说HTML笔记1
  18. 常见目标跟踪数据集下载链接整理(更新中)
  19. python技术学什么好呢_想自学一些实用的技术,学什么好?
  20. RabbitMQ手动确认模式(项目开发常用模式)

热门文章

  1. 别眨眼!AI通过自学秒解魔方,比人类纪录快两倍
  2. 怎么入行游戏建模,这些事你必须提前知道
  3. Sonarqube源码解析
  4. android app 设计,Android app 设计小结
  5. 清华计算机系唐杰,清华大学——唐杰:图神经网络 (GNN) 及认知推理
  6. 联想Y510p笔记本台达电版电源型号和参数
  7. 2020资料员-通用基础(资料员)模拟考试题库及资料员-通用基础(资料员)考试试题
  8. 宝塔 Supervisor管理器 自动重启守护进程
  9. 专三、mcg-helper一键生成jeecg框架单表功能模块
  10. 麓言信息UI设计中的动效设计标准与规范