Amazon Top 50 Bestselling Books 2009 - 2019

导入相关的包

import numpy as np
import pandas as pd
pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as snsprint("Setup Complete")

获取相关的数据

  • Name:书名
  • Author:作者
  • User Rating:用户评分
  • Reviews:用户评论数
  • Price:书的价格
  • Year:它在最畅销书中排名的年份
  • Genre:小说还是非小说
# 获取原始数据
data_original = pd.read_csv("./bestsellers with categories.csv")
data_original

对全部书进行数据分析

小说和非小说的数量

# 非小说的数量
AllNonFiction_count = data_original.loc[data_original.Genre == "Non Fiction"].Genre.count()
# 小说的数量
AllFiction_count = data_original.loc[data_original.Genre == "Fiction"].Genre.count()
# 转换成DataFrame对象
data = {'count':[AllFiction_count,AllNonFiction_count]}
data = pd.DataFrame(data=data, index=['Fiction','NonFiction'])

绘制条形图
由图像可以知道非小说占大部分

plt.figure(figsize=(10,6))
plt.title("Non Fiction and Fiction")sns.barplot(x=data.index, y=data['count'])plt.xlabel("isFiction")
plt.ylabel("Count")

获取评分最高的书和评分最低的书

查看所有书的评分,可以知道最高评分是4.9分,最低是3.3分

# 查看所有的评分
data = data_original['User Rating'].unique()
# 按从小到大排序
data.sort()
dataarray([3.3, 3.6, 3.8, 3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8,4.9])
rating_top = data_original.loc[data_original['User Rating']==4.9]
rating_top.head()


评分最低的书仅一本,为《The Casual Vacancy》

# 获取评分最低的书
rating_bottom = data_original.loc[data_original['User Rating']==3.3]
rating_bottom

对评分最高的书做处理分析

# 按年的升序排序
rating_top.sort_values('Year').head()

# 获取统计信息 有52本书
rating_top.count()

获取各项信息

  • 小说和非小说的数量
  • 每年的评分最高小说的数量
# 非小说的数量
NonFiction_count = rating_top.loc[rating_top.Genre == "Non Fiction"].Genre.count()
# 小说的数量
Fiction_count = rating_top.loc[rating_top.Genre == "Fiction"].Genre.count()
# 转换成DataFrame对象
data = {'count':[Fiction_count,NonFiction_count]}
data = pd.DataFrame(data=data, index=['Fiction','NonFiction'])

绘制条形图
由图像可知,评分最高的书籍中非小说只占小部分

plt.figure(figsize=(10,6))
plt.title("Non Fiction and Fiction")sns.barplot(x=data.index, y=data['count'])plt.xlabel("isFiction")
plt.ylabel("Count")

# 获取年
yeararray = rating_top.Year.unique()
# 获取每年的评分最高书籍的数量
count = []
index = []
for i in yeararray:index.append(i)count.append(rating_top.loc[rating_top.Year == i].Year.count())
# 生成dataFrame数组
year_topcount = {'count':count}
data = pd.DataFrame(data=year_topcount, index=index)

生成条形图和折现图
由下图可知,2019年评分最高的书最多,2011年最少

# 条形图
plt.figure(figsize=(10,6))
plt.title("Top Rating Book Count")sns.barplot(x=data.index, y=data['count'])plt.xlabel("Year")
plt.ylabel("Count")

# 折线图
plt.figure(figsize=(10,6))
sns.lineplot(data=data)
plt.xlabel("Year")
plt.ylabel("Count")

2009-2019年亚马逊畅销书50强数据集可视化分析-基于Pandas-Seaborn相关推荐

  1. 2019年亚马逊跨境电商无货源店群如何来做?

    淘宝的店群模式已经玩到了尽头,亚马逊成为2019主流模式 第一,选择亚马逊 现在国内传统的电商已经到尽头了,当下主流模式是亚马逊跨境电商,无货源这个词做电商的人都常常听得到,有的仍然还是有很多更不理解 ...

  2. 亚马逊各类存储的比较与分析

    亚马逊各类存储的比较与分析 摘要:本文通过对Amazon四大存储类型--Amazon S3.Amazon EBS.Amazon EFS.Amazon S3 Glacier分别的优劣势.适用场景和收费策 ...

  3. 今天,我辞去了亚马逊年薪 50 万美金的工作!

    作者 | Daniel Vassallo 出品 | CSDN 博客 CSDN 编者按: 亚马逊作为全球顶尖科技公司之一,是无数技术人与从业者向往的地方.本文作者在亚马逊从初级开发者做起,通过短短三年的 ...

  4. 亚马逊图书销量前五十分析

    背景 众所周知,亚马逊是全球最大的互联网书店.该数据集包含从2009年到2019年每年亚马逊上最畅销的前50的数据.包含550本书,使用Goodreads将数据分类为小说和非虚构类别. 导入相关包 i ...

  5. 亚马逊商城评论数据分析与可视化(KNN预测评分,绘制云图)

    目录 1.项目源码 2.数据部分 2.1.数据说明 2.2.数据预处理 2.3.文本清理 3.文本特征提取 4.KNN分类器寻找相似产品 5.基于聚类的词关联 1.项目源码 可在github下载: h ...

  6. 『亚马逊市值7680亿美元』高盛分析师说估值依然过低丨背后的逻辑是什么?

    关注"AI时速"智赢未来 AI时进 因着Ai的美好:用速度和激情创赢Ai时代! 职业创业|圈子机会|进化共赢     与时俱进丨创赢未来 每日AI 写在前面 2018/03/21 ...

  7. 关键词热度分析工具_亚马逊卖家: 产品关键词挖掘分析必备工具!

    做亚马逊的应该都知道,亚马逊的大部分流量都是来自于产品关键词的搜索,一个好的关键词可以大大的提高你的产品曝光,促进成交,还可以节省时间和成本,是增加流量最好的一个方法. 无论你是发布产品,还是优化Li ...

  8. 亚马逊家居行业中办公室家具市场前景分析及货源分享

    提到家具行业,怎么能少了办公家具这个赛道? 在最近更新的亚马逊美国站TOP200热销榜单中,办公椅.电脑桌等多款办公家具产品被列入其中. 话说家具产品在2020年爆火后,需求曾一度回落,可从长远来看, ...

  9. 亚马逊开店店铺选品技巧分析

    在亚马逊开店,产品是核心,没有好的产品,一切都是零,"七分靠选品,三分靠运营"这句话在亚马逊平台也是广泛流传.由此可见,在亚马逊开店选品是多么的重要,今天华钜同创就为大家带来亚马逊 ...

最新文章

  1. 区块链挖矿的钱从哪来 区块链挖矿怎么挣钱
  2. Python基础学习!基本元素,数字,字符串以及变量
  3. 导入已有工程相关问题解决实录
  4. android 截屏指定区域,Android截图 截取ContentView 截取指定的View并且保存
  5. 使用flask_socketio实现客户端间即时通信
  6. Oracle存储过程中使用游标来批量解析CLOB字段里面的xml字符串:
  7. JFinal Db + Record模式 - ORM 框架
  8. JeecgBoot的前端Form升级为FormModel用法(支持 v-model 绑定)
  9. 聊聊 Jmeter 如何并发执行 Python 脚本
  10. python求最大值代码的方式_python使用分治法实现求解最大值的方法
  11. 循环神经网络 递归神经网络_递归神经网络-第5部分
  12. 黑马程序员-python笔记-从入门到入职
  13. 《大型网站技术架构:核心原理与案例分析》读书笔记-高可用
  14. Qt开源作品40-图片及文字与base64编码互换
  15. itunes备份电脑C盘内存不够怎么办?
  16. leetcode13——罗马数字转整数(简单,0)
  17. LiveGBS国标流媒体-摄像头网络直播方案部署问题
  18. 悟空crm客户管理,KSOA系统集成呼叫中心系统融合
  19. CSS3 background-size让背景图寸尺大小可控
  20. 月薪5w的大佬都爱用的SWOT分析法,本文分析透了!

热门文章

  1. 2000个常用的英文单词
  2. 红旗Linux的特点和应用范围,三大特性!红旗Linux Desktop 7体验
  3. python安装wheel,opencv与其它模块
  4. 如何更加深入地学习Python?
  5. Vue2中样式详解(scoped)
  6. Varint+ZigZag编码和解码
  7. GLUT的下载与安装
  8. Hadoop集群实验
  9. 将pem证书转换为crt/key
  10. 医院网络部绩效考核指标具体方案