kesci-这十套练习,教你如何使用Pandas做数据分析-练习1(学习笔记)
题目数据来源:https://www.kesci.com/mw/notebook/5c1b599d8859e0002b718378
了解你的数据 -- 探索Chipotle快餐数据
- 1. 导入需要的库
- 2. 导入数据
- 3. 查看前10行内容
- 4. 数据集有多少列(columns)
- 5. 打印出全部列的名称
- 6. 数据集的索引是怎样的
- 7. 被下单最多的商品是什么
- 8.在item_name这一列,一共有多少种商品被下单
- 9. 在choice_description中,下单次数最多的商品是什么
- 10. 一共有多少商品被下单
- 11. 将item_price转换为浮点数
- 12. 在数据集对应的时期内,收入(revenue)是多少
- 13. 在数据集对应的时期内,一共有多少订单
- 14. 每一单对应的平均总价是多少
- 15. 一共有多少种不同的商品被售出
1. 导入需要的库
import pandas as pd
2. 导入数据
chipo = pd.read_csv('chipotle.tsv', sep='\t')
3. 查看前10行内容
chipo.head(10)
4. 数据集有多少列(columns)
# print(chipo.shape) (4622, 5)
# type(chipo.shape) tuple 元祖类型 元祖是根据索引来获取元素的chipo.shape[1]
5. 打印出全部列的名称
chipo.columns
6. 数据集的索引是怎样的
chipo.index
7. 被下单最多的商品是什么
# 分组求和 排序
chipo.groupby(by='item_name').quantity.sum().sort_values(ascending=False).reset_index().head(1)
8.在item_name这一列,一共有多少种商品被下单
chipo.item_name.nunique()
9. 在choice_description中,下单次数最多的商品是什么
chipo.groupby('choice_description').quantity.count().sort_values(ascending=False).reset_index().head()# 或:
# value_counts 结果默认排序
chipo.choice_description.value_counts().reset_index().head()
具体参数可查看博客:https://blog.csdn.net/dzjun/article/details/84925056
10. 一共有多少商品被下单
chipo.quantity.sum()
11. 将item_price转换为浮点数
# 先转换为str,再替换掉美元($)符号,最后再转换为浮点类型(float)
chipo['item_price'] = chipo.item_price.str.replace('$', '').astype(float)
12. 在数据集对应的时期内,收入(revenue)是多少
chipo['sub_total'] = round(chipo.quantity * chipo.item_price, 2)
chipo.sub_total.sum()
13. 在数据集对应的时期内,一共有多少订单
chipo.order_id.nunique()
14. 每一单对应的平均总价是多少
chipo.groupby('order_id').sub_total.sum().mean()
15. 一共有多少种不同的商品被售出
chipo.item_name.nunique()
kesci-这十套练习,教你如何使用Pandas做数据分析-练习1(学习笔记)相关推荐
- 这十套练习,教你如何用Pandas做数据分析
最新工作比较忙,python这块搁置了好久都没有好好学习以及更新相关学习笔记,立下flag,争取两天更新一个练习题,到十一月初更新完这块内容 练习1-开始了解你的数据(2021-11-02已完成) 练 ...
- kesci-这十套练习,教你如何使用Pandas做数据分析-练习2(学习笔记)
题目数据来源:https://www.kesci.com/mw/notebook/5c1b599d8859e0002b718378 数据过滤与排序 -- 探索2012欧洲杯数据 1. 导入必要的库 2 ...
- kesci-这十套练习,教你如何使用Pandas做数据分析-练习3(学习笔记)
题目数据来源:https://www.kesci.com/mw/notebook/5c1b599d8859e0002b718378 数据分组 -- 探索酒类消费数据 1. 导入必要的库 2. 加载数据 ...
- kesci-这十套练习,教你如何使用Pandas做数据分析-练习5(学习笔记)
目录 1. 导入必要的库 2. 按照如下的元数据内容创建数据集 3. 将上述的数据框分别命名为data1,data2和data3 4. 将data1和data2两个数据框按照行的维度进行合并,命名为a ...
- kesci-这十套练习,教你如何使用Pandas做数据分析-练习4(学习笔记)
题目数据来源:https://www.kesci.com/mw/notebook/5c1b599d8859e0002b718378 目录 1. 导入库 2. 加载数据 3. 每一列(columns)的 ...
- python新手入门教程思路-Python新手入门教程_教你怎么用Python做数据分析
Python新手入门教程_教你怎么用Python做数据分析 跟大家讲了这么多期的Python教程,有小伙伴在学Python新手教程的时候说学Python比较复杂的地方就是资料太多了,比较复杂.很多网上 ...
- 2组语法,1个函数,教你学会用Python做数据分析!
前言 和很多同学接触过程中,我发现自学Python数据分析的一个难点是资料繁多,过于复杂.大部分网上的资料总是从Python语法教起,夹杂着大量Python开发的知识点,花了很多时间却始终云里雾里,不 ...
- OpenCV学习笔记(三十六)——Kalman滤波做运动目标跟踪 OpenCV学习笔记(三十七)——实用函数、系统函数、宏core OpenCV学习笔记(三十八)——显示当前FPS OpenC
OpenCV学习笔记(三十六)--Kalman滤波做运动目标跟踪 kalman滤波大家都很熟悉,其基本思想就是先不考虑输入信号和观测噪声的影响,得到状态变量和输出信号的估计值,再用输出信号的估计误差加 ...
- Kesci的十套数据分析练习笔记练习1-开始了解你的数据练习2-数据过滤与排序练习3-数据分组练习4-Apply函数练习5-合并练习6-统计练习7-可视化练习8-创建数据框练习9-时间序列练习10-删
练习题Kesci链接: [ link ](https://www.kesci.com/home/project/59e77a636d213335f38daec2) 文章目录 练习1-开始了解你的数据 ...
最新文章
- 技术大牛成长记,4年成就开源社区创始人
- 关于Firefox在Win8下界面显示错乱的解决方法
- [译] 曝光!UX 行话大全
- 西数硬盘刷新固件_玩4k如何选硬盘?究竟那些硬盘适合你
- JQuery中this指向
- linux开机自动ZFS,linux – 为什么重新启动导致我的ZFS镜像的一面成为UNAVAIL?
- python中的数字类型格式与运算,python数字数据类型
- python创建控件,用 IronPython 创建和调用用户控件.doc
- 《Cocos2D-x权威指南》——3.7 容器类
- 九度OJ 题目1534:数组中第K小的数字(二分解)
- 彼得.泰尔:认知未来是投资人的谋生之道
- 实验六 Linux下文件程序设计
- windows media player 官方修复工具下载及修复方法
- python通过pyautogui库来控制鼠标和键盘
- 高性能服务器架构(High-performace Server Architecture)
- Linux公社 学习连接
- mysql uuid分页优化_MySQL性能优化之分页查询优化
- N1盒子armbian蓝牙连接详细步骤
- 扫雷(详细版)保姆级
- 全国计算机等级考试二级 C 语言 程序设计考试大纲
热门文章
- 【实践经验】pip更改源加速下载
- 2020-04-10
- UBUTNU 18.04下的USRP N310连接
- matlab函数定义格式
- Nginx系列--介绍/官网等
- mysql中如何美化sql_手把手教你给 SQL 做个优化
- Nodejs 搭建https服务器(二)
- Linux AH00558: apache2: Could not reliably determine the server‘s fully qualified domain name
- Vue自定义动画/过渡
- 推荐 :10个数据科学家常犯的编程错误(附解决方案)