python groupby用法_Python数据分析黑色星期五-知识点整理
1.把数据放在dataframe
df = pd.read_csv('路径')
2.查阅dataframe的信息:http://df.info()
3.查看df的前5
df.head(5)
4.查看哪里有空值
df.isna().any()
5.输出某列中去重后的值
print (df['Product_Category'].unique())
- 切忌,unique()是函数,前面需要加.
6.数据清洗:替换原来的控制
df.fillna(value=0,inplace=True)
- Ture = 直接修改原对象
- False = 新建副本保存(默认)
关于fillna()函数的解释:https://blog.csdn.net/weixin_39549734/article/details/81221276
7.删除不需要的列:
df. drop(columns=["User_ID","Product_ID"],inplace=True)
(因为"User_ID","Product_ID"是列,如果单独dataframe的话,他们就是一个一维结构的数据集,Series;相对应二维数据的数据集是Dataframe)
8.数据可视化:seaborn和matplotlibhttps://www.jianshu.com/p/4b925654f506
- Matplotlib 要求原始数据的输入类型为 Numpy 数组
- Seaborn 要求原始数据的输入类型为 pandas 的 Dataframe 或 Numpy 数组
import seaborn as sns
sns.countplot(df['Gender'])也可以写成: sns.countplot(df.Gender)
9.seaborn中的countplot的hue参数,可以通过控制hue参数,来更细分数据
关于countplot的用法:
- http://seaborn.pydata.org/generated/seaborn.countplot.html?highlight=countplot#seaborn.countplot
- https://blog.csdn.net/qixizhuang/article/details/85093544
- https://segmentfault.com/a/1190000015310299
sns.countplot(df['Age'],hue=df['Gender'])
10.理解pandas中的apply()函数 和 python的lambda函数 和 %s %的用法
- 理解apply():
- http://www.cnblogs.com/wuzhiblog/p/python_new_row_or_col.html
- https://www.jianshu.com/p/84bed15e9e6b
- 理解lambda() :
- https://www.cnblogs.com/hf8051/p/8085424.html
- 理解%s %
- https://www.cnblogs.com/wh-ff-ly520/p/9390855.html
简单来说,
- 对于apply():
- 这个函数需要自己实现,函数的传入参数根据axis来定,比如axis = 1,就会把一行数据作为Series的数据。
- 结构传入给自己实现的函数中,我们在函数中实现对Series不同属性之间的计算,返回一个结果,则apply函数
- 会自动遍历每一行DataFrame的数据,最后将所有结果组合成一个Series数据结构并返回。
- 对于lambda:其中的 x 是作为一个像for遍历里面的 i 值
- add = lambda x, y : x+y
- add(1,2) # 结果为3
- 需求:将列表中的元素按照绝对值大小进行升序排列
- list1 = [3,5,-4,-1,0,-2,-6]
- sorted(list1, key=lambda x: abs(x))
- add = lambda x, y : x+y
- 对于%s % : 它是作为一个可输入或可变化的变量
- name= input("Please input your name: ")
- print("Hello, %s good morning!" %name)
- Please input your name: Xiaolizi #输入名字Xiaolizi
- Hello, Xiaolizi good morning! #print 命令<br><br><br><br>
![](/assets/blank.gif)
11.画饼图
https://blog.csdn.net/jagbiam1000/article/details/79595279
x (每一块)的比例,如果sum(x) > 1会使用sum(x)归一化
labels (每一块)饼图外侧显示的说明文字
explode (每一块)离开中心距离
startangle 起始绘制角度,默认图是从x轴正方向逆时针画起,如设定=90则从y轴正方向画起
shadow 是否阴影
labeldistance label绘制位置,相对于半径的比例, 如<1则绘制在饼图内侧
autopct 控制饼图内百分比设置,可以使用format字符串或者format function'%1.1f'指小数点前后位数(没有用空格补齐)
pctdistance 类似于labeldistance,指定autopct的位置刻度
radius 控制饼图半径
- 普通画图
plt.pie(df['City_Category'].value_counts(), labels=df['City_Category'].unique(),autopct='%1.1f%%')
![](/assets/blank.gif)
- 通过groupby聚合后画图
plt.pie(df.groupby('City_Category')['Purchase'].sum(), labels = df['City_Category'].unique(),autopct='%1.1f%%')
![](/assets/blank.gif)
python groupby用法_Python数据分析黑色星期五-知识点整理相关推荐
- python groupby用法_Python 标准库实践之合并字典组成的列表
作者 | 陈祥安 来源 | Python学习开发 最近做了个数据合并的需求这里记录下: 要求如下: dict_of_list1 = [{"name": "zhangsan ...
- python 基础 之 re正则表达式的知识点整理,并简单使用说明
python 基础 之 re正则表达式的知识点整理,并简单使用说明 目录 python 基础 之 正则表达式的知识点整理,并简单使用说明 一.简单介绍
- python基础知识500题_python爬虫基础知识点整理
更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.sfkyty.com ...
- python统计分析书籍_Python数据分析入门书籍推荐
在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...
- python 多项式回归 假设检验_Python数据分析入门书籍推荐
在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...
- python数据分析软件_Python数据分析工具
Numpy Python没有提供数组功能,虽然列表可以完成基本的数组功能,但他不是真正的数组.Numpy内置函数处理速度是c语言级别,因此尽量使用内置函数,避免出现效率瓶颈的现象. Numpy的安装: ...
- python基本用法_Python基本用法总结
Python 的设计具有很强的可读性,易于使用.这里对python基本用法做一个总结介绍. 一. 变量类型 1. 变量赋值 Python中的变量赋值不需要类型声明,每个变量在使用前都必须赋值,变量赋值 ...
- python end用法_python中end的使用方法
python中end的使用方法 发布时间:2020-06-17 09:47:13 来源:亿速云 阅读:178 这篇文章给大家分享的是有关python中end的使用方法,小编觉得挺实用的,因此分享给大家 ...
- python try用法_python中的try的用法
展开全部 try语句32313133353236313431303231363533e78988e69d8331333431366238是python里面的控制语句,与except,finally配合 ...
- python pandas 分类汇总用法_python数据分析之pandas常用命令整理
原标题:python数据分析之pandas常用命令整理 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型 ,提供了高效地 ...
最新文章
- redmine 贴图操作
- BAPI_PO_CREATE1
- systemctl常用命令
- intellij idea 显示打开文件路径按钮
- 报错:“-bash: git: 未找到命令”
- 推导坐标旋转公式(转)
- Android之屏幕旋转之后当前activity被finish了依然被拉起来
- MAC下secureCRT无法保存密码的解决方法
- 快手员工泄露10亿元公司机密 被开除并收回期权,官方暂未回应...
- python免费网课-python网课资源
- Codeforces 869C The Intriguing Obsession
- GIT版本控制(详解)
- 科学的软件测试培训时间是多久?
- oracle 查询去年同期,Oracle求近7日累計值和去年同期值
- Appium自动化测试元素定位方式
- Java实现——Dom4j读写XML文件
- 记一次AWK程序耗时日志分析
- ThinkPHP6 验证码(点击刷新)
- 一文教你学会使用 th:block
- Ignite 数据网格快速学习(一)