数据聚合 是数据处理阶段的最后一步,通常要使每一个数组生成一个单一的数值。
数据分类处理:
分组:先把数据分为几组
用函数处理:为不同组的数据应用不同的函数以转换数据
合并:把不同组得到的结果合并起来
数据分类处理的核心: groupby()函数
df=DataFrame({'color':['red','green','red','blue','green'],
              'item':['pen','pencil','book','cup','watch'],
             'price1':np.random.rand(5),
             'price2':np.random.rand(5)})
df
如果使用color列索引,计算price1的均值,可以先获取到price1列,然后再调用groupby函数,用参数指定color这一列
.groupby('以其为索引的列名')['要计算的列名']
g=df.groupby('color')['price1']
g
将其整合之后,可以利用其实现各种操作:
g.sum()    #求price的和
g.mean()   #求price的平均值
g.max()   
g.min()
============================================
练习:
假设菜市场张大妈在卖菜,有以下属性:
菜品(item):萝卜,白菜,辣椒,冬瓜
颜色(color):白,青,红
重量(weight)
价格(price)
要求以属性作为列索引,新建一个ddd
对ddd进行聚合操作,求出颜色为白色的价格总和
对ddd进行聚合操作,求出萝卜的所有重量(包括白萝卜,胡萝卜,青萝卜)以及平均价格
ddd=DataFrame({'item':['萝卜','萝卜','辣椒','白菜','瓜','瓜'],
    'color':['white','green','red','green','white','green'],
   'weight':[10,20,22,20,10,34],
   'price':[1.2,3.4,5.6,6.7,7.8,8.9]})
ddd
对ddd进行聚合操作,求出颜色为白色的价格总和
dw=ddd.groupby('color')['price']
dw.sum()['white']
对ddd进行聚合操作,求出萝卜的所有重量(包括白萝卜,胡萝卜,青萝卜)以及平均价格
dh=ddd.groupby('item')['price','weight']
dh
dh.sum()['weight']['萝卜']
dh.mean()['price']['萝卜']

数据处理(二)数据聚合相关推荐

  1. 【Python】GroupBy:数据聚合与分组运算

    [博客地址]:https://blog.csdn.net/sunyaowu315 [博客大纲地址]:https://blog.csdn.net/sunyaowu315/article/details/ ...

  2. Flink使用二次聚合实现TopN计算-乱序数据

    一.背景说明: 在上篇文章实现了TopN计算,但是碰到迟到数据则会无法在当前窗口计算,需要对其中的键控状态优化 Flink使用二次聚合实现TopN计算 本次需求是对数据进行统计,要求每隔5秒,输出最近 ...

  3. pandas 提取大于某值的数据_Pandas 数据处理(二) - 筛选数据

    Pandas 数据处理(二) - 筛选数据 使用demo.csv举几个栗子~ 1 2 3 4 5 6编号,日期,单价,数量 T001,2018-03-02 12:34:05,100,3 T002,20 ...

  4. python中数据分组计算_python3数据聚合与分组运算(二)

    数据聚合 对于聚合,这里指的是任何能够从数组产生标量值的数据转换过程.之前的例子中已经用过一些,比如mean.count.min以及sum等.我们可能想知道在GroupBy对象上调用mean()时究竟 ...

  5. 如何做服务编排/数据聚合?(使用Goku API Gateway实现)

    什么是服务编排/数据聚合? 服务编排/数据聚合 指的是可以通过一个请求来依次调用多个微服务,并对每个服务的返回结果做数据处理,最终整合成一个大的结果返回给前端. 例如一个服务是"查询用户预定 ...

  6. pandas dataframe数据聚合groupby、agg、privot基于sum统计详解及实例

    pandas dataframe数据聚合groupby.agg.privot基于sum统计详解及实例 知道了sum.那么min.max.mean.median都是举一反三的事情了. 在日常的数据分析中 ...

  7. mysql 分组排序_Python、PowerBI、Excel、MySQL,都能做?搞清楚数据聚合与分箱

    阅读提示 本内容为日常频繁使用的数据处理操作,不涉及底层技术问题,烦请爱钻牛角的杠精绕行. 本内容尽量简单直白.步骤详细,适合数据分析入门.特别喜欢技术语言的大佬们,可自行跳过. 上一篇:数据更新删除 ...

  8. 基于深度学习的脑电图识别 综述篇(二)数据采样及处理

    作者|Memory逆光 本文由作者授权分享 导读 脑电图(EEG)是一个复杂的信号,一个医生可能需要几年的训练并利用先进的信号处理和特征提取方法,才能正确解释其含义.而如今机器学习和深度学习的发展,大 ...

  9. 关于吃掉物理的二次聚合无法实现的需要之旁门左道实现法

    需求: 吃掉物理想要统计一下,在指定时间内,所有的吃掉物理用户(包括老师,学生,家长等),按访问次数进行一下聚合,显示每个访问次数对应的人数,可以进一步获知僵尸用户和活跃用户的个数,以后可能扩展为想知 ...

最新文章

  1. 十大成长型机器人技术大盘点
  2. vs2012html图片,简单几步 实现vs2010对html5的支持
  3. Hadoop的安装与配置及示例程序wordcount的运行
  4. python根据矩阵数值大小涂上不同深浅颜色
  5. POJ 3126-Prime Path
  6. pep3评估报告解读_首次公布!PISA全球胜任能力评估报告出炉,有何新启示?
  7. c语言a b的和 不用加号,力扣(LeetCode)刷题,简单题(第16期)
  8. stm32内部低速rtc_STM32时钟RCC详解
  9. 把应用程序从 Internet Explorer 迁移到 Mozilla
  10. 10个SQL注入工具
  11. 关于软件试用期功能实现-2018.1.24
  12. jenkins+Warnings Next Generation Plugin构建代码自动化检测
  13. 前端如何实现即时通信?
  14. WeUI:专为开发微信HTML5应用的开源Web UI组件库
  15. 【论文阅读笔记】Automatic Liver and Lesion Segmentation in CT Using Cascaded Fully Convolutional Neural Net
  16. 部分RFID安全技术
  17. 使用vsftpd搭建FTP服务器(Centos 7)
  18. 游戏轮播图片-制作煽动翅膀的效果(含素材视频教程)
  19. Elasticsearch宝典:从ELK到Elastic Stack
  20. C语言回顾--C语言实现栈的入栈和出栈

热门文章

  1. The logbook of Android bug in daily development.
  2. 一个三十岁中国男人的婚姻思考 转帖
  3. ASUS|华硕天选4 FX507ZV ZU ZC 工厂系统带ASUS Recovery恢复功能
  4. 《一起来捉妖》: 区块链当个挂件挺好
  5. 蚂蚁区块链第20课 可信存证司法链从入门到实施
  6. matplot 坐标点_matplot画子图、设置坐标和标题
  7. 总结:SpringAOP(一、概念和代理)
  8. Spring 注解比较,@Bean 和 @Component的区别
  9. Android Messenger使用教程
  10. Android 5.0 上 Failure [INSTALL_FAILED_DUPLICATE_PERMISSION的问题