【Pandas】筛选某列过滤
通过dataframe的第二个条件,进行筛选
#make字段异常值清洗
new = data[['make', 'model', 'instance_id']]
new['make_model'] = new['make']+':::'+new['model']
new.head(3)
# new.make_model.value_counts()
# 统计make_model列属性值出现的次数new.make_model.value_counts()[new.make_model.value_counts() <= 200]"""
OPPO:::OPPO+A59st 200
OPPO:::3007 200
Xiaomi:::Redmi%20Note%203 200
Meizu:::MEIZU-M6 199
samsung:::SM-N9006 199...
OPPO,OPPO A53,A53:::OPPO A53 1
boway U15:::boway U15 1
BaiMao:::BM I8 1
vivo:::vivoy75a 1
SUPERJO:::SUPERJO 1
Name: make_model, Length: 15597, dtype: int64
"""
找出符合第二列筛选条件的index(这里index不是0-n,而是刚才value_counts()的index)
(new.make_model.value_counts()[new.make_model.value_counts() <= 200]).index"""
Index(['OPPO:::OPPO+A59st', 'OPPO:::3007', 'Xiaomi:::Redmi%20Note%203','Meizu:::MEIZU-M6', 'samsung:::SM-N9006', 'Coolpad:::MTS-T0','OPPO R11st:::OPPO R11st', 'Blephone:::lephone T7A', 'GIONEE:::GN9011','Meizu:::PRO 7-S',...'HUAWEI:::HUAWEI%25252BG7-UL20', 'VOLTE:::L3', 'GIONEE:::GN868','alps:::SOP-i9', 'GT-I9300I:::GT-I9300I','OPPO,OPPO A53,A53:::OPPO A53', 'boway U15:::boway U15','BaiMao:::BM I8', 'vivo:::vivoy75a', 'SUPERJO:::SUPERJO'],dtype='object', length=15597)
"""
new.make_model"""
0 HUAWEI:::HUAWEI-CAZ-AL10
1 Xiaomi:::Redmi Note 4
2 OPPO:::OPPO+R11s
3 NaN
4 Apple:::iPhone 7...
1041669 OPPO:::OPPO-R9s
1041670 Xiaomi:::MI-5X
1041671 vivo:::vivo Y37
1041672 vivo:::vivo%20Y75A
1041673 OPPO:::A31
Name: make_model, Length: 1041674, dtype: object
"""
dataframe.loc(行索引, 列名)
# 在make_model列,
# 定位符合 new.make_model.isin((new.make_model.value_counts()[new.make_model.value_counts() <= 200]).index) 的行# new.loc[new.make_model.isin((new.make_model.value_counts()[new.make_model.value_counts() <= 200]).index), 'make_model'] = 'other' #去除低频词
再感受下第二个case
data['day'] = data['time'].apply(lambda x : int(time.strftime("%d", time.localtime(x))))
data['period'] = data['day']
data[['period']].head(3)
data['period'].unique()# array([29, 30, 31, 27, 1, 2, 28, 3])
直接用列筛选
[data['period']<27]"""
[0 False1 False2 False3 False4 False... 1041669 True1041670 True1041671 True1041672 True1041673 TrueName: period, Length: 1041674, dtype: bool]
"""
data['period']<27"""
0 False
1 False
2 False
3 False
4 False...
1041669 True
1041670 True
1041671 True
1041672 True
1041673 True
Name: period, Length: 1041674, dtype: bool
"""
挑选period列,值<27的行(已成功挑选)
data['period'][data['period']<27]"""
950 1
951 1
952 1
953 1
954 1..
1041669 3
1041670 3
1041671 3
1041672 3
1041673 3
Name: period, Length: 348536, dtype: int64
"""data['period'][data['period']<27] = data['period'][data['period']<27] + 31
这样可以使用head展示
data[['period']][data['period']<27].head(3)
还有种单列就能筛选的方法
t2['receive_number'] = t2.date_received.apply(lambda s:len(s.split(':')))
t2 = t2[t2.receive_number>1]
t2.head(3)
【Pandas】筛选某列过滤相关推荐
- Pandas常见的数据过滤方法、通过列条件筛选行数据
Pandas常见的数据过滤方法.通过列条件筛选行数据 不废话了,直接看代码吧: 一般情况下,前面5种就覆盖了绝大多数需求 import pandas as pd import numpy as npd ...
- pandas筛选dataframe列名称中包含特定字符串的数据列(select columns contains specifiec substring in dataframe)
pandas筛选dataframe列名称中包含特定字符串的数据列(select columns contains specifiec substring in dataframe) 目录 pandas ...
- Python pandas 筛选 Excel 特定行和列全集
一.筛选特定行 1. 行中的值满足某个条件2. 行中的值属于某个集合3. 行中的值匹配特定模式4. 在所有工作表 sheet 中筛选特定的行5. 在一组工作表 sheet(并不是所有的) 中筛选特定的 ...
- Pandas选择一列或者多列数据
Pandas选择一列或者多列数据 目录 Pandas选择一列或者多列数据 #将要筛选的数据列添加到list中并使用[]
- pandas 选取行和列的方法
本文介绍在 pandas 中如何读取数据行列的方法.数据由行和列组成,在数据库中,行被称作记录 (record),列被称作字段 (field).回顾一下我们对记录和字段的获取方式:比较常见的,字段根据 ...
- 数据分析_python进行数据筛选1_列筛选
以titanic的训练数据为例进行展示,为了简化取前十行为例 首先导入模块,导入数据 import pandas as pd import numpy as npdf = pd.read_csv(r& ...
- pandas 筛选excel文件并保存新表
文章目录 前言 代码 总结 前言 今天处理了一个大的excel文件,从中筛选符合条件的数据,excel工具只能筛选两个条件太局限了,就用pandas处理了一下,也是学到了很多东西,在这里记录一下,方便 ...
- Python使用pandas设置数据列中float数据类型的有效小数位数、抑制科学计数法
Python使用pandas设置数据列中float数据类型的有效小数位数.抑制科学计数法 目录
- Python语言学习:利用pandas对两列字段元素求差集(对比两列字段所有元素的异同)
Python语言学习:利用pandas对两列字段元素求差集(对比两列字段所有元素的异同) 目录 利用pandas对两列字段元素求差集(对比两列字段所有元素的异同) 输出结果 实现代码 利用pandas ...
最新文章
- 如何在 Xcode 中修改应用的名字
- UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用:DNA序列突变点侦测的统计量及假设检验
- mysql数据对比同步_跨数据库mysql语句同步数据和对比运算
- JS中document和window的区别
- c语言便签程序,Windows7便签程序快捷键
- 搞懂C语言指针,看这篇就够了!
- 如是院长说:买不起房就多买两套,大家怎么看
- 微软发布 VS Code Java 安装程序,一键安装所有 Java 开发环境
- 即将放弃python的app_python放弃之 模块和包
- 基本数据类型及其包装类(一)
- 随想录(工业软件和消费级软件的区别)
- bug-AttributeError: ‘NoneType‘ object has no attribute ‘append‘
- iOS 获取设备的方向
- QTP10.0安装所遇问题-脚本调试器问题
- 三分钟解决Matlab中文乱码问题
- react 中加载静态word文档(或加载静态的html文件)
- 微信小程序客服消息配置 token 验证失败 微信无请求记录 问题现象的解决办法
- 如何查看已删除的微信聊天记录?教你两招,找到答案
- idea不区分大小写提示
- 动态权限框架:PermissionsDispatcher