【Pandas】筛选某列过滤

通过dataframe的第二个条件，进行筛选

#make字段异常值清洗
new = data[['make', 'model', 'instance_id']]
new['make_model'] = new['make']+':::'+new['model']
new.head(3)

# new.make_model.value_counts()
# 统计make_model列属性值出现的次数new.make_model.value_counts()[new.make_model.value_counts() <= 200]"""
OPPO:::OPPO+A59st               200
OPPO:::3007                     200
Xiaomi:::Redmi%20Note%203       200
Meizu:::MEIZU-M6                199
samsung:::SM-N9006              199...
OPPO,OPPO A53,A53:::OPPO A53      1
boway U15:::boway U15             1
BaiMao:::BM I8                    1
vivo:::vivoy75a                   1
SUPERJO:::SUPERJO                 1
Name: make_model, Length: 15597, dtype: int64
"""

找出符合第二列筛选条件的index（这里index不是0-n，而是刚才value_counts()的index）

(new.make_model.value_counts()[new.make_model.value_counts() <= 200]).index"""
Index(['OPPO:::OPPO+A59st', 'OPPO:::3007', 'Xiaomi:::Redmi%20Note%203','Meizu:::MEIZU-M6', 'samsung:::SM-N9006', 'Coolpad:::MTS-T0','OPPO R11st:::OPPO R11st', 'Blephone:::lephone T7A', 'GIONEE:::GN9011','Meizu:::PRO 7-S',...'HUAWEI:::HUAWEI%25252BG7-UL20', 'VOLTE:::L3', 'GIONEE:::GN868','alps:::SOP-i9', 'GT-I9300I:::GT-I9300I','OPPO,OPPO A53,A53:::OPPO A53', 'boway U15:::boway U15','BaiMao:::BM I8', 'vivo:::vivoy75a', 'SUPERJO:::SUPERJO'],dtype='object', length=15597)
"""

new.make_model"""
0          HUAWEI:::HUAWEI-CAZ-AL10
1             Xiaomi:::Redmi Note 4
2                  OPPO:::OPPO+R11s
3                               NaN
4                  Apple:::iPhone 7...
1041669             OPPO:::OPPO-R9s
1041670              Xiaomi:::MI-5X
1041671             vivo:::vivo Y37
1041672          vivo:::vivo%20Y75A
1041673                  OPPO:::A31
Name: make_model, Length: 1041674, dtype: object
"""

dataframe.loc(行索引, 列名)

# 在make_model列，
# 定位符合 new.make_model.isin((new.make_model.value_counts()[new.make_model.value_counts() <= 200]).index) 的行# new.loc[new.make_model.isin((new.make_model.value_counts()[new.make_model.value_counts() <= 200]).index), 'make_model'] = 'other' #去除低频词

再感受下第二个case

data['day'] = data['time'].apply(lambda x : int(time.strftime("%d", time.localtime(x))))
data['period'] = data['day']
data[['period']].head(3)

data['period'].unique()# array([29, 30, 31, 27,  1,  2, 28,  3])

直接用列筛选

[data['period']<27]"""
[0          False1          False2          False3          False4          False...  1041669     True1041670     True1041671     True1041672     True1041673     TrueName: period, Length: 1041674, dtype: bool]
"""


data['period']<27"""
0          False
1          False
2          False
3          False
4          False...
1041669     True
1041670     True
1041671     True
1041672     True
1041673     True
Name: period, Length: 1041674, dtype: bool
"""

挑选period列，值<27的行（已成功挑选）

data['period'][data['period']<27]"""
950        1
951        1
952        1
953        1
954        1..
1041669    3
1041670    3
1041671    3
1041672    3
1041673    3
Name: period, Length: 348536, dtype: int64
"""data['period'][data['period']<27] = data['period'][data['period']<27] + 31

这样可以使用head展示

data[['period']][data['period']<27].head(3)

还有种单列就能筛选的方法

t2['receive_number'] = t2.date_received.apply(lambda s:len(s.split(':')))
t2 = t2[t2.receive_number>1]
t2.head(3)

【Pandas】筛选某列过滤相关推荐

Pandas常见的数据过滤方法、通过列条件筛选行数据
Pandas常见的数据过滤方法.通过列条件筛选行数据不废话了,直接看代码吧: 一般情况下,前面5种就覆盖了绝大多数需求 import pandas as pd import numpy as npd ...
pandas筛选dataframe列名称中包含特定字符串的数据列(select columns contains specifiec substring in dataframe)
pandas筛选dataframe列名称中包含特定字符串的数据列(select columns contains specifiec substring in dataframe) 目录 pandas ...
Python pandas 筛选 Excel 特定行和列全集
一.筛选特定行 1. 行中的值满足某个条件2. 行中的值属于某个集合3. 行中的值匹配特定模式4. 在所有工作表 sheet 中筛选特定的行5. 在一组工作表 sheet(并不是所有的) 中筛选特定的 ...
Pandas选择一列或者多列数据
Pandas选择一列或者多列数据目录 Pandas选择一列或者多列数据 #将要筛选的数据列添加到list中并使用[]
pandas 选取行和列的方法
本文介绍在 pandas 中如何读取数据行列的方法.数据由行和列组成,在数据库中,行被称作记录 (record),列被称作字段 (field).回顾一下我们对记录和字段的获取方式:比较常见的,字段根据 ...
数据分析_python进行数据筛选1_列筛选
以titanic的训练数据为例进行展示,为了简化取前十行为例首先导入模块,导入数据 import pandas as pd import numpy as npdf = pd.read_csv(r& ...
pandas 筛选excel文件并保存新表
文章目录前言代码总结前言今天处理了一个大的excel文件,从中筛选符合条件的数据,excel工具只能筛选两个条件太局限了,就用pandas处理了一下,也是学到了很多东西,在这里记录一下,方便 ...
Python使用pandas设置数据列中float数据类型的有效小数位数、抑制科学计数法
Python使用pandas设置数据列中float数据类型的有效小数位数.抑制科学计数法目录
Python语言学习：利用pandas对两列字段元素求差集(对比两列字段所有元素的异同)
Python语言学习:利用pandas对两列字段元素求差集(对比两列字段所有元素的异同) 目录利用pandas对两列字段元素求差集(对比两列字段所有元素的异同) 输出结果实现代码利用pandas ...

【Pandas】筛选某列过滤

【Pandas】筛选某列过滤相关推荐

最新文章

热门文章