通过dataframe的第二个条件,进行筛选

#make字段异常值清洗
new = data[['make', 'model', 'instance_id']]
new['make_model'] = new['make']+':::'+new['model']
new.head(3)

# new.make_model.value_counts()
# 统计make_model列属性值出现的次数new.make_model.value_counts()[new.make_model.value_counts() <= 200]"""
OPPO:::OPPO+A59st               200
OPPO:::3007                     200
Xiaomi:::Redmi%20Note%203       200
Meizu:::MEIZU-M6                199
samsung:::SM-N9006              199...
OPPO,OPPO A53,A53:::OPPO A53      1
boway U15:::boway U15             1
BaiMao:::BM I8                    1
vivo:::vivoy75a                   1
SUPERJO:::SUPERJO                 1
Name: make_model, Length: 15597, dtype: int64
"""

找出符合第二列筛选条件的index(这里index不是0-n,而是刚才value_counts()的index)

(new.make_model.value_counts()[new.make_model.value_counts() <= 200]).index"""
Index(['OPPO:::OPPO+A59st', 'OPPO:::3007', 'Xiaomi:::Redmi%20Note%203','Meizu:::MEIZU-M6', 'samsung:::SM-N9006', 'Coolpad:::MTS-T0','OPPO R11st:::OPPO R11st', 'Blephone:::lephone T7A', 'GIONEE:::GN9011','Meizu:::PRO 7-S',...'HUAWEI:::HUAWEI%25252BG7-UL20', 'VOLTE:::L3', 'GIONEE:::GN868','alps:::SOP-i9', 'GT-I9300I:::GT-I9300I','OPPO,OPPO A53,A53:::OPPO A53', 'boway U15:::boway U15','BaiMao:::BM I8', 'vivo:::vivoy75a', 'SUPERJO:::SUPERJO'],dtype='object', length=15597)
"""
new.make_model"""
0          HUAWEI:::HUAWEI-CAZ-AL10
1             Xiaomi:::Redmi Note 4
2                  OPPO:::OPPO+R11s
3                               NaN
4                  Apple:::iPhone 7...
1041669             OPPO:::OPPO-R9s
1041670              Xiaomi:::MI-5X
1041671             vivo:::vivo Y37
1041672          vivo:::vivo%20Y75A
1041673                  OPPO:::A31
Name: make_model, Length: 1041674, dtype: object
"""

dataframe.loc(行索引, 列名)

# 在make_model列,
# 定位符合 new.make_model.isin((new.make_model.value_counts()[new.make_model.value_counts() <= 200]).index) 的行# new.loc[new.make_model.isin((new.make_model.value_counts()[new.make_model.value_counts() <= 200]).index), 'make_model'] = 'other' #去除低频词

再感受下第二个case

data['day'] = data['time'].apply(lambda x : int(time.strftime("%d", time.localtime(x))))
data['period'] = data['day']
data[['period']].head(3)

data['period'].unique()# array([29, 30, 31, 27,  1,  2, 28,  3])

直接用列筛选

[data['period']<27]"""
[0          False1          False2          False3          False4          False...  1041669     True1041670     True1041671     True1041672     True1041673     TrueName: period, Length: 1041674, dtype: bool]
"""

data['period']<27"""
0          False
1          False
2          False
3          False
4          False...
1041669     True
1041670     True
1041671     True
1041672     True
1041673     True
Name: period, Length: 1041674, dtype: bool
"""

挑选period列,值<27的行(已成功挑选)

data['period'][data['period']<27]"""
950        1
951        1
952        1
953        1
954        1..
1041669    3
1041670    3
1041671    3
1041672    3
1041673    3
Name: period, Length: 348536, dtype: int64
"""data['period'][data['period']<27] = data['period'][data['period']<27] + 31

这样可以使用head展示

data[['period']][data['period']<27].head(3)

还有种单列就能筛选的方法

t2['receive_number'] = t2.date_received.apply(lambda s:len(s.split(':')))
t2 = t2[t2.receive_number>1]
t2.head(3)

【Pandas】筛选某列过滤相关推荐

  1. Pandas常见的数据过滤方法、通过列条件筛选行数据

    Pandas常见的数据过滤方法.通过列条件筛选行数据 不废话了,直接看代码吧: 一般情况下,前面5种就覆盖了绝大多数需求 import pandas as pd import numpy as npd ...

  2. pandas筛选dataframe列名称中包含特定字符串的数据列(select columns contains specifiec substring in dataframe)

    pandas筛选dataframe列名称中包含特定字符串的数据列(select columns contains specifiec substring in dataframe) 目录 pandas ...

  3. Python pandas 筛选 Excel 特定行和列全集

    一.筛选特定行 1. 行中的值满足某个条件2. 行中的值属于某个集合3. 行中的值匹配特定模式4. 在所有工作表 sheet 中筛选特定的行5. 在一组工作表 sheet(并不是所有的) 中筛选特定的 ...

  4. Pandas选择一列或者多列数据

    Pandas选择一列或者多列数据 目录 Pandas选择一列或者多列数据 #将要筛选的数据列添加到list中并使用[]

  5. pandas 选取行和列的方法

    本文介绍在 pandas 中如何读取数据行列的方法.数据由行和列组成,在数据库中,行被称作记录 (record),列被称作字段 (field).回顾一下我们对记录和字段的获取方式:比较常见的,字段根据 ...

  6. 数据分析_python进行数据筛选1_列筛选

    以titanic的训练数据为例进行展示,为了简化取前十行为例 首先导入模块,导入数据 import pandas as pd import numpy as npdf = pd.read_csv(r& ...

  7. pandas 筛选excel文件并保存新表

    文章目录 前言 代码 总结 前言 今天处理了一个大的excel文件,从中筛选符合条件的数据,excel工具只能筛选两个条件太局限了,就用pandas处理了一下,也是学到了很多东西,在这里记录一下,方便 ...

  8. Python使用pandas设置数据列中float数据类型的有效小数位数、抑制科学计数法

    Python使用pandas设置数据列中float数据类型的有效小数位数.抑制科学计数法 目录

  9. Python语言学习:利用pandas对两列字段元素求差集(对比两列字段所有元素的异同)

    Python语言学习:利用pandas对两列字段元素求差集(对比两列字段所有元素的异同) 目录 利用pandas对两列字段元素求差集(对比两列字段所有元素的异同) 输出结果 实现代码 利用pandas ...

最新文章

  1. 如何在 Xcode 中修改应用的名字
  2. UA MATH567 高维统计III 随机矩阵12 整数环上的区间的应用:DNA序列突变点侦测的统计量及假设检验
  3. mysql数据对比同步_跨数据库mysql语句同步数据和对比运算
  4. JS中document和window的区别
  5. c语言便签程序,Windows7便签程序快捷键
  6. 搞懂C语言指针,看这篇就够了!
  7. 如是院长说:买不起房就多买两套,大家怎么看
  8. 微软发布 VS Code Java 安装程序,一键安装所有 Java 开发环境
  9. 即将放弃python的app_python放弃之 模块和包
  10. 基本数据类型及其包装类(一)
  11. 随想录(工业软件和消费级软件的区别)
  12. bug-AttributeError: ‘NoneType‘ object has no attribute ‘append‘
  13. iOS 获取设备的方向
  14. QTP10.0安装所遇问题-脚本调试器问题
  15. 三分钟解决Matlab中文乱码问题
  16. react 中加载静态word文档(或加载静态的html文件)
  17. 微信小程序客服消息配置 token 验证失败 微信无请求记录 问题现象的解决办法
  18. 如何查看已删除的微信聊天记录?教你两招,找到答案
  19. idea不区分大小写提示
  20. 动态权限框架:PermissionsDispatcher

热门文章

  1. flask 下载excel
  2. python电路仿真001
  3. python 加法代码_python运行加法
  4. SVN ubuntu下客户端神器RabbitVCS
  5. python北京奥运会_Python分析奥运会120年历史,谁才是奥运历史的王者?
  6. BIOS设置中还原coms设定的操作方法
  7. layui 表格行单击事件选中行前的单选框
  8. 综述:计算机视觉中的注意力机制
  9. android bsp入门到精通,网管教程:从入门到精通(软件篇).pdf
  10. 《改变世界的机器》作者丹尼尔·T·琼斯获 ILSSI 终身成就奖