Pandas 模块-操纵数据(7)-检测是否重复 .duplicated()
目录
7. 检测是否重复 .duplicated()
7.1 .duplicated() 语法
7.1.1 语法结构
7.1.2 参数说明
7.2 .duplicated() 范例
7.2.1 subset 使用
7.2.2 keep 使用
7. 检测是否重复 .duplicated()
数据重复是一个特别普遍的现象,但不一定是用户所希望看到的。无论是从数据存储,还是数据利用角度,过多冗余重复的数据都会带来不必要的开支。首先,我们要能检测相关数据是否重复。
7.1 .duplicated() 语法
7.1.1 语法结构
Dataframe.duplicated(subset: 'Optional[Union[Hashable, Sequence[Hashable]]]' = None, keep: 'Union[str, bool]' = 'first')
7.1.2 参数说明
- subset:列标识或者列的序列,可选。默认值是None,即使用所有的列进行检测,如果 subset 指定了部分列,则只考虑 subset 指定列是否重复。
- keep:可选的集合 {'first', 'last', False},默认是 ‘first’。这个域决定了如何去标识重复行。
'first':重复的行中,除了第一行,其余的都标识为 True
'last':重复的行中,除了最后一行,其余的都标识为 True
False:把所有重复的行中都标识为 True
返回值:数据结构为一个series,数据类型为布尔值
Help on method duplicated in module pandas.core.frame:duplicated(subset: 'Optional[Union[Hashable, Sequence[Hashable]]]' = None, keep: 'Union[str, bool]' = 'first') -> 'Series' method of pandas.core.frame.DataFrame instanceReturn boolean Series denoting duplicate rows.Considering certain columns is optional.Parameters----------subset : column label or sequence of labels, optionalOnly consider certain columns for identifying duplicates, bydefault use all of the columns.keep : {'first', 'last', False}, default 'first'Determines which duplicates (if any) to mark.- ``first`` : Mark duplicates as ``True`` except for the first occurrence.- ``last`` : Mark duplicates as ``True`` except for the last occurrence.- False : Mark all duplicates as ``True``.Returns-------SeriesBoolean series for each duplicated rows.
7.2 .duplicated() 范例
这个函数相对来说比较简单
先准备数据
dict_data={"a":list("abcdaf"),"b":list("abfccc"),"c":list("ghijgl")}
df=pd.DataFrame.from_dict(dict_data)
df
7.2.1 subset 使用
默认情况,即对全部列进行检测,没有找到重复的行。
只对部分列进行检测,如 'b' 列,3、4、5 行重复,4、5 行被标识为 True
7.2.2 keep 使用
keep=‘last’,即重复行不列出最后一行,3、4、5 行重复,3、4 行被标识为 True
df.duplicated(subset=['b'],keep="last")#subset 只考虑"b",重复行不列出最后一行
keep=False,即把所有重复的行中都标识为 True,3、4、5 行重复,3、4、5 行都被标识为 True
Pandas 模块-操纵数据(7)-检测是否重复 .duplicated()相关推荐
- Pandas 模块-操纵数据(8)-去除重复行 .drop_duplicates()
目录 8. 去除重复行 .drop_duplicates() 8.1 .drop_duplicates() 语法 8.1.1 .drop_duplicates() 语法结构 8.1.2 .drop_d ...
- 使用pandas模块实现数据的标准化
目录 1.3σ原则 2.离差标准化 3.标准差标准化 4.小数定标标准化 3σ 原则 (u-3*σ ,u+3*σ ) 离差标准化 (x-min)/(max-min) 标准差标准化 (x-u)/σ 小数 ...
- pandas使用drop_duplicates函数基于subset参数指定的数据列子集删除重复行、并设置keep参数保留重复行中的最后一个数据行
pandas使用drop_duplicates函数基于subset参数指定的数据列子集删除重复行.并设置keep参数保留重复行中的最后一个数据行 目录
- pandas删除数据行中的重复数据行、基于dataframe所有列删除重复行、基于特定数据列或者列的作何删除重复行、删除重复行并保留重复行中的最后一行、pandas删除所有重复行(不进行数据保留)
pandas删除数据行中的重复数据行.基于dataframe所有列删除重复行.基于特定数据列或者列的作何删除重复行.删除重复行并保留重复行中的最后一行.pandas删除所有重复行(不进行数据保留) 目 ...
- python concat去除重复值语句_Python数据处理从零开始----第二章(pandas)④数据合并和处理重复值...
目录 第二章(pandas) Python数据处理从零开始----第二章(pandas)④数据合并和处理重复值 ============================================ ...
- python之日期与时间处理模块及利用pandas处理时间序列数据
文章目录 时间序列 一.日期和时间数据类型及工具 1.1字符串与datetime互相转换 二.时间序列基础 时间序列 时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域, ...
- Pandas模块中的DataFrame数据操作
Pandas模块对于二维数据表的操作非常方便,尤其是能够实现类似于数据库中的SQL语句的功能,方便了对数据的增删查改.下面举例说明DataFrame数据的基本操作. 为了便于理解,对于每种操作,均列出 ...
- Python——pandas模块—Series数据结构
Python--pandas模块-Series数据结构 Python--pandas模块-Series数据结构 pandas Series 创建Series 没有指定索引列时,自动创建:0~~(N-1 ...
- python pandas 去重_Pandas 数据框增、删、改、查、去重、抽样基本操作方法
怎么使用Python中Pandas库Resample,实现重采样,按照时间,比如原采样间隔为100ms,数据为[0,10,20,30,40],那么重采样#python中的pandas库主要有DataF ...
最新文章
- BZOJ4573 : [Zjoi2016]大森林
- java flow step,即使步骤完成,使用FlowBuilder的Spring Batch作业也会失败
- NMS和roi pooling 实现以及加速
- day05 selenium
- apt-mirror 校验错误文件处理
- labview在2048中添加时间滚动条_Chrome优化深色模式:滚动条颜色也能跟随变化 使上网更具沉浸感...
- 实现数据库实时更新 jQuery Timers
- 五大“领跑者”光伏基地概览
- 如何打造应对超大流量的高性能负载均衡?
- iOS -- 上传多张图片 后台(PHP)代码和上传一张的一样
- 【十九】文件译文:reportgenerator.properties (报表生成器属性文件)
- python 爬取了租房数据
- php api 在线编辑导出,api在线管理,调试,文档生成工具之Apizza
- 自动驾驶1-6: 推动决策和行动Driving Decisions and Actions
- SAP中PR/PO创建技巧之缺省值个人设置
- Elasticsearch地理位置总结
- B站笔试真题之[编程题]脸滚键盘
- 忘记Jenkins管理员密码的解决办法
- python 滤波放大数组,python 双边滤波与高斯滤波
- 蓝牙无法连接手机解决大全(转)
热门文章
- windows2008 使用windows server backup定时备份文件夹和批处理脚本定时删除文件夹
- GRYZ[寒假模拟赛]
- 赛灵思的block memory generator用户手册pg058翻译和学习(AXI4 Interface Block Memory Generator Feature Summary)
- 抖音矩阵系统,短视频矩阵系统,抖音SEO源码。look here
- 网络基本命令[转载]
- 古风游戏音乐—难忘的美好
- 灵魂书籍 | 莉尔·朗兹 |《如何让你爱的人爱上你 | 莉尔·朗兹》
- java 密码提交前判断_JSP中如何写密码输入和核实密码时正确与否的Java判断代码?...
- 基于AD20的DS3231的时钟电路设计
- 淘宝/天猫buyer_order_detail-获取购买到的商品订单详情接口接入解决方案