目录

7. 检测是否重复 .duplicated()

7.1  .duplicated() 语法

7.1.1 语法结构

7.1.2 参数说明

7.2 .duplicated() 范例

7.2.1  subset 使用

7.2.2 keep 使用


7. 检测是否重复 .duplicated()

数据重复是一个特别普遍的现象,但不一定是用户所希望看到的。无论是从数据存储,还是数据利用角度,过多冗余重复的数据都会带来不必要的开支。首先,我们要能检测相关数据是否重复。

7.1  .duplicated() 语法

7.1.1 语法结构

Dataframe.duplicated(subset: 'Optional[Union[Hashable, Sequence[Hashable]]]' = None, keep: 'Union[str, bool]' = 'first')

7.1.2 参数说明

  • subset:列标识或者列的序列,可选。默认值是None,即使用所有的列进行检测,如果 subset 指定了部分列,则只考虑 subset 指定列是否重复。
  • keep:可选的集合  {'first', 'last', False},默认是 ‘first’。这个域决定了如何去标识重复行。

'first':重复的行中,除了第一行,其余的都标识为 True

'last':重复的行中,除了最后一行,其余的都标识为 True

False:把所有重复的行中都标识为 True

返回值:数据结构为一个series,数据类型为布尔值

Help on method duplicated in module pandas.core.frame:duplicated(subset: 'Optional[Union[Hashable, Sequence[Hashable]]]' = None, keep: 'Union[str, bool]' = 'first') -> 'Series' method of pandas.core.frame.DataFrame instanceReturn boolean Series denoting duplicate rows.Considering certain columns is optional.Parameters----------subset : column label or sequence of labels, optionalOnly consider certain columns for identifying duplicates, bydefault use all of the columns.keep : {'first', 'last', False}, default 'first'Determines which duplicates (if any) to mark.- ``first`` : Mark duplicates as ``True`` except for the first occurrence.- ``last`` : Mark duplicates as ``True`` except for the last occurrence.- False : Mark all duplicates as ``True``.Returns-------SeriesBoolean series for each duplicated rows.

7.2 .duplicated() 范例

这个函数相对来说比较简单

先准备数据

dict_data={"a":list("abcdaf"),"b":list("abfccc"),"c":list("ghijgl")}
df=pd.DataFrame.from_dict(dict_data)
df

7.2.1  subset 使用

默认情况,即对全部列进行检测,没有找到重复的行。

只对部分列进行检测,如 'b' 列,3、4、5 行重复,4、5 行被标识为 True

7.2.2 keep 使用

keep=‘last’,即重复行不列出最后一行,3、4、5 行重复,3、4 行被标识为 True

df.duplicated(subset=['b'],keep="last")#subset 只考虑"b",重复行不列出最后一行

keep=False,即把所有重复的行中都标识为 True,3、4、5 行重复,3、4、5 行都被标识为 True

Pandas 模块-操纵数据(7)-检测是否重复 .duplicated()相关推荐

  1. Pandas 模块-操纵数据(8)-去除重复行 .drop_duplicates()

    目录 8. 去除重复行 .drop_duplicates() 8.1 .drop_duplicates() 语法 8.1.1 .drop_duplicates() 语法结构 8.1.2 .drop_d ...

  2. 使用pandas模块实现数据的标准化

    目录 1.3σ原则 2.离差标准化 3.标准差标准化 4.小数定标标准化 3σ 原则 (u-3*σ ,u+3*σ ) 离差标准化 (x-min)/(max-min) 标准差标准化 (x-u)/σ 小数 ...

  3. pandas使用drop_duplicates函数基于subset参数指定的数据列子集删除重复行、并设置keep参数保留重复行中的最后一个数据行

    pandas使用drop_duplicates函数基于subset参数指定的数据列子集删除重复行.并设置keep参数保留重复行中的最后一个数据行 目录

  4. pandas删除数据行中的重复数据行、基于dataframe所有列删除重复行、基于特定数据列或者列的作何删除重复行、删除重复行并保留重复行中的最后一行、pandas删除所有重复行(不进行数据保留)

    pandas删除数据行中的重复数据行.基于dataframe所有列删除重复行.基于特定数据列或者列的作何删除重复行.删除重复行并保留重复行中的最后一行.pandas删除所有重复行(不进行数据保留) 目 ...

  5. python concat去除重复值语句_Python数据处理从零开始----第二章(pandas)④数据合并和处理重复值...

    目录 第二章(pandas) Python数据处理从零开始----第二章(pandas)④数据合并和处理重复值 ============================================ ...

  6. python之日期与时间处理模块及利用pandas处理时间序列数据

    文章目录 时间序列 一.日期和时间数据类型及工具 1.1字符串与datetime互相转换 二.时间序列基础 时间序列 时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域, ...

  7. Pandas模块中的DataFrame数据操作

    Pandas模块对于二维数据表的操作非常方便,尤其是能够实现类似于数据库中的SQL语句的功能,方便了对数据的增删查改.下面举例说明DataFrame数据的基本操作. 为了便于理解,对于每种操作,均列出 ...

  8. Python——pandas模块—Series数据结构

    Python--pandas模块-Series数据结构 Python--pandas模块-Series数据结构 pandas Series 创建Series 没有指定索引列时,自动创建:0~~(N-1 ...

  9. python pandas 去重_Pandas 数据框增、删、改、查、去重、抽样基本操作方法

    怎么使用Python中Pandas库Resample,实现重采样,按照时间,比如原采样间隔为100ms,数据为[0,10,20,30,40],那么重采样#python中的pandas库主要有DataF ...

最新文章

  1. BZOJ4573 : [Zjoi2016]大森林
  2. java flow step,即使步骤完成,使用FlowBuilder的Spring Batch作业也会失败
  3. NMS和roi pooling 实现以及加速
  4. day05 selenium
  5. apt-mirror 校验错误文件处理
  6. labview在2048中添加时间滚动条_Chrome优化深色模式:滚动条颜色也能跟随变化 使上网更具沉浸感...
  7. 实现数据库实时更新 jQuery Timers
  8. 五大“领跑者”光伏基地概览
  9. 如何打造应对超大流量的高性能负载均衡?
  10. iOS -- 上传多张图片 后台(PHP)代码和上传一张的一样
  11. 【十九】文件译文:reportgenerator.properties (报表生成器属性文件)
  12. python 爬取了租房数据
  13. php api 在线编辑导出,api在线管理,调试,文档生成工具之Apizza
  14. 自动驾驶1-6: 推动决策和行动Driving Decisions and Actions
  15. SAP中PR/PO创建技巧之缺省值个人设置
  16. Elasticsearch地理位置总结
  17. B站笔试真题之[编程题]脸滚键盘
  18. 忘记Jenkins管理员密码的解决办法
  19. python 滤波放大数组,python 双边滤波与高斯滤波
  20. 蓝牙无法连接手机解决大全(转)

热门文章

  1. windows2008 使用windows server backup定时备份文件夹和批处理脚本定时删除文件夹
  2. GRYZ[寒假模拟赛]
  3. 赛灵思的block memory generator用户手册pg058翻译和学习(AXI4 Interface Block Memory Generator Feature Summary)
  4. 抖音矩阵系统,短视频矩阵系统,抖音SEO源码。look here
  5. 网络基本命令[转载]
  6. 古风游戏音乐—难忘的美好
  7. 灵魂书籍 | 莉尔·朗兹 |《如何让你爱的人爱上你 | 莉尔·朗兹》
  8. java 密码提交前判断_JSP中如何写密码输入和核实密码时正确与否的Java判断代码?...
  9. 基于AD20的DS3231的时钟电路设计
  10. 淘宝/天猫buyer_order_detail-获取购买到的商品订单详情接口接入解决方案