drop_duplicates()

1、不定义任何参数,完全删除重复的行数据

2、去除重复的几列行数据

目录

一、代码示例:

二、运行结果:

三、详解:


一、代码示例:

import pandas as pddf = pd.DataFrame({'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],'style': ['cup', 'cup', 'cup', 'pack', 'pack'],'rating': [4, 4, 3.5, 15, 5]})
print("---------------------原始数据:")
print(df)
print("------------------------df.drop_duplicates()")
print(df.drop_duplicates())
print("------------------------删除在brand列中重复的数据行")
print(df.drop_duplicates(subset='brand'))
print("------------------------重复行保留第一次出现的行,删除其他行")
print(df.drop_duplicates(keep="first"))
print("----------------------inplace 布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本")
print("-----------------inplace=False 删除重复项后返回副本")
print(df.drop_duplicates(inplace=False))
print("-------------df1")
print(df)
print("-----------------inplace=True 直接在原数据上删除重复项")
print(df.drop_duplicates(inplace=True))
print("-------------df2")
print(df)

二、运行结果:

---------------------原始数据:brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0
------------------------df.drop_duplicates()brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0
------------------------删除在brand列中重复的数据行brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
------------------------重复行保留第一次出现的行,删除其他行brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0
----------------------inplace 布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本
-----------------inplace=False 删除重复项后返回副本brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0
-------------df1brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0
-----------------inplace=True 直接在原数据上删除重复项
None
-------------df2brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

三、详解:

drop_duplicates(self, subset: 'Optional[Union[Hashable, Sequence[Hashable]]]' = None, keep: 'Union[str, bool]' = 'first', inplace: 'bool' = False, ignore_index: 'bool' = False)

返回:

        DataFrame with duplicate rows removed.
    
    Considering certain columns is optional. Indexes, including time indexes
    are ignored.
    
参数:
    ----------
    subset : 指定重复数据所在的列。column label or sequence of labels, optional
        Only consider certain columns for identifying duplicates, by
        default use all of the columns.
    keep : {'first', 'last', False}, default 'first'
        Determines which duplicates (if any) to keep.
        - ``first`` : 除了第一次出现以外,删除重复项。Drop duplicates except for the first occurrence.
        - ``last`` : 除了第一次出现以外,删除重复项。Drop duplicates except for the last occurrence.
        - False : 删除所有重复项。Drop all duplicates.
    inplace : True:直接在原始数据删除,False:不直接在原始数据删除,并生成一个副本。bool, default False
        Whether to drop duplicates in place or to return a copy.
    ignore_index : bool, default False
        If True, the resulting axis will be labeled 0, 1, …, n - 1.
    
        .. versionadded:: 1.0.0
    
    Returns
    -------
    DataFrame or None
        DataFrame with duplicates removed or None if ``inplace=True``.
    
    See Also
    --------
    DataFrame.value_counts: Count unique combinations of columns.
    
    示例:
    --------
    Consider dataset containing ramen rating.
    
    >>> df = pd.DataFrame({
    ...     'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    ...     'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    ...     'rating': [4, 4, 3.5, 15, 5]
    ... })
    >>> df
        brand style  rating
    0  Yum Yum   cup     4.0
    1  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    By default, it removes duplicate rows based on all columns.
    
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    To remove duplicates on specific column(s), use ``subset``.
    
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    To remove duplicates and keep last occurrences, use ``keep``.
    
    >>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
        brand style  rating
    1  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    4  Indomie  pack     5.0

df.drop_duplicates() 详解+用法相关推荐

  1. php curl详解用法[真的详解]

    php curl详解用法[真的详解] 目前为目最全的CURL中文说明了,学PHP的要好好掌握.有很多的参数.大部份都很有用.真正掌握了它和正 则,一定就是个采集高手了. PHP中的CURL函数库(Cl ...

  2. linux PS -df,linux中ps跟df命令详解

    linux中ps和df命令详解 linux下PS命令 linux上进程有5种状态: 1.运行(正在运行或在运行队列中等待) 2.中断(休眠中,受阻,在等待某个条件的形成或接受到信号) 3.不可中断(收 ...

  3. ❤️pandas df.loc[] 与 df.iloc[] 详解及其区别,建议收藏❤️

    文章目录 思维导图 一.df.loc[]与df.iloc[]区别 二.df.loc[]详解 df.loc[] 允许输入 三.df.iloc[]详解 df.iloc[] 允许输入 df.loc[]与df ...

  4. Python boxplot 详解+用法

    详解: 箱型图提供了识别异常值的一个标准: 异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值. QL称为下四分位数,表示全部观察值中有四分之一的数据取值比它小: QU称为上四分位数 ...

  5. Java8 Stream 语法详解 用法实例

    本文将会详细讲解Stream的使用方法(不会涉及Stream的原理,因为这个系列的文章还是一个快速学习如何使用的). 1. Stream初体验 我们先来看看Java里面是怎么定义Stream的: A ...

  6. Pandas-去重函数drop_duplicates()详解

    Panda DataFrame 对象提供了一个数据去重的函数 drop_duplicates(),本节对该函数的用法做详细介绍. 格式介绍 drop_duplicates()函数的语法格式如下: da ...

  7. at moment的用法 the_值得收藏!初中英语10大词类详解+用法+考点, 这一篇全齐了!...

    一.词性的分类 词类又叫词性,英语单词根据其在句子中的功用,可以分成十个大类. 1.名词 noun n. student 学生 2.代词 pronoun pron. you 你 3.形容词 adjec ...

  8. df -h 详解和centos 磁盘清理 /dev/vda1系统盘满了

    df   -h   检查一台服务器磁盘使用空间,发现磁盘已经使用了100% 思路是: 1.cd /usr   当然这里不一定是/usr目录,最好是cd到 根目录再执行下一步 2.du -sh * 看哪 ...

  9. PHP中session_register函数详解用法

    语法: boolean session_register(string name); 注册新的变量. 返回值: 布尔值 函数种类: 资料处理 内容说明 本函数在全域变量中增加一个变量到目前的 Sess ...

最新文章

  1. php多线程模型,PHP进程模型、进程通讯方式、进程线程的区别分别有哪些?
  2. 提高项目开发效率之--会议室墙的进度表
  3. 修改 Android 5.1 默认设置
  4. 获取工作流活动的返回值
  5. C语言中的文件是什么?
  6. 【Java】异常处理体系概述
  7. JavaScript如何获取css属性
  8. C++ 从入门到入土(English Version)Section4: Random numbers + machine code
  9. 电信光纤猫虚拟服务器设置方法,电信光纤无线路由器(光猫)的设置方法
  10. Linux模块化增加设备驱动程序
  11. Get几个小技能——悬浮音乐播放器、字体压缩和打印效果
  12. Nacos 中配置 Map 类型,不香
  13. 项目八学好英语网html,学好英语的八种方法-英语文章阅读-大耳朵英语 - 免费在线英语学习 口语练习 四级听力资料 在线翻译 网络课堂 英语社区...
  14. 准PR控制的谐波抑制方法
  15. Joomla的强大功能
  16. PageAdmin Cms V2.0 getshell 0day
  17. CPU的指令集(指令系统)
  18. JavaSE——Day12
  19. 融智学 作者 邹晓辉 Smart System Studied By Xiaohui Zou (今日头条公布其汉英双文简纲)
  20. ssh_init: Network error: Cannot assign requested address的解决办法

热门文章

  1. 用python处理文本数据,并删除处理之后的数据(Python经典编程案例)
  2. 联想笔记本无法访问百度,访问其它一切正常(前提有网络)
  3. cmd查看局域网所有IP信息 arp -a(ARP命令介绍)
  4. 3dmax:3dmax室内建模设计简约空间模型图文教程(一)之详细攻略
  5. dreamweaver教程
  6. android 磨皮原理,Android平台Camera实时滤镜实现方法探讨(九)--磨皮算法探讨(一)
  7. 磁疗是不是真的?磁场疗法对人体微循环的生物效应
  8. 生信自动化流程搭建 05 | 通道 Channels
  9. 【效率】GitHub 标星 119K+!这些神器仅需一行代码即可下载全网视频!
  10. Linux强制与NTP服务器同步时间