拼写错误的单词、难以去除的尾随空格、不需要的前缀、不正确的大小写和非打印字符给人一种不好的第一印象。导致数据混乱的因素还不止这些。请准备好。通过 Microsoft Excel 对工作表进行大扫除的时候到了。

清理数据的基础知识

你并不一定始终可控制从数据库、文本文件或网页等外部数据源导入的数据格式和类型。通常需要先清理数据,才能分析数据。幸运的是,Excel 提供许多功能,可帮助用户获取所需精确格式的数据。有时任务非常简单,Excel 具有执行此任务的特定功能。例如,可轻松使用拼写检查清理包含批注或说明的列中拼写错误的单词。或者如果想要删除重复行,可使用“删除重复项”对话框快速执行此操作。

在其他情况下,可能需要使用公式将导入的值转换为新值来操作一列或多列。例如,如果想要删除尾随空格,可创建新列来清理数据,方法是:使用公式,向下填充新列,将新列的公式转换为值,然后删除原始列。

清理数据的基本步骤如下所示:

  1. 从外部数据源导入数据。

  2. 在单独的工作簿中创建原始数据的备份副本。

  3. 确保数据采用行和列的表格格式:每一列中的数据类似、所有列和行可见并且该区域中无空白行。为获得最佳效果,请使用 Excel 表格。

  4. 先执行不需要列操作的任务,例如拼写检查或使用“查找和替换”对话框。

  5. 接下来,执行需要列操作的任务。列操作的常规步骤有:

    1. 在需要清理的原始列 (A) 旁插入新列 (B)。

    2. 在新列 (B) 的顶部添加将转换数据的公式。

    3. 在新列 (B) 中向下填充公式。在 Excel 表中,会使用向下填充的值自动创建计算列。

    4. 选择新列 (B),将其复制,然后作为值粘贴到新列 (B) 中。

    5. 删除原始列 (A),这会将新列从 B 转换为 A。

若要定期清理相同的数据源,请考虑录制宏或编写代码,自动执行整个过程。

删除重复行

导入数据时,重复行是一个常见问题。最好先筛选唯一值,确认结果是所需结果,然后再删除重复值。

查找和替换文本

可能需要删除常见的前导字符串(例如后跟冒号和空格的标签)或后缀(例如已过时或不必要的字符串结尾处的附加说明短语)。若要执行此操作,可查找文本的实例,然后将其替换为无文本或其他文本。

更改文本大小写

有时文本格式混乱,尤其是文本大小写方面。使用三种 Case 函数中的一种或多种,可将文本转换为小写字母(如电子邮件地址)、大写字母(如产品代码)或首字母大写(如姓名或书名)。

删除文本中的空格和非打印字符

有时文本值包含前导空格、尾随空格或多个嵌入空格字符(Unicode 字符集值 32 和 160),或非打印字符(Unicode 字符集值 0 到 31、127、129、141、143、144 和 157)。执行排序、筛选或搜索操作时,这些字符有时会导致意外结果。例如,在外部数据源中,用户可能会无意添加额外的空格字符,从而导致打字错误,或者从外部源导入的文本数据可能包含嵌入在文本中的非打印字符。由于这些字符不容易引起注意,因此意外结果可能很难理解。若要删除这些不需要的字符,可组合使用 TRIM、CLEAN 和 SUBSTITUTE 函数。

修复数字和数字符号

主要有两个数字问题可能需要你进行数据清理:无意中将数字导入为文本,以及需要根据你组织的标准更改负号。

修复日期和时间

由于存在许多不同的日期格式,并且这些格式可能混杂有编号部件代码或其他包含斜杠标记或连字符的字符串,因此日期和时间通常需要进行转换和重新设置格式。

合并和拆分列

从外部数据源导入数据后的常见任务是将两列或多列合并为一列,或将一列拆分为两列或多列。例如,可能需要将包含全名的列拆分为名字和姓氏。或者可能需要将包含地址字段的列拆分为单独的街道、城市、地区和邮政编码列。反之亦可。可能需要将名字和姓氏列合并为一个全名列,或者将单独的地址列合并为一列。其他可能需要合并为一列或拆分为多列的常见值包括产品代码、文件路径和 Internet 协议 (IP) 地址。

转换和重新排列行和列

Office Excel 中的大多数分析和格式设置功能都假设数据存在于单个平面二维表中。有时可能需要将行转换为列、将列转换为行。有时候,数据甚至不是表格格式结构,需要使用一种方法将数据从非表格格式转换为表格格式。

通过联接或匹配协调表格数据

有时,数据库管理员会使用 Office Excel 查找并更正两个或多个表联接时的匹配错误。这可能涉及协调不同工作表中的两个表,例如,查看两个表中的所有记录,或比较两个表并查找不匹配的行。

Excel清理数据的十大方法相关推荐

  1. macbook系统占用硬盘大_十大方法解决Mac“启动磁盘已满”!让你的Mac“飞起来”~~...

    原标题:十大方法解决Mac"启动磁盘已满"!让你的Mac"飞起来"~~ 当你的Mac说磁盘已满时,这是什么意思? 其实这有两个坏消息: 1.很快你就会完全耗尽空 ...

  2. 2013年展望:大数据发展十大趋势分析

    本文讲的是2013年展望:大数据发展十大趋势分析,2012年大数据发展如火如荼,大有赶超云计算之势.如果把今年比作大数据落地生根的一年,那么2013年将迎来其茁壮成长,甚至开花结果的一年.有预测称,大 ...

  3. 盘点大数据的十大发展方向,Scale-out将成主流

    摘要:随着人们对大数据认知的加强,除去特点之外,人们开始更加关注于它的使用价值和未来的服务方向.本文列举了大数据的十大发展方向,其中Scale-out将成为主流. [编者按]如今,大数据俨然成为IT领 ...

  4. 大数据是什么和大数据技术十大核心原理详解

     一.数据核心原理   从"流程"核心转变为"数据"核心   大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据&quo ...

  5. 大数据领域十大必读书籍

    2017大数据领域十大必读书籍 chenjj 2017-07-12 大数据, 热门新闻 2,759 views 0 历史大浪淘沙经过5次信息革命,终于迎来大数据时代,给信息领域灌入了强劲的血液,催生了 ...

  6. 大数据的十大发展方向

    中国在未来将可能成为大数据最重要的市场,中国拥有世界上五分之一的人口,同时中国的发展正在处于快速的上升期.中国产生的数据将是巨大的,而巨大的数据对大数据的发展将起到促进的作用,而大数据在中国市场的发展 ...

  7. wifi提速技巧:十大方法瞬间提升wifi速度

    手机wifi速度慢真是很让人苦恼,有什么有效的wifi提速方法吗?当然有啦~绿茶小编今天就为大家带来了提升wifi速度的十大方法,能激活wifi表现,提升无线网络哦,快来看看吧! 十大方法瞬间提升wi ...

  8. 大数据技术十大核心原理详解

    一.数据核心原理--从"流程"核心转变为"数据"核心 大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据"核心 ...

  9. Java数组的十大方法

    Java数组的十大方法 以下是Java Array的前10种方法.他们是来自stackoverflow的投票最多的问题. 0.声明一个数组 String[] aArray = new String[5 ...

最新文章

  1. 以太坊:比特币 + 无限可能
  2. java制作画布_java – 使用自定义方法绘制到画布?
  3. Visual Studio 各个版本下载地址
  4. iOS应用内跳转系统设置相关界面的方法
  5. c#_continue 和 break 的区别
  6. PyTorch基础(一)-----张量(Tensor)
  7. matlab安装第三方库,Matlab调用cpp+第三方库
  8. 快速备份sqlserver2005以上版本数据库的方法-摘自网络
  9. 再见Navicat! IDEA的这个兄弟真的很香!我粉了...
  10. 深度残差网络_深度残差收缩网络:借助注意力机制实现特征的软阈值化
  11. 杭电 oj 1006 Tick and Tick 个人题解
  12. 浅析vendor_init
  13. 什么是前端,前端是什么?
  14. 人生=亲情+爱情+金钱+理想+友情?
  15. html页面高度不同浏览器兼容性设置
  16. 推迟上市的网易云,逃不开在线音乐市场的“白刃战”
  17. visibility属性
  18. level set 介绍4(水平集应用)
  19. 卖了43.2万美元的AI画作,其实是借鉴程序员代码的“山寨货”?
  20. 成都短期学计算机,成都短期学电脑办公软件哪个好

热门文章

  1. 如何把u盘的文件传到服务器,把u盘文件传到远程服务器
  2. IJCAI 2019 论文:中国团队占 38%,北大南大榜上有名
  3. Windows系统 清理C盘详细步骤
  4. iOS支付时出现Unknow错误的问题
  5. 公众号800篇文章数据统计
  6. 爱了爱了!骚红色机械键盘写代码真香,包邮送!
  7. css3动画 变速运动
  8. Java 循环语句练习题(1)
  9. win10系统更新在哪_Win10系统关闭自动更新方法
  10. 南昌计算机网络期末考试,南昌大学计算机网络试卷2008A