python爬虫清洗_数据清洗-Python 原生爬虫教程 | IT大叔
数据清洗
理想中,我们获取的数据都是一样的格式,可是现实中,会有许多脏数据,有时候是数据太冗余,有时候是数据缺失,有时候是同一种类数据拥有不同的数据格式。比如生日,有的人使用阿拉伯数字,有的人使用英文简写,有的人则是加入了中文字符。
如果只是简单的某一列数据问题,我们可以写一个脚本进行处理,可是,当数据太复杂,数据量太大,我们自己编写脚步就太浪费时间和精力了。有没有什么可视化工具,可以像操作Excel表格很方便的对数据进行分类,排序清洗那?有问题,肯定会有解决问题的方案。我们接下来讲解的就是数据清洗界的神器 OpenRefine.
OpenRefine 是谷歌一个开源项目,最早这个项目起源于2009年一家叫做Metaweb的公司,后来这个公司被谷歌收购。
OpenRefine 可以方便的清洗数据,并且拥有简单容易操作的界面,让即使非计算机科班的人员也可以很方便的使用这个工具进行数据的清洗工作。
1. 安装 OpenRefine
OpenFine的安装,就像安装正常的桌面的软件一样,不需要额外设置内容,直接安装即可。双击之后,打开 OpenRefine。
如下图所示:
从以上的页面中,我们可以知道,我们可以导入本机的 CSV,JSON 或者 Excel等 文件,也可以直接从互联网上面进行解析,也可以连接数据库,以及从黏贴版和 Google Data 中获取原始数据。
Tips:OpenRefine 默认打开的 IP 为 127.0.0.1:3333。
2. 简单的数据清洗例子
这里我用一组测试数据进行演示简单的操作。首先,在导入原始数据之后,点击 create project 来创建工程。
接下来,我们选择需要进行清洗数据的列,点击上面的向下的箭头,在弹出的菜单中选择 facet 接下来选择 Text facet。
在页面的左边的浮框中,我们可以看到有许多组不同的数据,这里我们发现 Altbeir 和 Altbier 是同一个数据,其中 Altbeir 是拼写错误的单词,其实也就是我们常说的脏数据,我们需要将它合并到 Altbier中。
我们在单词旁边单词 edit 按钮,然后点击edit进行编辑,接下来点击apply。
最后,我们看到数据被归并到一起了,脏数据被清洗掉了。
3. 小结
上面演示的只是清除脏数据的最基本操作步骤,我们还可以对数据进行排序,以及通过正则表达式来筛选数据,也可以让软件智能地为我们推荐一些该归并的单词。总之,OpenRefine 已经成为数据清洗方面的主流软件,大家平时需要的功能都可以通过这款软件进行操作,方便而又快捷。
原文地址:https://blog.csdn.net/q7825103/article/details/105379906
文章来源与用户投稿或网络采集,如果您是本文的作者,发现版权或转载方式问题请右侧邮箱联系管理员。
679人推荐
python爬虫清洗_数据清洗-Python 原生爬虫教程 | IT大叔相关推荐
- python文本清洗_【python】TXT文本数据清洗和英文分词、词性标注
删除空白行def clean_line (raw_file_name save_file_name):张开(raw_file_name, r +)作为f_r,开放(save_file_name, w ...
- python 时间序列预测_使用Python进行动手时间序列预测
python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...
- python 概率分布模型_使用python的概率模型进行公司估值
python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...
- java 爬虫框架_不知道Python爬虫?这篇文章丢给他(内含框架结构)
前言 爬虫即网络爬虫,英文是Web Spider.翻译过来就是网络上爬行的蜘蛛,如果把互联网看作一张大网,那么爬虫就是在大网上爬来爬去的蜘蛛,碰到想要的食物,就把他抓取出来. 我们在浏览器中输入一个网 ...
- python数据爬虫课程_数据分析之Python3爬虫视频课程
第1章 python网络爬虫牛刀小试 1小时38分钟11节 1-1 编写第一个只网络爬虫1.使用requests模拟浏览器访问网址 2.使用美丽汤BeautifulSoup解析网页 3.提取出新闻的标 ...
- 基于python的网站_基于Python的网站爬虫应用研究
基于 Python 的网站爬虫应用研究 陈清 [期刊名称] <通讯世界> [年 ( 卷 ), 期] 2020(027)001 [摘要] 如何于海量的互联网网站中获取有用资源信息 , 对网站 ...
- python分布式爬虫系统_三种分布式爬虫系统的架构方式
分布式爬虫系统广泛应用于大型爬虫项目中,力求以最高的效率完成任务,这也是分布式爬虫系统的意义所在. 分布式系统的核心在于通信,介绍三种分布式爬虫系统的架构思路,都是围绕通信开始,也就是说有多少分布式系 ...
- python基础语法加爬虫精进_从Python安装到语法基础,这才是初学者都能懂的爬虫教程...
Python和PyCharm的安装:学会Python和PyCharm的安装方法 变量和字符串:学会使用变量和字符串的基本用法 函数与控制语句:学会Python循环.判断语句.循环语句和函数的使用 Py ...
- python新闻聚合_基于Python的新闻聚合系统网络爬虫研究
基于 Python 的新闻聚合系统网络爬虫研究 左卫刚 [摘 要] 摘 要 本研究旨在创建一个能够从不同页面布局中提取数据的开源爬 虫,其中包括网络爬虫. API .网络爬虫调度器以及 Socket ...
最新文章
- 【制作镜像】BCEC制作镜像
- ACMNO.14一球从M米高度自由下落,每次落地后返回原高度的一半,再落下。 它在第N次落地时反弹多高?共经过多少米? 保留两位小数 输入 M N 输出 它在第N次落地时反弹多高?共经过多少米
- 挑灯熬夜看《Build 2015 Keynote》图文笔记
- DL之NN:利用(本地数据集50000张数据集)调用自定义神经网络network.py实现手写数字图片识别94%准确率
- java hashset 源码_Java集合源码分析-HashSet和LinkedHashSet
- oracle过率乱码,oracle中文乱码问题处理
- Service Worker的基本使用
- 通俗理解TCP握手次数是三次?
- Floyed(floyd)算法详解
- oracle 11g 静默安装
- java8 重复注解_Java8新特性_重复注解与类型注解
- springboot2.x中的AOP机制总结(附带demo)
- webView图片点击可以实现预览效果
- 测试人员必会用例设计方法 —— 正交表
- ssh 工具 socket 10106 连接不上
- 消防设施操作员考试真题、模拟练习题库(7)
- 跑得最快的10种动物
- 数据安全之MySQL数据加解密的实现方案
- 阿里云DDoS防护是如何工作的?
- 处理器后面的字母含义_和机农一起探寻辅音字母f的含义