大数据导论(三:大数据的采集及预处理)
1、大数据采集
1.1 大数据采集概念
数据采集(DAQ)又称数据获取,通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。
1.2 常用的数据采集方式
大数据的采集通常采用多个数据库来接收终端数据,包括智能硬件端、多种传感器端、网页端、移动APP应用端等,并且可以使用数据库进行简单的处理工作。
1.3 大数据采集的研究分类
1.3.1 智能感知层
包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。涉及有针对大数据源的智能识别、感知、适配、传输、接入等技术。随着物联网技术、智能设备的发展,这种基于传感器的数据采集会越来越多,相应对于这类的研究和应用也会越来越重要。
1.3.2 基础支撑层
提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点要解决分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。
1.4 常见的数据采集工具
高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。常用的日志系统有Hadoop的Chukwa、Cloudera的Flume、Facebook的Scrible和LinkedIn的Kafka这些工具大部分采用分布式架构,来满足大规模日志采集的需求
1.4.1 Chukwa
1.4.2 Flume
1.4.3 Scribe
1.4.4 Kafka
1.4.5 网络数据采集方法
“网络数据采集”是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取,并按照一定规则和筛选标准进行将数据进行归类,形成数据库文件的一个过程。互联网网络数据是大数据的重要来源之一通过网络爬虫或网站公开API等方式可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。
1.4.6 数据库采集
一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。这些数据库中存储的海量数据,相对来说结构化更强,也是大数据的主要来源之一。其采集方法支持异构数据库之间的实时数据同步和复制,基于的理论是对各种数据库的Log日志文件进行分析,然后进行复制。
2 大数据预处理
2.1 导入/预处理
虽然采集端本身有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些数据导入到一个集中的大型分布式数据库或者分布式存储集群当中,同时,在导入的基础上完成数据清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
现实世界中数据大体上都是不完整、不一致的“脏”数据,无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量,产生了数据预处理技术。
2.2 数据清洗
数据清洗时发现并纠正数据文件中可识别的错误的最后一道程序,包括对数据一致性的检查,无效值和缺失值得处理。
数据清洗的原理是利用有关技术如数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。
2.3 数据的清洗方法
2.4 数据集成
数据集成是将不同应用系统、不同数据形式,在原应用系统不做任何改变的条件下,进行数据采集、转换好储存的数据整合过程。其主要目的是在解决多重数据储存或合并时所产生的数据不一致、数据重复或冗余的问题,以提高后续数据分析的精确度和速度。
2.5 数据转换
数据转换(data transfer)时采用线性或非线性的数学变换方法将多维数据压缩成较少维的数据,消除他们在时间、空间、属性及精度等特征表现方面的差异。实际上就是将数据从一种表示形式变为另一种表现形式的过程。
数据转换方法:
2.6 数据归约
数据归约技术可以用来得到数据集的归约表示,它很小,但并不影响原数据的完整性,结果与归约前结果相同或几乎相同。所以,我们可以说数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量保持数据的原始状态。
数据归约分类:
特征值规约算法三个步骤:
3 常用ETL工具
ETL(Extract-Transform-Load)是一种数据仓库技术,即数据抽取(Extract)、转换(Transform)、装载(Load)的过程,其本质是数据流动的过程,将不同异构数据源流向统一的目标数据。
ETL转换过程:
典型ETL工具:
ETL架构优势:
大数据导论(三:大数据的采集及预处理)相关推荐
- 大数据导论三——大数据技术
大数据技术层面及其功能 数据采集和预处理(功能) 利用ETL工具将分布的数据,抽取到临时中间层后进行处理,最后加载到数据仓库中,成为联机分析处理.数据挖掘的基础: 利用日志采集工具把实时采集的数据作为 ...
- 《大数据导论》之数据的概念、类型和组织形式
目录 说在前面 一.数据的概念 二.数据类型 三.数据组织形式 说在前面 大数据时代悄然来临,带来了整个信息技术发展的巨大变革,并深刻影响着社会生产和人们生活的方方面面.全球范围内,世界各国政府也非 ...
- 《大数据导论》之数据生命周期和数据使用
1 数据生命周期 数据都存在一个生命周期,数据生命周期是指数据从创建.修改.发布利用到归档/销毁的整个过程. 1.1 数据生命周期管理工作包括以下几个方面: 分类:对数据进行自动分类,分离出有效的数据 ...
- 大数据导论期末大作业
目标: 对美国的疫情数据的爬取 将数据存入hive 利用spark对hive中的数据进行分析,提取疫情前十的洲 将分析结果可视化 一.对美国的疫情数据的爬取 这里利用新浪网的数据,网页链接是http: ...
- 大数据_什么是数据中台?
目录 一.数据中台的定义 二.数据中台必备的是个核心能力 三.数据中台VS业务中台 四.数据中台VS数据仓库 五.数据中台VS现有信息架构 六.数据中台的业务价值与技术价值 一.数据中台的定义 数据中 ...
- 大数据应用导论 Chapter02 | 大数据的采集与清洗
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
- 大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】
视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程,总时长:14:22:04 教程资源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g,提取码: ...
- 大数据导论之为何需要引入大数据
一.引言 最近各种客户咨询项目中,往往涉及大数据引入必要性和价值意义的深层次挖掘,客户有数据,有平台,但是不知到底要不要上大数据,为何要上大数据和大数据可以带来哪些价值和意义.本文关于大数据的必要性进 ...
- 《大数据导论》——1.4节案例学习背景
本节书摘来自华章社区<大数据导论>一书中的第1章,第1.4节案例学习背景,作者瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社 ...
最新文章
- Cocos生命周期回调
- 微信小程序之生成二维码
- SRM 721 DIV2
- 为什么 JavaScript 的 this 要这么用?
- Webpack使用指南
- linux libasan.so,Address Sanitizer 用法
- 左右xcode的重构选项的一些理解
- Chrome谷歌浏览器新功能 删除主题更方便
- .net解析传过来的xml_隧桥管廊BIM+GIS运维管理系统方案解析
- 【医学图像分割】基于matlab磁共振成像 (MRI) 数值模拟平台【含Matlab源码 826期】
- scrapy 中不同页面的拼接_Python下使用Scrapy爬取网页内容的实例
- PHP 开发者如何做代码审查?
- LaTex下载与安装教程(一切为了学术~)
- Excel 6位数字与MD5对照表 100000-999999
- 一元线性拟合的matlab,基于MATLAB的一元线性回归分析
- Mac上添加自己/公司的网络服务器盘
- 打印机有关术语及解释
- python转xlsx为xls 或重新保存xls
- 移动开发必知必会的六大数据统计平台(入门篇)
- 2019年末,来一发基于Hexo自建博客生态指南!