数据采集的设计,几乎完全取决于数据源的特性,毕竟数据源是整个大数据平台蓄水的上游,数据采集不过是获取水源的管道罢了。

一、大数据环境下的数据处理需求

大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。

二、传统大数据处理方法的不足

传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。

三、大数据采集

任何完整的大数据平台,一般包括以下的几个过程:(如果对大数据生命周期认识不够清晰,可参考还不懂什么是大数据?大数据的生命周期告白)

数据采集–>数据存储–>数据处理–>数据展现(可视化,报表和监控)

大数据生命周期

其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。我们今天就来看看大数据技术在数据采集方面采用了哪些方法:

1、离线采集:

工具:ETL;

在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需要针对具体的业务场景对数据进行治理,例如进行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。

2、实时采集:

工具:Flume/Kafka;

实时采集主要用在考虑流处理的业务场景,比如,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和 web 服务器记录的用户访问行为。在流处理场景,数据采集会成为Kafka的消费者,就像一个水坝一般将上游源源不断的数据拦截住,然后根据业务场景做对应的处理(例如去重、去噪、中间计算等),之后再写入到对应的数据存储中。这个过程类似传统的ETL,但它是流式的处理方式,而非定时的批处理Job,些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求

3、互联网采集:

工具:Crawler, DPI等;

Scribe是Facebook开发的数据(日志)收集系统。又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它支持图片、音频、视频等文件或附件的采集。

爬虫

除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。

4、其他数据采集方法

对于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统接口等相关方式采集数据。比如八度云计算的数企BDSaaS,无论是数据采集技术、BI数据分析,还是数据的安全性和保密性,都做得很好。

数据的采集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只要善用数据化处理平台,便能够保证数据分析结果的有效性,助力企业实现数据驱动。

易海聚|助力企业信息化建设日益完善

易海聚|面向科技情报的网络信息自动发现技术应用

易海聚网络大数据整合系统方案

易海聚新闻采编译系统

对链家数据的爬取分析:深圳到底哪种二手房最吃香?

最全的大数据采集方法分类相关推荐

  1. 大数据采集方法有哪些

    1. 数据库采集 传统企业会使用传统的关系型数据库MySQL和Oracle等来存储数据. 随着大数据时代的到来,Redis.MongoDB和HBase等NoSQL数据库也常用于数据的采集.企业通过在采 ...

  2. url采集工具_大数据关键技术浅谈之大数据采集

    在前几篇文章中,企通查为大家介绍了大数据处理的基本流程.从大数据的一系列处理过程中(抽取.集成.分析.解释),我们可以发现这一整套流程中涵盖了数据存储.处理.应用等多方面的技术. 大数据价值的完美体现 ...

  3. 常用的大数据采集工具

    天津网站建设为了高效采集大数据,依据采集环境及数据类型选择适当的大数据采集方法及平台至关重要.下面介绍一些常用的大数据采集平台和工具. 1.Flume Flume作为Hadoop的组件,是由Cloud ...

  4. 吐血整理:常用的大数据采集工具,你不可不知

    大数据的来源多种多样,在大数据时代背景下,如何从大数据中采集出有用的信息是大数据发展的最关键因素.大数据采集是大数据产业的基石,大数据采集阶段的工作是大数据的核心技术之一.为了高效采集大数据,依据采集 ...

  5. 数据采集之全埋点数据采集分析方法的一些整理

    数据采集之全埋点数据采集分析方法的一些整理,包含一些思路.方法逻辑的整理分析,供数据采集分析爱好者参考. 埋点的定义: 埋点分析,是网站分析的一种常用的数据采集方法.数据埋点分为初级.中级.高级三种方 ...

  6. 小米八android耗电比例很大,小米手机耗电太快?MIUI系统最全的省电方法,解决手机耗电问题...

    原标题:小米手机耗电太快?MIUI系统最全的省电方法,解决手机耗电问题 MIUI10系统作为小米8周年发布会上的一个重磅产品,一发布就有不少小米完成升级.随着近期的MIUI10稳定版的推出,并且支持多 ...

  7. 大数据获取方法;数据采集工具;常用ETL工具简介

    1.采用哪些方式可以获得大数据? 方式1.外部购买数据 有很多公司或者平台是专门做数据收集和分析的,企业会直接从那里购买数据或者相关服务给数据分析师,这是一种常见的获取数据的方式之一. 方式2.网络爬 ...

  8. 2016年GitHub上史上最全的Android开源项目分类汇总

    以下内容为转载 版主原网址 http://itindex.net/detail/51896-github-android-开源 GitHub上史上最全的Android开源项目分类汇总 今天在看博客的时 ...

  9. GitHub上史上最全的Android开源项目分类汇总 (转)

    GitHub上史上最全的Android开源项目分类汇总 标签: github android 开源 | 发表时间:2014-11-23 23:00 | 作者:u013149325 分享到: 出处:ht ...

最新文章

  1. 帝国cms调用栏目自定义字段(栏目简介)如何操作
  2. jQuery EasyUI API 中文文档 - 树表格(TreeGrid)
  3. readkeyboard方法_Linux笔记(12)| 几种并发式IO的实现方法
  4. MySQL数据库模式_SQL模式
  5. 三维卷积神经网络预测MNIST数字详解
  6. 【图像融合】高斯金字塔
  7. 利用Oracle Enterprise Manager Cloud Control 12c创建DataGuard Standby
  8. OkHttp之BridgeInterceptor简单分析
  9. JS开发工具WebStorm使用快捷键
  10. 商标注册成功后的中肯建议
  11. 伦斯勒理工大学计算机专业,伦斯勒理工学院计算机科学硕士排名第60(2020年TFE Times排名)...
  12. 《系统与网络管理实践》(第三版)作者访谈
  13. [HTML] HTML常见的元素
  14. WMI权限问题:Access is denied, please check whether the [domain-username-password] ..
  15. 卡尔曼滤波实现java
  16. 云服务器和虚拟主机哪个好?两者有什么优缺点?
  17. 用条码标签打印软件制作试卷上的条形码
  18. Spring自动装配@Autowired的三种方式
  19. 2013年8月最新浏览器市场份额
  20. 快餐店运行模拟C++程序源码代写

热门文章

  1. 弹性布局(Flex布局)
  2. 企业服务总线架构介绍
  3. 四大思维工具,SWOT、PDCA、DISC、时间管理
  4. 著名的菲尔人格测试!听说挺准的
  5. css-filter属性-融合效果-1.1
  6. Shiro角色和权限管理
  7. 在线html编辑器 富文本转为html代码
  8. 决策树与R语言(RPART)
  9. 信息检索中 (IR) 的评价指标: P@n, MAP, MRR, DCG, NDCG
  10. PAT basic level 答案+解题思路+难点 (个人刷题记录)