浅谈大数据下的机器学习
大数据和机器学习是目前信息行业快速增长的两大热门领域。从过去的信息闭塞发展到现在数据爆炸,各个领域的数据量和数据规模增长速度都以惊人的速度增长。根据美国国家安全局的统计,互联网每天处理1826PB字节[1]。截止2011年,数字信息在过去五年已经增长了九倍,而到2020年这个数字将会达到35万亿千兆字节[2]。这种数字的数据规模带来了巨大的机遇和变革潜力,可以利用这些数据的完整性等优势在各行各业帮助我们更好的作出决策,在科学研究中转变为数据驱动的研究提供了很好的范例。使我们在进行数据的科学研究时利用搜索引擎的大数据预测能力广泛的用于医学、天文学等领域。
相比传统的机器学习,大数据下的机器学习大大扩充了样本的数量,使很多问题的分类都有丰富的样本作为支撑,这是大数据的优势,但同时也会由此产生很多问题。现在随着硬件技术和编程算法的不断优化,数据的采集和量级已经不再是阻碍大数据研究的主要问题。而数据之间的关系,即数据哪些数据是有用的,哪些是冗余的甚至是对其他数据造成干扰,这些数据之间有时如何作用的才是目前大数据所面临的主要挑战。而大数据在我们社会的各个方面存在着巨大的潜在价值,从大数据中获取有价值的信息却不是一个简单的任务。要从体量巨大、结构繁多的数据中挖掘出潜藏在数据中的规律和我们所需要信息,从而使数据发挥最大化的价值,是大数据技术的一个核心目标。
一般认为传统的机器学习是浅层次的学习架构,与之相反的,深度学习则是指机器学习技术在监督或非监督的情况下自动的学习深层次的架构并且用于分类或进行数据挖掘。受人脑对自然界中信号处理模式的启发,深度学习这一概念被提出来,并且由于其在很多领域中表现出优越的处理性能而受到越来越多的关注。现在很多公司都充分利用大数据的优势将其广泛应用于商业产品,并且取得了很大的成功。这些公司和机构每天都在大量产生数据的基础上,收集海量信息并且对其进行分析,再将分析结果用于深度学习的相关项目。例如,iPhone手机的虚拟个人助理Siri,提供各种各样的服务例如天气预报、体育新闻、回答用户的问题和提醒服务等。谷歌将将海量的零碎混乱数据应用于深度学习算法,这些零碎的数据来源于谷歌翻译、Android的语音识别、谷歌街景和搜索引擎。其他的行业巨头也不远落后。
1.大数据的概念
目前对大数据没有一个统一的规定,通常意义上对大数据的理解为不能装进计算机内存储器的数据,这是一个非正式的定义,因为每台电脑都有一个大到不能装载进内存的数据集。业界对大数据的特征从最开始的3V模型扩展到目前的4V模型,主要包括:数据体量巨大(volume)、数据类型繁多(variety)、数据价值密度低(value)、有很多实时数据要求快速处理(velocity)[3]。针对这些特点,大数据时代知识解析、机器智能与人类智能协调工作及智能分析系统将会起重要作用,人们需要一个智能分析的接口将人类与计算机世界进行连接,否则会迷失在茫茫的数据洪流中。
大数据问题是目前学术界和产业界共同关注的挑战性问题。伴随着大数据的采集、运输、处理和应用的相关技术的成熟,可以使用非传统的工具来处理大量的结构化、半结构化和非结构化的数据,从而获得分析和预测结果的一系列数据处理技术。
2.模式识别、机器学习与深度学习
模式识别、机器学习和深度学习代表三种不同的思想流派。模式识别是最古老的(作为一个术语而言,可以说是很过时的)。机器学习是最基础的(当下初创公司和研究实验室的热点领域之一)。而深度学习是非常崭新和有影响力的前沿领域,我们甚至不会去思考后深度学习时代[3]。三者之间互相关联又各有不同,模式识别在大数据的环境下由于体量巨大、结构繁多的特性,使用机器学习来实现其分类与识别无疑具有很多优势,而机器学习则是深度学习的延续和未来发展方向。
在整个机器学习的发展历程中,一直有两大研究方向:一是研究学习机制,注重探索、模拟人的学习机制;而是研究如何有效利用信息,注重从巨量数据中获取隐藏的、有效的、可理解的知识。学习机制的研究是机器学习产生的源泉,但随着大数据时代各行各业对数据分析需求的持续增加,通过机器学习高效的获取有价值的信息,已经逐渐成为当今机器学习技术发展的主要推动力。
浅谈大数据下的机器学习相关推荐
- 大数据审计的发展_浅谈大数据时代下审计工作的发展方向
浅谈大数据时代下审计工作的发展方向 李寒梅 [摘 要] [ 摘 要 ] 随着信息化水平不断提升,企业的审计工作需要处理海量的数 据,而利用常规软件难以对海量数据进行处理,这就需要应用大数据技术.审 计 ...
- 浅谈大数据:如何成为大数据企业?
文章讲的是 浅谈大数据:如何成为大数据企业, 1.什么叫大数据? "大数据"是"数据化"趋势下的必然产物!数据化最核心的理念是:"一切都被记录,一切都 ...
- 张晓波:浅谈大数据应用的知与行|V课堂第82期
2017年8月26日,<中国大数据应用蓝皮书>的发布引起了大数据领域的政产学界领导.顶尖学者的强烈关注.在全球化的新阶段,面对互联的新世界,大数据如何不断创造新模式.新生态和新时代? 第8 ...
- 浅谈大数据的标签管理
最近参与了一个大数据的项目,是涉及标签管理方面的内容,使我这个初涉入大数据领域的人获益匪浅. 标签,也可以叫做Tag,最早出现于2005年(注1),随着Web2.0的Blog应用被广泛使用开来.标签也 ...
- 浅谈大数据背景下数据库安全保障体系
现阶段大数据产业的快速发展创造了极大的经济效益,大数据的出现推动了社会经济发展,但是随之而来的数据库安全问题也引起了学者对大数据信息安全问题的反思.大数据时代下的信息与隐私安全问题已经成为全球性重点关 ...
- 浅谈大数据中的 2PC、3PC、Paxos、Raft、ZAB
一致性 简述 一致性,是指对每个节点一个数据的更新,整个集群都知道更新,并且是一致的.假设一个具有N个节点的分布式系统,当其满足以下条件时,我们说这个系统满足一致性: 全认同: 所有N个节点都认同一个 ...
- 浅谈大数据如何管理与分析
构建面向海量信息的大数据管理平台,其本质上是要实现一套可软件定义的数据中心来通过对下层的基础架构进行有效的管理(存储.网络.计算以及相关资源的调度.分配.虚拟化.容器化等)以满足上层的业务与应用需求, ...
- 浅谈大数据专业的就业前景
近几年来,大数据这个词突然变得很火,不仅纳入阿里巴巴.谷歌等 互联网公司的战略规划中,同时也在我国国务院和其他国家的政府报告中多次提及,大数据无疑成为当今互联网世界中的新宠儿. 而近期朋友圈疯转的&q ...
- 浅谈大数据平台架构设计
全文共3735个字,建议8分钟阅读 近年来,随着IT技术与大数据.机器学习.算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘 ...
最新文章
- C/C++刷题知识点总结
- Row_number () over (partition by col1 order by col2)的用法
- 12 Django cooking与session
- 如何在 SAP Fiori Elements List Report 表格工具栏里增添新的自定义按钮
- SAP CRM PPR调试截图,头都搞大了,希望这问题这辈子只遇到这次
- 【...】小程序扩展运算符 ... 说明
- 5886. 如果相邻两个颜色均相同则删除当前颜色
- 快速傅里叶变换应用之二 hdu 4609 3-idiots
- 95-242-040-源码-快照-Flink 分布式快照的设计-存储
- vCenter 6.7 shell 和 SSH开启
- centos 安装 freeswitch,开启与关闭
- android scrollview 动态添加,使用Scrollview和LinearLayout动态添加布局
- 计算机汉字录入技能怎么上,用手动录入怎么样把文件录入电脑?快速录入文字...
- 如何生成希尔伯特矩阵
- 阿里云认证未来网络学院ACE公开课——30分钟掌握ACE考试通关攻略
- could not get batchedbridge, make sure your bundle is packaged correctly
- html放大镜,可清晰放大整个网页
- 基尼指数 Gini Index
- 蚂蚁管网参数化三维建模方案
- Math.h 正态分布 C语言,C++与正态分布(示例代码)