该文主要介绍了数据技术的发展现状和展望,通过对第35届中国数据库学术会议的内容整理以及总结而成,希望能够给以后打算从事数据库研发或者开发的朋友们指点迷津。本文主要内容包括:1.数据新技术简介,2.数据质量管理(data cleaning),3.数据分析技术,4.大数据技术的发展,5.数据技术的研究热点,6.总结。

  • 数据新技术简介

随着大数据、机器学习(深度学习)、人工智能、区块链等相关技术的迅速发展,数据技术发生着巨大的变化。我们通过两个例子来说明这一点,第一个例子就拿数据质量管理中的实体识别(entity resolution)来说,对于两个实体(比如数据库里面的两条记录),要判断它们是否是同一个实体,我们一般的传统做法是通过定义很多相似度函数(similar function)来生成两个记录的相似向量(向量中的每一维代表不同属性的相似度,因为一个实体有多个属性,所以要定义很多相似度函数),再通过对相似向量权值相加算出总体的相似度(标准化,一般满足[0,1]之间),紧接着设置一个阈值a,若总体相似度大于a,则实体匹配,否则不匹配,这样做的效果很不理想。而现在我们通常借助于机器学习的方法来训练权值以及分类器,或者基于图计算以及深度学习方法来生成一些非监督分类器算法,这一些方法与传统的方法相比,它的效率与准确率有了很大的提升。第二个例子是数据库语言的变化,众所周知现在最流行的查询语言是SQL,但是随着未来技术的发展,通过自然语言支持数据库查询,或者是将机器学习语言纳入到数据库查询语言将是一个非常具有发展潜力的研究方向。因而未来的数据库发展离不开现在热门的机器学习和人工智能技术,而机器学习和人工智能也会借鉴数据库中的一些知识,完美自己,通过两者不断的迭代和相互促进,共同发展。

  • 数据质量管理

数据清洗是数据管理中非常重要的一个方面,数据清洗主要包括错误检测(error detection)和数据修复(data repairing)两个过程。错误检测主要包括数据丢失(NULL or N/A)、数据去重(duplicate data)、数据违规(data violation)以及数据错误(data error)。数据修复技术主要包括基于限制的(constraint-based)、基于规则(rule-based)、基于统计的(statistical)、基于人机共生(human-in-the-loop)的一些方法。而这些方法越来越多的由机器来完成,因此我们可以发现现在的数据清洗技术充满着大量的机器学习人工智能技术。随着机器学习以及云计算的发展,未来的研究方向主要包括:生成标准测试集(benchmark)、数据清理和众包(crowdsourcing)技术的结合、数据清理和深度学习的结合、隐私数据的清理、数据清理与迁移学习的结合。

  • 数据分析技术

数据挖掘是一个传统的数据分析技术,随着大数据的到来,数据的多样性和大量性促使着传统数据挖掘技术的发展,它不再仅仅处理结构化的数据,未来的发展主要包括web数据挖掘、文本数据挖掘、时序数据挖掘(数据具有时间属性,如临床路径数据)、时空数据挖掘(数据由时间和空间两个维度,如GPS定位)、图数据挖掘、大数据挖掘。而大数据挖掘也会常常用到大数据近似算法,它利用采样(sampling)、略图(sketch)、摘要等技术,引入可控误差,解决由大数据规模带来的时间/空间/通讯量效率的问题。大数据的近似算法不像传统的近似算法(NP完全问题的近似解),它是P问题的线性甚至亚线性时间近似解,随着数据规模的进一步扩展,近似算法将在大数据处理和分析邻域发挥越来越大的作用。

  • 大数据技术的发展

经过40余年的发展,当今信息技术社会正在经历IT时代到DT时代的转变,大数据技术正在深刻的影响着社会和世界。现在的大数据技术主要包括Apache Hadoop、Apache Spark(批处理平台)、Spark Streaming、Apache Flink(流处理平台)、Apache Beam(混合批流处理平台,它紧紧是一个框架,没有真正的技术引擎)。随着技术的发展和需求的增加,未来大数据主要集中在三个方面:第一是批流融合,因为现在还没有一个真正意义上的批流融合大数据计算系统,而未来批流融合的现实需求非常巨大(如双十一),该系统需要统一数据模型、统一操作、计算模型、统一用户接口等等。第二是跨域处理,我们只需要在自己的节点去分析去计算,然后将计算的结果进行传输和融合,而不像现在的将数据集中起来。第三是边缘计算,利用边缘计算的能力,例如IoT、可穿戴设备、自动驾驶汽车、无人飞机、AR/VR设备等,提供高性能和低延时的边缘大数据计算平台。

  • 数据技术的研究热点

未来数据技术主要会集中在图数据、文本数据、时空数据以及文本数据等类型;机器学习与数据管理技术的结合,如自然语言支持数据库的查询、机器学习引入查询优化(分布式查询优化)、机器学习技术减少数据库参数配置的代价、机器学习技术提高数据库中特有查询,如近似查询的效果等等;现有关系型数据库发展,如海量并发事务管理、新的面向内存的架构设计,减少封锁、IO代价等;图数据管理技术发展,如图数据挖掘、知识图谱、图数据应用(异常检测、应用)、大数据环境下传统图问题的新方法(分布式、近似算法等);数据分析技术发展,如深度学习模型及其在不同数据的应用、时序数据的深度分析与挖掘、基于强化学习的数据分析方法、关联规则、聚类、异常发现等;人工智能和深度学习技术,将进一步和数据管理融合,在数据表示、查询语言、执行优化、生命周期管理等方面提升数据管理的智能化;区块链技术也是一个很有意义的研究方向。

  • 总结

我们可以看出未来的数据库技术将与机器学习人工智能技术息息相关、互相促进、共同繁荣,加之大数据和云计算的发展,也将促使着数据库技术的巨大发展(甚至变革),而这些发展都需要我们解决一些底层的课题,这就需要学术界和工业界的深度融合,相互合作,我们坚信未来的数据库技术是非常有发展潜力的,以及有着丰富多彩的先进知识。

基于机器学习与人工智能的数据(数据库+大数据)技术相关推荐

  1. 科普丨区块链与数据/数据库/大数据的结合与应用

    11月22号20:00,BlockMania  AMA直播第32期继续进行,本期主题为本期主题为「区块链/数据库/数据/大数据」,分享嘉宾为Intellishare CEO .加州州立大学计算机硕士熊 ...

  2. 鱼和熊掌可以兼得,云原生开启“数据库大数据一体化”新时代

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 10月23日数据湖高峰论坛上,阿里巴巴集团副总裁.阿里云智能数据库产品事业部负责人.达摩院数据库与存储实验室负责人李飞飞表示:"云 ...

  3. 基于机器学习、人工智能和区块链技术的物联网安全

    物联网安全:基于机器学习.人工智能和区块链技术的挑战和解决方案 背景介绍 物联网 IoT基础设施 物联网协议 IoT 应用 物联网面临的攻击 三种技术下的物联网安全调研 区块链 机器学习 人工智能 物 ...

  4. SDCC 2016系列全回顾:数据库大数据运维架构(附PPT下载)

    2016年9月22日-23日,SDCC2016大数据技术&架构实战峰会将在杭州举行,两场峰会大牛讲师来自阿里.京东.苏宁.唯品会.美团点评.游族.饿了么.有赞.Echo等知名互联网公司,共同探 ...

  5. 量化派基于Hadoop、Spark、Storm的大数据风控架构--转

    原文地址:http://www.csdn.net/article/2015-10-06/2825849 量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品"信用钱包 ...

  6. 基于PyTorch重写sklearn,《现代大数据算法》

    HyperLearn是一个基于PyTorch重写的机器学习工具包Scikit Learn,它的一些模块速度更快.需要内存更少,效率提高了一倍. 专为大数据而设计,HyperLearn可以使用50%以下 ...

  7. 基于Neo4j中医方剂药材知识图谱大数据可视化分析系统的设计与开发

    基于Neo4j中医方剂药材知识图谱大数据可视化分析系统的设计与开发 设计背景 这个系统的开发初衷是笔者希望通过这个系统来学习一下Neo4j的相关技术,包括与python.java的对接.可视化等方面, ...

  8. 科技网红词汇之“人工智能”,“云计算”,“大数据”

    随着时间的流逝,时代的变迁,我们接触的高频词汇也已由博客变成了微博,在我们不禁感慨时光一逝永不回的同时,又会有新兴技术高效便捷的服务大众,更新换代速度之快让小编突然担心有一天会被某个机器人取代呀.最近 ...

  9. spring Batch实现数据库大数据量读写

    spring Batch实现数据库大数据量读写 博客分类: spring springBatchquartz定时调度批处理  1. data-source-context.xml Xml代码   &l ...

  10. 人工智能、物联网和大数据如何拯救蜜蜂

    简介:现代农业依赖蜜蜂.实际上,整个生态系统,包括我们吃的食物和呼吸的空气,都取决于传粉媒介.但是根据世界蜜蜂计划的创始人兼执行总裁萨比哈·鲁曼尼·马利克(Sabiha Rumani Malik)的说 ...

最新文章

  1. Java中jsonObject与String等互转问题
  2. 企业推广OA信息化三大法宝
  3. 密码篇——对称加密—AES
  4. SHADER效果收集
  5. hs控什么意思_凡尔赛文学 到底是什么?
  6. linux 一切都是文件_一切都是文件
  7. 体验完23万的小鹏P5,凯美瑞不香了 | 视频
  8. 别让for循环毁了你的程序(二)
  9. 利用HttpWebRequest实现实体对象的上传
  10. 机器学习之决策树(数据分析师学习必备)——糖潮丽子的博客
  11. ftp服务器上的文件夹是否存在,检查FTP服务器上是否存在文件
  12. 分区属性揭秘 Win8 电脑 OEM 分区创建 分区属性
  13. 利用计算机网络技术全面规划供应链中的,供应链是围绕核心企业,通过对商流、信息流、物流、资金流的控制,从采购原材料开始,制成中间产品以 - 试题答案网问答...
  14. ByteDance字节跳动张一鸣:如何阅读、如何了解自己、如何与人沟通沟通、如何安排时间、如何正确的看待别人意见、如何激励自己、如何写作、如何坚持锻炼身体、如何耐心?...
  15. 手撕 44 道 JavaScript 送命题
  16. 大数据相加_c 大数据相加 class
  17. Java实现模拟斗地主洗牌、发牌、看牌并排序
  18. 使用video.js播放手机本地视频
  19. Java如何获取IP属地 ip2region failed to create searcher with x:java.io.FileNotFoundException:( 系统找不到指定的路径)
  20. Permission denied: user=dr.who, access=WRITE, inode=“/“:root:supergroup:drwxr-xr-x

热门文章

  1. [C++]美国地图着色问题C++实现
  2. 读书笔记:在齐太史简,在晋董狐笔
  3. 社工小组 计算机小组活动,社工小组活动方案.doc
  4. MatlabPython-WLS加权最小二乘滤波
  5. 【Spring】JavaBean、MVC软件设计模式与Java中Dao、Service、Controll三层体系
  6. MVC+EF+LayUI框架的应用-徐新帅-专题视频课程
  7. Python学习:学员管理系统
  8. 软件生命周期管理(ALM)
  9. 子桓说:看人看本质,职场识人辨人之术
  10. 多道批程序创建密匙文件夹