本文来自 NebulaGraph 的软件工程师文豪在美国费城参加 2022 年 SIGMOD 大会时的见闻。SIGMOD 是数据库领域的顶级会议之一,是 CCF 数据库 / 数据挖掘 / 内容检索领域 A 类会议。

NebulaGraph 作为国内唯一的开源图数据库厂商参加,并以展商身份在会上发表了《NebulaGraph: a nex t-generation of hyperscale graph database》演讲。

以下内容文豪将以第一人称展开叙述:

今年 SIGMOD’22 在费城 Philadelphia 举办,我有幸代表公司参加这次盛会。此次参会,我和学生、教授、厂商多有交流,一方面宣传了我们的产品,另一方面也获取了许多宝贵的建议和意见。接下来,我将分享其中一些建议,以及我整体的思考。

图学习和存储技术广受关注

首先是行业新趋势,本次会议大家关注的热点主要有两个。

第一,机器学习的比重进一步增加,尤其图学习(graph learning)可能成为新的热点。近年来,越来越多的系统领域的会议会专门开设机器学习的专区,主要是运用一些机器学习的方法来优化系统或者算法。其中,有一个方向最近异军突起,就是图学习。简单来说,图学习就是在图上的机器学习。和其他用机器学习解决实际问题类似,图学习通过 embedding 的方式,从 graph 中提取出特征向量(feature vector),再用机器学习的方法解决图中那些困难的问题,包括分类、子图匹配、链接预测(classfication,subgraph matching,link prediction)等。

从会议的倾向和 NSF (National Science Foundation) 的指导来看,这个趋势还会持续火热。我们也收到很多学生和教授关于是否支持图学习的询问。从图数据库供应商角度出发,图学习是 NebulaGraph 的应用之一。我们不能仅仅满足于提供图数据库核心,还得为上层应用提供库、接口,甚至优化,来保证上层应用的顺利高效运行。从另一个角度出发,如果我们的 NebulaGraph 可以帮助学界在一些领域,比如在图学习方面有所突破,对我们公司、全行业发展也是大有裨益的。

除了机器学习,我认为另一个热点趋势就是内存,包括 in-memory database, persistent memory 等。目前非易失性存储(non volatile memory),或者叫持久性存储(persistent memory),经过学术界和工业界十多年的共同努力已经越来越成熟。目前针对如何使用持久性存储的研究也是非常火热,几乎所有系统的顶会都有大量相关的文章。

具体到数据库领域,就包括:如何设计内存数据库(in-memory database)、如何将持久性存储(persistent memory) 和 SSD、DRAM 等混合使用,如何解决内存隔离(memory segregation)的问题。NebulaGraph 作为图数据库供应商,也应该积极拥抱新硬件带来的改变,积极探索基于 persistent memory 的存储系统。

图的优势与发展方向

除了新趋势,我在会议中最大的收获和思考是关于图数据库(GDBMS)和关系型数据库(RDBMS)的比较。会上有不少人表达「为什么不基于关系型数据库来实现 graph datababse」的疑虑。

因为关系型数据库经过多年优化,确实已经武装到了牙齿。比如 Peter Boncz 教授(LDBC 创始人之一)在今年早些时候在 EDBT / ICDT 会议上做了个主题演讲——《The (Sorry) State of Graph Database Systems 》,提出当前 GDBMS 跟 RDBMS 相比,在计算和存储层都还有很多地方需要提高,尤其是针对子图匹配(subgraph matching) 这样的 AP 查询。他提出了针对子图匹配场景的性能基准测试(Benchmark)。在他的实验环境下,没有一款图数据库软件在「子图匹配」场景上的性能能够接近 Hyper 和 Umbra 这两款关系型数据库(见下面图1)。

图 1:在 Subgraph matching 上,GRDMS 不如一些特殊的 RDBMS,具体可看 Slides。

这个实验的设置固然有值得探讨的地方,但 Peter 作为 LDBC 的创始人,他的核心目的自然不是贬低图数据库,只是想借用子图匹配——这个图数据库优化得还不够好的一种查询场景,来鼓励各个图数据库厂商提升自己的产品。

从更广的图景来看,我们 NebulaGraph 作为图数据库厂商,必须把握图数据库和关系型数据库的区别和优势:

  • 一是图查询,尤其是 GQL 相对于 SQL 的易用性和高效性。
  • 二是易用性,Neo4J 的 CEO,Emil Eifrem 有个非常好的例子:对于一个 AP 系统非常常见的查询,如果使用 SQL 需要 23 个 SELECT,21 个 WHERE,11 个 JOIN,9 个 UNION,最后形成一个巨长无比的查询语句(query)。但如果使用图相关语句,只需要一个 MATCH 和一个 WHERE。对于使用 SQL,很有可能是无法完成工作或者极易出错,而对于后者使用图相关语句,则可以省下无数人力物力。

关于性能,除了在关联关系查询中,图数据库相较于关系型数据库的天然优势,还需要在其他图相关的各种查询上(不止于上文提到的子图匹配 subraph matching)取得对于关系型数据库的优势。这其实也是 Peter 提出子图查询这个检测基准对于我们的核心启示。

对底层存储结构的思考

最后,我们也获得了不少关于底层存储的建议。NebulaGraph 目前底层存储使用的是基于 LSM Tree 的 RocksDB。但 LSM Tree 是否适用于图数据库的 workload,尤其是上云后,是否是性能最好、成本最低的选择,一直是有争议的。可能的替代者有:

  • Bε-tree File System,betrFS: https://www.betrfs.org/
  • LiveGraph:https://marcoserafini.github.io/papers/LiveGraph.pdf
  • B+ Tree: 在这方面,后续我们也会持续跟进研究

总之,这次 SIGMOD’22 之旅收获了许多。期待明年的 SIGMOD。西雅图见!


谢谢你读完本文 (///▽///)

要来近距离体验一把图数据库吗?现在可以用用 NebulaGraph Cloud 来搭建自己的图数据系统哟,快来节省大量的部署安装时间来搞定业务吧~ NebulaGraph 阿里云计算巢现 30 天免费使用中,点击链接来用用图数据库吧~

想看源码的小伙伴可以前往 GitHub 阅读、使用、(з)-☆ star 它 -> GitHub;和其他的 NebulaGraph 用户一起交流图数据库技术和应用技能,留下「你的名片」一起玩耍呢~

从全球顶级数据库大会 SIGMOD 看数据库发展趋势相关推荐

  1. 70行Python代码,获取中国数据库大会(DTCC)全部PPT

    大家好,我是明月十四桥! 擅长领域:python黑科技.大数据后端研发.数据仓库 今日重点: ① 学会使用python 获取各种网站的ppt,可见即可爬: ② 中国数据库大会一年一届,门票昂贵,干货满 ...

  2. 【相约上海,期待广州】甲骨文数据库大会暨38周年庆典

     Oracle 经过38年的发展,已经成为全球最大的企业级软件厂商,是唯一能提供从IT基础设施到行业应用的全方位云解决方案的供应商.从1987年 Oracle 作为全球最大关系数据库厂商登陆中国市场 ...

  3. 数据库“新解”,看这里,get!

    自从第一台通用计算机诞生至今,围绕计算机系统硬件的创新迭代就一直"在路上",伴随着硬件能力的不断提升,软件更新自然不可缺少.通常来说在传统的计算机软件工程领域,操作系统.编译器与数 ...

  4. 2011年数据库大会纪行

    2011年数据库大会纪行 大会前其实早已盘算好了计划,首先做好自己的本职事情,呵呵,其次是和<剑破冰山-oracle开发艺术>的兄弟一起相聚,再次和多年未见的诸位朋友再聚一下,最后是处理一 ...

  5. Python下载中国数据库大会(DTCC2020)PPT全集

    目录 背景 效果展示 程序下载 网盘下载 背景 前几天中国数据库大会风风火火的在京举行了,期间干货满满,收获良多.在学大佬们的ppt时,发现只能一篇一篇预览,对于求知欲强烈的小编来说简直太难受了,于是 ...

  6. 2018GIAC全球互联网架构大会上海站最新日程抢先看!

    2018年11月23-24日,为期两天的 GIAC全球互联网架构师大会将在上海拉开帷幕.GIAC全球互联网架构大会是由msup和高可用架构技术社区联合举办的面向架构师.技术负责人及高端技术从业人员的年 ...

  7. PostgreSQL与2020 PGConf.aisa数据库大会值得关注!

    作为一名数据库从业人员,近几年一直有关注PostgreSQL的发展,今天浏览PG国内新闻看到2020年PG技术大会马上开始了,每每想到PG技术大会都不禁感慨,豪门力十足.于是写下这篇文章,介绍一下PG ...

  8. PostgreSQL与2020 PGConf.asia数据库大会值得关注!

    作为一名数据库从业人员,近几年一直有关注PostgreSQL的发展,今天浏览PG国内新闻看到2020年PG技术大会马上开始了,每每想到PG技术大会都不禁感慨,豪门力十足.于是写下这篇文章,介绍一下PG ...

  9. 嘉宾专访|2020 PostgreSQL亚洲大会阿里云数据库专场:曾文旌

    2020 PostgreSQL亚洲大会组委会特别推出阿里云数据库嘉宾系列线上专访,第四期我们邀请到了阿里云数据库高级技术专家曾文旌.他将在11月17日阿里云数据库培训专场11:00-11:40时间段带 ...

最新文章

  1. SqlServer 中的临时表与表变量
  2. **php队列的实现思路和详细过程
  3. 作为Web开发人员,我为什么喜欢Google Chrome浏览器
  4. 定制linux版本,Instalinux:在线自由定制 Linux 发行版
  5. ArrayList与LinkedList的比较
  6. 使用 Gitee 进行代码管理(包括本地仓库如何同时关联Git和Gitee)
  7. Python【每日一问】08
  8. 我的服装DRP之开发感悟
  9. 过分的谜题 模拟+思维题
  10. ajax提交file文件,AjaxSubmit()提交file文件
  11. 内存监控设置及数据获取方案
  12. 树莓派USB摄像头和motion实现网络监控
  13. 光猫通过 Telnet 修改自带 WLAN 功能 SSID 强制 ChinaNet- 问题
  14. 段码液晶屏学习应用笔谈
  15. 耳机声音一边大一边小
  16. Win10自动更新后,输入法故障问题
  17. RuntimeError: a leaf Variable that requires grad has been used in an in-place operation
  18. .NET周报【10月第1期 2022-10-11】
  19. Ardunio开发实例-ISL29125 RGB彩色光传感器
  20. matlab卷积相关

热门文章

  1. c开头英文语言,字母C开头的英文名
  2. unity水下模糊效果
  3. 软件集成测试采用,集成测试的组成以及流程
  4. 共享充电宝再涨价达每小时6元 客服:市场需求决定的
  5. ruoyi-vue集成积木报表
  6. 手机通过USB共享电脑宽带
  7. 1.大数据之EKL平台搭建以及使用
  8. 清华、商汤提出SIM方法,让自监督学习兼顾语义对齐与空间分辨能力
  9. OWASP十大漏洞之一
  10. UE4 制作灯光秀的灯光阵列和动画