布朗大学和麻省理工学院的研究人员开发了一种新的数据科学框架,允许用户使用 Python 编程语言处理数据,而无需支付通常与用户友好语言相关的“性能税”。

这个名为 Tuplex 的新框架能够以比 Apache Spark 或 Dask 等行业标准数据系统快 90 倍的速度处理用 Python 编写的数据查询。研究团队在 SIGMOD 2021(一个重要的数据处理会议)上展示的研究中公布了该系统,并已向所有人免费提供该软件。

“Python 是从事数据科学工作的人们使用的主要编程语言,”布朗大学计算机科学助理教授、Tuplex 的开发人员之一 Malte Schwarzkopf 说。“这很有意义。Python 在大学中被广泛教授,它是一种易于入门的语言。但在数据科学方面,Python 会带来巨大的性能负担,因为平台无法有效地处理 Python后端。”

Spark 等平台通过在数据中心的多个处理器内核或机器之间分配任务来执行数据分析。这种并行处理允许用户处理巨大的数据集,这些数据集会导致单台计算机死亡。用户通过输入自己的查询与这些平台进行交互,查询包含编写为“用户定义函数”或 UDF 的自定义逻辑。UDF 指定自定义逻辑,例如从房地产清单的文本中提取卧室数量,用于搜索美国所有房地产清单并选择所有具有三间卧室的查询。

由于其简单性,Python 是数据科学社区中创建 UDF 的首选语言。事实上,Tuplex 团队引用了最近的一项民意调查,表明 66% 的数据平台用户使用 Python 作为他们的主要语言。问题在于分析平台难以有效地处理这些 Python 代码。

数据平台是用高级计算机语言编写的,在运行之前先进行编译。编译器是采用计算机语言并将其转换为机器代码(计算机处理器可以快速执行的指令集)的程序。然而,Python 不是预先编译的。相反,计算机在程序运行时逐行解释 Python 代码,这可能意味着性能要慢得多。

Schwarzkopf 说:“这些框架必须摆脱编译代码的高效执行,并跳入 Python 解释器来执行 Python UDF。” “该过程的效率可能比执行编译代码的效率低 100 倍。”

如果可以编译 Python 代码,它将大大加快速度。但是,Schwarzkopf 说,研究人员多年来一直在尝试开发通用的 Python 编译器,但收效甚微。因此,研究人员没有尝试制作通用的 Python 编译器,而是设计了 Tuplex 来为特定查询和常见输入数据编译高度专业化的程序。不常见的输入数据,仅占实例的一小部分,被分离出来并提交给解释器。

“我们将这个过程称为双案例处理,因为它将数据分成两个案例,”描述 Tuplex 的研究的合著者 Leonhard Spiegelberg 说。“这使我们能够简化编译问题,因为我们只需要关心一组数据类型和常见情况假设。这样,您就可以两全其美:高生产力和快速执行速度。”

运行时的好处可能是巨大的。

“我们的研究表明,输出的 10 分钟等待时间可以减少到一秒,”施瓦茨科普夫说。“所以这确实是性能的重大改进。”

研究人员说,除了加快速度之外,Tuplex 还拥有处理异常数据的创新方法。大型数据集通常是混乱的,充满了不遵循惯例的损坏记录或数据字段。例如,在房地产数据中,卧室数量可以是数字,也可以是拼写出来的数字。像这样的不一致足以使某些数据平台崩溃。但是 Tuplex 会提取这些异常并将它们放在一边以避免崩溃。一旦程序运行,用户就可以选择修复这些异常。

“我们认为这可能会对数据科学家的生产力产生重大影响,”施瓦茨科普夫说。“在等待输出时不必跑出去喝杯咖啡,也不必让程序运行一个小时才在完成之前崩溃,这将是一件非常重要的事情。”

相关实战:https://www.yunduoketang.com/article/k12jyzx.html
https://www.yunduoketang.com/article/wxkzbjx.html
https://www.yunduoketang.com/article/wlzbpx.html
https://www.yunduoketang.com/article/zxjyxsxx.html

新的数据科学平台加速 Python 查询相关推荐

  1. Anaconda Distribution :流行的Python数据科学平台

    Anaconda Distribution 开源软件Anaconda Distribution是使用python或者R进行ML的工具之一,可以轻松地安装在Windows/Linux/Mac上,已有超过 ...

  2. 数据库数据过长避免_为什么要避免使用商业数据科学平台

    数据库数据过长避免 让我们从一个类比开始 (Let's start with an analogy) Stick with me, I promise it's relevant. 坚持下去,我保证这 ...

  3. 2021数据科学平台领域最具商业合作价值企业盘点

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 6月19日,数据猿携手上海大数据联盟,依托双方优势资源与力量,共同以媒体+联盟的方式推动产业的发展与行业的进步,特以"聚焦数智价值 引领 ...

  4. 2022中国数据科学平台领域最具商业合作价值企业盘点

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 自2022年3月初,数据猿正式推出以"数智力·新格局"为主题的"2022行业盘点季大型主题策划活动"以来, ...

  5. 必备 | 人工智能和数据科学的七大 Python 库

    来源:新智元 本文约3100字,建议阅读10+分钟. 本文汇总了2018年针对数据科学家/AI的最佳库.repos.包和工具. [ 导读 ]作者根据每周发布总结的系列文章,汇总了2018年针对数据科学 ...

  6. 2020 数据科学平台领域最具商业合作价值企业盘点

    "点赞+在看+分享本篇文章到朋友圈,截图发送给数据猿小编(ID:datayuanfw1)即可进入数据猿核心读者群,并获现金红包1份.提示:添加小编微信,需注明公司.职务.姓名. 大数据产业创 ...

  7. python数据科学导论_数据科学导论:Python语言(原书第3版)

    数据科学导论:Python语言(原书第3版) 作者:(意)阿尔贝托·博斯凯蒂;(意)卢卡·马萨罗 著 出版日期:2020年02月 文件大小:48.52M 支持设备: ¥50.00 适用客户端: 言商书 ...

  8. 数据科学导论python语言实现_数据科学导论:Python语言实现(原书第2版)

    数据科学导论:Python语言实现(原书第2版) 作者:(意)阿尔贝托·博斯凯蒂(Alberto Boschetti);(意)卢卡·马萨罗(Luca Massaron) 著 出版日期:2018年01月 ...

  9. garch预测 python_数据科学方面的Python库,实用!

    作者:Python开发与大数据人工智能原文:公众号 Python开发与大数据人工智能 Python是一种很棒的编程语言.事实上,它还是世界上发展最快的编程语言之一.它一次又一次证明了它在数据科学职位中 ...

最新文章

  1. socket的阻塞非阻塞方法在缓冲区的差别
  2. JRebel for IntelliJ 热部署方法
  3. 牛客网_PAT乙级_1015反转链表 (25)【没做出来】
  4. JavaFX技巧32:需要图标吗? 使用Ikonli!
  5. Spring Boot基础学习笔记05:Spring Boot多环境配置
  6. 2021年7月文章精选
  7. Flutter 是移动应用程序开发的未来?
  8. aixcoder 智能代码补全工具
  9. Xdebug的优点!php代码开发
  10. mysql报警脚本_MySQL Server 报警脚本
  11. PostgreSQL10.1-CN-v0.1.chm中文手册
  12. Mac利用pd来安装虚拟机win7系统。
  13. (C语言)判断数独是否正确
  14. 在单点登录中,如果cookie被禁用了怎么办?
  15. 2019年2月18日,异常作业
  16. 互联网周刊:不痛不痒的信息安全
  17. 几种方法判断平面点在三角形内
  18. JAVA团队开发手册 - 1.环境搭建
  19. 限制Input只能输入汉字、数字
  20. 超简单vue-devtools工具安装

热门文章

  1. ZYNQ7035使用FDMA读写PL DDR
  2. 使用Servlet3.0上传图片,无法使用part.getSubmittedFileName()方法解决
  3. c8051f340例程USB_Interrupt的上位机驱动(win7 64位)
  4. 运筹学知识:决策分析技术-乐观准则,悲观准则,后悔准则
  5. 密立根测油滴实验c语言测试,密立根油滴实验-平衡法-数据处理-C程序源代码
  6. Python版冈萨雷斯 V1.0
  7. 计算机控制器和主控芯片,看完这三点让你完全了解微控制器与微处理器的差别?...
  8. ZIP、RAR压缩包,忘记压缩包密码怎么办?
  9. Excel 仪表盘教程之 01 什么是 Excel 仪表板,它与报表有何不同?(Dashboard教程含数据)
  10. ip解析 java_JAVA解析纯真IP地址库