翻译:piggycat

原文:https://medium.com/@tomaszdudek/but-what-is-this-machine-learning-engineer-actually-doing-18464d5c699

机器学习,人工智能正在许诺世界一个“智能”的未来。

这个IT领域逐步成为市场之星,随之而来是对人工智能应用开发人才的需求。

相比软件工程师,数据科学家通常来自非常多样化的背景,他们不一定是很好的程序员,实际上,他们也许从来没想过要成为很好的程序员 - 对数据科学家来说,编程只是解决疑难问题的手段,仅此而已,对程序员来说编程却是一种艺术。

当然,数据科学家们的想法非常有价值,并且要成为成功的数据科学家,在技术上的要求非常广泛,可以说是过于广泛。不能指望一个机算机视觉(Computer Vision) 和规范性分析 (Prescriptive Analysis) 的专家,同时也能一行行编写代码,运用函数式或者反应式编程,或者两种都用上,把数据模型实现成产品,并且放在一个高度分布式的云环境中。

软件工程师们则对机器学习持保守的态度。他们从数据科学家手中接过的所谓的模型要么过于简短,用漏洞百出的不熟悉的语言编写的角本,充斥着不知所云的函数。设计模式呢?简洁和重复性好的代码呢?运行日志和产品监控,都在哪呢?

随着这样的冲突升级,需求也应运而生。如果能将数据科学家们的代码有效化和层次化,解释给程序员其中的架构原理,能避免将大量的开发时间用在理解一些他们毫无兴趣的概念上。

机器学习工程师就是这样的一群人。

在所有的机器学习材料中,生产环境很少被提及,这个概念基本上不存在。从csv导入数据,在Jupyter中创建模型,呈现ROC曲线,就是成功运行!

且慢!

在现实中,大部分的产品代码和机器学习并无关联,实际上在整个代码中,和机器学习相关的部分非常少!前训练(pretrain)的黑匣子只是提供一个小小的JSON,那是由几千行的代码产生的预测结果。为了让这个结果有实际的用处,需要搭建一个整体的系统来运行!你需要获取和转换数据,自动化运行,并将其可视化结果呈现给终端用户。不管问题的大小,一个机器学习的外围工作量都非常大,即使你用上Apache Airflow, Nifi.

需要有人去把“数据科学”和“软件”粘合在一起,将训练好的数据模型放于高质量的生产环境中,设置好重新计算的自动运行程序,将模型呈现给真实用户,并监控运行的效能。这些领域正是机器学习工程师发挥作用的地方。

从数据科学家那里得到的是在即定时刻利用即定数据产生数据模型的路径。除非是一次性的分析,这些模型在产品化以后会存在很长一段时间,其中的一些问题也会慢慢显现出来,比如一个新的未知值的出现导致整个模型的效能大不如从前。

此时作为机器学习工程师的你,会利用保存下来的历史运行日志和监控,来解答为什么和从什么时候开始出现这些问题。

所有其它程序能遇到的问题,机器学习程序也会同样遇到。比如数据库可能超连。在数据量极大的时候GroupBy指令可能会爆表。内存和磁盘可能会溢出。用户的指令不被某些算法接受。外围服务会有超时。类似的种种状况出现在实验环境下没有人会放在心上,但运行在生产环境中时,防止这些意外情况的发生便是你的责任了。

数据科学家同事们总是有各种各样的点子,你所做的是避免让技术成为他们的障碍。按照现在的机器学习平台的发展速度,也许不久就会遇上用现有框架中现有的API难以实现的案例。这时就需要你将现有的框架用到极致来实现它们。你会需要用到你强大的编程能力和机器学习的知识,而这也正是让你在团队中显得与从不同的地方。

即使框架提供了你所需要的一切,机器的运算能力不够仍然可能是问题。大型的神经网络需要大量的时间训练。而在大型服务器上用上GPU框架则可以成倍的节省时间。你就是那个提供云设施最佳搭配建议的人。

你有机会在各种最热门的技术中自由穿梭。Keras, pyTorch, TensorFlow, H2O, scikit-learn, Apache Spark - 都是你的选择。Apache Kafka! Pulsar! AWS! 你会是大家妒忌的那个用遍最炫酷技术的人。

然而,那些最炫酷的通常也是不常用的!

新的技术大家更多谈论的是优点,而实际上你面对的往往是很烂的文档和一些博客文。你需要了解很多软件开发和数据科学的概念。重要的是,你需要非常快的掌握新的知识。 在某些领域,学习的曲线会很长,尤其当实现一些论文上的想法时。有些论文非常的书本化,需要花很多时间去理解。然后到写程序的时候,即使程序运行无错,仍然无法确定这是正确的实现方式。如果出错,就会想也许程序有问题,也许是数据有偏离,或许整个想法就不合时宜。

能够跟上数据科学的发展已经是一个挑战,还要被扔进软件开发和云计算的深坑,头都快炸裂了!所以你必须组织好学习资源,接受广则不深的事实。

对有些人来说,能将两个如此相近又如此不同的领域联接在一起,是梦想的职业。

[参考]https://medium.com/@tomaszdudek/but-what-is-this-machine-learning-engineer-actually-doing-18464d5c699

“机器学习工程师”到底是怎样的工作?相关推荐

  1. 一位高级软件工程师的自述:这个职位到底要做什么工作?

    作者丨Joy Ebertz 译者丨核子可乐 策划丨赵钰莹 本文作者 Joy Ebertz 接触过的几乎每一家软件公司都设有技术晋升与管理晋升两条职业道路,这意味着如果只走技术方向,技术人员也完全可以在 ...

  2. 字节跳动喜欢招聘这样的机器学习工程师

    机器学习工程师是不是已经饱和了?初级的算法岗位到底还好不好找工作?行业里需要怎样的机器学习工程师?如果我现在想从事AI行业的话,到底该怎么进入? 这些都是用户的普遍问题.最近这一年多时间,随着人工智能 ...

  3. 机器学习工程师第一年的12点体会

    机器学习和数据科学都是广义上的术语,它们涉及超级多的领域以及知识,一位数据科学家所做的事情可能与另一位有很大的不同,机器学习工程师也是如此.通常使用过去(数据)来理解或预测(构建模型)未来. 为了将上 ...

  4. python算法工程师需要会写什么_算法工程师到底在干嘛

    本文经原作者授权整理发布 算法工程师到底有什么特别之处?这个岗位真的比普通工程师高一等吗?同为工程师,算法工程师为啥工资高几倍?从普通工程师转为算法工程师,会有多困难?算法真的那么难搞吗? 不知道各位 ...

  5. 算法工程师到底在干嘛

    转https://www.infoq.cn/article/pwDoFVzG*ZgGaAQhvwEL 虽说和作者做的领域不同,结合自身工作体验,这个作者说的还是很真实的. 本文经原作者授权整理发布 算 ...

  6. 「01」机器学习,到底在学些什么?

    这是参加原力计划单独投稿的,是我专栏文章的part 2​​​​​​​ 2. 机器学习,到底在学些什么? 2.1 什么是学习? 根据定义,学习是从有限的例子中,找出问题和答案之间规律的一个过程,而所找出 ...

  7. 如何区分理解数据科学家与机器学习工程师

    数据科学家Vs机器学习工程师 原文: What are machine learning engineers? 来源: https://tech.co/12-ways-advantage-big-da ...

  8. Facebook面经全披露,我是怎么拿到机器学习工程师offer的?

    作者 | Rahul Agarwal 翻译 | Katie,责编 | 晋兆雨 出品 | AI科技大本营 头图 | 付费下载于视觉中国 去年八月,我正在接受面试.那时,我已经分别接受Google Ind ...

  9. 所以,你自认为是一个合格的机器学习工程师?

    本文作者阿萨姆,原载于知乎专栏,AI科技大本营经授权转载. 这是来自知乎圆桌的一个回答. 机器学习工程师,绝不是一个笼统的概念,每一个特定的位置,对"合格"的考量完全不同.你自认为 ...

最新文章

  1. 从Internet上抓取指定URL的源码的方案
  2. 一天搞定CSS: 浮动(float)及文档流--10
  3. MFC CListCtrl
  4. js事件里面套事件怎么不管用_原生js利用localstorage实现简易TODO list应用
  5. 【Level 08】U08 Positive Attitude L5 Satisfy your need to know
  6. mysql慢查询 表级锁_三分钟了解Mysql的表级锁——《深究Mysql锁》
  7. 【java与智能设备】01_2Android简介与环境搭建——开发环境
  8. Latex所有常用数学符号整理
  9. 计算机里怎样打字,电脑知识:如何电脑快速打字
  10. Can‘t update dev_zgd has no tracked branch
  11. Win10 资源管理器闪退-解决方法
  12. 深度学习需要的电脑配置
  13. 6.哈夫曼树及哈夫曼编码
  14. 无公网IP远程黑群晖【内网穿透】
  15. 漂浮式半潜风机(一)稳性分析
  16. 哇噻,这个 IoT 物联网智能灯也太炫酷了吧!
  17. java快速对接微信支付分(一)
  18. PS-InSAR茂县滑坡监测
  19. 格雷码与普通二进制码的相互转换——学习笔记
  20. python 批量下载 代码_python 批量下载文件

热门文章

  1. 祥云杯-WRITEUP-bad_cat战队
  2. 手机文件上传到服务器,手机上传文件到云服务器上
  3. 保姆级教程从零搭建云服务器(小彩蛋,请大家看烟花秀)
  4. 免费在线markdown转pdf
  5. git commit --amend 修改最近一次提交
  6. 清华郑丽c语言编程,面向对象语言c+综合实验指导书.doc
  7. C# properties assemblyinfo.cs
  8. 关于AD21中PCB布线中补泪滴 焊盘处如何设计
  9. 钛资本研究院:智能经济,数字经济学视角的范式变革
  10. 运用区块链技术的汽车供应链金融平台上线 平安金融壹账通携手福田汽车发布“福金All-Link系统”