很多牛逼的公司都宣称在建立数据科学部门,这个部门该如何组建,大家都在摸石头过河。O‘reilly Strata今年 六月份发布了报告 《Analyzing the Analyzers 》,比较清晰的阐述了数据科学部门所需要的不同角色及其技能。重点内容翻译如下:

数据科学家的分类研究方法

自我认识

请被调查者用常用的5级标准(从完全同意到完全不同意)来回答 “我觉得自己是一个XX” 这样的问题,能够获得数据科学家的自我认识结果。调查结果将数据科学家分为以下四类:Data Businesspeople、Data Creatives、Data Developer、Data Researchers。

技能需求

请被调查者对数据科学家所需的以下22项技能进行排序,分析不同类型的数据科学家的技能要求。其中的ML是机器学习的简写,OR指运筹学(Operations Research)

将它们结合起来分析

根据受访者的自我认知和技能排序,可以识别出不同类型的数据科学家所需要的技能。

数据科学家的类别

Data Businesspeople

Data Businesspeople 往往专注于组织管理和如何从数据项目中产生利润。他们往往将自己定位为领导或创业者,约 80% 的 Data Businesspeople 承担员工管理的责任。Data Businesspeople 还可能是咨询服务或合同类服务的提供者。Data Businesspeople 学历相对较高,大约 60% 拥有硕士以上学位,其中 MBA 接近 25%;而且很多 Data Businesspeople 都有工科学位的背景。Data Businesspeople 往往操作真实数据,90% 以上偶尔会操作 GB 级别的数据。与其他数据科学家相比,Data Businesspeople 年龄稍微偏大,接近四分之一是女性(相比略高),仅有四分之一的 Businesspeople 把自己称为数据科学家(相比略低)。

Data Creative

数据科学家往往可以独立完成一条龙的完整分析过程:从数据提取,整合、并进行分层,进行统计或其他复杂的分析,创造引人注目的可视化诠释和效果,开发具有更宽广应用前景的数据工具。而 Data Creative 则是其中能力最广泛的数据科学家,他们能够综合使用各种工具和技术解决问题、能够像黑客马拉松那样创新产品原型,是典型的万事通型人才。与其他类的数据科学家相比,Data Creative 更具艺术家风范。与 Data Researcher 相似,Data Creative 也有丰富的的学术经验,大约 3/4 拥有院校授课或发表论文的经历,一般拥有经济学和统计学等领域的学位。但不同之处在于,仅有较少的 Data Creative 拥有博士学位。Data Creative 具有深厚的业务经验,80% 的 Data Creative 按合同工作(接项目?);40% 创立了企业,甚至比 Data Businesspeople 还多。Data Creative 还被认为是黑客。他们往往还可能有深厚的开源经验,业余为开源项目和开放数据项目做贡献。Data Creative 相对更年轻,男性更多。有意思的是,他们也是最积极的回应我们最后一个问题的:“你觉得本次调查是否对你有用?”

Data Developer

Data Developer 专注于解决数据管理的技术问题 —— 如何获取,存储,以及学习。Data Developer 更倾向于将自己评价为科学家(在这一点上仅次于 Data Researcher)。对于那些从事机器学习和相关的学术研究的人来说,这是当然合理的。但是,还有一些 Data Developer,每日的工作仅仅是日复一日的开发代码。半数 Data Developer 具有计算机科学或计算机工程学位,约一半人为开源项目作出过贡献。更多 Data Developer 会强调自己具有机器学习/大数据技能。部分 Data Developer 做过咨询工作,承担过管理岗位、或为开放数据项目做出过贡献。

Data Researcher

走向“数据科学家”头衔的职业生涯路径中,最有趣是从在学校研究物理或社会科学开始,也有统计学专业的。许多组织已经深刻认识到,即使这些学生在校期间所学专业与企业业务领域完全不同,但他们被训练出的利用数据了解复杂过程的能力仍然极具价值。大部分具备统计技能的受访者,自认为是 Data Researcher。近 75% 的 Data Researcher 在同行评审期刊上发表过文章,半数以上拥有博士学位。(心理和政治科学学位也有可观的数字)。Data Researcher 很少创业,而且仅有半数具有管理经验。

关于大数据

下图描述了对于不同数量级数据集处理的调查结果:大多数数据科学家很少直接操作 TB 级以上的数据。

T 型数据科学家

大多数成功的数据科学家既有丰富的专业经验,还至少在数据科学的某一方面深入钻研,如统计,大数据,或业务沟通等。这就是20世纪90年代提出的所谓的“T形技能”模式:“T”字母顶部的横表示广博技能,而竖线表示在某个区域的深度钻研。T形人才能够更容易融入跨学科团队,也能够更高效地工作。数据科学领域与生俱来就具有协作性和创造性,那些成功的专业人士能够与数据库管理员,商务人士,以及其他具有多种互补工作技能的人合作,以使数据项目以创新的方式完成。

Data Businesspeople 具有顶级的商业能力,其他能力较弱。Data Researcher 往往具有非常深的统计相关技能,但一般说来,他们对于机器学习/大数据,商业,和编程技巧却相对低。Data Developer的模式可以被称为“π形”,拥有强大的编程技巧,较强的机器学习/大数据相关技能,而其他三个技能相对中庸。最后,Data Creative 是不像T形结构的,所有技能相对平均,既不最强,也不最弱。

数据科学家和组织结构

数据人才来自哪里?

70% 的受访者至少拥有硕士学位,而科学领域的(社会学或物理学,而非数学、计算机、统计、或工程学科)达40%。

科学领域的研究生以上教育,提供了对真实数据的动手实践,不仅仅描述现象,还要评价理论和辨析立场。物理学和天文学教授了严格的统计思维,而粒子加速器和太空望远镜系统则提供了大量的需要小心处理的数据流。硬科学背景为任何类型的数据科学家,尤其是Data Developer提供了良好的培训。

另一方面,有人认为,社会科学也培养了大量的数据科学家。心理学家,经济学家,政治学家,以及其他组织,他们在工作中需要处理的来自真实世界的混乱的,嘈杂的数据。这些领域的数据科学家可以快速清理和汇总数据,利用先进的统计技术来理解因果关系,并深入思考有关数据可视化,展示和沟通的问题。我们在 Data Researcher 和 Data Creative中看到很多这样的受访者。

经典计算机科学(机器学习)和应用统计学位也是非常有效的数据科学家的起点。机器学习的重点是大规模数据处理和算法、结合软件开发技能,自然应用于真实世界组织数据。许多应用统计学科则将咨询能力、专业领域知识、以及关键方面有效的数据科学结合在一起。

还有不少学校也开始培养一些新兴的学位,如分析、数据可续、商务智能硕士等。

大多数当前的数据科学家往往涉足过多个领域,在不禁意之间获得了广泛而深入的领域知识。

从理论到实践:实习和指导

帕蒂尔(2011)建议 “招收哪些刚刚走出大学校园的聪明而有创意的人才,再把他们投入非常严格的实习计划中去。” 对于拥有足够预算,以及高级人才辅导项目的大型组织,这样做可能效果不错,但对于小公司,它的实用性似乎不太好。

对于小组织来说,有个可行的替代方式(DataGotham 2012年)—— 聘请专业的顾问,帮助招聘、培训、再整合和指导新鲜出校的数据科学家。DonorsChoose.org 意识到,雇佣数据科学家收集数据,在完成其慈善使命中具有巨大价值,他们与专家团队一同工作达5个星期完成雇佣。雇佣之前,专家帮助这个非营利性组织了解到数据科学家的作用,随后帮助新员工培训和指导,并设置了启动项目的成功路径。数据科学家的广泛的能力将对小组织非常有用,但必须有像这样创新的方法以确保其有效性。

团队和组织架构

首先,我们的数据显示,数据科学家应该是T形人才,具有多样技能,需要在技能互补的团队中最有效率。(达文波特 2010;帕蒂尔 2011)。而不明白这一点的组织往往期望聘请一个可以做到一切的“神”。

其次,组织需要建立自己的数据科学团队,以有效的开展工作。数据科学团队即需要直接访问原始数据,也需要与决策者沟通。根据我们的分析,他们具备需要多方面的技能才能充分利用数据。他们还需要得到流程管理的支持,采纳和使用其结果。当数据科学团队的产出被期望为具有完整的生命周期的软件系统时,那么这个团队中就必须拥有足够的资源去进行测试,部署和系统维护,这一点至关重要。虽然我们的受访者都或多或少有一些编程技巧,并能够承担这类任务,但期望大多数 Data Businesspeople 或 Data Researchers 能够高效完成这些,还是个不现实的期望。在大型组织里,在数据科学团队上的资金投入,与其他团队之间的管理关系协调,包括数据基础设施和IT员工,确实能够实现价值。(达文波特,2010年)

职业发展

企业中的数据科学家的角色不是一成不变的,也需要职业发展的晋升机会。具有多年数据科学家经验的员工,非常有价值,也非常难于替代。将工程师提升为领导角色需要充分衡量利与弊,还要考虑资深员工不想从事管理岗位的各种变数。在我们的调查者中,62%的承担着管理责任;这个数据能够显示有多少数据科学家愿意管理团队,而不是视管理为烦恼。

在大型组织中,保留数据科学家的另一个有趣的潜在方法是设立轮岗计划(达文波特,2010年)。在入职培训之后,数据科学家可以在内部团队有计划的转岗。产品部门可能需要个性化用户模式;市场部门需要在可控实验(controlled experiments)方面的帮助;财务部门需要预测;运营部门需要流程优化。通过直接加入不同部门,数据科学家能够了解关键业务的价值观和技能,专注于部门最需要帮助的问题,并以最小代价提供解决方案。而且,通过阶段性轮岗,数据科学家可以获得更宝贵的技能和宽阔的视野,不断提升其数据科学技能。

原文发布时间为:2018-10-2

本文来自云栖社区合作伙伴“大数据地盘”,了解相关信息可以关注“大数据地盘”。

推荐 :数据科学部门如何建立相关推荐

  1. [译]解密Airbnb的数据科学部门如何使用R语言

    概述 我之所以在aribnb希望成为一名数据科学家是因为这里可以有一个非常多元化的团队来一起解决重要的现实问题.我们不仅仅在性别上多样化,而且在教育背景和工作经历也是霄壤之别.我们的团队包括数理统计的 ...

  2. [译] 解密 Airbnb 的数据科学部门如何构建知识仓库

    顽疾 Airbnb的数据团队很重要的一个职责就是传播基于数据的决策方法.我们将数据的获取民主化,使得每一个Airbnb的成员都可以量化他们基于数据的决策影响力并且借此洞察用户偏好,提升数据产品的用户体 ...

  3. 好书推荐——从零开始学习 Julia 编程、数学和数据科学。

    好书推荐--数据科学简介:从零开始学习 Julia 编程.数学和数据科学. 书 好书推荐--数据科学简介:从零开始学习 Julia 编程.数学和数据科学. 书籍信息 前言 个人感受 封面: 个人感受 ...

  4. “数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人...

    来源:大数据文摘 本文约5750字,建议阅读6分钟. 本文为清华大学大数据研究中心联合大数据文摘发起的年度白皮书<顶级数据团队建设全景报告>系列专访的第二篇内容.<报告>囊括专 ...

  5. Airbnb数据科学团队进化论:如何由内而外实现数据驱动

    虽然团队组织结构的演化允许数据科学家团队繁荣兴旺,但是公司的成功源于"精准定位"于两件事:发自肺腑地关爱员工,积极主动的数据驱动决策.不论是开发可持续利用的开源工具还是奋力改进数据 ...

  6. 充分利用UC berkeleys数据科学专业

    By Kyra Wong and Kendall Kikkawa 黄凯拉(Kyra Wong)和菊川健多 ( Kendall Kikkawa) 什么是"数据科学"? (What i ...

  7. 免费idc公益接口_数据科学促进社会公益免费开放数据的最佳来源

    免费idc公益接口 内容(Contents) Introduction 介绍 What is Open Data? 什么是开放数据? Open vs. Free vs. Online Data 开放与 ...

  8. “数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人

    大数据文摘出品 作者:魏子敏.夏雅薇.牛婉杨 定下"顶级数据科学团队"这个研究话题时,我们第一时间想到了领英(LinkedIn). 2008年,正是在这家公司,DJ Patil建立 ...

  9. 用RPython在云端运行可扩展数据科学

     用R&Python在云端运行可扩展数据科学 发表于2015-10-14 08:10| 2514次阅读| 来源Analytics Vidhya| 1 条评论| 作者Kunal Jain 大 ...

  10. 向《数据科学实战》作者Cathy O'Neil提问!

    Cathy O'Neil是约翰逊实验室高级数据科学家.哈佛大学数学博士.麻省理工学院数学系博士后.巴纳德学院教授,曾发表过大量算术代数几何方面的论文.他曾在著名的全球投资管理公司D.E. Shaw担任 ...

最新文章

  1. thinkphp pathinfo nginx 无法加载模块:Index
  2. 不懂股权架构的创业,都是耍流氓!
  3. rrdtool的完整例子
  4. 手势识别之平移、缩放、长按、旋转、滑动
  5. [原][osg][gdal]两种方式修改tiff高程
  6. Path variable [contentHash:8] not implemented in this context: styles.[contentHash:8].css
  7. 解决:能提交和更新,但SVN查看log时提示找不到路径'svn/XXXX'
  8. 关于拉格朗日乘子法和KKT条件
  9. python open函数用法_python中open函数的用法详解
  10. koreader下载_koreader安卓下载
  11. ROS 端口IP映射 动态IP映射
  12. 禁用win10 1903 wifi诊断
  13. google关键词匹配和扩展工具
  14. 无法完成压缩(zipped)文件来提取向导,怎么解决
  15. 服装商城网站 毕业设计-附源码241505
  16. 项目研发,有哪些好用的免费脑图工具软件
  17. stm32开发3D打印机(三)——ADC热敏电阻测温、PWM控制(已完成)
  18. 调制与解调(1)——初认识
  19. IBM 上海 LBS offer入手总结
  20. 大球吞小球html5游戏在线玩,大球吃小球大作战

热门文章

  1. 【智慧城市】用“智慧”武装城市“大脑”,老皇城焕发新生机
  2. 越忙越要丰富业余生活 | 爱莫人的“充电”秘诀
  3. 博弈论对数据科学家很重要吗?
  4. android程序如何退出程序,android——如何从一个activity中退出程序
  5. 想成为好的程序员?写博客吧
  6. 商业智能系统建设新思路
  7. python:找第一个只出现一次的字符
  8. 公司服务器正常运行,但是xshell无法连接22端口
  9. Nginx部署Vue项目刷新404问题
  10. PCL:实现使用CPC进行点云分割(附完整源码)