作者 | 熊猫教授    编辑  | Emma

来源 | 熊猫教授(ID:IT_ProfPanda)

我博士毕业后,先后在微软亚洲研究院、eBay中国、IBM工作过,最近几年我的Title是数据科学家,有读者问我,数据科学家究竟能挣多少钱?

其实能够用得起数据科学家的公司,最起码都是大厂吧,数据科学家基本相当于M线总监以上级别了,所以待遇方面参照阿里P9往上,也就是说现金+期权,总包至少200万+。

挣钱这么野的数据科学家,究竟是怎么练成的呢?需要具备哪些技能?

上一篇我们介绍过数据分析师,实际上,数据分析师和数据科学家的职责范围在很多时候都是有所重叠的,数据分析师的主要职责是“通过使用数据、生成洞见,回答问题,最终帮助领导层做出业务决策,为企业提供价值”,侧重于分析现有的数据。

而数据科学家的主要职责是“通过建模和预测来回答关键性的业务问题”,侧重于预测未来的数据。

即便如此,数据科学家仍然需要能够像数据分析师一样清理、分析和可视化数据。所以他们也需要深入理解商业模式、分析业务问题分析、处理并展示数据、产生洞见、进行团队的合作等等。

那你可能会问,如果数据科学家和数据分析师的工作范围差不多,那么其价值又体现在何处呢?在我看来,一个优秀的数据科学家,需要在如下两个方面发力:第一个是AB测试,第二个是人工智能和机器学习相关的技术


1

AB测试

AB测试的英文是AB Testing(Tests)。在实际应用中,我们希望能够量化新方法最终带来的收益,并依据相关的数据进行决策。

为了使这种量化尽可能准确、客观,现在的互联网公司通常是根据用户的在线行为来评估算法,并比较同类算法的表现,以此来选择相应的算法。在线测试有一个很大的挑战,那就是如何排除非测试因素的干扰。先来看看下图的例子。

从图中可以看出,自某年的9月开始,转化率曲线的趋势发生了明显的变化。假如这个月恰好上线了一个新版的技术方案A,那么转化率上涨一定是新方案导致的吗?

其实不一定,可能9月有一个大型的促销,使得价格有大幅下降,或者有一个和大型企业的合作引入了很多优质顾客等,原因非常多。如果我们取消9月上线的技术方案A,然后用虚线表示在这种情况下的转化率曲线,这个时候得到了另一张图,如下图所示。

从这张图可以发现,不用方案A反而获得了更好的转化率表现,所以简单地使用在线测试的结果往往会导致错误的结论。我们需要一个更健壮的测试方法,即AB测试

AB测试,简单来说,就是为同一个目标制定两个或多个方案,让一部分用户使用A方案,另一部分用户使用B方案,记录下每个部分用户的使用情况,看哪个方案产生的效果更好

这也意味着,通过AB测试的方式,我们可以得到使用多个不同方案之后所产生的多组结果,用于比对。问题来了,假设我们手头上有几组不同的结果,每组对应一个方案,包含了最近30天以来每天的转化率。

如何判断哪个方案的效果更好呢?你可能会想,对每一组的30个数值取均值,看看谁的均值大不就可以了。但是,这真的就够了吗?

假设有两组结果需要比较,每一组都有5个数据,而且这两组数据都服从正态分布。下图展示这两个正态分布之间的关系。

从上述这张图可以看出,左侧的正态分布A的均值 较小,右侧的正态分布B的均值 较大。可是,如果我们无法观测到A和B这两个分布的全部数据,而只根据这两个分布的采样数据来做判断,会发生什么情况呢?我们很有可能会得出错误的结论,如下图所示。

从此图可以看出,根据对样本的观测所得到的结论未必符合两个正态分布的差异情况。

例如,在上图的采样中,空心的圆点表示B的采样,它们都来自B分布的左侧,而实心的圆点表示A的采样,它们都来自A分布的右侧。

如果仅根据这两组采样数据的均值来判断,很可能会得出“B分布的均值小于A分布的均值”这样的错误结论。

换句话说,小规模的采样并不能代表数据的原始分布,AB测试面临的就是这样的问题。我们所得到的在线测试结果实际上只是一种采样。

所以我们不能简单地根据每个组的均值来判断哪个组更优。那么有没有更科学的办法呢?在统计学中,有一套成熟的系统和对应的方法,包括显著性差异、统计假设检验和显著性检验以及P值。

数据科学家需要对这些概念和理论非常熟悉,并灵活的运用在企业的实际案例中。


2

人工智能和机器学习

好莱坞著名的系列电影《终结者》想必大家都耳熟能详了,其中主角之一“天网”让人印象深刻。之所以难忘,是因为它不是人类,而是20世纪后期人们以计算机为基础创建的人工智能防御系统,最初是用于研究军事的发展,后自我意识觉醒,视全人类为威胁,发动了审判日。

当然,这一切都是剧情里的虚构场景。那么现实生活中,机器真的可以自我学习、超越人类吗?到目前为止,还没有证据表明现实中的机器能像“天网”一样思考。

但是,机器确实能在某些课题上按照人们设定的模式进行一定程度的“学习”,这正是人工智能和机器学习(Machine Learning)所关注的。

人工智能起源于上世纪的中期,衍生出了众多学术门派,而进入21世纪后,其中的子领域机器学习逐步成为主流,它是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断完善,从而改善自身的性能。机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、医学诊断,等等。

最常见的机器学习方法包括监督式学习(Supervised Learning)非监督式学习(Unsupervised Learning)

监督式学习包括分类(Classification / Categorization)回归(Regression)技术,非监督式学习包括聚类(Clustering)和主成分分析(PCA)等等。

最近几年,出了前面这两种传统的学习算法,人们还发明了用于刻画机器和环境的互动的增强式学习(Reinforcement Learning),以及使用神经网络的深度学习(Deep Learning)

对于数据科学家来说,要根据业务的实际需求,合理的运用这些建模算法,对未来的发展趋势进行预测。


写在最后的话

说到这里,咱们不难发现,数据科学家和数据分析师一样,需要具有对业务和数据良好的感觉,并掌握相应的分析技术

但是仅仅有这些还不够,数据科学家还要具备扎实的统计学、概率学和线性代数等专业知识。如果你对这个岗位有兴趣,就需要从这些课程入手,夯实基础,这样才能充分理解并运用AB测试以及人工智能相关的技术。


作者简介熊猫教授,一位定居美国的计算机科学家,交大计算机博士,发表过20多篇国际论文和30项国际专利。曾任职于微软、IBM、eBay,出版过四本技术畅销书,极客时间3万畅销专栏作者。

END


关注熊猫教授,看计算机科学家的干货分享!


近期好文:

数据分析师,挣钱真野!

终于有人把深度学习讲清楚了!

数据科学家,需要写SQL吗?

数据科学家,究竟能挣多少钱?相关推荐

  1. 阿里员工整天996,究竟能挣多少钱?详解阿里薪资绩效考核制度

    文/技术领导力社区 编辑/Emma 社区里最近讨论BAT员工薪资性价比如何?996的背后是否有丰厚的收入作为支撑?毕竟员工不能拿着企业画的饼养家糊口,企业也不能只画饼不烙饼.下面我们以阿里为例,聊一聊 ...

  2. BAT/头条/小米/京东/滴滴/美团...互联网大厂员工一年究竟能挣多少钱?

    点击"技术领导力"关注∆  每天早上8:30推送 本文转自:HR人力资源成长俱乐部 声明:本文数据部分来自所涉公司官方微信公众号(如:字节范儿),部分来自脉脉各公司职言区,另有部分 ...

  3. 数据科学家 数据工程师_数据科学家实际上赚了多少钱?

    数据科学家 数据工程师 目录 (Table of Contents) Introduction介绍 Junior Data Scientist初级数据科学家 Mid-Level Data Scient ...

  4. B站顶流UP主 冯提莫、半佛仙人...究竟能挣多少钱?

    来源:挖数 据我的调研,b站恰饭主要4种形式,创作激励.接广告.充电计划.直播收入. 先说创作激励,只要在b站发视频的频次和播放量达到一定标准,就能加入它的激励计划,这样以后每次发视频就有钱挣. 不过 ...

  5. 阿里/腾讯/头条/京东...滴滴员工,一年究竟能挣多少钱?

    本文转自:HR人力资源成长俱乐部 声明:本文数据部分来自所涉公司官方微信公众号(如:字节范儿),部分来自脉脉各公司职言区,另有部分知乎网友整理内容.除官微数据外,其他内容均来自网络,我们整理于此供大家 ...

  6. Google程序员究竟能挣多少钱?

    美国知乎Quora上出了一篇名为"How Much Does Google Engineer Make?"的问题. 其中,一位匿名回答者答道,虽然自己在Google是个经验&quo ...

  7. 教你辨别36k纯数据科学家

    2019独角兽企业重金招聘Python工程师标准>>> 毋庸置疑,数据科学家是大数据时代最紧缺的人才. 但数据科学家究竟具备什么特质? 会编程的工程师声称自己是数据科学家: 会机器学 ...

  8. 一个阿里P8,一年到底能挣多少钱?

    一个阿里P8,一年到底能挣多少钱? 2020年的互联网业内,阿里P8无疑是最闪亮的那颗星,开年的P8征婚,中间的P8招聘"个人助理"包养女孩,还是昨天的P8"财务自由&q ...

  9. 免费公开课 | 数据科学家,从入门到精进!【今晚福利】

    <哈佛商业评论>宣布,"数据科学家"是二十一世纪最性感的职业.数据科学家究竟是一群怎样的人?各行各业高薪难求的他们又是如何开启自己的职业生涯的? 滴滴 ~福利卡!!! ...

最新文章

  1. 清华计算机本硕博连读!中国籍袁昱博士当选2022年IEEE标准协会候任主席
  2. 洛谷 P2738 [USACO4.1]篱笆回路Fence Loops
  3. java实现随机验证码的图片
  4. 利用素数表快速寻找 n 以内的所有素数
  5. java webservice接口开发_给Java新手的一些建议----Java知识点归纳(J2EE and Web 部分)
  6. springmvc(18)使用WebSocket 和 STOMP 实现消息功能
  7. mysql5.7安装差异_mysql5.7和mysql5.6同在CentOS7.4安装差异对比之5.7.18
  8. ue4模型导出_MAYA动画导出以及导入UE4的方式、方法
  9. Magento模块开发之数据库SQL操作方法说明
  10. ubuntu 下重装mysql若干问题
  11. 关于方法的重载和默认参数的一点小误区
  12. 一点对 KL 散度的理解
  13. Smack Extensions用户手册
  14. ip申请 web应用_阿里云同时部署DDoS高防IP+CDN+WAF
  15. 智能翻译android,离线翻译SDK,让智能小设备如虎添翼
  16. files函数提取文件名HTML,Excel小技巧之轻松提取文件夹中的文件名
  17. matlab三维图如何加坐标轴,excel三维数据表格设置坐标轴-EXCEL图表,X,Y 坐标如何修改...
  18. docker 启动 redis cluster,使用出现CLUSTERDOWN Hash slot not served(redis cluster重新分配slot)
  19. Java实现合成图片
  20. innodb_buffer_pool_reads、innodb_buffer_pool_read_requests分析与innodb 缓存命中率计算

热门文章

  1. 疲劳驾驶监测方案_疲劳驾驶检测方法
  2. 怎么查找计算机上的网络路径,找不到网络路径怎么办
  3. vue如何设置反向代理
  4. Android.mk 中 filter 和 filter-out 的用法
  5. 【linux】linux文件权限管理
  6. 数学知识——余数之和
  7. 使用Tomcat10.0.10搭建一个文件下载服务器
  8. 游历魔法王国——网易校招
  9. css之“清除浮动的3种方法”
  10. 解析大型.NET ERP系统架构设计 Framework+ Application 设计模式