本文是著名学习网站Udacity的数据分析基础性文章。由于Udacity的就业导向,不同于单纯介绍学习路径,文章还从职业人士的角度讲述数据分析的方方面面。文章同时附有视频,不失为一篇好的介绍文。以下为小标题:

  • 数据分析师们做些什么?
  • 如何在没有相关正规教育经历的情况下成为数据分析师?
  • 一份能使你直通面试的简历
  • 数据分析的概念
  • 数据科学家是什么?
  • 机器学习和自动驾驶车辆
  • 文化基因如何在Facebook上传播?
  • 什么是数据角力?
  • 学什么?以什么顺序?
  • 工具
  • 资源

数据分析师干什么?

数据分析师的主要职责包括寻找、检索、整理和传递从数据中来的见解。数据分析师也帮助报告和发现隐藏在数据潜在产品中的有意义的见解。从商业指标到用户行为和产品表现,他们负责获取、分析和报告范围的数据。

举个例子,职责可能涵盖:

  • 书写查询从数据库中检索数据,和正确的利益相关者分享数据
  • 浏览用户行为来寻找可以用来提升公司产品表现的见解或趋势
  • 解释A/B测试的结果,基于此结果做出产品推荐

在有(或无)正规教育的情况下这样成为数据分析师

作为一名数据分析师,具有分析(数学/统计和编程)、沟通能力(展示/数据可视化)、注重细节地解决问题的系统化途径、和在商业文案中应用它们的能力等强大的组合能力。下面我们概述了一些你可以学习一些新技能的途径。

网上有许多公开的数据集——它们是很好的资源,提供给你机会去建立有趣独立项目的组合。我们在Mortar的朋友建立了一个主要列表,收录了从当今这个领域最好的知名的一些数据科学家那里找到的有趣数据集。

如果机器学习更符合你的风格,Kaggle竞赛会是一个磨练你的技能和自我提升的好舞台(一些公司招聘时搜索Kaggle排行榜)。

如果你想通过数据可视化展示你的发现,你可以在像Many Eyes、Plot.ly或Blocks.io的网站上创建并与其他人分享有趣的可视化。

想展示你的新技能和项目,你可以通过GitHub pages、WordPress、Medium或其他网页或个人博客平台创建的网站来展示。

能使你获得面试的技能组合

优秀的技能组合应该展现一系列项目和你学过的技能范围

完美地,这些项目要展示你的:

在R语言、Pandas、Numpy、Scipy、Scikit-Learn包或者相关数据分析工具方面的实践经历
使用和整理大规模(太大而难以适合一个电子表格)、不相干的和(或)非结构化数据集的经历
机器学习和数据挖掘技术的知识
强大的问题解决、数学、统计和定量推理的技能
最重要的,这些项目应该展示你出色的沟通能力。特别地,显示你能分析复杂数据集,寻找有趣的见解,用正确的商业文案清晰而简洁地展示它们。

数据分析师的概念

视频:数据科学家是什么

了解数据科学家应该具有的能力。

视频:机器学习和无人驾驶汽车

了解谷歌的无人驾驶汽车怎样运用机器学习。

视频:模仿因子怎么通过Facebook传播

了解模仿因子和它们怎样在社交媒体中传播

视频:什么是

了解它是什么意思和它怎样用于数据分析。

以什么顺序学习?

技能

如果你有兴趣成为数据科学家,你应该在日常工作中胜任和能够运用以下技能。

编程

作为数据分析师,具有编程能力很重要。曾经很多次你使用过非编程工具,如Excel,但是最好和最常用的一些工具,如Pandas、Numpy,以及其他一些库,都是基于编程的。使用这些基于编程的工具,你能够做更深入、更高效的分析。由于流行度高,Python和R都是很好的入门编程语言。

统计学

最低要求,你应该能理解基本的统计描述和统计推断。你应该理解分布的不同类型,哪种统计检验适用于哪种文本,还要能够在面试中解释线性回归的基础知识。

机器学习

如果你有大量数据,机器学习中的技术是难以置信的强大。你需要用这些数据去预测未来,或者给出合适的建议。你应该懂得一些最常用的监督学习和非监督学习的算法(他们是两种不同类别的机器学习算法),比如k最近邻算法、支持向量机和k均值聚类。你可能不必懂得这些算法背后的理论和实现细节,但知道什么时候使用这些算法很重要。

数据清理

在理想的世界里,你面对的数据集是干净的、准备好进行分析的。然而,现实世界中,绝少是这样的。你的数据集很可能缺失数值、格式错误、或者输入错误。例如,让我们讨论一些日期,一些系统表示2014年9月1日为9.1.2014,其他一些系统会表示为09/01/2014。像这样的情况,你的数据清理技能会派上用场。

沟通和数据可视化

作为数据分析师,你的工作不仅要解释数据,还要同其他利益相关者高效交流你的发现,这样你就能帮他们做出数据提供的决策。许多利益相关者不会对你的分析背后的技术细节感兴趣,这就是为什么你能通过易于理解的途径交流和展示你的发现很重要。

工具

这里使你入门的是你要熟知的一些最流行的编程语言和工具。

  • Python或R:不仅仅是这些编程语言易于学习(相对于C来说),一些最流行的数据科学库,从数据分析到数据可视化,都是在这两种编程语言之上建立的。
  • **Pandas/Numpy/Scipy:**Python数据科学库中的三驾马车一起工作真的很好。Pandas有助于结构化数值或时间系列数据,这样数据就容易用于分析和处理。Numpy有助于实现许多常用的科学和数学运算,如矩阵乘法,所以你不必重复发明轮子。Scipy在Numpy基础上拓展,包含很多比你能在Numpy找到的数学运算功能更完备的版本。
  • Scikit-Learn:机器学习算法难以高效且正确地实现。Scikit-Learn是一个经过实战测试的工具,它是一个已经为你实现了常用机器学习算法的Python库,从组合方法到k均值到SVM,它都有。
  • 当你准备创建一个指数尺度的散点图和成千上万的数据点,Mattplotib和Ggplot2应该是你要找的库。他们分别是Python和R的实质上的绘图可视化标准库。
  • 这是列表中仅有的JavaScript库。如果你想创建静态可视化或图形,Mattplotib和Ggplot2很棒。然而,如果你想创建交互式可视化,例如当你的鼠标停在图形上,一些东西弹出,或改变形状,D3.js是你要的库。不过,你要使用一些HTML、CSS和JavaScript,所以在尝试D3.js之前,确保复习一下你的前端web开发技能。

资源

我们的数据分析师微学位会帮助你学习上面列的所有技能,但也有其他很好的资源。下面是一些来自朋友的我们的最爱:

  • 开放源代码的数据科学硕士
  • 用iPython Notebooks学习数据科学
  • 从事数据科学:从前线实话实说

英文出处:Udacity

成为一名数据分析师的新手指导(转)相关推荐

  1. 如何快速入门成为一名数据分析师

    春节期间,很多人来问过数据分析相关的事情,其中不乏一些想转行的同学,其实我挺开心的,说明大家都越来越看好这个行业,由于我自己的偏好,我一般也都会劝大家进入数据分析行业(当然不是无脑吹). 这篇主要是想 ...

  2. 一名数据分析师的SQL学习历程

    作者:luanhz 来源:小数志 导读 一直认为,扎实的SQL功底是一名数据分析师的安身立命之本,甚至可以称得上是所有数据从业者的基本功.当然,这里的SQL绝不单单是写几条查询语句那么简单,还包括数据 ...

  3. 一名数据分析师的Python学习历程

    导读 前期,将自己完整的SQL学习历程尽可能详细的总结了一遍,后台也收到了一些读者的反馈,并私信交流Python的学习历程,恰好这也在个人的计划之中.私以为,相较于SQL这种知识体系相对单一.内容体量 ...

  4. 作为一名数据分析师,都需要掌握哪些工具?

    在身边偶尔会听到别人说做数据分析师,工具不是很重要,重要的是那些软实力,其实这一点我并不敢苟同.俗话说工欲善其事必先利其器,所以工具用的好,其实是可以极大的提升工作效率的.那么作为一名数据分析师,都需 ...

  5. 一名数据分析师到算法工程师的转岗经历

    导读 了解小编的读者应该知道,我在从事了一段数据分析师的工作之后,目前岗位的title已经换成了算法工程师.虽然两个岗位存在很大交集和共通之处,但无论是工作思维还是所需技术栈方面,也都存在很大差异.前 ...

  6. 学了很多理论,你为什么还是做不好一名数据分析师?

    点击上方"AI派",选择"设为星标" 最新分享,第一时间送达! 作者:庄东岳:商业数据分析师.钉钉平台数字化管理员.获得省级和国家级比赛奖项.做过省级重点大学生 ...

  7. 华为疯狂扩招3000名数据分析师,招聘要求让人窒息!

    最近后台又收到很多粉丝工作不顺.压力山大的苦水,我总结了一下,主要是这3方面: ▎入行两年,薪资9K,涨薪太难...... ▎熬夜做出来的数据,被各种质疑...... ▎公司裁员,数据分析成了第一批. ...

  8. 系统分析师资料_如何成为一名数据分析师?

    随着大数据的逐渐普及,数据分析越来越普遍应用到各个职能岗位,也就是说,不论你在哪个行业,都会需要数据分析技能.数据岗位的薪资水涨船高,成为目前最有潜力的职业选择之一. 根据猎聘发布<猎聘2019 ...

  9. 如何成为一名数据分析师:必备技能 TOP5

    什么是数据分析师(Data Analyst)? 数据分析师指的是不同行业中,专门从事行业数据搜集.整理.分析,并依据数据做出行业研究.评估和预测的专业人员. 他们知道如何提出正确的问题,善于数据分析, ...

最新文章

  1. 2017-2018-1 20155202 《信息安全系统设计基础》第9周学习总结
  2. 徒手撸出一个类Flask微框架(三)根据业务进行路由分组
  3. 利用css对input[type=file] 样式进行美化,input上传按钮美化
  4. element-ui和semantic-ui冲突的解决方法--局部引入semantic-ui的css
  5. Java并发编程原理与实战六:主线程等待子线程解决方案
  6. 【编译原理】让我们来构建一个简单的解释器(Let’s Build A Simple Interpreter. Part 6.)(python/c/c++版)(笔记)
  7. TENSORFLOW GUIDE: EXPONENTIAL MOVING AVERAGE FOR IMPROVED CLASSIFICATION
  8. IO多路复用select/poll/epoll详解以及在Python中的应用
  9. DWZ关闭navTab后刷新指定的navTab
  10. yum 安装报Header V3 DSA signature: NOKEY 的错
  11. 【编程大系】Java资源汇总
  12. 利用win7系统自身修复还原功能
  13. 计算机组成原理脱机运算器实验数据,实验三:脱机运算器实验报告.pdf
  14. 基于C#的Windows控制台的吃豆豆小游戏
  15. Altium Designer15安装破解教程
  16. 免费全能空间(无广告)php +mysql
  17. UCB——上界置信算法
  18. Nature Neuroscience:怀孕导致人类大脑结构的长久改变
  19. android netd守护进程机制 --- netd分析
  20. t480 拆触摸板_ThinkPad T480 触摸板怎么用?

热门文章

  1. 计算机音乐恋曲1990字谱,罗大佑恋曲1990曲谱
  2. Qt中嵌入视频并循环播放方法
  3. 常用邮箱 SMTP 服务器地址大全
  4. ssh出现公钥错误问题的解决方法
  5. Android3.1后Boot_COMPLETED广播不响应的问题
  6. 智慧停车3.0时代,“智慧”的科技含量有几分?
  7. web前端35个jQuery小技巧!
  8. Python NetworkX
  9. postgreSQL触发器
  10. 喇叭又叫扬声器._咪头(又名咪芯,麦克风,话筒,传声器)