数据分析师近几年在国内互联网圈越来越火,很多开发都因为薪资和发展前景,希望转行到数据分析岗。今天,我们就来聊聊面试数据分析师的那些事。

其实,数据分析能力是每个互联网人的必备技能,哪怕你没有转行数据分析师的计划,也推荐你看看这个文章,提升你的数据能力。

数据分析的能力要求

与数据分析相关的工作有一个特质,就是对数字非常敏感,同时也要求对数据具有良好的思考能力,比如说如何用数据指导业务,如何将数据呈现在报告中。

在面试的时候,面试官通常会考察以下三个维度的能力:

1.理论知识(概率统计、概率分析等)

掌握与数据分析相关的算法是算法工程师必备的能力,如果你面试的是和算法相关的工作,那么面试官一定会问你和算法相关的问题。比如常用的数据挖掘算法都有哪些,EM算法和K-Means算法的区别和相同之处有哪些等。

有些分析师的工作还需要有一定的数学基础,比如概率论与数理统计,最优化原理等。这些知识在算法优化中会用到。

除此以外,一些数据工程师的工作更偏向于前期的数据预处理,比如ETL工程师。这个职位考察你对数据清洗、数据集成的能力。虽然它们不是数据分析的“炼金”环节,却在数据分析过程中占了80%的时间。

数据集成的两种架构方式

2.具体工具(sklearn、Python、Numpy、Pandas等)

工程师一定需要掌握工具,你通常可以从JD中了解一家公司采用的工具有哪些。如果你做的是和算法相关的工作,最好还是掌握一门语言,Python语言最适合不过,还需要对Python的工具,比如Numpy、Pandas、sklearn有一定的了解。

数据ETL工程师还需要掌握ETL工具,比如Kettle。

如果是数据可视化工作,需要掌握数据可视化工具,比如Python可视化,Tableau等。

如果工作和数据采集相关,你也需要掌握数据采集工具,比如Python爬虫、八爪鱼。

如何用八抓鱼做数据采集?

3.业务能力(数据思维)

数据分析的本质是要对业务有帮助。因此数据分析有一个很重要的知识点就是用户画像。

用户画像是企业业务中用到比较多的场景,对于数据分析来说,就是对数据进行标签化,实际上这是一种抽象能力。

用户画像建模

题目

作为实力检测的一部分,笔试是非常重要的一个环节。它可以直接测验你对数据分析具体理论的掌握程度和动手操作的能力。我出了几道简单的题,你不妨来看下。

问答题

1.用一种编程语言,实现1+2+3+4+5+…+100。

这道题考察的就是语言基础,你可以用自己熟悉的语言完成这道题,比如Python、Java、PHP、C++等。这里我用Python举例:

sum = 0for number in range(1,101):       sum = sum + numberprint(sum)

2.如何理解过拟合?

过拟合和欠拟合一样,都是数据挖掘的基本概念。过拟合指的就是数据训练得太好,在实际的测试环境中可能会产生错误,所以适当的剪枝对数据挖掘算法来说也是很重要的。

欠拟合则是指机器学习得不充分,数据样本太少,不足以让机器形成自我认知。

3.为什么说朴素贝叶斯是“朴素”的?

朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。

4.SVM最重要的思想是什么?

SVM计算的过程就是帮我们找到超平面的过程,它有个核心的概念叫:分类间隔。SVM的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上,这是一个凸优化问题。同样我们根据数据是否线性可分,把SVM分成硬间隔SVM、软间隔SVM和非线性SVM。

5.K-Means和KNN算法的区别是什么?

首先,这两个算法解决的是数据挖掘中的两类问题。K-Means是聚类算法,KNN是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means是非监督学习,也就是不需要事先给出分类标签,而KNN是有监督学习,需要我们给出训练数据的分类标识。最后,K值的含义不同。K-Means中的K值代表K类。KNN中的K值代表K个最接近的邻居。

动手题

1.我给你一组数据,如果要你做数据清洗,你会怎么做?

实际上,这一道题中,面试官考核的是基本的数据清洗的准则,数据清洗是数据分析必不可少的重要环节。你可能看到这个数据存在2个问题:典韦出现了2次,张飞的数学成绩缺失。

针对重复行,你需要删掉其中的一行。针对数据缺失,你可以将张飞的数学成绩补足。

点击查看数据清洗具体方法

2.豆瓣电影数据集关联规则挖掘

在数据分析领域,有一个很经典的案例,那就是“啤酒+尿布”的故事。它实际上体现的就是数据分析中的关联规则挖掘。不少公司会对这一算法进行不同花样的考察,但万变不离其宗。

如果让你用Apriori算法,分析电影数据集中的导演和演员信息,从而发现两者之间的频繁项集及关联规则,你会怎么做?

点击查看完整代码

以上就是有关数据分析面试笔试的一些内容,你或许可以感受到数据分析师这个岗位的特殊性。面试找工作虽说不是一朝一夕就可以完成的事情,但我希望通过专栏,能助你一臂之力。

《数据分析实战45讲》专栏,不到2个月,已经有1W程序员加入学习,现正在优惠中,戳此抢购\u0026gt;\u0026gt;\u0026gt;

7道常见的数据分析面试题相关推荐

  1. 分享 25 道常见的 TypeScript 面试题及答案

    TypeScript 是一种静态类型的.面向对象的编程语言,它是 JavaScript 框架 之一,它添加了可选的静态类型和其他功能.它由微软开发和维护,并迅速成为世界上最流行的编程框架之一. 因此, ...

  2. sql a 表 若包含b表 则a 表 列显示_几道常见的SQL面试题,看你能答对几道?

    分享几道比较常见的SQL面试题,在不看底部参考答案的情况下,看自己能做对几道. 1.用一条SQL 语句 查询出每门课都大于80 分的学生姓名 2. 学生表 如下: 删除除了自动编号不同, 其他都相同的 ...

  3. 18个常见的数据分析面试题-概率统计类

    总结了一些常见的概率与统计类的数据分析面试题,不定期更新-- 随机变量的含义 一个随机事件的所有可能的值X,且每个可能值X都有确定的概率P,X就是P(X)的随机变量.比如掷骰子中出现的点数 随机变量和 ...

  4. 【前端面试题】01—42道常见的HTML5面试题(附答案)

    HTML5为我们提供了更多的语义化标签.更丰富的元素属性,以及更让人欣喜的功能.但在面试中,HTML5部分的面试题主要考察应试者对HTML5API的掌握情况,这是HTML5的重点,也正是这些API推动 ...

  5. 20道常见的Java面试题,你一定有遇到过

    Java是一门广泛应用于企业级开发的编程语言,在企业级应用开发中占据着重要的地位.因此,Java面试题也成为了企业招聘中必备的部分.在面试中,Java面试题会考察应聘者的对Java语言和相关技术的掌握 ...

  6. 【前端面试题】—53道常见NodeJS基础面试题(附答案)

    说到前端就不得不提到后端,我们给用户展示页面所需的数据正是从后端获取的,所以了解后端的运行原理和技术的实现很有必要. Node. js是一个不错的选择,它是基于JavaScript语法的一套服务器端( ...

  7. 20道常见初级Java面试题

    1.面向对象的特征有哪些方面? 答:面向对象的特征主要有以下几个方面: - 抽象:抽象是将一类对象的共同特征总结出来构造类的过程,包括数据抽象和行为抽象两方面.抽象只关注对象有哪些属性和行为,并不关注 ...

  8. 十道常见的MyBatis 面试题

    目录 1. #{}和${}的区别是什么? 2. 通常一个Xml映射文件,都会写一个Dao接口与之对应,请问,这个Dao接口的工作原理是什么?Dao接口里的方法,参数不同时,方法能重载吗? 3. Myb ...

  9. 53道常见NodeJS基础面试题(附答案)

    点击下方"前端开发博客"关注公众号 回复"2"加入前端群 说到前端就不得不提到后端,我们给用户展示页面所需的数据正是从后端获取的,所以了解后端的运行原理和技术的 ...

最新文章

  1. Android 3.0 r1中文API文档(104) —— ViewTreeObserver
  2. java防止表单二次提交_防止表单重复提交
  3. C#代码的语法和格式(一)
  4. [HAOI2016]字符合并(ing)
  5. android语法高亮编辑器,HighlightTextEditor
  6. Spoonwep破解wep加密无线路由密码
  7. Linux-kernel网桥代码分析(二)
  8. 一个不错的验证码的例子
  9. 【转】Java 杂谈(三)
  10. SQL数据库有密码的话,就会弹出那个对话框
  11. python的安装以及使用和文本编译器的安装使用
  12. xftp6及xshell6 安装及相关问题解决
  13. C语言知识点总体梳理(知识点)
  14. 综合布线系统技术是建设智慧城市的血脉
  15. 记录---第一次写博客
  16. Cytoscape.js style属性详解
  17. 01-【介绍说明篇】Hello,ArcGIS网络分析
  18. CS和IP寄存器的作用及执行分析
  19. 智能车跟随圆弧路径原理
  20. 舅妈的计算机课第2部,名著课 | 题:《简·爱》(二)

热门文章

  1. 计算机控制系统在农业上的应用研究,计算机自动控制系统在农业生产中的应用.doc...
  2. 《Cell》文章揭示嘌呤饥饿为潜在的IBS治疗靶标?
  3. Openstack_ocata部署
  4. 【ES6】Module 语法(import 和 export)
  5. 软件产品登记和软件著作权登记有什么区别
  6. 30天学习C++从入门到入土 --- Day03
  7. 中保研碰撞测试汇总 ---更新至2020.06.10
  8. 使用vue-pdf 实现pdf在线预览并且自定义预览框高度
  9. Windows10如何安装MySQL8
  10. 知识图谱基础【通俗易懂】