拿下数据分析Offer之统计学
1、基础概念:随机变量、分布函数、概率密度函数
Q:什么是随机变量?随机变量和随机试验之间有什么不同?
先了解一下什么叫随机试验。随机试验:在指定相同的条件下对某随机现象进行的大量重复观测(例如:抛硬币)。
随机试验的三个特点:
1️⃣:在试验前不能断定产生什么结果,但可明确说明试验的全部可能结果是什么;
2️⃣:在相同的条件下可重复试验;
3️⃣:重复试验的结果是以随机方式出现的。
随机变量:用于描述随机试验的结果,通常用大写X来表示,X可能是一个单独的随机试验结果,也可能是多个随机试验结果的组合。
Q:如何区分不同的随机变量?
可以根据随机变量的分布来区分不同的随机变量。“随机变量的分布”:每次随机试验的结果会有一定的随机性,但是这样的随机性是基于一定规律而产生的,这个规律也是概率与数理统计中所关注的。通过了解随机变量的分布,就能够在试验开始前与之最终产生的结果。
Q:什么是样本?样本和随机变量之间有什么关系?
可以将样本理解为每次随机试验的结果,也称为“观测值”。根据样本量不同,将不同的随机试验称为样本量为n的随机试验。
抛硬币的试验:随机试验
单次抛硬币的结果:样本(x)
N次抛硬币结果的均值:随机变量(X)
Q:随机变量是怎么进行分类的?分类依据是什么?
随机变量分为两种:离散型随机变量和连续型随机变量。二者的区别在于所描述的随机试验所有可能的结果数量是否可数,“可数”而不是“有限”。
可数的含义是,所有可能的结果是否能够按照一定的次序序列举出来。比如某网站每天的用户数量,可以按照1,2,3,.......的次序列举出来,即使最终可能的结果数量是无限的,它也依然是离散型随机变量。而连续型随机变量的结果由于处于某个区间中,比如转化率可以说[0,1]区间中的任意值,无法按照次序列举出来,这也是二者的本质区别。
Q:常见的离散型随机变量有哪些?它们各自有什么样的分布律?
对于离散型随机变量,通常用Pr(X=x)来描述某个试验结果发生的概率,也称为变量的分布律,不同的分布律对应不同的分布。以下列举常见的离散型随机变量的分布:
(1)伯努利分布:也称为0-1分布。顾名思义,每次试验的结果只有两种,“非A即B”,用0、1来表示。用p表示事件1发生的概率,1-p表示事件0发生的概率,则Pr(X=1)=p,Pr(X=0)=1-p。最常见的例子就是掷硬币试验,将正面朝上记为1,反面朝上记为0,则Pr(X=1)=0.5,Pr(X=0)=0.5。最常见的例子就是掷硬币试验,将正面朝上记为1,反面朝上记为0,则Pr(X=1)=0.5,Pr(X=0)=0.5。同理,对于优惠券的转化率,使用优惠券记为1,可以近似看作一个概率为p的伯努利分布,Pr(X=1)=p,p就是所要关注的优惠券的转化率。
(2)二项分布:n个重复独立的伯努利分布称为n重伯努利分布,也称为二项分布。
重复独立表明:①每个伯努利分布事件发生的概率均为p;
②各个试验的结果相互独立,不受其他试验的结果干扰。
二项分布在工作中有比较多的应用,以发放优惠券为例,发放出去的1000张优惠券是否被使用可以近似看作1000个相互独立,且每张优惠券被使用的概率为p的伯努利分布所组成的二项分布,从而得到最终有x张优惠券被使用的概率为
(3)泊松分布:这是一种离散概率分布,适合描述在单位时间(或空间)内随机事件发生的次数。
Q:常见的连续型随机变量有哪些?它们各自有什么样的概率密度函数?
掌握累积分布函数(CDF)、概率密度函数(PDF)的概念!
(1)均匀分布:即概率密度函数在结果区间内为固定数值的分布。
(2)正态分布:
(3)指数分布:
拿下数据分析Offer之统计学相关推荐
- 字节跳动的面试分享,为了拿下这个offer鬼知道我经历了什么
字节跳动的面试分享,为了拿下这个offer鬼知道我经历了什么 前言: 金九银十过了金三银四还会远嘛,本文后面分享面试题给正准备跳槽,准备找工作的你,这次面试字节跳动也是做了很多的准备,还好顺利拿到了o ...
- 数据分析必备的统计学知识(一)
数据分析师的必备技能栈里,除了熟悉业务.掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学,无论在简历的技能描述中还是实际的面试过程中,统计学都是必备的基础知识. 为什么对于数据分析师来说 ...
- 非科班拿下阿里offer,我做对了哪些?
非科班拿下阿里offer,我做对了哪些? kai 程序员乔戈里 1月16日 本文系投稿 目录 0.概述 1.我的练级之路篇 2.认知思维篇 3.专业技术篇 4.面试技巧篇 5.学习资料篇 0. 概述 ...
- 如何骑驴找马,9年北京+3年硅谷,教你拿下顶级offer - 九章免费讲座预告
他是硅谷IT公司软件工程师 9年北京+3年硅谷工作经验 骑驴找马拿下 FLAG Offer 拥有丰富的面试经验和面试官经验 1.讲座嘉宾 2.讲座内容 3.讲座时间 北京时间12月9日周六 11:00 ...
- python 计算订单量最多的店铺订货金额_Python数据分析实例-统计学在解决奶茶店问题中的应用...
作为数据分析师,除了熟练各种分析工具外,更重要的是分析.解决问题的能力以及扎实的数学功底,尤其是统计学. 本文将用一个例子,一步一步展示1)分析问题的步骤,2)更具需求选择合适工具和数据获取,3)和统 ...
- 从安卓转到Java开发,我吃透了这份pdf,终于4面拿下美团offer
我的早期精彩文章(希望对大家有所帮助,直接点击即可阅读): 圆梦腾讯之路!6面阿里.5面字节.4面腾讯,终斩腾讯Offer 我也凡尔赛一次,字节3面+腾讯6面我一次就过,和大家谈谈我的大厂面经 阿里P ...
- 数据分析必备的统计学(二):假设检验
此文是<10周入门数据分析>系列第10篇 想了解学习路线,可以先阅读" 学习计划 | 10周入门数据分析 " 讲完概率分布,再来讲讲统计学的最后一个知识点--假设检验. ...
- 一个月面试近 20 家,拿下阿里 Offer!
作者 | 三太子敖丙 来源 | 三太子敖丙(ID:JavaAudition) 我努力了这一年,不仅仅是为了逼岁月回头. 我是年前离职的,没想到这个突如其来的疫情,完全将面试升级为地狱难度,焦虑.烦躁. ...
- 闭关备战python面试50天,“啃完”这份python面试宝典,我终于四面拿下阿里offer
写在开篇 闲话(长话短说): 本篇文章主要是回忆去年下半年的面试总结.现已入职阿里4个月的时间,终于有时间写下这篇python面经. 去年的一整年各地都在陆陆续续受到疫情的干扰,疫情的缘故对我们的生活 ...
最新文章
- usaco Mother's Milk
- Spring Security 匿名认证
- nginx反向代理和rewrite进行解决跨域问题、去掉url中的一部分字符串,通过nginx正则生成新的url...
- scala外部传入时间参数-亲测有效
- 一口气说出 6种 延时队列的实现方法,面试官也得服
- Matlab运用mapping包在地图上绘制散点图(热力图)
- Facebook 会沦落为二十年前的微软吗?
- TCP 实战抓包分析
- hrm系统源码php,开源HRM源码系统下载
- java一寸是多少像素_一寸照片的尺寸是多少像素
- 首款宇宙星际探索类卡牌游戏震撼上线
- Android中获取唯一的id
- 广电优点家庭服务器怎么无线桥接,简单的无线桥接技术,能让wifi覆盖家庭每个角落!...
- 万年历SQL Server中实现
- Qt音视频开发18-海康sdk回调
- android 预装 gps test apk
- 有没有好的RFID仓库管理解决方案?RFID仓库管理系统就在新导智能
- 2015信息安全大数据公司排名琅琊榜
- python 移动ui框架_Touch UI:基于vue的移动端UI框架
- 图片压缩软件电脑版源码下载(开源版)
热门文章
- 关于word文档中插入的图片只显示下面一部分
- Ubuntu系统下Clion、Visual Studio Code安装和使用教程|1-7
- 光学积分球的使用随记
- 2022北京人工智能展览会时间表
- 安卓 camera api 2实现视频流录像加视频调阅
- arcsde 版本压缩
- Dynamics 365: 推荐几个XrmToolBox中创建ER(Entity Relationship)图的插件
- 轻量级在线任务管理工具-DooTask
- ios学习笔记3--导航控制器详解
- linux telnet: command not found,提示-bash: telnet: command not found的解决方法