想做数据分析,都需要学些什么?
数据分析职业晋升路径
首先看看数据分析职业晋升路径。
职业 | 薪资 |
---|---|
数据分析专员 | 8-15K |
数据分析师 | 12-20K |
资深数据分析师 | 20-35K |
数据分析专家 | 35-60K |
数据科学家 | 60K起 |
这篇文章的受众一般是转行数据分析或者加强现有职位的岗位技能的小伙伴们,一般是处于数据分析专员或者数据分析师,至于资深数据分析师相比也许不会对本文有兴趣。因此我们从这两个职位看看,数据分析师到底需要学习哪些内容。
数据分析在企业管理运营中的应用
主要看在战略规划、市场营销、生产管理、物流采购、财务管理、人力资源等方面的应用。
数据分析项目参与角色
项目成员 | 参与角色 |
---|---|
业务人员 |
业务人员主要负责提出业务需求、 从业务角度检验分析结果的准确性、 使用分析结果指导业务工作 |
分析人员 |
分析人员负责数据的分析挖掘及制作分析报表、 汇报分析成果等工作 |
IT技术人员 |
技术人员提供必要的IT 技术支持, 比如应用网络爬虫搜取数据、创建数据仓库、取重要字段等 |
市场需求对数据分析的要求
在学习数据分析前,需要想好自己的兴趣点,毕竟既然想转行数据分析或提升数据分析技能的你,并不希望又入一个坑,又是自己不喜欢的行业。
你可以从各大招聘网站上搜索你所感兴趣的职位,研究他们的实际需求,可做到针对性的学习。比如在拉钩网上搜索「数据」,可弹出相关推荐:数据分析师、数据产品经理、数据分析、数据运营、数据挖掘工程师、数据仓库工程师、数据工程师、数据库工程师等。此时心理心里可大致知道,原来与数据分析相关的职位有这么多。
你可以搜索具体的职位,先看看一些大厂对数据运用岗的要求。研究下多数公司的数据部门或其他相关部门开设哪些岗位,每个职位的JD,了解下他们对数据分析职位都有哪些需求。
比如搜索数据运营
某大厂数据分析师(数据运营方向)的招聘需求如下:
先抛开1和2两条软硬条件;看看第3:有一定项目经验;第4:熟练掌握ppt,excel,熟悉sql,python,BI背景优先。这类岗位对数据挖掘、机器学习相关知识要求不是很高,但对业务知识需要有一定的认知。
比如搜索数据产品经理
一般的职位除了产品经理的要求外,还有熟悉SQL,精通Excel/Python等数据分析工具。
一些优秀的小伙伴们可以充电大数据体系相关内容:大数据技术体系(Hadoop、Hive、Spark、Mahout等),大数据平台、数据治理、数据加工等。
比如搜索数据分析师
这类岗位较数据分析专业要求较高,除了需要对基本工具Excel/Python等熟练使用,还需要对数据挖掘、机器学习有一定的了解。
比如搜索数据挖掘工程师
先看看数据挖掘的相关搜索:机器学习、算法、数据分析、自然语言处理、推荐算法、深度学习、计算机视觉、hadoop、python。
数据挖掘对计算机编程语言、算法要求较高,如果对计算机算法有兴趣的小伙伴们可以往这个方法发展。
这里就不一一列举,在准备学习之前一定要了解清楚市场需求,自己定位一定要明确,只要方向明确了,才好有的放矢,全力出击,不担心走弯路。
技能需求
说了这么多,到底需要学习什么内容呢?正所谓技多不压身,当然学习越多,越受市场欢迎。但毕竟精力有限,相信大部分小伙伴们需要先由浅入深,都想学习最需要的内容并快速入行,入行后再根据实际需求拓展学习。
以下总结出大部分数据分析师所需要的知识技能。
一、数据分析基础
数据分析基础技能、数据库应用技能、商业智能分析技能、数据挖掘数学基础
数据分析基础技能
此部分主要是针对运用Excel工具,对一般小数据进行数据分析。
这部分主要学习
Excel基本操作
Excel基本公式
Excel常用函数
Excel数组
Excel查找引用函数
Excel图表
Excel数据透视表
Excel基本分析方法、帕累托分析、杜邦分析、RFM模型
Excel常用函数
完整内容可关注公众号并回复「excel函数」获取。
数据库应用技能
主流关系型数据库
数据库 | 特点 |
---|---|
Oracle | 运行稳定、可移植性高、功能齐全、性能超群,适用于大型企业 |
DB2 | 速度快、可靠性好、适用于海量数据、恢复性极强,适用于大中型企业 |
MySQL | 开源、体积小、速度快,适用于中小型企业 |
SQL server | 全面高效、界面友好易操作,但是不跨平台,适用于中小型企业 |
这里可以从MySQL学起,其使用人数相对较多。只要掌握SQL语言即可。SQL 是一种结构化查询语言 Structure Query Language ),它是国际标准化组织( ISO )采纳的标准数据库语言。
「SQL语言分类」
数据定义语言 DDL :用于创建,修改,删除数据库中的各种对象(数据库、表、视图、索引等),常用命令有 CREATE ALTER DROP
数据操作语言 DML :用来操作数据库表中的记录,常用命令有 INSERT UPDATE DELETE
数据查询语言 DQL :用来查询数据库表中的记录,基本结构 SELECT < 字段名 > FROM 表或视图名 > WHERE 查询条件
数据控制语言 DCL :用来定义数据库访问权限和安全级别,常用命令 GRANT REVOKE
商业智能分析技能
这部分主要是学习一些BI工具,将数据分析结果漂亮的可视化出来,很多公司运用的BI工具不相同,Tableau、PowerBI、MicroStrategy、Qlikview、FineBI、永洪 BI。所有工具都是无关紧要,重要的是如何运用这些工具,将数据分析师的数据分析结果完美可视化出来。
我这边用了两款(Tableau、PowerBI)网上有挺多测评,这里就不多说。但使用Macbook的小伙伴需要注意了,PowerBI只能在Win系统上使用;Tableau两个系统都可以使用。如果你想用Tableau但又没有很好的解决办法,可联系云朵君(咳咳)。
数据挖掘数学基础
这部分注意是统计基础知识,包括
微积分基础(函数、微分、积分)
线性代数基础(向量、行列式、矩阵、特征值与特征向量等)
描述性统计方法(集中趋势、离散程度等)
描述性统计方法(集中趋势、离散程度等)
抽样估计(抽样分布、样本均值与方法分布)
这部分内容的完整版同样可以通过关注公众号,并回复「统计知识」获取。
二、Python相关
Python编程基础、Python数据清洗、Python数据可视化、Python统计分析、Python机器学习。
Python 作为一种程序设计语言,凭借其简洁、易读及可扩展性日渐成为程序设计领域备受推崇的语言。同时,Python 语言的数据分析功能也逐渐为大众所认可。因此做数据分析,学习Python也是至关重要的。对编程语言存在天生恐惧的小伙伴们不用担心,Python的设计哲学是“优雅”、“明确”、“简单”。你可以在学习Python过程尽情享受Python之美。
近几年 Python 语言不断攀升,热度不减。
https://www.tiobe.com/tiobe-index/
Python编程基础
基本数据类型(数值、字符串、列表、元组、集合、字典)
内置函数(逻辑判断、类型转换、数值运算等)
函数创建与使用(函数定义、函数参数、匿名函数等)
类和面向对象(类的定义、类的对象、类的方法等)
Python模块(模块导入、自定义模块使用等)
Python链接数据库
Python IO操作
Python数据清洗
利用Python进行数据预处理,Python 完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python 基础知识,如何从 CSV、Excel、XML、JSON 和 PDF 文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和 API 中提取数据。
需要学会如何利用各种 Python 库(包括 NumPy、pandas 等)高效地解决各式各样的数据分析问题。
Python数据可视化
常用的可视化第三方库,包括matplotlib、seaborn、PyEcharts。
这里需要掌握常用的可视化图形,包括饼图、条形图、柱状图、线性图、散点图等。
Python机器学习
这里需要学习机器学习基本思路、常用算法分类、算法库等。
这里可以重点学习机器学习算法库Scikit-Learn。
2007年,Scikit-learn首次被Google Summer of Code项目开发使用,现在已经被认为是最受欢迎的机器学习Python库。
Scikit-learn被视为机器学习项目(尤其是在生产系统中)最佳选择之一的原因有很多,包括且不限于以下内容:
Scikit-learn是一个非常强大的工具,能为库的开发提供了高水平的支持和严格的管理。
清晰一致的代码样式可确保我们的机器学习代码易于理解和再现,并大大降低了对机器学习模型进行编码的入门门槛。
Scikit-learn得到了很多第三方工具的支持,有非常丰富的功能适用于各种用例。
如果你正在学习机器学习,那么Scikit-learn可能是最好的入门库。其简单性意味着很容易入门,通过学习Scikit-learn的用法,我们还将掌握典型的机器学习工作流程中的关键步骤。
需要重点掌握简单线性回归、K-近邻算法、特征提取、多元线性回归、逻辑回归、朴素贝叶斯、非线性分类、决策树回归、随机森林、感知机、支持向量机、人工神经网络、K-均值算法、主成分分析等。
另外说下,市面上有很多Scikit-Learn书籍解释的也很不错,但如果有一定的英语基础的小伙伴们(其实不需要英语有多好,现在谷歌、有道翻译都挺好)可以经常浏览Scikit-Learn官网。里面方法,实例都很好,是学习最好的教科书了。
https://scikit-learn.org/stable/
当然,有小伙伴们说,看到英语就头疼,实在不想看英文,Scikit-learn也是有中文文档的。
http://www.scikitlearn.com.cn/
三、其他技能
Python网络爬虫
网络爬虫通过爬虫技术自动高效地获取互联网中指定的信息。如果你是入行数据采集人员、或你在需要掌握一定的数据采集能力的职位、或对数据非常感兴趣的小伙伴们,这个技能最好了解下。
这部分内容需要对于不同目标的小伙伴们要求不尽相同。
如果你只是获取一些简单的网页数据,你只需要对网络爬虫有一定的认识、了解Web前端、多种网络请求模块中的一种、网页数据的多种解析方式中的一种、了解爬取动态渲染的信息。
如果你对网络爬虫有更加浓厚的兴趣,或更多的岗位需求的小伙伴们,你可以学习更多的爬虫技术,可以再了解多线程与多进程爬虫技术、App抓包工具,识别验证码、Scrapy爬虫框架等。
数据分析项目
最后,项目经验也是比较重要,网上也有很多优秀的Kaggle数据集的分析项目,这里总结了几个适合新人的Kaggle项目,可供参考:
1、Hotel booking demand酒店预订需求
"https://link.zhihu.com/?target=https%3A//www.kaggle.com/jessemostipak/hotel-booking-demand"
该数据集包含城市酒店和度假酒店的预订信息,包括预订时间、停留时间、成人/儿童/婴儿人数以及可用停车位数量等信息。
「适用场景」:社会科学、旅行、酒店、用户行为,不具有明显的行业标识,可进行常规用户行为分析
「数据量」:32列共12W数据量。
「可以定义的问题」
基本情况:城市酒店和假日酒店预订需求和入住率比较;
用户行为:提前预订时长、入住时长、预订间隔、餐食预订情况;
一年中最佳预订酒店时间;
利用Logistic预测酒店预订。
2、US Accidents 美国交通事故分析(2016-2019)
"https://link.zhihu.com/?target=https%3A//www.kaggle.com/sobhanmoosavi/us-accidents"
该数据集覆盖全美49州的全国性交通事故数据集,时间跨度:2016.02-2019.12,包括事故严重程度、事故开始和结束时间、事故地点、天气、温度、湿度等数据。
「适用场景」:无明显行业标识,通用。
「数据量」:49列共300W数据量。
「可以定义的问题」
发生事故最多的州,什么时候容易发生事故;
影响事故严重程度的因素;
可视化应用:讲述4年间美国发生事故的总体情况
预测事故发生的地点;
3、Video Game Sales电子游戏销售分析
"https://link.zhihu.com/?target=https%3A//www.kaggle.com/gregorut/videogamesales"
该数据集包含游戏名称、类型、发行时间、发布者以及在全球各地的销售额数据。
「适用场景」:电商、游戏销售,常规销售数据。
「数据量」:11列共1.66W数据量。
「可以定义的问题」
电子游戏市场分析:受欢迎的游戏、类型、发布平台、发行人等;
可视化应用:如何完整清晰地展示这个销售故事。
预测每年电子游戏销售额。
4、New York City Airbnb OpenData纽约市Airbnb开放数据(房价预测数据集)
"https://link.zhihu.com/?target=https%3A//www.kaggle.com/dgomonov/new-york-city-airbnb-open-data"
「用途」:房价预测和可视化展示
5、The Movies Dataset电影数据集分析
"https://link.zhihu.com/?target=https%3A//www.kaggle.com/rounakbanik/the-movies-dataset"
「用途」:多表关联、评分排序、收入分析、推荐引擎
6、Lending Club Loan Data贷款数据分析
"https://link.zhihu.com/?target=https%3A//www.kaggle.com/wendykan/lending-club-loan-data"
「用途」:金融小贷、逾期分析、逾期预测
7、Bitcoin Historical Data比特币数据分析
"https://link.zhihu.com/?target=https%3A//www.kaggle.com/mczielinski/bitcoin-historical-data"
「用途」:时间戳、数据清洗、价格预测
8、Telco Customer Churn电信客户流失问题
"https://link.zhihu.com/?target=https%3A//www.kaggle.com/blastchar/telco-customer-churn"
「用途」:流失客户分析、客户终生价值LTV
想做数据分析,都需要学些什么?相关推荐
- 架构设计(6)---Web架构师究竟都要学些什么?
架构师究竟都要学些什么?具备哪些能力呢? Web架构师究竟都要学些什么?具备哪些能力呢?先网上查查架构师的大概的定义,参见架构师修炼之道这篇文章,写的还不错,再查查公司招聘Web架构师的要求. ...
- web前端开发主要做什么?应该学些什么?
web前端开发主要做什么?当我们要生产一款APP,UI设计是展现在我们眼前的界面.图标.交互等内容,而它的各项功能的实现是后端工程师的代码开发,可是这两个部分没有在开发的时候办法直接对应,此时web前 ...
- 想做数据分析岗位,互联网数据分析的发展前景怎么样?
最近总有人问我,数据分析师未来的发展前景怎么样?也许很多人都会有这个疑问吧.今天我来为大家解答一下未来数据分析师的发展前景以及在企业中扮演什么样的角色. 在互联网的快速发展下,目前各大公司对数据分析相 ...
- python开发转行做数据分析_转行学IT,Java、Python、大数据选择学哪个发展好?
对薪资不满意.担心自己以后不好找工作,不少人都会选择参加培训,转行IT行业.当然很多想要转行IT的人,都会犹豫选择哪门编程语言学习比较好,Python.Java.大数据作为比较热门行业技术,不少人都很 ...
- 想做数据分析?这个比赛适合你!
Datawhale 赛事平台:和鲸科技-Kesci 寄语:本次大赛是面向数据分析的专门赛事,设置了22万的奖金,及30万+的基金支持.同时提供了多场数据分析专题分享,帮助参赛者快速学习提升. 如果你是 ...
- 掌握这 7 个编程设计原则,想做菜鸟都难
编程的工作同石匠的工作相类似,即是技术活,也是体力活,而编写优秀的软件,算是一件比较难的事. 你写的代码好不好,其实没有一个标准能判断,即使团队的伙伴发现你的代码写得差,也不好意思有理有据地指责你,反 ...
- 计算机平面设计会学cad吗,请问学建筑与室内设计哪样好是不是都要学CAD
请问学建筑与室内设计哪样好是不是都要学CAD 嗯,是的! 都要学CAD的, 我现在学的是 室内设计, 要学CAD 3D PS X3 等等的软件,建筑的不懂了我. 室内设计吧,还要手绘,画画. 看你喜 ...
- 云计算主要学些什么技术内容?零基础能学会吗?
云计算主要学些什么技术内容?零基础能学会吗? 随着信息技术的不断发展,云计算作为一种新兴的技术,在当今社会中起到了越来越重要的作用,尤其是在数字化发展领域,不管是传统企业还是新经济领域,人工智能.大数 ...
- Excel做数据分析真的那么好吗?
相信大家都知道,现在大数据行业非常的火热,加上大数据行业薪资待遇高,未来发展前景好.因此,很多大学毕业生或者已毕业的青年才俊都转而投向了大数据领域,而数据分析师作为大数据行业中对技术要求相对较低的工作 ...
- 想入门数据分析,如何快速找准定位?
作者 | CDA数据分析研究院 经常遇到有人留言咨询,表明自己想做数据分析,但是面临着很多"困境",如: ● 大学本科数学专业的,想从事数据分析师,但没项目经验怎么办?应该怎么规划 ...
最新文章
- 小猿圈Linux基础面试题,看看你能答对几道?
- Hive-1.2.0学习笔记(一)安装配置
- 清理系统垃圾文件的常用脚本
- 剑指offer 04:重构二叉树
- ADF:将UI类别与动态表单一起使用
- Sql server日期函数操作
- python不满足条件重新输入_如果Python中不满足条件,则拒绝用户输入
- (转)@Autowire注解与自动装配
- XBMC源代码分析 6:视频播放器(dvdplayer)-文件头(以ffmpeg为例)
- 【eclipse】解决:eclipse或STS运行maven工程出现Missing artifact jdk.tools:jdk.tools:jar:1.7问题
- 阻止系统自动睡眠的小软件,附C#制作过程
- Java新手小白入门篇 Java面向对象(一)
- 信号发生器的基本知识
- 淘宝直通车辅助工具系统使用教程
- 图像处理之颜色检测分类标记(Python OpenCV实现)
- Kali无线渗透加油破解无线
- form提交--jquery.form.js
- H3C CLI基础笔记(Qos)
- 贾小伟—Web前端开发工程师(作品集)
- 轻松实现IPv6转换
热门文章
- select添加提示语
- ios 权限提示语_uni-app开发经验分享十一: uniapp iOS云打包修改权限提示语
- KK集团旗下公司又遭处罚:招股书已“失效”一个月,快客电商曾被罚30万元
- python个人简历-个人简历
- Android 播放多媒体文件:音乐和视频
- 计算机安装Hp1005打印机,hp1005打印机驱动安装使用方法 常见问题解答分享
- VMware copy之后,如何查看网卡地址 HWADDR
- 你需要一个什么样的网站开发流程?
- 基于 Amazon SageMaker 利用 MONAI 处理医疗影像数据实践
- 雨课堂计算机网络答案,运行雨课堂进行网络综合布线实训教学