一、数据分析的概念

数据获取→数据清洗→统计分析→可视化→形成结论→验证结论→应用结论

根据这个图可以看下自己在哪方面还有缺腿,想往哪个方向发展。

1数据获取

2数据清洗

- 完整性:通过其他信息、前后数据补全、剔除多余数据

- 唯一性:按主键去重,合并同一主键下的数据

- 权威性:保证原始数据的准确性

- 一致性:建立数据体系,如指标体系、维度、单位、频度、数据格式

- 合法性:设定强制合法规则、字段内容及格式合法规则、离群值人工特殊处理

二、数据可视化的概念和方法

可视化场景:交通数据、地理信息、数量对比、时间序列、多维度展示、统计检验

常用工具:Tableau、DataV、Excel、R/Python

三、数据分析的常用模型

1描述性统计

单变量:均值、方差/标准差、分位点/中位数

多变量:协方差、相关系数

2有监督模型

通过已知目标的样本去研究变量关系,并预测未知目标的样本

回归:目标变量是连续型变量,代表:线性回归

分类:目标变量是离散型变量,代表:SVM、分类树、朴素贝叶斯、logistic regression、kNN

排序:page rank

3无监督模型

通过研究样本数据,发现数据内在规律

对特征:主成分分析、因子分析

对样本:关联分析、部分聚类分析、复杂网络、生成模型(如自动编码机、GAN等)

四、数据分析的常用工具

不要考虑学哪个,最好的办法是:都学!

1 R语言

面向统计分析的编程语言,丰富的作图功能,开源

- CRAN

- Rstudio

- install.packages(), library()

2 Python

胶水语言,免费的MATLAB

- pip install yourPackage 安装包

- import yourPackage as pkg 导入包

- from yourPackage import yourFunction 从包内导入函数

数据分析与建模的基础知识相关推荐

  1. 【入门】数据分析必备——统计学入门基础知识

    ↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:木木自由 作者:小陌One old watch, like brie ...

  2. 数据分析必备——SQL入门基础知识

    数据说·梦想季 一直很喜欢一句话:山鸟与鱼不同路,从此山水不相逢.意思就是如果你现在不够优秀,即使遇见了,也不配拥有-...努力是唯一的方向! // 导读:科学技术的快速发展正在改变我们的社会,也在不 ...

  3. 数据分析必备——统计学入门基础知识

    数据说·梦想季 成功的关键在于相信自己有成功的能力.数据之路,与你同行!--数据说·梦想季 导读:要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!因此,统计学是数据分析 ...

  4. 学python需要什么文化基础-数据分析需要掌握那些基础知识?

    在这个信息对称的时代,数据分析师的工作将为领导决策提供重要的价值,在企业的地位备受重视.因此,这个职业也吸引了越来越多的人,那么想成为一名数据分析师,以下这些基础的知识是必须要掌握的. />北京 ...

  5. 数学建模竞赛基础知识

    国际大学生数学建模 = 世界大学生数学建模 = 美国大学生数学建模竞赛,一个比赛多个称呼而已,美赛是一项面向高中生.大学本科层次的一个国际性比赛. 美赛可分为两种: The Mathematical ...

  6. 萌新小白学习必备,3D游戏建模入门基础知识!你都知道吗?

    游戏建模是指游戏内的场景.角色和道具按照比例制作设计成的物体,是设计师为游戏打造的场景动画建筑模型. 3d游戏建模常用软件: maya.3dmax.zbrush.bodypaint. 1.maya:主 ...

  7. 学会Python数据分析(建模)--基础篇1

    Python数据分析 Python基础 常用操作符 算术操作符: 赋值操作符 比较操作符 逻辑操作符 其他运算符 变量和赋值 数据类型和转换 print()函数 条件语句 if语句 assert 关键 ...

  8. 数学建模——MATLAB基础知识

    前言:MATLAB和我们平时学的C语言相类似,大体也是由于三部分组成的.任何的复杂的程序由顺序结构,选择结构,循环结构组成的. 一.顺序结构 1.数据的输入: input 用法:A=input(字符串 ...

  9. pandas追加写入excel_快速介绍Python数据分析库pandas的基础知识和代码示例

    "软件工程师阅读教科书作为参考时不会记住所有的东西,但是要知道如何快速查找重·要的知识点." 为了能够快速查找和使用功能,使我们在进行机器学习模型时能够达到一定流程化.我创建了这个 ...

最新文章

  1. settings.xml 文件配置
  2. erp沙盘模拟软件_VOL.977 工商第九周周报 ERP沙盘模拟大赛排名第一 跨学科校企合作商讨筹备...
  3. 计算机电路的基本罗门,模拟电路设计经验12条
  4. web图像_Web图像优化的基本介绍
  5. linux默认权限二进制与,Linux系统文件的默认权限和特殊权限
  6. 华为P30系列高清渲染图曝光:后置三摄拍照要上天
  7. 1个已知CVE,7步,找到一个高质量RCE并获奖金
  8. Storm中关于Topology的设计
  9. python3多进程执行循环_Python3 并发编程之多进程(一)
  10. 怎样用计算机做周计划表,在电脑桌面上制定每日工作日程计划表适合用哪一便签软件?...
  11. 使用CURL抓取https网页报错的一种解决方法
  12. 物联网数据多又杂?好用的数据可视化服务来了
  13. 基于车辆运动学模型的LQR横向控制算法
  14. 淘宝中的UV,PV,IPV
  15. dblp搜文献时各颜色含义
  16. Latex error: file ‘xxx.sty‘ not found
  17. 3.1.2 消费者客户端的线程模型
  18. 基于51单片机的智能饮水机烧水控制系统proteus仿真原理图PCB
  19. activity alias又是什么鬼
  20. python实现贝叶斯分类器

热门文章

  1. 1033 旧键盘打字(20)(20 分)
  2. Typora(做笔记强烈推荐)
  3. Koa2利用koa-body实现文件上传需要注意的问题
  4. Levenberg–Marquardt算法学习
  5. 素数 - 判断、生成 - isPrime()、nextPrime()
  6. 飞往未来之路|闪马智能新奇点·品牌日暨新世界智能技术沙龙
  7. HashMap源码面试话术总结
  8. 蜗牛学院的html网页成像,蜗牛学院——web前端开发(示例代码)
  9. C#:数据结构queue队列源码:循环使用数组头标,尾标,防止不停扩容数组
  10. A-Fast-RCNN:Hard Positive Generation via Adversary for Object Detection