基于《数据科学理论与实验(第二版)》(朝乐门著)的学习感悟和总结。

第二章 理论基础

2.1 数据科学的学科地位

从学科定位来看,数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域的重叠之处。

2.1.1数学与统计知识

“数学与统计知识“”是数据学科主要理论基础之一。但是,数据科学与(传统)数学和统计学区别的,主要体现在以下四个方面。
1数据科学中的“数据”并不仅仅是“数值”,也不等同于“数值”。
2.数据科学中的“计算”并不仅仅是加减乘除等”数学计算“,还包括数据的查询、挖掘、洞见、分析、可视化等更多类型。
3.数据科学关注的不是“单一学科”的问题,超出了数学、统计学、计算机科学等单一学科的研究范畴,进而涉及多个学科(统计学、计算机科学等)的研究范畴,他强调的是跨学科视角
4.数据科学并不仅仅是“理论研究”,也不是纯“领域实务知识”,他关注和强调的是两者的结合

2.1.2黑客技能与精神

这是指数据科学家的主要精神追求和技能要求:大胆创新、喜欢挑战、追求完美和不断改进。
这里我们要区分两个概念:黑客(Hacker)与骇客(Cracker)
黑客:是一个基于喜欢发现和解决技术调整、攻击计算机网络系统的精通计算机技能的人的称号。其与闯入计算机网络系统,目的在于破坏和偷窃信息的骇客不同
骇客:是一个闯入计算机系统和网络试图破坏和偷窃个人信息的个体,与没有兴趣作破坏只是技术上的挑战感兴趣的黑客相对应。

显然,我们这里的黑客指的是热衷挑战、崇尚自由、主张信息共享和大胆创新的精神,与常人理解不同的是,黑客遵守道德规则行为规范

补充一下黑客道德准则:

链接: 黑客道德准则.

2.1.3领域实务知识

领域实务知识具有显著的面向领域性,不同的领域的其领域实务知识不同。
例如,如果我准备着手做商务智能,可能我需要的领域知识是金融学
如果我准备做图像识别,那么我可能需要的领域知识是**图像处理与分类方面;**如此类推,大数据技术+领域实务知识=应用数学科学(意思是数据可的实际应用)

2.1.4总结

总之,数据科学不是一个以特定理论为基础发展起来的,而是包括数学与统计学、计算机科学技术、数据工程和知识工程、也定学科领域的理论在内的多个理论相互融合后形成的新兴学科。
通常,把数据科学的理论基础进一步具体化为四个方面:
1.统计学
2.机器学习
3.数据可视化
4.(某一)领域实务知识与经验。

2.2 统计学

2.2.1统计学与数据科学

统计学是数据科学的主要理论基础之一。
数据科学的理论、方法,技术和工具往往来源于统计学,实际上,第一篇以“数据科学(Data Science)”为标题的学术期刊论文及时由统计学家W.S.Cleveland完成的(后来又取得了计算机学教授的称号,因为其在计算机科学上做出贡献较多故一般称其为计算机科学家,但是发表论文的时候是统计学家)

2.2.2数据科学中常用的统计学知识

2.2.2.1才能够行为目的与思维方式看

从行为目的与思维方式看,数据统计方法可以分为两大类——描述统计和推断统计。如下图所示:

#mermaid-svg-V33Jw2yOIA2d2wZW {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-V33Jw2yOIA2d2wZW .error-icon{fill:#552222;}#mermaid-svg-V33Jw2yOIA2d2wZW .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-V33Jw2yOIA2d2wZW .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-V33Jw2yOIA2d2wZW .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-V33Jw2yOIA2d2wZW .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-V33Jw2yOIA2d2wZW .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-V33Jw2yOIA2d2wZW .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-V33Jw2yOIA2d2wZW .marker{fill:#333333;stroke:#333333;}#mermaid-svg-V33Jw2yOIA2d2wZW .marker.cross{stroke:#333333;}#mermaid-svg-V33Jw2yOIA2d2wZW svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-V33Jw2yOIA2d2wZW .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-V33Jw2yOIA2d2wZW .cluster-label text{fill:#333;}#mermaid-svg-V33Jw2yOIA2d2wZW .cluster-label span{color:#333;}#mermaid-svg-V33Jw2yOIA2d2wZW .label text,#mermaid-svg-V33Jw2yOIA2d2wZW span{fill:#333;color:#333;}#mermaid-svg-V33Jw2yOIA2d2wZW .node rect,#mermaid-svg-V33Jw2yOIA2d2wZW .node circle,#mermaid-svg-V33Jw2yOIA2d2wZW .node ellipse,#mermaid-svg-V33Jw2yOIA2d2wZW .node polygon,#mermaid-svg-V33Jw2yOIA2d2wZW .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-V33Jw2yOIA2d2wZW .node .label{text-align:center;}#mermaid-svg-V33Jw2yOIA2d2wZW .node.clickable{cursor:pointer;}#mermaid-svg-V33Jw2yOIA2d2wZW .arrowheadPath{fill:#333333;}#mermaid-svg-V33Jw2yOIA2d2wZW .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-V33Jw2yOIA2d2wZW .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-V33Jw2yOIA2d2wZW .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-V33Jw2yOIA2d2wZW .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-V33Jw2yOIA2d2wZW .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-V33Jw2yOIA2d2wZW .cluster text{fill:#333;}#mermaid-svg-V33Jw2yOIA2d2wZW .cluster span{color:#333;}#mermaid-svg-V33Jw2yOIA2d2wZW div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-V33Jw2yOIA2d2wZW :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}

统计方法
描述统计
推断统计
集中趋势分析
离中趋势分析
相关分析
采样分布
参数估计
假设检验

描述统计:采用图标或数学方法描述数据的统计特征
推断统计:在数据科学中,有时需要通过“样本”对“总体”进行推断分析。常用的推断方法有两种:参数估计和假设检验。如下图所示:

两者的区别:

2.2.2.2从方法论角度看

从方法论角度看,基于统计的数据分析方法又可分为两个不同的层次——基本分析方法和元分析方法,如图所示:

#mermaid-svg-Eczq05fzzQc15q3e {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-Eczq05fzzQc15q3e .error-icon{fill:#552222;}#mermaid-svg-Eczq05fzzQc15q3e .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-Eczq05fzzQc15q3e .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-Eczq05fzzQc15q3e .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-Eczq05fzzQc15q3e .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-Eczq05fzzQc15q3e .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-Eczq05fzzQc15q3e .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-Eczq05fzzQc15q3e .marker{fill:#333333;stroke:#333333;}#mermaid-svg-Eczq05fzzQc15q3e .marker.cross{stroke:#333333;}#mermaid-svg-Eczq05fzzQc15q3e svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-Eczq05fzzQc15q3e .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-Eczq05fzzQc15q3e .cluster-label text{fill:#333;}#mermaid-svg-Eczq05fzzQc15q3e .cluster-label span{color:#333;}#mermaid-svg-Eczq05fzzQc15q3e .label text,#mermaid-svg-Eczq05fzzQc15q3e span{fill:#333;color:#333;}#mermaid-svg-Eczq05fzzQc15q3e .node rect,#mermaid-svg-Eczq05fzzQc15q3e .node circle,#mermaid-svg-Eczq05fzzQc15q3e .node ellipse,#mermaid-svg-Eczq05fzzQc15q3e .node polygon,#mermaid-svg-Eczq05fzzQc15q3e .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-Eczq05fzzQc15q3e .node .label{text-align:center;}#mermaid-svg-Eczq05fzzQc15q3e .node.clickable{cursor:pointer;}#mermaid-svg-Eczq05fzzQc15q3e .arrowheadPath{fill:#333333;}#mermaid-svg-Eczq05fzzQc15q3e .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-Eczq05fzzQc15q3e .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-Eczq05fzzQc15q3e .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-Eczq05fzzQc15q3e .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-Eczq05fzzQc15q3e .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-Eczq05fzzQc15q3e .cluster text{fill:#333;}#mermaid-svg-Eczq05fzzQc15q3e .cluster span{color:#333;}#mermaid-svg-Eczq05fzzQc15q3e div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-Eczq05fzzQc15q3e :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}

统计方法
基本分析法
元分析法
回归分分析
分类分析
聚类分析
关联规则分析
时间序列分析
加权平均法
优化方法

基本分析法具体内容: 基本性分析法详解.

2.3 机器学习

2.3.1机器学习与数据科学

机器学习为数据科学中充分发挥计算机的自动数据能力。。。。(此处省略一大堆定义)
直接来看它到底是什么以及怎么用。
基本思路:

一些经典应用
直接上AlphaGo

阿尔法围棋用到了很多新技术,如神经网络、深度学习、蒙特卡洛树搜索法等,使其实力有了实质性飞跃。美国脸书公司“黑暗森林”围棋软件的开发者田渊栋在网上发表分析文章说,阿尔法围棋系统主要由几个部分组成:一**、策略网络(Policy Network)**,给定当前局面,预测并采样下一步的走棋;二、快速走子(Fast rollout),目标和策略网络一样,但在适当牺牲走棋质量的条件下,速度要比策略网络快1000倍;三、价值网络(Value Network),给定当前局面,估计是白胜概率大还是黑胜概率大;四、蒙特卡洛树搜索(Monte Carlo Tree Search),把以上这四个部分连起来,形成一个完整的系统

《Dota2》openAI挑战赛
《DOTA2》开启了一段短暂的Open AI挑战热潮,全民挑战于太平洋时间4月18日下午6点(北京时间4月19日上午9点)开放,4月21日结束。Open AI取得了7215胜42负的战绩,胜率高达99.4%
在Dota2的比赛中,“AI”直接碾压了人类的冠军战队,我们不得不认识到AI的强大。



甚至在比赛刚开始,AI的预测胜率就无限接近百分百

2.3.2数据科学中常用的机器学习知识

常用机器学习类型:

这这些学习方法中,我最想介绍的是人工神经网络

它是一种仿生技术,模仿人类的神经网络的架构,来搭建学习模型。


相比于传统的机器学习,深度学习最大的优势就是我们无需为样本设置特征值,可以省去特征工程这一步骤,却能够得到更好、更精准的模型。
深度学习在如今的互联网工业中有着广泛的应用:
人脸识别

语音识别
(这里的图片是小米的小爱同学)

无人驾驶汽车

其实大家和深度学习并不陌生,它已经穿插进我们的日常生活:公司上下班的人脸识别打卡,手机自带的语音助手,又或者qq上的图片转文字,都是深度学习在默默做出贡献。

2.4 数据可视化

为什么要数据可视化?

1.视觉是人类获得信息的主要途径,这一点毋庸置疑。
2.相对于统计分析,数据可视化的主要优势体现在两个方面:
数据可视化处理可以洞察统计分析无法发现的结构和细节。
数据可视化处理结果的解读对用户认知水平的要求较低。
3.可视化能够帮助人们提高理解与处理数据的效率。

其实对于我而言,数据可视化就是一种更为直观的表达方式,虽然直接看生数据也能看得懂,但是很难一目了然,而数据可视化就是来解决这些问题的。也正如什么第二点中提到的一样,它也能使别更快地理解,就好像两个不同语种的人交流,叽叽喳喳半天说不明白个啥,但是一比划就明白了,原来是饿了想吃东西。

一些常用数据可视化工具

强烈推荐:import matplotlib
直接python调库,然后开始学习使用。
折线图曲线图饼状图样样精通



matlab软件
可视化鼻祖级别软件,python那个库就是模仿这个,做数学必备软件

其他
教材推荐的:
Tableau: 官网链接.
其不仅支持数据可视化,还可以做到数据故事化,属于是灰常不错!
核心技术–>VizQL:VizQL是一种用于查询、分析和可视化的数据语言。VizQL从斯坦福大学的Polaris系统演变而来,该系统将查询、分析和可视化结合到一个单一的框架中,是一种用于描述表格、图表、图形、地图、时间序列和图表的形式化语言。

以上就是我的第二章自学报告
总结;在学习中,我收获最多的是杜深度学习的应用,其实我知道它早就存在于我们的生活,只是没想到已经存在的这么深,就连游戏领域也被其渗入,攻破。有时候不仅真的会思考阿西莫夫提出的那些问题,人工智能的未来一定是安全的吗?但是转眼又看到那些奇奇怪怪仿佛失败AI例子,又才发现,虽然AI如今大火大热,但是也才刚刚起步罢了,也许会有问题会有危险,但是肯定的是,如果不去尝试,那么什么都没有。
也就正如艾克所说的:“我宁愿犯错,也不愿什么都不做!.

《数据科学》第二章自学报告相关推荐

  1. 电子数据取证第二章读书笔记

    电子数据取证第二章读书笔记 1.计算机硬件知识 内存与外存: 内存(Memory)是计算机的重要部件之一,也称内存储器和主存储器,它用于暂时存放CPU中的运算数据,与硬盘等外部存储器交换的数据.它是外 ...

  2. Python数据科学|第一章:数据科学家的武器库

    本系列教程为<Python数据科学--技术详解与商业实践>的读书笔记.该书以Python为实现工具,以商业实战为导向,从技术.业务.商业实战3个维度来展开学习.本书共19章(Python环 ...

  3. ASP.net 2.0 自定义控件的开发之数据分页 第二章

    以下为控件的主要部分 (UI 部分) 通知使用基于合成的实现的服务器控件创建它们包含的任何子控件,以便为回发或呈现做准备.         Protected Overrides Sub Create ...

  4. NDN-lite 命名数据网络 -----第二章:对Interest和Data包的处理

    NDN可以解决的问题   1.IP地址耗尽的问题.   2.内网穿透问题.   3.移动性问题,因为名字是固定不变的,不会随着位置的移动发生变化.   4.可扩展地址管理问题,这也使得传感网络成为可能 ...

  5. 【大数据】第二章:搭建Hadoop集群(送尚硅谷大数据笔记)

    尚硅谷Hadoop3.x官方文档大全免费下载. https://pan.baidu.com/share/init?surl=P5JAtWlGDKMAPWmHAAcbyA 提取码:5h60 搭建集群没什 ...

  6. 【TL第二期】动手学数据分析-第二章 数据预处理

    文章目录 第二章 第一节 数据清洗及特征处理 第二节 数据重构1 第三节 数据重构2 第四节 数据可视化 第二章 第一节 数据清洗及特征处理 数据清洗:对于原始数据中的缺失值.异常值进行处理.相当于数 ...

  7. 普里姆从不同顶点出发_来自三个不同聚类分析的三个不同教训数据科学的顶点...

    普里姆从不同顶点出发 绘制大流行时期社区的风险群图:以布宜诺斯艾利斯为例 (Map Risk Clusters of Neighbourhoods in the time of Pandemic: a ...

  8. 2021百万年薪AI职位趋势:数据科学、Python、自动驾驶、AIOps你关注了么?

      新智元报道   来源:VB 编辑:小匀 [新智元导读]年尾了!2021马上到来,虽然疫情让这一年慢了下来,但AI的发展却没有停下脚步.人工智能网站VentureBeat总结了过去一年AI圈儿发生的 ...

  9. 万亿数字化市场,数据科学为何能扛起“价值担当”?

    数据科学家,被誉是"21世纪最性感的职业". 如今,一股数据科学的热潮正席卷国内各大高校.今年十月底,一系列数据科学的网络直播课在多所大学火爆异常,吸引来自北大.清华.北师大.哈工 ...

  10. 大数据时代的历史机遇——产业变革与数据科学

    <大数据时代的历史机遇--产业变革与数据科学> 基本信息 作者: 赵国栋 易欢欢 糜万军 鄂维南 出版社:清华大学出版社 ISBN:9787302325352 上架时间:2013-6-14 ...

最新文章

  1. 人生苦短,我用PyCharm(附链接)
  2. 【读书笔记】程序员的自我修养总结(七)
  3. 马化腾:用户体验的10/100/1000法则
  4. 用 XGBoost 做 Learning To Rank
  5. CLR自定义菜单项(ToolStripItem)
  6. apt-get install用发
  7. c++设置单元格填充色_格式函数text,设置自定义格式的万金油
  8. 网络计算机室电源线怎么布,网吧综合布线(电源和网络)经验谈
  9. sql server 登录与用户绑定
  10. yum安装Jenkins
  11. 图文细谈远程桌面之3389
  12. Unity+罗技G29方向盘+Realistic Car Controller 制作简单的模拟驾驶
  13. win7无法自动获取dns服务器地址,Windows7系统DNS服务器故障怎么解决?
  14. 实现微信公众号微信头像上传
  15. 复旦邱锡鹏:语言模型即服务,走向大模型的未来
  16. GCC 编译链接命令用法
  17. NodeJs string与base64互转
  18. ASP.Net中生成静态HTML页
  19. 捕鱼达人的算法猜测—较色碰撞算法
  20. C++实现四舍五入的几种方法

热门文章

  1. java被安全阻止解决及用友Uclient安装
  2. C-Free 5.0注册码
  3. Java—集合框架图
  4. 红外夜视摄像头 蒂卡尔K-TF使用手记 2
  5. 软件测试基础知识整理(详细版)
  6. 数学建模算法与应用:预测算法(4)马尔可夫预测
  7. Kinect v2 使用ork功能包进行物体识别
  8. android+截图长屏软件,可能是安卓最好用的长截图工具 秒杀各种拼图软件|小安教程...
  9. 蓝桥杯C++AB算法辅导
  10. signature=0142b13a38da3ce7be8fce0d56b678af,授权系统