Chapter 1 Regression: Predicting and Relating Quantitative Features

1.1 统计学,数据分析,回归

统计学是利用数学来研究和提高从不完整的,有噪声、corrupt、不可复制的和其他因素导致的不完美的数据中刻画可靠的推论的方法。

Paragraph 1 end =================

大多数的科学的学科都是围绕着我们世界的某个部分,或者是我们之中的。

心理学(Psychology)研究思想;地理学(geology)研究地球的组成和形成;经济学研究生产,分配和交换;真菌学(mycology)研究蘑菇。统计学并不研究世界,而是研究我们试图去理解世界的方法——某些供其他学科使用的智慧工具。它的作用并不直观,而是通过帮助其他学科来体现价值。

Paragraph 2 end =================

这种用途是十分重要的,因为所有的学科都必须处理不完美的数据。数据也许并不完美,因为我们只能观察和记录到相关数据的其中一小部分;或者因为,不管我们不管我们多么仔细地尝试,我们的数据总是会包含噪声。在过去的两个世纪中,统计学通过将它们建模成为随机过程来处理所有的这些不完美,并且概率已经称为统计学的中心以至于我们必须刻意的(deliberately)介绍随机事件(as in sample surveys)。

Paragraph 3 end =================

统计学就使用概率论来对数据建模得出推论。我们试图使用数学方式去理解不同过程的来得到推论:在何种条件下它们是可靠的?它们会产生哪种误差,误差频率是多少?当它们有效的时候我们能得到什么?当某些东西出差错的时候会有什么迹象?就像其他的科学一样,比如工程,药学和经济学,统计学不仅仅在于理解,同时也回去改善:我们想要更好的分析数据,更加可靠地,有更少更小的误差,能够在更广泛的条件下,更快地,付出更少的体力劳动。有时候这些目标会产生矛盾——快速、简单的方法也许很容易出错(error-prone),或者说在非常狭隘的条件下才会很可靠。

Paragraph 4 end ================

人们很想知道的是,不同的变量之间是如何关联的,并且统计学中提供的一个核心工具用来了解变量之间的关系就是回归。在36-401(课程)中,你已经学会了如何进行线性回归,了解到了它如何用于数据分析中,也学习了它的属性。在本课程中,我们将在此基础之上构建,在很多方向上扩展基本的线性回归,来回答很多关于变量之间如果关联的问题。

Paragraph 5 end ================

这和预测密切相关。能够预测并不是我们想要知道变量之间关系的唯一原因,有时预测也可以测试我们对于关系的认识。(如果我们理解错了,我们也许仍可以预测,但是很难发现我们如何理解并且不能预测。)所以在超越线性回归的知识之前,先来看一下预测,并且如何从一无所有来预测一个一个变量。然后我们来看一下在变量之间的预测性关系,并且会发现线性回归只是smoothing方法这个大家族中的一个成员而已,这类方法我们都可以使用。

Paragraph 6 end ====================

Section 1.1 end ===================

1.2 猜测随机变量的值

我们有一个数值的,数量的随机变量,我们想象设为Y。我们假设它是一个随机变量,并且试图通过通过猜测一个单值来预测它。(其他类型的预测也是可能的——我们也许会猜测Y是否会落入到某个范围之内,或者它会有其他的可能性,又或者是Y的整个概率分布。但是在后面的课中我们将会学到这也将适用于其他类型的预测。)猜测的最好的值是什么?或者更正常的,Y的最佳预测点是哪个?

Paragraph 7 end  ================

为了回答这个问题,我们需要挑选一个函数来进行优化,用来度量我们预测结果的好坏——或者说我们预测的结果有多差,我们得到的误差是多大。一个合理的起点是均方误差(mean squared error):

因此,我们想要找到一个值,r,使得MSE(a)最小。

因此这里我们用均方误差来度量了我们的预测质量,最佳的预测值就是期望值。

1.2.1 预测期望值

当然,为了预测E[Y],我们必须知道Y的期望值。事实上,我们并不知道。然后,如果我们有采样值y1, y2, ..., yn,我们可以从采样的平均值来预测期望:

如果采样的数据是独立同分布的(independent and identically distributed,IID),那么打书定理告诉我们:

并且中心极限定理告诉我们有关于收敛速度的快慢(即平方误差大概是Var[Y]/n)。

当然假设yi是独立同分布的这是一个很强的条件,但是我们可以假设几乎一样的条件,如果它们对于共同的期望值是不相关的。即使它们是相关的,但是相关性减少的足够快,所有的改变为收敛速度。因此"坐下,等着,收敛"是一个预测期望值的非常可靠的方法。

1.3 回归函数

当然,通常预测一个点的值并不十分有用。典型的,在数据中我们有很多的变量。

来学学数据分析吧(二)第一章 预测和关联数量特征相关推荐

  1. 数二第一章函数、极限、连续做题总结

    文章目录 前言 一.基础公式 1.常用麦克劳林公式(必记) 2.arctanx,x,tanx,sinx,arcsinx的爱恨情仇 3混杂错题警醒 二.不太会的题目类型 1.证明极限存在 1.夹逼定理 ...

  2. 萌新向Python数据分析及数据挖掘 第一章 Python基础 第三节 列表简介 第四节 操作列表...

    第一章 Python基础 第三节 列表简介 列表是是处理一组有序项目的数据结构,即可以在一个列表中存储一个序列的项目.列表中的元素包括在方括号([])中,每个元素之间用逗号分割.列表是可变的数据类型, ...

  3. Python数据分析与展示 第一章 Numpy库入门

    数据的维度 维度:一组数据的组织形式 一维数据 一维数据由对等关系的有序或无序数据构成,采用线性方式组织 3.1413, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376 ...

  4. 模电笔记二(第一章第二小节)

    文章目录 半导体二极管 一.二极管的组成 二.二极管的伏安特征及电流方程 三.二极管的等效电路 1.折线化 2.微变等效电路 四.二极管的主要参数 五.稳压二极管 1.伏安特性 2.主要参数 半导体二 ...

  5. 数据分析 - 数据挖掘 之 第一章:数据挖掘原理 - 第一节:数据挖掘任务

    数据挖掘任务主要有很多种,常见的有分类.聚类.预测等,若按算法可分为两大类:无监督学习.有监督学习. 1.分类学习 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这 ...

  6. R循环有两个_R语言数据分析与挖掘(第九章):聚类分析(2)——层次聚类

    层次聚类(hierarchical clustering)基于簇间的相似度在不同层次上分析数据,从而形成树形的聚类结构,层次聚类一般有两种划分策略:自底向上的聚合(agglomerative)策略和自 ...

  7. Python数据分析 第一章 数据分析的概述

    目录 第一章 数据分析的概述 1.数据分析的概述 1.Python在数据分析方面的优势 2.数据分析流程 3.数据分析层次 4.数据分析常见应用场景 2. Python数据分析模块 1. Numpy ...

  8. 《Python数据分析与挖掘实战》张良均,第一章学习笔记

    第一章从餐饮行业来引出数据挖掘 [有问题或错误,请私信我将及时改正:借鉴文章标明出处,谢谢] 刚开始讲到了T餐饮企业的管理系统(5个管理系统),因为多方面管理系统加强了此企业的信息化管理,提高了工作效 ...

  9. 《谁说菜鸟不会数据分析》学习笔记 第一章总览 第二章数据分析思路

    网上的信息太琐碎了,根本没搞懂什么是数据分析方法什么是数据分析方法论,所以找了一本比较简单的书来系统学习一下,本来打算粗略看完,但是觉得这本书知识还是不错的,所以决定在未来一周把这本书用心学一下. 这 ...

最新文章

  1. C#2.0模拟List和内置算法
  2. ACM第一名:基于轨迹感知多模态特征的视频关系检测
  3. WPS文本域替换不完全的问题
  4. creo导入特征怎么实体化_Creo/Proe云图抄数牙刷抄数造型
  5. geotools学习(一)IntelliJ IDEA搭建快速入门示例.pdf
  6. Eclipse——Java可视化开发环境配置
  7. 编译安装php apache,CentOS编译安装Apache2.4+PHP5.6
  8. iOS之深入解析weak关键字的底层原理
  9. HTML学习(2)(摘抄自慕课)
  10. mysql没有group by_MySQL:不在GROUP BY中
  11. arraylist 初始化_ArrayList 和 LinkedList 哪个更占空间?
  12. 使用 ftrace 调试 Linux 内核,第 1 部分【转】
  13. 简化企业CMMI5认证过程?
  14. OpenJWeb2.61 Java Web应用快速开发平台技术白皮书
  15. springBean生命周期
  16. 进程之间有哪些通信方式
  17. thinkphp6自定义日志驱动,增加显示全部请求信息
  18. 单片机多功能电子琴课设_基于单片机的简易电子琴课程设计.doc
  19. Oracle sql 对多个sql count的值再求和
  20. 【FI】统驭科目记账与特殊记账

热门文章

  1. 【教程】新手如何制作简单MAD和AMV,学不会那都是时辰
  2. Streaming源码解读之接收流数据的全生命周期
  3. 高逼格的画图:VIM原来可以这样玩
  4. [R语言画图]气泡图symbols
  5. cocos2dx 3.x ccPositionTextureColor_vert与ccPositionTextureColor_noMVP_vert
  6. ACM-ICPC如何起步
  7. 提升tomcat 性能的经验
  8. P3201 [HNOI2009]梦幻布丁 [启发式合并][set]
  9. Java入门系列-16-继承
  10. (转)maven打包时跳过测试