文章目录

  • 统计学习问题举例.
  • 垃圾邮件.
  • 前列腺癌.
  • 手写数字识别.
  • DNA微阵列表达.
  • 全书安排.

统计学习问题举例.

  • 预测一名由于心脏病发作而住院的病人,是否会有第二次心脏病发作。该预测将会基于人口统计数据、规定饮食以及临床评估来做出。
  • 基于公司业绩指标company performance measure经济数据economic data,预测未来 6 6 6 个月以内的股票价格。
  • 依据某位糖尿病患者血液的红外吸收光谱infrared absortion spectrum来评估其血液中的葡萄糖含量。
  • 从数码影像digitized imgae中识别出手写邮政编码中的数字。
  • 基于临床和人口统计学变量确定前列腺癌的危险系数risk factor.

  • 典型情境下,我们希望基于属性集set of features预测出结果指标outcome measurement,结果指标可以是定量的quantitative,例如股票价格;也可以是分类的categorical,例如患者是否复发心脏病。
  • 监督学习的训练集中我们可以同时观察到结果和属性,依托于训练集可以得到预测模型,或者称之为学习器Learner,它可以对那些新的、未见过的对象做出预测。显然对于新对象的预测结果愈加准确则说明该学习器愈加强大。之所以被称为监督学习,是因为有在训练集中包含了结果指标,用以指导训练过程。
  • 与之相对的是非监督学习,在训练集中我们只能观测到属性,而没有结果指标。非监督学习的任务通常是描述数据的组织方式organized、聚集方式clustered.

垃圾邮件.

  • 基于大量的邮件数据,期望训练出一个垃圾邮件自动检测器Automatic Spam Detector,用以在垃圾邮件充斥着用户信箱之前过滤掉它们。
  • 训练集中的邮件数据是已知标签的,即对于邮件 x x x,它是正常邮件 e e e 或是垃圾邮件 s s s 已经确定。此外还拥有 57 57 57 个高频词以及标点的相对频率。
  • 显然垃圾邮件自动检测器ASD的训练是一个监督学习问题,其预测结果取值集合是二元集合 { e m a i l , s p a m } \{email,spam\} {email,spam},也被称为分类问题。
  • 在该问题中,学习器ASD出现不同类型错误的代价是不同的。倘若它将一封正常邮件当作垃圾邮件过滤掉,那么用户会因此错过重要信息,后续甚至会有重大损失;而如果将一封垃圾邮件当作正常邮件放入用户信箱,虽然不希望看到这样的结果,但就其后果而言,显然比前种错误更能让人接受。

前列腺癌.

  • 前列腺癌数据中评估了前列腺特异抗原prostate specific antigen水平与一系列临床量之间的相关程度,被采集数据的对象是 97 97 97 位将要接受根治性前列腺切除术radical prostatectomy的男性。
  • 研究者希望能够得到一个基于一系列属性来预测前列腺特异抗原水平的模型。实际操作时取对数,记为 l p s a . lpsa. lpsa.
  • 预测所需要的属性包括肿瘤体积、前列腺重量、年龄、良性前列腺增生数量、精囊侵袭等等诸多属性。由于最终预测结果是量化值,因此该问题是回归问题。

手写数字识别.

  • 数据集来自于美国邮政邮件信封上的手写邮政编码,每张图片都是从五位邮政编码上截下的单个数字,采用像素为 16 × 16 16\times16 16×16 的灰度图像存储。这些图片均已经过标准化,直观来看具有相同的大小和方向。
  • 手写数字识别器所要做的就是根据图像来预测出其中的数字是 { 0 , 1 , 2 , ⋯ , 9 } \{0,1,2,\cdots,9\} {0,1,2,⋯,9} 中的哪个,如果识别器的精确度足够高,就能够基于它实现一个信封自动分拣器。
  • 和垃圾邮件过滤器不同,信封分拣器中的手写数字识别器要求有极高的精度,否则错识数字将会导致信件无法正确抵达。一种保证高精度的方法是,对于模糊、扭曲的难识别数字,识别器将其分类为未知,转交给人工处理。

DNA微阵列表达.

  • DNA微阵列microarrays测量了细胞中基因的表达量,具体的测量方式是通过测量细胞中出现的mRNA(信使RNA)数量。
  • DNA微阵列的工作方式如下:
  • ① 数千种基因的核苷酸序列被打印在玻璃切片上;
  • ② 目标样本和参照样本分别以红色、绿色染料标示,并和玻璃切片上的DNA进行混合;
  • ③ 通过荧光镜检查fluoroscopy能够得到每个位置上RNA杂化强度,结果表现为数千个数值,衡量了每种基因在目标样本上相较于参照样本的表达水平。正值说明目标样本中有更高的表达水平,负值反之。
  • 基因表达数据从一组DNA微阵列实验中收集数据,其中每一列代表一次实验,每一行代表一种基因。例如一个 6830 × 64 6830\times64 6830×64 的基因表达数据表示 64 64 64 个样本在 6830 6830 6830 种基因上的表达水平。
  • 获得基因表达数据后,一大挑战是理解数据中的基因(行)与样本(列)是如何组织的,典型的问题有以下三个:
  • ① 就跨基因表达谱expression profile across genes而言,哪两个样本是最相似的;
  • ② 就跨样本表达谱expression profile across samples而言,哪两个基因是最相似的;
  • ③ 是否存在特定基因在特定癌症样本上表达量很高的情况。
  • 上述问题可以理解为回归问题,将样本和基因视为两个属性 —— 预测变量Predictor Variable,将表达水平视为结果指标 —— 响应变量Response Variable.
  • 然而,在生物信息学研究中,更加常见也更加自然的理解方式是将其视为无监督聚类问题,以上述数据为例,可以将 64 64 64 个样本视为分布在 6830 6830 6830 维空间的数据,而后进行聚类分析过程(通常是降维+聚类).

全书安排.

  • 第二章 监督学习问题概述
  • 第三、四章 回归和分类的线性方法
  • 第五章 样条、小波以及正则化方法
  • 第六章 核方法与局部回归
  • 第七章 模型评估与选择(偏差方差分解)
  • 第八章 模型推理与平均
  • 第九、十、十一章 回归问题
  • 第十二、十三章 分类问题
  • 第十四章 无监督学习方法
  • 第十五章 随机森林
  • 第十六章 集成学习
  • 第十七章 无向图模型
  • 第十八章 高维问题

【EoSL】Introduction相关推荐

  1. 【译】Introduction to Smart Contract and DApp Security

    ether这是我 与 Jessica Marshall , William Dias 和 C. Brown 在 ETHDenver 带领的研讨会的成绩单 . 你可以在他们的 Facebook页面 上看 ...

  2. 【译】Introduction to Byteball — Part 2: The DAG

    这是关于Byteball的系列文章的第2部分. 第1部分介绍了Byteball的原因 ,所以如果你错过了,先阅读,然后再回到这个. 宁可观看视频,而不要读故事? 然后观看下面的YouTube链接. 如 ...

  3. 【译】Introduction to Byteball — Part 1: Why?

    所以......让我们来谈谈一下Byteball吧! 实际上,Byteball是我最喜欢的加密项目. 我读了白皮书,我立刻就爱上了它. 除了原来的比特币白皮书之外,这种情况没有发生. 所以,当我说我不 ...

  4. opencv 修改图像数值_【1】Introduction to OpenCV (2)使用VS生成OpenCV应用程序

    本节是在完成OpenCV安装基础上进行的,用Microsoft Visual Studio来生成OpenCV应用程序.英文原文是在下载或者自己编译库文件,假设设置好环境变量后,详细说明如何在VS进行设 ...

  5. 【Unity-Graphics】Introduction to Lighting and Rendering

    灯光(Lighting)和渲染(Rendering)简介 现代游戏照明广泛使用"全局光照(global illumination)". 全局光照,或称"GI"是 ...

  6. 【Jupyter】【Python】- introduction 介绍

    Markdown Number lists are sequential: 不管你前面的数字是多少,run之后会自动排序. *,-,_等是无序的. latex等式: 句中等式:$ 段中等式:$$ Ba ...

  7. 【Cody】Introduction to MATLAB

    链接地址: https://ww2.mathworks.cn/matlabcentral/cody/groups/78 Problem 8. Add two numbers Given a and b ...

  8. 【Geometry】Introduction 计算机几何学(3)网格的细分与简化

    课程来源:GAMES101-现代计算机图形学入门-闫令琪 Lecture12 Lingqi Yan UC Santa Barbara 网格操作:几何图形处理 Mesh subdivision 网格细分 ...

  9. 【Geometry】Introduction 计算机几何学(1)

    计算机几何学 上图就是一个计算机几何学的例子,这些几何就很有意思了,这些曲面在我们的生活中,我们离近了去看,也看不见任何三角形.生活中是有这种光滑的曲面的. Implicit 隐式的几何 隐式的几何的 ...

最新文章

  1. 前沿科技 | 中科院科学家在视觉学习行为的神经机制研究中取得进展
  2. python数据去重的函数_python去重函数是什么
  3. altium designer无法创建工程_前端工程化之开发脚手架及封装自动化构建
  4. 【科研绘图】Visio保存为PDF时去掉黑框
  5. 3500个常用汉字表_小学常用560个汉字笔画笔顺表,打印下来,小学六年慢慢练...
  6. 成人高考 计算机英语作文,2017年成人高考英语作文范文
  7. 某公司的雇员分为以下若干类: Employee:这是所有员工总的父类, 属性: 员工的姓名,员工的生日月份。 方法:getSalary(
  8. C#windows服务中的Timer控件的使用
  9. unity Google 广告接入 SDK Android
  10. 《金融学》笔记 第七章 商业银行
  11. vue 用webpack打包文件名添加版本号
  12. 一到两年工作经验的看完这些面试轻松拿offer
  13. java gef_GefExample GEF的例子,用于eclipse 学习,非常好的源码材料。 Java Develop 238万源代码下载- www.pudn.com...
  14. 【shell】scp 同时向多个主机拷贝数据
  15. 一个 简约 干净 纯净的网址导航 净搜导航
  16. ERROR 1396 (HY000): Operation CREATE USER failed for ‘xxx‘@‘%‘
  17. safari 调试 打印刚加载界面时缓存的log信息 iOS Safari调试iPhone设备上的网页
  18. Pytorch实现多层lstm
  19. 小米重大变革:成立十个一级部门大量启用80后 向雷军汇报
  20. 邮件群发为什么容易被拦截?怎么避免?

热门文章

  1. 什么?你说你懂HTTPS?
  2. u8跳过环境检测工具 win7_用友环境检测工具
  3. JavaScript+CSS实现的点赞动画特效
  4. Supplier示例
  5. 解决module java.base does not “opens java.lang“ to unnamed module @726f3b58问题
  6. Solidity笔记10:合约创建
  7. python 实验六 列表与元组(上)
  8. 人工智能都有哪些应用场景?需要哪些训练数据?
  9. 超焦距是什么?如何应用超焦距?
  10. 七牛云详细教程(包含与阿里云建立连接)