机器学习基本概念

有监督学习/无监督学习

从兜哥书上的概念来理解,有监督学习与无监督学习最大的判断依据就是训练样本是否有标记。其实看到这里的时候,我产生了几个疑问,下面逐个和大家分享一下。

  • 有监督和无监督学习究竟用来干什么,谁会更有优势?

举两个例子,第一个,天上飞过一个动物,我定睛一看,有翅膀,有两个爪子,嘴巴尖尖的,体型也符合,所以我判断飞过的是一只鸟。如果把我换成一个机器,我们给他输入这样一组我眼睛看到的数据,电脑如何作出判断呢?如果电脑已经经过大量的数据进行了有监督学习,他知道翅膀,爪子,嘴巴尖尖,可以飞行,判断为鸟这种动物,那么他就能当我输入数据的时候,告诉我这是鸟。整个过程完全类似小时候老师教导我们的过程。

无监督学习,比如说一个养殖场,有鸡和猪两种动物,我给机器输入一组关于这个养殖场动物脚的个数的数据,通过无监督学习,自然而然的进行分类为2只脚的动物与4只脚的动物,但不会分类为鸡和猪,因为我没有给输入的数据打上标签。

最典型的有监督与无监督学习的例子就是分类问题和聚类问题,如果是分类,有一个分类标准,然后按这个标准去建立学习模型,对后来输入的数据做分类操作,判断属于什么类别。但是如果是聚类,没有这个标准,没有这个类别,算法自己去挖掘数据集合里的内在规律。

补充一个知乎错误高赞回答,这个答案差点让我怀疑人生了就

因为无监督学习没有一个标准,所以最终结果可能并不是我们所期望的,一般来说,有监督学习会更具备优势。

  • 既然有监督学习比无监督学习具有更多的优势,那为啥不把数据都标记上,全都做有监督学习训练呢?

事实上是,机器学习的第一步,给数据做标记需要花费超长的时间,在这种情况下,有时候被迫就只能选择无监督学习;当然,不排除用于机器学习的数据一部分被标记,一部分没有被标记,这也就是半监督学习的概念。

补,知乎答主已改回答

准确率/召回率

书上提到的TP/FP/FN/TN,在概率论中就是第几类错误的问题。举个例子,警方抓获了一个嫌疑人:

TP: 他是真正的罪犯,法院判他有罪

FP:他是真正的罪犯,法院判他无罪(法院犯了第一类错误)

FN:他不是真正的罪犯,法院判他无罪

TN:他不是真正的罪犯,法院判处他有罪(法院犯了第二类错误)

实际情况中,如果FP,TN两者必须要发生一种,需要根据实际情况选择。比如说法律上的疑罪从无,就是宁愿犯第一类错误也不愿意犯第二类错误的情况。

书上的准确率和召回率,计算感觉不是很好理解,从知乎上找到了一种更好理解的说法:

正确率 = 提取出的正确信息条数 / 提取出的信息条数

召回率 = 提取出的正确信息条数 / 样本中的正确信息条数

当然希望检索结果正确率越高越好,同时召回率也越高越好,但事实上这两者在某些情况下有矛盾的。比如极端情况下,我们只搜索出了一个结果,且是准确的,那么正确率就是100%,但是召回率就很低;而如果我们把所有结果都返回,那么比如召回率是100%,但是正确率就会很低。因此在不同的场合中需要自己判断希望正确率比较高或是召回率比较高。

书上关于数据集的部分,我直接粗略翻阅就跳过了

特征提取

这部分内容,我还是觉得因为没有进入具体场景,还是不知道为什么可以这样来进行特征提取,等之后遇到了这类特征提取的时候,再回过头来仔细阅读

【技术君啃书之旅】web安全之机器学习入门 第三章笔记相关推荐

  1. 【技术君啃书之旅】web安全之机器学习入门 第五章笔记

    这章零零散散花费了好久(吐槽毕业典礼真的是忙到吐血啊!!!!),感觉兜哥跳跃的有点厉害,直接进入了算法与场景结合,没有什么关于K近邻算法的数学介绍,而我作为一个机器学习的小萌新,只能先去搜索一些关于K ...

  2. 《Web安全之机器学习入门》笔记:第九章 9.4 支持向量机算法SVM 检测DGA域名

    DGA(Domain Generation Algorithm)域名生成算法是一种利用随机字符等算法来生成C&C域名,从而逃避安全设备域名黑名单检测的技术手段. 1.黑样本 def load_ ...

  3. Web安全之机器学习入门5No module named ‘hmmlearn’

    第五章K近邻算法 Web安全之机器学习入门 刘焱 报错+修改 5-1.py 5-2.py 5-3.py 5-4.py 5-5.py Web安全之机器学习入门 刘焱 本书使用的代码和数据均在GitHub ...

  4. 《Web安全之机器学习入门》笔记:第十六章 16.7 识别异常操作

    本小节通过RNN识别异常操作. 1.数据集 def load_user_cmd_new(filename):cmd_list=[]dist=[]with open(filename) as f:i=0 ...

  5. 【啃书吧:深度学习与MindSpore实践】第三章 3.3泛化能力

    初读:2021年1月4日 啃书进度会在目录中标出来.本次目标是完成第三章 3.3节泛化能力(P30-P31) 这一节内容非常简短,说明也非常浅显,但实际上点名的方法有好几个,特别是提高泛化能力的具体方 ...

  6. 用html和css布局如下图像,[看书][CSS精粹(第2版)]第三章 CSS和图像 HTML网页布局...

    **"本作品是用html和css如何实现制作一个网页呢"** 那么大家打开此文档可能是为了看看,或者是这次的考试怎么可以学习一下放心大家可以在此处得到一个好的答案... 1.介绍如 ...

  7. 数据库开发技术java方向_Java开发工程师(Web方向) - 03.数据库开发 - 第5章.MyBatis...

    第5章--MyBatis MyBatis入门 Abstract: 数据库框架的工作原理和使用方法(以MyBatis为例) 面向对象的世界与关系型数据库的鸿沟: 面向对象世界中的数据是对象: 关系型数据 ...

  8. 啃书:《利用python进行数据分析》第六章——数据加载(三)

    JSON数据 我们在日常的开发中,经常会用到JSON数据,JSON已经成为通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一.它是一种比表格更加灵活可变的数据格式.下面给一个小例子 ...

  9. 《Web安全之机器学习入门》一 3.2 数据集

    3.2 数据集 数据集合和算法就像黄油和面包一样缺一不可,很多时候数据比算法还要重要.本书的例子涉及的数据主要来自多年搜集的开源数据集合以及部分脱敏的测试数据. 3.2.1 KDD 99数据 KDD是 ...

最新文章

  1. Android ADB被占用 重启 ADB方法
  2. zcmu1156(树状数组)
  3. c语言编译生成obj,GCC编译Objective-C源文件
  4. d盘莫名其妙被占空间 win10_Win10不好用?你不可不知的Win10技巧
  5. mysql isam cache_Mysql性能优化基础篇
  6. redis api-list
  7. 利用RTL2832u电视棒芯片追踪民航飞机轨迹
  8. 论文浅尝 | Doc2EDAG:一种针对中文金融事件抽取的端到端文档级框架
  9. 华为ipd项目管理流程_IPD:一套卓越的产品开发经营体系
  10. MTK 驱动开发 (1)---GPIO架构
  11. 用汇编的眼光看c++(之模板函数)
  12. 一些意想不到的bug
  13. 边缘检测算法_机器视觉怎样检测产品边缘
  14. UVA11424 GCD - Extreme (I)【欧拉函数打表】
  15. 《单词的减法》state1~state17(第一遍学习记录)
  16. java课程设计签到系统_学生课堂签到系统设计及实现.doc
  17. LoRa无线网络技术概述
  18. 雅俗共赏——广告词之很美很强大的汉语言
  19. STM32开发 --- W25Q128读写、SPI通信
  20. 如何开发Android手表界面ui,20款神奇的UI智能手表界面设计欣赏

热门文章

  1. css 设置文字隐藏
  2. 计算机使用hdmi需要设置方法,win10系统使用hdmi连接电视的操作方法
  3. TicWatchPro刷入国际版的教程(2020)
  4. 刘晓庆8段感情都传奇, 当过小三为姜文掏心掏肺现得富商老公进军微电商!
  5. 简单的可视化批量插入pdf页面(将另一份含n页的pdf插入到当前的pdf中的第m页之后)(使用pdf-xchange editor或迅捷pdf/acorbat)
  6. 7-12 日期格式化 (5分)
  7. ashx 接口调用_[ASP.Net ]利用ashx搭建简易接口
  8. 图神经网络+强化学习
  9. ubuntu的Upstart启动流程
  10. 领域驱动/DDD模型初识