从泰坦尼克号开始到决策树,千里之行始于coding。

1 初衷

初衷一:一直以来从网上各路大神的分享中受益匪浅,总也想有点feedback。
初衷二:很早就想好好写一写决策树(曾经用SAS写过ID3,但是总觉得那不算是一个很好的完成状态)。

2 文章的内容

这一系列的文章大约分成四部分:
第一部分:介绍Kaggle上的一个例子,是基于泰坦尼克号生还/死亡数据做的决策树模型。个人觉得这个例子还是不错的,认同里面说的一些理念;当然最大的好处是提供了样本数据,并且做出了一些结果,可以和自己写的结果进行印证。

第二部分:决策树的基本概念,以及我实现决策树的过程。比较有趣的是,我一直更喜欢函数式编程,但是在写决策树的过程中,突然发现对象式编程的写法还是比较方便的。

第三部分:按流程把过程中用到的大约20几个函数的实现都逐一的说明。

第四部分:如何使用自建的决策树进行应用,比较结果。(之后会使用决策树继续做深度树)

3 从泰坦尼克号开始(Kaggle)

Introduction to Decision Trees (Titanic dataset)

先给出Kaggle(简称K)给出的决策数据结果,整体上说,决策树模型的结果还是比较容易懂的,里面具体的内容我下次再细说吧。

泰坦尼克号事故的背景可以通过电影有比较好的了解,简单来说以下模型的任务是预测乘客的生存率(survived or not)。需要的画可以把电影再看一次。

变量解释
sibsp: The dataset defines family relations in this way…
Sibling = brother, sister, stepbrother, stepsister
Spouse = husband, wife (mistresses and fiancés were ignored)
parch: The dataset defines family relations in this way…
Parent = mother, father
Child = daughter, son, stepdaughter, stepson
Some children travelled only with a nanny, therefore parch=0 for them.

Python实现决策树(系列文章1)--从最简单的算法开始相关推荐

  1. Python接口自动化测试系列文章汇总

    2020 05 20 今天距2021年225天 这是ITester软件测试小栈第125次推文 点击上方蓝字"ITester软件测试小栈"关注我,每周一.三.五早上 07:30准时推 ...

  2. Python入门实战系列文章

    [时常听人说,一文解读某某技术,啥啥只看一文就够了,但一篇文章真的就能解读的了吗?不管你信不信,反正我是不信.]做为一个十多年开发经验的老程序员,在工作中,接触过各种各样的开发语言,前端后端都略有涉猎 ...

  3. 《神经网络和深度学习》系列文章五:用简单的网络结构解决手写数字识别

    出处: Michael Nielsen的<Neural Network and Deep Learning>,点击末尾"阅读原文"即可查看英文原文. 本节译者:哈工大S ...

  4. tcp协议系列文章(3):TLP算法

    一.起因 近日在用物理损伤仪对公司无线网络相机进行测试时抓到一个数据包,包含有如下的tcp交互过程: 抓包命令为tcpdump -i any -vv -w p.pcap 因为抓的是所有网卡,未做任何过 ...

  5. python协程系列(三)——yield from原理详解

    声明:本文将详细讲解python协程的实现机理,为了彻底的弄明白它到底是怎么一回事,鉴于篇幅较长,将彻底从最简单的yield说起从最简单的生成器开始说起,因为很多看到这样一句话的时候很懵,即" ...

  6. Spring IOC 容器源码分析系列文章导读

    1. 简介 前一段时间,我学习了 Spring IOC 容器方面的源码,并写了数篇文章对此进行讲解.在写完 Spring IOC 容器源码分析系列文章中的最后一篇后,没敢懈怠,趁热打铁,花了3天时间阅 ...

  7. Carlosfu技术系列文章总目录

    转载请注明出处哈:http://carlosfu.iteye.com/blog/2240426   刚看了一下这个账号是2009年注册的,当时可能是为了下载javaeye的周刊吧,后来12年开始工作时 ...

  8. 【转】python开发大全、系列文章、精品教程

    版权声明:本文为博主原创文章,转载请注明来源.开发合作联系luanpenguestc@sina.com https://blog.csdn.net/luanpeng825485697/article/ ...

  9. python dataframe的某一列变为list_Python数据分析系列文章之Pandas(上)

    本篇是[机器学习与数据挖掘]头条号原创首发Python数据分析系列文章的第三篇 Python数据分析系列文章之Python基础篇 Python数据分析系列文章之Numpy Python数据分析系列文章 ...

  10. python系列文章(基础,应用,后端,运维,自动化测试,爬虫,数据分析,可视化,机器学习,深度学习系列内容)

    python基础教程 python基础系列教程--Python的安装与测试:python解释器.PyDev编辑器.pycharm编译器 python基础系列教程--Python库的安装与卸载 pyth ...

最新文章

  1. 阿里云安装LNMP以及更改网站文件和MySQL数据目录
  2. 二层交换机、三层交换机和路由器的基本工作原理区别—Vecloud
  3. “面试不败计划”:集合、日期、异常、序列化、其他知识点
  4. Vue项目实战03 : vue中 meta 路由元信息
  5. 微软宣布SQL Server 2019免费支持Java
  6. xhtml与html的区别开头,XHTML与HTML的差别
  7. 富文本支持粘贴excel表格_Anki插件-OneNote importer(富文本批量导入)
  8. WinEdt Latex使用人家提供的模板时无法插入参考文献的方法
  9. 想自学PLC编程该按什么步骤来?
  10. java开发面试自我介绍模板_java应聘面试自我介绍范文
  11. [ Linux RK3568 ] 手动/自动调整千兆网口延时TX RX |CSDN创作打卡
  12. COLMAP简明教程 重建 转化深度图 导出相机参数 导入相机参数 命令行
  13. 谷歌地图 经纬加密_Google开始加密搜索
  14. osg显示CEGUI界面
  15. 利用AJAX做天气预报
  16. 计算机学校特色,乐山市计算机学校:凝聚特色共成长 分享经验促提升
  17. 独享版虚拟主机、共享版虚拟主机和云服务器ECS的区别?
  18. Unity 2D游戏制作
  19. [博客杂志]2007年中国最红的十大美女明星
  20. 巨头“围攻”之下,新氧医美能否“破局”?

热门文章

  1. http 304响应的理解
  2. oracle 数据类型的变更无效 clob,ORA-22858:数据类型的变更无效varchar2类型转换为clob类型...
  3. 云计算 = “潘多拉”?
  4. Python Spark WordCount
  5. HTML5期末大作业:旅游出行网站设计——旅游网设计(15页) HTML+CSS+JavaScript 学生DW网页设计作业成品 学生旅游网站模板
  6. 使用傲梅分区软件把win10/win8/win7装进U盘或者移动硬盘
  7. ArozOS+树莓派打造随身NAS(避坑专用)
  8. 远程桌面连接是什么?如何开启远程桌面连接详细教程
  9. Go语言WEB框架:请求参数处理
  10. 注册了图形商标还需要申请登记版权吗?