课程来源:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

p1-p13


数据预处理

数据挖掘的最重要的一环:数据预处理。算法则是其次。

Data Preprocessing:

Data Cleaning:

  • Fill in missing values
  • Correct inconsistent data
  • Identify outliters and noisy data

Data Integration:

  • Combine data from different sources

Data Transformation:

  • Normalization
  • Aggregation
  • Type Conversion

Data Reduction:

  • Feature Selection
  • Sampling

在保护用户隐私的前提下获取所需的信息(demo)

问卷调查的两个问题:

A我吸大麻

B我不吸大麻

问题的回答:

回答A问题的概率p

回答B问题的概率1-p

所有的回答中,假设20%的人p*(true)回答了true,但是是A问题的true还是B问题的true呢?

p(true) 是真正吸大麻的人 p(false) 指真正不吸大麻的人。


算法的选择

experience,经验十分重要。先用一些简单的方法,如果是聚类可以用k-means,分类就用knn(例如)。选择能解决问题的算法为首,往往越是简单的越好,解释性强。


数据的缺失忽略问题

当部分数据不可避免地有缺失,若其权重不大,在缺失2%~5%可以忽略。

可以考虑该数据的均值

不存在的数据考虑用0存储

猜数据:概率分布


数据类型(所有数据归根到底都是0与1)

包括连续型数据、离散型、序数型、文本数据。

如何合适的编码数据?

避免人为的去设置编码,不同的编码方式可能会造成问题结构上的不同,或是数据在空间上结构的不同。

例如:

4种颜色怎么编码?

可将不同颜色取4位,这样的话不同颜色就会“等距

数据一定要细化麽?

不一定,原始数据集进性采样,不同类型数据选择不同比例。

数据集不平衡怎么办?

整体的准确率不适用于不平衡数据集

两个分类器A与B,都会做右上角的分类工作(LHS:left hand side, RHS : right hand side)即判定线左侧为红色右侧为蓝色,上图例子可知:A分类器判断右手边为蓝色的准确率为95%,而B分类器判断右手边为蓝色的准确率肯定是100%,左手边有10%的误判率因为B认为左侧均为红色。A将所有样本均分为蓝色,然而实际中可能更重要的是那红色的5%;而A的准确率比B高,但是B从实际上看更符合要求。

此时需要新的度量模式:

f-measure是一种统计量,F-Measure又称为F-Score,F-Measure是Precision和Recall加权调和平均,是IR(信息检索)领域的常用的一个评价标准,常用于评价分类模型的好坏。g-mean在数据不平衡的时候,这个指标很有参考价值。


数据采样

若红色数据远远多于蓝色数据而要进行数据采样该如何?可直接复制蓝色数据来弥补缺失,保证分类准确性,比例更加平衡,当然不是完全克隆,而是利用差值从原始点来生成新的点

边缘采样

往往百万级的数据利用复杂的算法是很难跑得动的,如下:

此时可能边缘数据的价值是最大的。


数据标准化

一般方式为映射到0-1区间,详细可参考:https://blog.csdn.net/weixin_38706928/article/details/80329563

数据相关,参考:https://www.cnblogs.com/bytedance/p/9104848.html


Entropy熵

衡量系统的不确定性,例如让你猜一个人是男是女,各种可能性各占50%,这时候熵就最高

一条信息的信息量大小和它的不确定性有直接的关系,一般用于量化不确定性。例如是男人还是女人的情况熵就是1,代表最不确定取哪个值。、

上图表述何为information gain(信息增益),当新的属性(或数据)加入到你的集合中,会对系统的不确定性降低多少。该值越大越好,说明属性效率越高,一般会在决策树中使用。


PCA(降维)

PCA(Principal Component Analysis,主成分分析) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。

从高维映射到低维,不同的映射方式结果差别很大,因为会有不同的信息损失。例如

两个影子倒退原始物体,推导的结果可能不同。

PCA的问题:它不分类

如上图,PCA会根据红色延13象限方向去做映射,因为PCA不识别类,这样做会使所有映射的数据重叠。

如果是有标签的数据使用LDA(Linear Discriminant Analysis)

它在降维时,会表示出类的区分信息

在投影中,第二幅图的投影方式很好的解决了不同类数据的分类问题。

不同类的数据,数据之间要尽可能远;而同类的数据之间要尽可能短,这很重要,这就是区分。


数据可视化问题

若是一维数据可使用饼图,matlab等工具展示

若是二维数据,表图,matlab

三维数据,matlab

四维?五维呢?

可以利用Box Plots(from matlab)展示数据的分布,但是丧失了数据各各维数之间的关联。

Parallel Coorinaties(High Dimensional)

软件可用:CiteSpace  Gephi


特征选择

属性的选择问题:属性是不是越多越好,越多的属性往往意味着维数越高,若数据量过于庞大,会导致计算过程十分缓慢甚至不见得会有很好的结果(组合爆炸)。

属性的挑选该怎么做?利用Branch and Bound(分支界限)思想:

分支界限法,类似于回溯法,是一种在问题的解空间树T上搜索问题解的算法,在一般情况下,分支界限法和回溯法求解目标不同。回溯法求解目标是找出T中满足约束条件的所有解,而分支界限法的求解目标则是找出满足约束条件的一个解,或是在满足约束条件的解中找出使某一目标函数值达到极大或极小的解,即在某种意义下的最优解

清华数据挖掘:理论算法 视频笔记相关推荐

  1. B站左程云算法视频笔记(01

    1.位运算 异或 ^ ,可理解为不进为相加,满足结合律和交换律 a^a=0: a^0=a: 交换a和b a=a^b: b=a^b: a=a^b: 但必须满足是位置不同的(同一内存位置自己异或结果为0) ...

  2. B站左程云算法视频笔记05

    大数据 有一个包含100亿个URL的大文件,假设每个URL占用64B,请找出其中所有重复的URL (布隆过滤器或者哈希函数分流) [补充]某搜索公司一天的用户搜索词汇是海量的(百亿数据量),请设计一种 ...

  3. 数据挖掘-理论与算法 公开课笔记

    数据挖掘-理论与算法 公开课笔记 制作:纪元 本提纲遵循CC-BY-NC-SA协议 (署名-非商业性-相同方式共享) 最近更新时间:2020年3月4日01:48:00 文章目录 10.2.1.1 Da ...

  4. 8家大厂SSP offer的清华学长谈算法岗是否人间地狱(送七本学长手写iPad笔记)...

    点击上方,选择星标或置顶,每天给你送上干货 作者 | 对白 出品 | 对白的算法屋 编者寄语: 本文看完,相信对你求职算法岗会有一番新的认识. 大家好,我是对白. 之前一直在坚持输出着原创技术文章,同 ...

  5. 8家大厂SSP offer的清华学长谈算法岗是否人间地狱(送七本学长手写iPad笔记)

    作者 | 对白 出品 | 对白的算法屋 编者寄语: 本文看完,相信对你求职算法岗会有一番新的认识. 大家好,我是对白. 之前一直在坚持输出着原创技术文章,同时也在忙于校招内推**(已内推2000+人) ...

  6. 数据挖掘神经网络算法,人工神经网络分析方法

    大数据分析方法分哪些类 本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析.诊断型分析.预测型分析和指令型分析. 当刚涉足数据挖掘分析领域的分析师被问及,数据挖掘分析人员最重要的能力 ...

  7. 最优化理论复习视频合集

    简介: B站自学链接,全是速成方法,对期末复习友好. 简单放点视频笔记+自己的做题笔记,方便后面回顾. 忽然发现用LaTeX写数学公式是一个问题,如果不会写公式只能截图,但以后写论文肯定要学会写公式 ...

  8. 基于MVS的三维重建算法学习笔记(五)— 立体匹配经典算法PatchMatch论文翻译及要点解读

    基于MVS的三维重建算法学习笔记(五)- 立体匹配经典算法PatchMatch论文翻译及要点解读 声明 问题提出 问题建模 通过PatchMatch获取平面参数--Inference via Patc ...

  9. 视频笔记: 北大学霸私藏的高效学习术,教你快速掌握技能知识,培养超强竞争力

    Background 最近无意间翻到了一个b站视频, 讲了一套类似yjingo理论的视频, 而且和我自己的学习理论差不多. 但是作者提到了一个进步, 他对进步的理解非常深刻, 其实我也知道他说进步就是 ...

最新文章

  1. 计算机应用基础课程是过程化考试吗,基于能力的计算机应用基础课程过程化考核标准构建与实施...
  2. AJPFX关于Set接口学习笔记及总结
  3. 一部合格的手机是怎么生产出来的?
  4. Oracle undo表空间
  5. linux系统取消自检,[转载]取消Linux启动自检
  6. VS2010 C++下编译调试MongoDB源码
  7. c语言删除文件第一行_ElasticSearch 文档的删除和批量操作
  8. python绘制双正切激活函数
  9. 小帅小胖智能机器人如何使用_小帅智能教育机器人使用技巧篇(下篇)
  10. oracle 不查加锁的记录,查询记录时给oracle记录加锁
  11. linux怎样ping域名看不到ip,在linux下,ping域名ping不了,ping ip却可以解决办法
  12. CSS基础part1
  13. 简述ip地址的abc类如何划分_IP地址的ABC类划分
  14. 数学建模方法——层次分析法(AHP)
  15. 衡量机器学习算法的准确性标准
  16. 智慧燃气系统基于GIS技术的搭建
  17. 安装busybox步骤
  18. H5网页元素和全局属性
  19. 计算机网络中的IP到底是什么?
  20. 我的世界服务器不显示计分板,我的世界-计分板指令用法详细图文教程

热门文章

  1. Android开发:recycleView页面点击跳转
  2. 60天精通Python全栈-Day 1
  3. Linux启动svn服务常用命令
  4. 终于,今天40岁了!
  5. 如何提升开发效率?用这些免费API就够了
  6. mpstat使用详解
  7. android的ios11,iOS11对比iOS10:界面大改更像安卓
  8. 独立按键的奇偶数检测
  9. ios app开发学习流程(入门到精通)
  10. c语言读文件取消空格 0,c语言从文件读取字符串遇到空格停止,并把字符串保存...