分析机器学习在应用时需要掌握的经验及编程技巧。通过实际案例的形式,介绍如何提炼创新点,以及如何发表高水平论文等相关经验。旨在掌握Python编程的基础知识与技巧、特征工程(数据清洗、变量降维、特征选择、群优化算法)、回归拟合(线性回归、BP神经网络、极限学习机)、分类识别(KNN、贝叶斯分类、支持向量机、决策树、随机森林、AdaBoost、XGBoost与LightGBM等)、聚类分析(K均值、DBSCAN、层次聚类)、关联分析(关联规则、协同过滤、Apriori算法)的基本原理及Python代码实现方法

原文链接:python数据挖掘与机器学习实践技术

模块一:Python编程【夯实基础】课前学习内容,Ai尚研修提供详细资料Python编程入门1、Python环境搭建( 下载、安装与版本选择)。2、如何选择Python编辑器?(IDLE、Notepad++、PyCharm、Jupyter…)3、Python基础(数据类型和变量、字符串和编码、list和tuple、条件判断、循环、函数的定义与调用等)4、常见的错误与程序调试5、第三方模块的安装与使用6、文件读写(I/O)7、实操练习

Python进阶与提高1、Numpy模块库(Numpy的安装;ndarray类型属性与数组的创建;数组索引与切片;Numpy常用函数简介与使用)2、Pandas模块库(DataFrame数据结构、表格的变换、排序、拼接、融合、分组操作等)3、Matplotlib基本图形绘制(线形图、柱状图、饼图、气泡图、直方图、箱线图、散点图等)4、图形样式的美化(颜色、线型、标记、字体等属性的修改)5、图形的布局(多个子图绘制、规则与不规则布局绘制、向画布中任意位置添加坐标轴)6、高级图形绘制(3D图、等高线图、棉棒图、哑铃图、漏斗图、树状图、华夫饼图等)7、坐标轴高阶应用(共享绘图区域的坐标轴、坐标轴刻度样式设置、控制坐标轴的显示、移动坐标轴的位置)8、实操练习

模块二:特征工程

数据清洗

1、描述性统计分析(数据的频数分析:统计直方图;数据的集中趋势分析:算数平均值、几何平均数、众数、极差与四分位差、平均离差、标准差、离散系数;数据的分布:偏态系数、峰度;数据的相关分析:相关系数)2、数据标准化与归一化(为什么需要标准化与归一化?)3、数据异常值、缺失值处理4、数据离散化及编码处理5、手动生成新特征6、实操练习

变量降维

1、主成分分析(PCA)的基本原理

2、偏最小二乘(PLS)的基本原理

3、案例实践

4、实操练习

特征选择

1、常见的特征选择方法(优化搜索、Filter和Wrapper等;前向与后向选择法;区间法;无信息变量消除法;正则稀疏优化方法等)

2、案例实践

3、实操练习

群优化算法

1、遗传算法(Genetic Algorithm, GA)的基本原理(以遗传算法为代表的群优化算法的基本思想是什么?粒子群算法、蜻蜓算法、蝙蝠算法、模拟退火算法等与遗传算法的区别与联系)

2、遗传算法的Python代码实现

3、案例实践一:一元函数的寻优计算

4、案例实践二:离散变量的寻优计算(特征选择)

5、实操练习

模块三:回归拟合模型

线性回归模型

1、一元线性回归模型与多元线性回归模型(回归参数的估计、回归方程的显著性检验、残差分析)

2、岭回归模型(工作原理、岭参数k的选择、用岭回归选择变量)

3、LASSO模型(工作原理、特征选择、建模预测、超参数调节)

4、Elastic Net模型(工作原理、建模预测、超参数调节)

5、案例实践

6、实操练习

前向型神经网络

1、BP神经网络的基本原理(人工智能发展过程经历了哪些曲折?人工神经网络的分类有哪些?BP神经网络的拓扑结构和训练过程是怎样的?什么是梯度下降法?BP神经网络建模的本质是什么?)

2、BP神经网络的Python代码实现(怎样划分训练集和测试集?为什么需要归一化?归一化是必须的吗?什么是梯度爆炸与梯度消失?)

3、BP神经网络参数的优化(隐含层神经元个数、学习率、初始权值和阈值等如何设置?什么是交叉验证?)

4、值得研究的若干问题(欠拟合与过拟合、泛化性能评价指标的设计、样本不平衡问题等)

5、极限学习机(Extreme Learning Machine, ELM)的工作原理

6、案例演示 7、实操练习

模块四:分类识别模型

KNN、贝叶斯分类与支持向量机

1、KNN分类模型(KNN算法的核心思想、距离度量方式的选择、K值的选取、分类决策规则的选择)

2、朴素贝叶斯分类模型(伯努利朴素贝叶斯BernoulliNB、类朴素贝叶斯CategoricalNB、高斯朴素贝叶斯besfGaussianNB、多项式朴素贝叶斯MultinomialNB、补充朴素贝叶斯ComplementNB)

3、SVM的工作原理(SVM的本质是解决什么问题?SVM的四种典型结构是什么?核函数的作用是什么?什么是支持向量SVM扩展知识(如何解决多分类问题?SVM除了建模型之外,还可以帮助我们做哪些事情?)

4、案例实践

5、实操练习

决策树、随机森林、LightGBM、XGBoost

1、决策树的工作原理(微软小冰读心术的启示;什么是信息熵和信息增益?ID3算法和C4.5算法的区别与联系);决策树除了建模型之外,还可以帮我们做什么事情?

2、随机森林的工作原理(为什么需要随机森林算法?广义与狭义意义下的“随机森林”分别指的是什么?“随机”体现在哪些地方?随机森林的本质是什么?怎样可视化、解读随机森林的结果?)

3、Bagging与Boosting的区别与联系

4、AdaBoost vs. Gradient Boosting的工作原理

5. 常用的GBDT算法框架(XGBoost、LightGBM)

6、案例实践

7、实操练习

模块五:聚类分析算法

K均值、DBSCAN、层次聚类

1、K均值聚类算法的工作原理

2、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法的工作原理

3、层次聚类算法的工作原理

4、案例讲解

5、实操练习

模块六:关联分析算法

关联规则、协同过滤Apriori算法

1、关联规则算法的工作原理

2、协同过滤算法的工作原理

3、Apriori算法的工作原理

4、案例讲解

5、实操练习

模块七:总结与答疑讨论信息检索与常用科研工具

1、如何无障碍地访问Google、YouTube等网站?(谷歌访问助手、VPN等)

2、如何查阅文献资料?怎样能够保证对最新论文的追踪?

3、Google Scholar、ResearchGate的使用方法

4、应该去哪些地方查找与论文配套的数据和代码?

5、文献管理工具的使用(Endnote、Zotero等)

6、当代码出现错误时,应该如何高效率解决?

7、实操练习

推荐阅读:
科研工具-R-META分析与【文献计量分析、贝叶斯、机器学习等】多技术融合实践

论文工具--Citespace和vosviewer文献计量学

python数据挖掘与机器学习实践技术相关推荐

  1. 带你入门Python数据挖掘与机器学习(附代码、实例)

    作者:韦玮 来源:Python爱好者社区 本文共7800字,建议阅读10+分钟. 本文结合代码实例待你上手python数据挖掘和机器学习技术. 本文包含了五个知识点: 1. 数据挖掘与机器学习技术简介 ...

  2. 《python数据挖掘》和《python数据挖掘入门与实践》两本书读后感

    这些天花了很多时间来学习数据挖掘这门课程,有很多心得和感悟,所以写下这篇博客来表达自己读完这两本书的感受! 首先推荐大家通过这两本书来入门数据挖掘这个领域,python数据挖掘这本书较容易,还花了很大 ...

  3. Python 数据挖掘与机器学习基础-韦玮-专题视频课程

    Python 数据挖掘与机器学习基础-252人已学习 课程介绍         Python 数据挖掘与机器学习基础 课程收益     Python全栈工程师 讲师介绍     韦玮 更多讲师课程   ...

  4. Python 数据挖掘与机器学习进阶实训-3-韦玮-专题视频课程

    Python 数据挖掘与机器学习进阶实训-3-106人已学习 课程介绍         Python 数据挖掘与机器学习进阶实训-3 课程收益     培养Python全栈工程师 讲师介绍     韦 ...

  5. Python 数据挖掘与机器学习进阶实训-2-韦玮-专题视频课程

    Python 数据挖掘与机器学习进阶实训-2-39人已学习 课程介绍         Python 数据挖掘与机器学习进阶实训-2 课程收益     培养Python全栈工程师 讲师介绍     韦玮 ...

  6. Python 数据挖掘与机器学习进阶实训-1-韦玮-专题视频课程

    Python 数据挖掘与机器学习进阶实训-1-262人已学习 课程介绍         Python 数据挖掘与机器学习进阶实训-1 课程收益     培养Python全栈工程师 讲师介绍     韦 ...

  7. Python 数据挖掘与机器学习进阶实训-5-韦玮-专题视频课程

    Python 数据挖掘与机器学习进阶实训-5-141人已学习 课程介绍         Python 数据挖掘与机器学习进阶实训-5 课程收益     Python全栈工程师培养 讲师介绍     韦 ...

  8. Python数据挖掘入门与实践-OneR分类算法

    Python数据挖掘入门与实践-OneR分类算法 OneR算法 OneR算法是根据已有的数据中,具有相同特征值的个体最可能属于哪个类别进行分类. 在本例中,只需选区Iris是个特征中分类效果最好的一个 ...

  9. python数据挖掘与入门实践(2.2)用sciket-learn估计器分类

    接python数据挖掘与入门实践(2.1)用sciket-learn估计器分类 三.运行算法 交叉验证一般分为三类:double-fold CV 即经常所说的2折交叉:10-fold交叉和LOO(le ...

最新文章

  1. Linux事件循环阻塞,深入浅析Node.js 事件循环、定时器和process.nextTick()
  2. 高通、猎户机型Android典型bootloader分析
  3. [vue] 说说你对vue的表单修饰符.lazy的理解
  4. STL源码剖析 priority_queue
  5. Java程序员到架构师必须要学习到的知识点有哪些呢?
  6. ccf矩阵java_CCF系列之矩阵(201512-5)
  7. 5.Nginx 反向代理
  8. 【算法/C语言】01背包问题(动态规划DP)
  9. 安卓9.0设置以太网静态IP地址
  10. 微信网页授权登录demo
  11. dayday60-120
  12. 爬虫系列之爬取1688
  13. C语言中函数的一些基本内容
  14. PAL/PLA/GAL/CPLD/FPGA
  15. 此应用程序当前处于脱机状态
  16. 都匀三中2021高考成绩查询,2017年黔南州高考各县市600分以上人数统计表,都匀市仅排第九。...
  17. 开发者举报:“除了每年收我的钱,苹果似乎什么都不想做”
  18. 别贩卖焦虑了,人工智能永远无法取代你
  19. 英文SEO友情链接的购买规则
  20. Error in nextTick: “NotFoundError: Failed to execute ‘insertBefore‘ on ‘Node‘: The node before which

热门文章

  1. 计算机专业英语的阅读理解,计算机专业英语阅读
  2. 戴尔服务器配置(格式数据、RAID5、安装ESXI)
  3. 前端使用canvas绘制立体三角形
  4. php动图加水印,php+imagemagick给gif动态图片添加水印
  5. 杀不死进程怎么办(by liukun321咕唧咕唧)
  6. 如何在Intellij IDEA中管理svn并进行分支的合并
  7. Python UI 界面 tkinter初步
  8. 在线书籍推荐(持续更新中)
  9. Linux故障恢复之—破解root口令
  10. 磁力开源项目和自己服务器,怎么拥有个人磁力 - leoay的个人空间 - OSCHINA - 中文开源技术交流社区...