文章目录

  • 1 基于马尔科夫边界发现的因果特征选择算法综述
    • 1.1 摘要
    • 1.2 基本原理与现有方法分类
      • 1.2.1 问题定义与基础理论
    • 1.3 现有马尔科夫边界学习方法分类及其基本原理
    • 1.4 半监督MB发现算法
    • 1.5 因果特征选择与传统方法的异同
    • 1.6 总结
  • 2 特征选择算法及其在因果发现中的研究与应用
    • 2.1 摘要
    • 2.2 总结
  • 3 因果特征选择与结构学习算法研究
    • 3.1 摘要
    • 3.2 总结
  • 4 基于因果稳定学习的乳腺肿瘤分类研究及应用
    • 4.1 摘要
      • 4.1.1 构建基于因果稳定学习的乳腺肿瘤诊断模型
    • 4.2 因果推理学习
    • 4.3 基于去相关的权重计算(可证明可行性)
    • 4.4 总结
  • 5 基于因果稳定学习的糖尿病性心血管疾病风险评估
    • 5.1 摘要
    • 5.2 基于因果稳定和时间感知的LSTM
    • 5.3 总结
  • 6 基于1阶增广树研究构造K阶贝叶斯因果森林模型
  • 7 “一带一路”倡议与中国企业全要素生产率 ——基于因果森林算法
  • 8 区域协调发展政策效果的再评估—来自因果森林算法的异质性处理效应分析
  • 9 半监督菌群优化因果特征选择是否可行?
  • 参考文献

1 基于马尔科夫边界发现的因果特征选择算法综述

1.1 摘要

  • 是什么:因果特征选择算法(也称马尔科夫边界发现【因果特征选择算法和马尔科夫边界发现是等价的关系吗】)学习目标变量的马尔科夫边界,选择与目标存在因果关系的特征【已知特征集合和目标变量,选择与目标存在因果关系的特征,那适用于政策工具的选择吗?】。
  • 分类:分为单重马尔科夫边界发现算法和多重马尔科夫边界发现算法【注意异同点、每类的经典算法及研究进展】。
  • 改进及应用:因果特征选择在**特殊数据(半监督数据、多标签数据、多源数据、流数据等)**中的改进和应用。

1.2 基本原理与现有方法分类

1.2.1 问题定义与基础理论

MB相关的基本定义和基础理论。本文使用U表示特征集合,T表示目标变量(标签)。MB的概念来源于贝叶斯网络。

1.3 现有马尔科夫边界学习方法分类及其基本原理

1.4 半监督MB发现算法

许多真实世界应用通常难以获取有标签的样本,但容易收集无标签数据。为了同时利用无标签和有标签数据学习MB,学者们提出一些半监督MB发现方法,包括分治法BASSUM (Bayesian Semi-Supervised,使用一个基于半监督数据改进的 G 2 G^2 G2,使有标签和无标签数据中的信息可同时用于判断变量之间的条件独立关系)和直接法Semi-IAMB

1.5 因果特征选择与传统方法的异同

  • MB发现算法与因果特征选择算法在概念和功能上都是等价的;MB集合就是所选特征集合,其中的特征就是算法选择的因果特征;本文提到的所有单重MB发现算法都可直接用于因果特征的选择。但多重MB发现算法会选择多个特征子集,需要进一步选择最合适的特征子集. 一般会根据特征集合的规模、特征获取的难易程度和成本等因素考虑最终使用哪个MB集合。
  • 因果特征选择属于过滤式,该类方法时间效率较高,对过拟合问题更鲁棒。传统过滤法通常利用评分函数评估特征与目标变量之间的关联性,并根据分数排序特征并选择相关特征,而评分函数通常基于条件互信息的概念而设计,这与MB发现算法中条件独立性测试的本质是一致的。但是,传统过滤法与MB发现算法对条件互信息的度量精确程度不同,这可从互信息度量中条件集合的规模进行评价。
  • MB 发现算法具有可靠的理论保证,能证明MB集合是最优的特征子集,而传统过滤法并未在理论上给出最优特征子集的标准解.

1.6 总结

  • 马尔科夫边界发现算法就是因果特征选择算法吗?
  • 可以从那几方面进行方法创新?
  • 如何与智能优化算法相结合?

2 特征选择算法及其在因果发现中的研究与应用

2.1 摘要

  • 最大相关最小冗余准则与分类器结合,提出一种“封装式”特征选择方法FEFS,该方法依次为每个特征计算评分,然后再通过分类器计算并判断这些特征是否能有效提高模型精度,从而确定是否选择该特征。
  • 基于FEFS算法设计出一种应用在肺结节语义特征预测领域的计算机辅助诊断系统(CAD)。使用肺结节CT图像中的数字特征,通过快速的特征评分计算与分类器搜索,有效剔除大量无效图像特征,通过模型训练最总输出相关肺结节语义特征等级。
  • 基于对数似然函数,重新定义相关特征和冗余特征,从因果图结构的角度提出一种比较的方法来识别目标节点的候选邻居节点。提出一种从非线性弱加性噪声数据中学习因果结构的算法NLCDSF,该算法作为一种贝叶斯网络结构增量学习算法,在线分析特征之间的关系,以比较的方法快速识别目标节点的候选邻居,并有效缩小后续定向过程的搜索范围。

2.2 总结

  • 本文所针对的特殊数据是流数据,与标签缺失数据还有所不同,虽然有些文字可以参考,但建议再找找其他相关算法。
  • 需要考虑一个问题,政策是由降维后的特征向量和类别属性组成的集合所描述,我们需要考虑分析政策之间的关联关系,由各个单一政策选择出不同的政策组合,其实与特征选择无关,或者是不同政策可以算是不同的列,需要注意一下因果机器学习与因果特征选择具体如何应用、差异在哪里。

3 因果特征选择与结构学习算法研究

3.1 摘要

  • 是什么:因果特征选择是发现类属性的贝叶斯网络(Bayesian network,BN)的子结构,即马尔科夫毯(Markovblanket,MB),该 MB 由类属性的父母(直接原因),孩子(直接结果)和配偶(直接结果的其他直接原因)组成,从而明确地推导出局部类属性和特征之间的因果关系
  • 分类同步类因果特征选择方法将当前选择的所有特征作为条件集来牺牲精度以提高效率,而分治类因果特征选择方法尽管穷举了所选特征的子集以提高精度,但是从父子节点(parents and children,PC)的 PC中寻找配偶牺牲了效率。
  • 提出算法:① 一种平衡的 MB 发现算法 BAMB(BAlanced MB)。BAMB将找候选 PC 和配偶,以及删除假 PC 和配偶统一到一个循环内,从而尽可能早的删除错误 PC 和配偶,以使条件集的长度始终保持在最小的范围来平衡效率和准确率;② **基于特征选择的局部因果结构学习算法 LCS-FS(Local Causal Structure learningby Feature Selection)**来提高现有算法的效率。具体来说,LCS-FS 使用无需条件集的特征选择方法寻找 PC,并通过在 PC 中寻找割集的方式来帮助寻找 V 结构,进而对目标节点的父亲节点和孩子节点进行区分;③ 高效且准确的任意部分的因果结构学习算法,称为 APSL(Any Part of BN Structure Learning)。APSL将 MB 中的 V 结构分为 collider V 结构和 non-collider V 结构,并在每次迭代中递归的寻找 collider V 结构和 non-collider V 结构,直到感兴趣部分的 BN 结构完全定向。为提高 APSL 的效率,本文进一步设计了基于特征选择的 APSL 算法,APSL-FS。在一系列的标准 BN 数据集上的实验上验证了 APSL 和 APSL-FS 的有效性。

3.2 总结

  • 就因果特征选择的理解与前两篇文章一致;
  • 需要明确因果特征选择和因果推理方法是否一致,确定使用因果推理、因果机器学习、还是因果特征选择;
  • 确定之后要看能否和菌群算法相结合

4 基于因果稳定学习的乳腺肿瘤分类研究及应用

(因果稳定学习是啥?敖 基于因果推断)

4.1 摘要

4.1.1 构建基于因果稳定学习的乳腺肿瘤诊断模型

  • 先把报告结构化,以此获取报告丰富的语义层次。
  • 之后,使用非线性函数将输入数据映射到低维空间,在保留原始特征信息的同时降低特征维度,以此缓解数据的缺失情况。
  • 最终,利用因果推理学习全局平衡权重,并使用该权重指导模型的FS

4.2 因果推理学习

  • Pearl 将因果推断分为三个层次,自底至顶分别为:关联、干预、反事实。最底层的关联(Association)便是基于大量数据学习变量之间的关联关系,但这种关联统计只能分析出两个变量是否相关,而无法挖掘出两者之间是否存在影响,即一个变量的改变是否是由另一个变量导致的。中间是干预(Intervention),通过对一个变量进行干预,观察另一个变量是否会改变。若一个变量的改变会导致另一个变量的改变,便可得出两个变量之间具有因果关系。因此,干预便可发现变量之间是否存在因果关系。最高级别是反事实(Conterfactuals),反事实是因果推理中的一种假设,假设过去发生的事实不在发生,结果是否会发生变化,也就是“执果索因”。

  • 寻找所观测变量与目标之间的相关性进行模型的决策,这基于数据“独立同分布”假设,而现实世界数据往往并不遵循这一假设,使得模型在实际使用中效果并不理想。当前的因果推理研究旨在通过干预或反事实根据已发生的结果推理出结果与结果发生条件的因果关系,使得模型基于变量间因果关系进行学习,改善模型的稳定性。

  • 因果推断学习分类:实验性研究和观测性研究。实验性研究是因果推理研究中最为有效的研究方法,通过设计对比实验,将参与者随机分为对照组和实验组,控制无关变量,观察干预结果。该方法需要大量参与者,且可能存在伦理道德问题,目前普遍采用观测性研究方法从已有的数据集或可获取的数据中进行因果推理研究,主要模型有结构因果模型(structual causal model,通过构建因果图和结构方程来表示变量间因果关系,为概率因果模型)和潜在结果框架(potential outcome framework,潜在结果框架旨在估计不同干预下 Y 的潜在结果,将潜在结果与真实结果之间的差异定义为干预的干预效果,使用平均干预效果表示干预变量T 与结果 Y 的因果关系)。


4.3 基于去相关的权重计算(可证明可行性)

为提高模型的稳定性,本节从因果推理的角度出发,利用去相关权重(Decorrelated Weighting, D-W)模块(这个模块得详细了解一下),学习一组权重,降低特征间的相关性,以此减小数据集之间的分布差异带来的影响,并使用该权重指导后续模型尽可能学习到正确的与标签相关的特征表示

4.4 总结

  • 政策工具和政策是否相同,在政策工具组合挖掘中,主体是政策工具,我们要分析政策之间的相关性,选用不同的政策工具组合(属性)的样本,可以用因果推理!

5 基于因果稳定学习的糖尿病性心血管疾病风险评估

5.1 摘要

  • 基于重要性评分的糖尿病代写特征选择方法,用于糖尿病数据集的特征分析和选取。
  • 提出了一个基于个体特征交互的因果稳定学习模型,用于糖尿病性心血管疾病风险评估。因果稳定和时间感知的长短期记忆网络+基于注意力机制将个体特征与 Causal-aware TLSTM中得到的疾病风险信息进行特征交互+模型使用全连接网络进行疾病风险评估

5.2 基于因果稳定和时间感知的LSTM

记全体就诊医疗特征中的一个特征变量为

【文献调研】半监督菌群优化因果特征选择是否可行?相关推荐

  1. 深度学习(三十二)半监督阶梯网络学习笔记

    半监督阶梯网络学习笔记 原文地址:http://blog.csdn.net/hjimce/article/details/50877704 作者:hjimce 一.相关理论 这几年深度学习声名鹊起,一 ...

  2. 【图像分割】基于萤火虫优化的半监督谱聚类彩色图像分割方法(Matlab代码实现)

    目录 0 概述 1 萤火虫算法 1.1 思想来源 1.2 数学模型 1.2.1 萤火虫相对荧光亮度 1.2.2 萤火虫吸引度 1.2.3 位置更新 1.3 算法步骤 2 基于萤火虫优化的半监督谱聚类彩 ...

  3. ICCV 2019 | 爱奇艺提出半监督损失函数,利用无标签数据优化人脸识别模型

    点击我爱计算机视觉标星,更快获取CVML新技术 论文发表于ICCV 2019 作者 | 爱奇艺技术产品团队 编辑 | 唐里 论文标题:Unknown Identity Rejection Loss: ...

  4. 文献记录(part57)--半监督学习方法

    学习笔记,仅供参考,有错必究 关键词 :半监督学习:有类标签的样本:无类标签的样例:类标签:成对约束 文章目录 半监督学习方法 引言 半监督学习概述 半监督学习研究的发展历程(略) 半监督学习依赖的假 ...

  5. 【CVPR 2020】 旷视研究院提出SAT:优化解决半监督视频物体分割问题

    IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 将于 6 月 14- ...

  6. 【文献调研】慢病患者就医行为预测:就医选择行为有哪些?预测什么?如何预测?慢病患者?

    文章目录 0 吾日三问 1 基于医保数据的就医行为预测及推荐模型的研究 1.1 摘要 1.2 基于张量CP分解的就医行为分组预测模型 1.3 总结 2 居民就医行为主要影响因素的调查研究 2.1 摘要 ...

  7. arXiv与文献调研神器Connected Papers强强联合

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  8. 图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :专知 AI博士笔记系列推荐 ...

  9. 半监督学习matlab,基于自适应图的半监督学习方法与流程

    本发明属计算机视觉.图形处理 技术领域: ,具体涉及一种基于自适应图的半监督学习方法. 背景技术: :随着计算机网络技术的快速发展和人们对数据访问的多样化,人们可以获得的信息呈指数级别增长,如何利用这 ...

最新文章

  1. 电力系统稳定与控制_基于数据驱动的电力系统稳定性分析
  2. hdu1395 2^x mod n = 1
  3. android emmc 命令,使用CoreELEC的ceemmc工具将系统写入emmc
  4. 来电语音播报软件下载apk_消息语音播报app下载-消息语音播报安卓版 v1.0.1 - 安下载...
  5. Java中的序列问题-2
  6. win10搭建无盘服务器配置,win10系统无盘安装教程
  7. 快速搭建java后台管理系统
  8. 第一次养狗_如何度过艰难的第一个月
  9. 学计算机的应届生怎么面试自我介绍,最新应届生面试自我介绍(精选3篇)
  10. 【风马一族_php】NO5_php基础知识_数组
  11. 抽取modelnet40_ply_hdf5_2048数据集的子类集制作h5点云
  12. 暂时性死区的详解(TDZ)
  13. html六边形空心,六边形空心预制块模具基本知识
  14. 计算机所选区域单元格数值,筛选Excel2007单元格区域或表中的数据
  15. 卫星ku波段为何优先使用垂直极化波
  16. 内存优化 · 基础论 · 初识 Android 内存优化
  17. 数码相机和单反相机有什么区别?(已解决)
  18. 第四次c语言实验报告模板,C语言实验报告模板完成版
  19. 血压计模块|臂式血压计方案
  20. 【蓝桥杯】孪生素数——十个最小

热门文章

  1. 曙光服务器装系统配置,曙光作业管理-调度系统安装配置手册
  2. vba,自定义公式,农历互转公历,excel ,wps
  3. detach screen_screen命令的使用
  4. 【范县城关镇社工站】“快乐无忧,健康相守”活动
  5. selenium+chrome抓取淘宝搜索抓娃娃关键页面
  6. python字符串的定界符不能是_Python|字符串str的构造、操作(操作符、函数、方法)...
  7. Pandas载入数据(csv, JSON,XML,Excel,二进制数据,网页数据,数据库数据)
  8. 微服务下必须了解的4种部署策略!
  9. 电商扣减库存_电商后台:商品库存管理之批次管理
  10. 使用CMD跳转到指定文件夹