文章目录

  • 论文信息
  • ABSTRACT
    • 问题
    • 解决
    • 方法
    • 效果
  • 1. Introduction
  • 2. Data Processing
  • 3. Proposed Architecture
    • 3.1 LASSO Shrinkage and Majority Voting
    • 3.2 CNN Architecture
      • 3.2.1 Training Schedule
  • 4. Results
    • 4.1 Summary Statistics
    • 4.2 Model Results
    • 4.3. Comparison of ML models
      • 4.3.1. Comparison with state-of-the-art ML models
      • 4.3.2. Our LASSO-CNN vs vanilla CNN
    • 3.3 Data Augementation
      • 3.3.1 Data augmentation
      • 3.3.2 Data undersampling
      • 4.3.3 Data oversampling strategies
      • 4.3.4. Data undersampling strategies
    • 4.4. Validation on stroke data
    • 4.5 Notes on the resilience to data imbalance
  • 5. Conclusion, Limitations and Future Research
    • 5.1 Conclusion
    • 5.2 Limitation
    • 5.3 Future Research

论文信息

Title :An Efficient Convolutional Neural Network for Coronary Heart Disease Prediction
Journal : Expert Systems with Applications
Year: 2020
Author : Aniruddha Dutta, Tamal Batabyal, Meheli Basu, Scott T. Acton

ABSTRACT

问题

目前大多数的机器学习模型对类不平衡数据很敏感,即使调整了特定类的权重。

解决

本研究提出一种带卷积层的神经网络模型,对类不平衡的临床数据 - 冠心病进行分类。

方法

  • 特征选择:使用基于最小绝对收缩和选择算子(LASSO)进行特征权重评估,并基于多数投票法对重要特征识别。

  • 模型训练:模型训练过程中,通过使用 fully connected layer 来均质化重要的特征,这是将层的输出传递到连续卷积层之前的关键步骤。

  • 此外还提出每个 epoch 的 training schedule,类似于模拟退火过程,以提高分类精度。

效果

NHANES 数据集存在较高的类别不平衡问题,本文提出的CNN体系结构在正确分类存在冠心病方面的分类能力为77%,在测试数据上准确分类冠心病病例的能力为81.8%,占总数据集的85.70%。
这一结果表明,本文建议的体系结构可以推广到具有类似特征和不平衡顺序的医疗保健领域的其他研究。

1. Introduction

Our architecture is simple in design, elegant in concept, sophisticated in training schedule, effective in outcome with far-reaching applicability in problems with unbalanced datasets.

Contributions:

  • our model uses a variable elimination technique using LASSO and feature voting as preprocessing steps;
  • we leverage a shallow neural network with convolutional layers, which improves CHD prediction rates compared to existing models with comparable subjects (the ‘shallowness’ is dictated by the scarcity of class-specific data to prevent overfitting of the network during training);
  • in conjunction with the architecture, we propose a simulated annealing-like training schedule that is shown to minimize the generalization error between train and test losses.

2. Data Processing

数据集来自1999-2000年至2015-2016年的NHANES数据。
由37,079名 (冠心病-1300人,非冠心病-35,779人) 的人口统计、检查、实验室和问卷数据组合而成,如图1所示。

Fig. 1 Data compilation from National Health and Nutritional Survey (NHANES). The data is acquired from 1999 to 2016 in three categories – Demography, Examination and Laboratory. Based on the nature of the factors that are considered, the dataset contains both the quantitative and the qualitative variables.

总共使用了 30 个连续变量和 6 个分类变量来预测冠心病。

详细列出的变量有:性别、年龄、家庭年收入、贫困家庭收入比、60秒脉率、收缩压、舒张压、体重、身高、体重指数、白细胞、淋巴细胞、单核细胞、嗜酸性粒细胞、嗜碱性粒细胞、红细胞、血红蛋白、平均细胞体积、血红蛋白平均浓度、血小板计数、血小板平均体积、中性粒细胞、红细胞压积、红细胞宽度、白蛋白、碱性磷酸酶(Alp)。乳酸脱氢酶(LDH)、磷、胆红素、蛋白质、尿酸、甘油三酯、总胆固醇、高密度脂蛋白(HDL)、糖化血红蛋白、剧烈运动、适度运动、健康保险、糖尿病、血液相关糖尿病和血液相关中风。

3. Proposed Architecture

3.1 LASSO Shrinkage and Majority Voting

LASSO 或最小绝对收缩和选择算子是一种回归技术,用于变量选择和正则化,以提高其产生的统计模型的预测精度和可解释性。

LASSO 是一个二项问题,目标是最小化如下目标函数:

∑i=1n(yi−∑jxijγj)2+λ∑j=1p∣γj∣\sum_{i=1}^n(y_i - \sum_j x_{ij} \gamma_j)^2 + \lambda \sum_{j=1}^p |\gamma_j| i=1n(yijxijγj)2+λj=1pγj

  • λ\lambdaλ 是收缩量的调整参数,控制正则化惩罚的强度。λ=0\lambda =0λ=0,不会消除任何参数。随着λ\lambdaλ 的增加,更多系数被设置为0,并消除。
  • λ\lambdaλ 增加,偏差增加,λ\lambdaλ 减小,方差增加。
  • 变量(因子)的 γ\gammaγ 值可以解释为变量的重要性,即该变量对数据中潜在变化的贡献。γ\gammaγ为零的变量被认为不重要。

为减轻不平衡的影响,采用了对数据集进行随机细分采样和多次迭代 LASSO 的策略。对该组 γ\gammaγ 值执行多数投票,以标识在主要迭代次数中非零的变量。假设在 NNN个随机二次抽样数据集上执行 LASSO NNN 次,其中每个 instance 在CHD和非CHD情况下具有相等数量的samples。

LASSO的第 iii 个 instance,得到 γi=[γi,1γi,2......γi,45]\gamma_i = [\gamma_{i,1}\gamma_{i,2}......\gamma_{i,45}]γi=[γi,1γi,2......γi,45]

对于任何变量

论文 | An Efficient Convolutional Neural Network for Coronary Heart Disease Prediction相关推荐

  1. MobileNetV1《MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications》

    MobileNetV1<MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications> ...

  2. 读后感-论文Patch-based Convolutional Neural Network for Whole Slide Tissue Image Classification

    读后感背景 工作中要对高分辨率图像(至少1024 \(\times\) 1024)进行分类,而且ground-truth分类的标准一般都是取决于像素级别的精细local feature(e.g. te ...

  3. 【翻译论文】An Architecture Combining Convolutional Neural Network (CNN) and Support Vector Machine (SVM)

    [翻译论文]An Architecture Combining Convolutional Neural Network (CNN) and Support Vector Machine (SVM) ...

  4. 论文笔记(三):PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes

    PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes 文章概括 摘要 1. ...

  5. 《Improved Crowd Counting Method Based onScale-Adaptive Convolutional Neural Network》论文笔记

    <Improved Crowd Counting Method Based onScale-Adaptive Convolutional Neural Network>论文笔记 论文地址 ...

  6. 【读点论文】PP-LCNet: A Lightweight CPU Convolutional Neural Network,面向CPU级的技巧结合下的低延迟,较高精度模型

    PP-LCNet: A Lightweight CPU Convolutional Neural Network 提出了一个基于MKLDNN加速策略的轻量级CPU网络,命名为PP-LCNet,它提高了 ...

  7. 【论文笔记】Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos

    这篇论文提出了一种称为管道卷积神经网络( tube convolutional neural network,T-CNN) 的结构,它是 Faster R-CNN 从 2D 到 3D 的扩展.该方法先 ...

  8. 论文阅读:Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos

    Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos 文章目录 Tube Convolutional Neu ...

  9. 【读论文】Loop Closure Detection for Visual SLAM Systems Using Convolutional Neural Network

    [读论文]Loop Closure Detection for Visual SLAM Systems Using Convolutional Neural Network 发表于2017年,作者是南 ...

最新文章

  1. xBIM 实战01 在浏览器中加载IFC模型文件
  2. CNN被打败!Transformer将统帅人工智能?
  3. codeblocks、wxWidgets环境配置
  4. basler相机的触发线是那两脚_机器视觉相机类型以及接口标准详解
  5. ArcGISServer10安装与地图发布
  6. 51单片机c语言程序控制,51单片机C语言编程基础及实例.pdf
  7. Egret之属性绑定
  8. 解决VMware 7在Windows 7上无法上网的问题
  9. Spring 3.0 基于 Annotation 的依赖注入实现
  10. java 报表模版 打印_Java报表工具技巧--Style Report报表套打模板设计
  11. WorkNC编程软件配套英格索尔高速铣刀帮助奥迪加工
  12. 【2013年总结】思维跌宕起伏,生命颠簸曲折的一年
  13. python编写poc_POC编写基础知识
  14. 智力题:13 个球一个天平,现知道只有一个和其它的重量不同,问怎样称才能用三次就找到那个球?
  15. html怎样自动播放视频,html5自动播放mov格式视频的实例代码
  16. IPHONE苹果手机短信短消息备份导出,格式分析,数据库sqlite
  17. 【原创干货】免费企业服务评测汇总
  18. 【从零开始玩量化1】AKShare: Python开源财经数据接口库
  19. 在地图上可视化地理空间数据的12种方法
  20. STM32H7外设配置速查【QSPI部分】

热门文章

  1. Authing 2.0 发布:聊聊 IDaaS 的未来
  2. 电脑显示ping不通服务器,局域网中的电脑a突然ping不通服务器和电脑b了 但是ping电脑c却可以是怎么回事...
  3. 华米黄汪:给每个人一枚物理世界的ID
  4. java中isa什么意思_iOS中isa的深层理解
  5. 【论文指导】计算机毕业设计,摘要如何写?15篇案例把你安排明白
  6. swift3.0 基础知识点
  7. 广州科二化龙考场_广州番禺化龙驾考新考场启用 每年可供30万人次考试
  8. Oracle四种去重方式
  9. 遇到某些无法在浏览器中查看元素的bug应该如何排查(实例)
  10. 采购-采购申请APP-PO-14082,PO借记账户为必备项,但无法确定。