文章目录

论文信息
ABSTRACT
- 问题
- 解决
- 方法
- 效果
1. Introduction
2. Data Processing
3. Proposed Architecture
- 3.1 LASSO Shrinkage and Majority Voting
- 3.2 CNN Architecture
- - 3.2.1 Training Schedule
4. Results
- 4.1 Summary Statistics
- 4.2 Model Results
- 4.3. Comparison of ML models
- - 4.3.1. Comparison with state-of-the-art ML models
  - 4.3.2. Our LASSO-CNN vs vanilla CNN
- 3.3 Data Augementation
- - 3.3.1 Data augmentation
  - 3.3.2 Data undersampling
  - 4.3.3 Data oversampling strategies
  - 4.3.4. Data undersampling strategies
- 4.4. Validation on stroke data
- 4.5 Notes on the resilience to data imbalance
5. Conclusion, Limitations and Future Research
- 5.1 Conclusion
- 5.2 Limitation
- 5.3 Future Research

论文信息

Title ：An Efficient Convolutional Neural Network for Coronary Heart Disease Prediction
Journal : Expert Systems with Applications
Year: 2020
Author : Aniruddha Dutta, Tamal Batabyal, Meheli Basu, Scott T. Acton

ABSTRACT

问题

目前大多数的机器学习模型对类不平衡数据很敏感，即使调整了特定类的权重。

解决

本研究提出一种带卷积层的神经网络模型，对类不平衡的临床数据 - 冠心病进行分类。

方法

特征选择：使用基于最小绝对收缩和选择算子(LASSO)进行特征权重评估，并基于多数投票法对重要特征识别。
模型训练：模型训练过程中，通过使用 fully connected layer 来均质化重要的特征，这是将层的输出传递到连续卷积层之前的关键步骤。
此外还提出每个 epoch 的 training schedule，类似于模拟退火过程，以提高分类精度。

效果

NHANES 数据集存在较高的类别不平衡问题，本文提出的CNN体系结构在正确分类存在冠心病方面的分类能力为77%，在测试数据上准确分类冠心病病例的能力为81.8%，占总数据集的85.70%。
这一结果表明，本文建议的体系结构可以推广到具有类似特征和不平衡顺序的医疗保健领域的其他研究。

1. Introduction

Our architecture is simple in design, elegant in concept, sophisticated in training schedule, effective in outcome with far-reaching applicability in problems with unbalanced datasets.

Contributions：

our model uses a variable elimination technique using LASSO and feature voting as preprocessing steps;
we leverage a shallow neural network with convolutional layers, which improves CHD prediction rates compared to existing models with comparable subjects (the ‘shallowness’ is dictated by the scarcity of class-specific data to prevent overfitting of the network during training);
in conjunction with the architecture, we propose a simulated annealing-like training schedule that is shown to minimize the generalization error between train and test losses.

2. Data Processing

数据集来自1999-2000年至2015-2016年的NHANES数据。
由37,079名 (冠心病-1300人，非冠心病-35,779人) 的人口统计、检查、实验室和问卷数据组合而成，如图1所示。

Fig. 1 Data compilation from National Health and Nutritional Survey (NHANES). The data is acquired from 1999 to 2016 in three categories – Demography, Examination and Laboratory. Based on the nature of the factors that are considered, the dataset contains both the quantitative and the qualitative variables.

总共使用了 30 个连续变量和 6 个分类变量来预测冠心病。

详细列出的变量有：性别、年龄、家庭年收入、贫困家庭收入比、60秒脉率、收缩压、舒张压、体重、身高、体重指数、白细胞、淋巴细胞、单核细胞、嗜酸性粒细胞、嗜碱性粒细胞、红细胞、血红蛋白、平均细胞体积、血红蛋白平均浓度、血小板计数、血小板平均体积、中性粒细胞、红细胞压积、红细胞宽度、白蛋白、碱性磷酸酶(Alp)。乳酸脱氢酶(LDH)、磷、胆红素、蛋白质、尿酸、甘油三酯、总胆固醇、高密度脂蛋白(HDL)、糖化血红蛋白、剧烈运动、适度运动、健康保险、糖尿病、血液相关糖尿病和血液相关中风。

3. Proposed Architecture

3.1 LASSO Shrinkage and Majority Voting

LASSO 或最小绝对收缩和选择算子是一种回归技术，用于变量选择和正则化，以提高其产生的统计模型的预测精度和可解释性。

LASSO 是一个二项问题，目标是最小化如下目标函数：

$∑i=1n(yi−∑jxijγj)2+λ∑j=1p∣γj∣\sum_{i=1}^n(y_i - \sum_j x_{ij} \gamma_j)^2 + \lambda \sum_{j=1}^p |\gamma_j|$

$λ\lambda$ 是收缩量的调整参数，控制正则化惩罚的强度。 $λ=0\lambda =0$ ，不会消除任何参数。随着 $λ\lambda$ 的增加，更多系数被设置为0，并消除。
$λ\lambda$ 增加，偏差增加， $λ\lambda$ 减小，方差增加。
变量(因子)的 $γ\gamma$ 值可以解释为变量的重要性，即该变量对数据中潜在变化的贡献。 $γ\gamma$ 为零的变量被认为不重要。

为减轻不平衡的影响，采用了对数据集进行随机细分采样和多次迭代 LASSO 的策略。对该组 $γ\gamma$ 值执行多数投票，以标识在主要迭代次数中非零的变量。假设在 $N$ 个随机二次抽样数据集上执行 LASSO $N$ 次，其中每个 instance 在CHD和非CHD情况下具有相等数量的samples。

LASSO的第 $i$ 个 instance，得到 $γi=[γi,1γi,2......γi,45]\gamma_i = [\gamma_{i,1}\gamma_{i,2}......\gamma_{i,45}]$

对于任何变量

论文 | An Efficient Convolutional Neural Network for Coronary Heart Disease Prediction相关推荐

MobileNetV1《MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications》
MobileNetV1<MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications> ...
读后感-论文Patch-based Convolutional Neural Network for Whole Slide Tissue Image Classification
读后感背景工作中要对高分辨率图像(至少1024 $\times$ 1024)进行分类,而且ground-truth分类的标准一般都是取决于像素级别的精细local feature(e.g. te ...
【翻译论文】An Architecture Combining Convolutional Neural Network (CNN) and Support Vector Machine (SVM)
[翻译论文]An Architecture Combining Convolutional Neural Network (CNN) and Support Vector Machine (SVM) ...
论文笔记（三）：PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes
PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes 文章概括摘要 1. ...
《Improved Crowd Counting Method Based onScale-Adaptive Convolutional Neural Network》论文笔记
<Improved Crowd Counting Method Based onScale-Adaptive Convolutional Neural Network>论文笔记论文地址 ...
【读点论文】PP-LCNet: A Lightweight CPU Convolutional Neural Network，面向CPU级的技巧结合下的低延迟，较高精度模型
PP-LCNet: A Lightweight CPU Convolutional Neural Network 提出了一个基于MKLDNN加速策略的轻量级CPU网络,命名为PP-LCNet,它提高了 ...
【论文笔记】Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos
这篇论文提出了一种称为管道卷积神经网络( tube convolutional neural network,T-CNN) 的结构,它是 Faster R-CNN 从 2D 到 3D 的扩展.该方法先 ...
论文阅读：Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos
Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos 文章目录 Tube Convolutional Neu ...
【读论文】Loop Closure Detection for Visual SLAM Systems Using Convolutional Neural Network
[读论文]Loop Closure Detection for Visual SLAM Systems Using Convolutional Neural Network 发表于2017年,作者是南 ...

论文 | An Efficient Convolutional Neural Network for Coronary Heart Disease Prediction