S/HIC 系列软件:S/HIC 利用随机森林识别 软/硬 清扫
内容翻译整理自文章 S/HIC: Robust Identification of Soft and Hard Sweeps Using Machine Learning. Schrider DR, Kern AD. PLoS Genet. 2016;12(3):e1005928. Published 2016 Mar 15. doi:10.1371/journal.pgen.1005928,被引用次数 118。
注意:本文中的 软、硬清扫 不是由 选择强度 定义,而是由受选择突变的 起始频率 定义。当选择位点为 从头突变 时,产生的图谱称为 硬清扫,当选择位点为 常态突变 时,产生的图谱称为 软清扫。
S/HIC 软件特色
- 相比已有软件,S/HIC 软/硬 清扫图谱的识别精度 得到了提高。
- S/HIC 软/硬 清扫图谱中受选择位点的识别更为精准,相比于其他软件,S/HIC 设立了新的分类:软清扫 link 区、硬清扫 link 区。通过 link 区来降低受选择位点的可能区间,尽可能排除 软肩效应(soft shoulder),减少不必要的分析(图 )。同时,也可以准确的识别 中性 区间。
- 通过 大区间信息的纳入 和 遗传学参数 归一化 两种方法,使 S/HIC 模型对经历了不同历史事件的群体的图谱识别具有较高的 鲁棒性。由于掌握信息有限,群体是否经历了瓶颈、快速扩张、迁移等事件主要是通过推测。所以难免会出现推测错误的情况,S/HIC 使用错误的模型进行图谱识别时,虽然精度会明显下降,但相比其他软件,仍然是精度最高的。
- 特征、训练集都可以不断拓展。如果未来有新的群体遗传统计参数,也可以方便的纳入模型中。如果未来有新的演化理论,也可以通过添加对应的模拟数据集来提高模型的全面性。
S/HIC 模型结构
- 各种群体遗传统计参数包含:πππ、θwθ_wθw、θHθ_HθH、不同单倍型的数量、平均单倍型纯合度、H12H_{12}H12、 H2/H1H_2/H_1H2/H1(单倍型频率 top1 的频率 / 单倍型频率 top2 的频率)、ZnS(LD)Z_{nS}(LD)ZnS(LD)、ωωω 最大值。
- 群体数量大幅增长(founder effect,S 型曲线)、群体数量大幅降低(bottleneck effect)等 事件 会造成遗传统计参数大幅改变。作者使用 归一化 (π1∑πi\dfrac{π_1}{\sumπ_i}∑πiπ1) 后的统计参数作为模型的 输入。使窗口内统计参数反映的不是绝对值,而是趋势、曲线形状。通过比较趋势而非绝对值,来判断窗口是否受到选择,尽量避免群体数量变化对模型预测的影响。
- 通过窗口内曲线的形状判断中心子窗口的类别,是利用 整个窗口更丰富的信息,来避免因随机因素导致位点上参数值的偏差而降低分类预测的精度,提高模型的鲁棒性。
- 以滑窗的方式读取 SNP 序列的全部信息,窗口(2200 kb)均等的分割为 11 个小的子窗口(200 kb),每次滑动步长是一个子窗口。每个子窗口(200kb)会计算出上述的 9 个群体遗传统计参数,总共得到 99 个参数值,并根据大窗口(2200kb)的和进行归一化。窗口(2200 kb)的输入特征向量形式如下:
[π1∑πi,π2∑πi,…,π11∑πi,θw1∑θwi,θw2∑θwi,…,θw11∑θwi,θH1∑θHi,…,ω1∑ωi,…,ω11∑ωi],∑πi=∑i=111πi[\dfrac{π_1}{\sumπ_i}, \dfrac{π_2}{\sumπ_i}, …, \dfrac{π_{11}}{\sumπ_i}, \dfrac{θ_{w1}}{\sumθ_{wi}}, \dfrac{θ_{w2}}{\sumθ_{wi}}, …, \dfrac{θ_{w11}}{\sumθ_{wi}}, \dfrac{θ_{H1}}{\sumθ_{Hi}}, …, \dfrac{ω_1}{\sumω_i}, …, \dfrac{ω_{11}}{\sumω_i}], {\sumπ_i} = {\sum_{i=1}^{11}π_i} [∑πiπ1,∑πiπ2,…,∑πiπ11,∑θwiθw1,∑θwiθw2,…,∑θwiθw11,∑θHiθH1,…,∑ωiω1,…,∑ωiω11],∑πi=i=1∑11πi - S/HIC 使用 RF(随机森林) 模型,执行 5 分类 问题,标签为 软、硬、中、软侧(soft-linked)、硬侧(hard-linked)。样本的标签取决于窗口的 中心子窗口(6) 的类别。当中心子窗口发生了 软、硬清扫 时,窗口标签为 软、硬清扫;当中心子窗口为中性但链接区发生 软、硬清扫 时,窗口标签为 软、硬清扫链接区;当窗口内所有子窗口 均为 中性 时,窗口标签为 中性。
下图展示了 S/HIC 的预测示意图,通过识别 11 个子窗口中所蕴含的 πππ 的信息,来预测中心子窗口的类型。不同类型用不同颜色表示:硬蓝、软橙、中灰、硬测紫、软侧黄。
平衡群体模拟
平衡群体模型(群体大小不变)
使用 discoal 软件模拟群体数据,模拟参数包含:
- 受选择位点的选择系数(ααα,α=2N0sα = 2N_0sα=2N0s):强 ~ U(2.5×103,2.5×104)U(2.5×10^3, 2.5×10^4)U(2.5×103,2.5×104)、中 ~ U(2.5×102,2.5×103)U(2.5×10^2, 2.5×10^3)U(2.5×102,2.5×103)、弱 ~ U(25,2.5×102)U(25, 2.5×10^2)U(25,2.5×102)
- 初始基因型频率(fff):中频 ~ U(0.05,0.2)U(0.05, 0.2)U(0.05,0.2)、低频 ~ U(2/2N0,0.05)U(2/2N_0, 0.05)U(2/2N0,0.05)、中低频 ~ U(2/2N0,0.2)U(2/2N_0, 0.2)U(2/2N0,0.2)
- 染色体长度:L=110KBL=110 KBL=110KB
- 群体突变率:4N0μL=U(528,1584)4N_0μL=U(528, 1584)4N0μL=U(528,1584)
- 染色体重组率:4N0rL=8804N_0rL=8804N0rL=880
- 突变固定距观测的时间:t=U(0,0.1)×2N0t=U(0, 0.1)×2N_0t=U(0,0.1)×2N0
- 模拟完成后从模拟群体中随机抽取 100 个染色体作为代表,计算 πππ、θwθ_wθw、θHθ_HθH 等参数
PS:作者在设定模拟数据集时,没有将参数固定在某一具体数值上,而是从 均匀分布 UUU 中随机抽样得到,目的是为了提高模型的鲁棒性。
对于下面多种情况的测试,训练集(5000)均有 5 类大小相同(1000)的模拟集构成:
- 1000 个 硬清扫 模拟窗口,即 从头突变 的选择固定发生在 中央 子窗口。
- 1000 个 软清扫 模拟窗口,即 常态突变( f=U(0.05,0.2)f=U(0.05, 0.2)f=U(0.05,0.2))的选择固定发生在 中央 子窗口。
- 1000 个 硬清扫链接 模拟窗口,即 从头突变 的选择固定发生在 非中央 子窗口。discoal 对每个 非中央 子窗口的固定都进行了 1000 次 硬清扫 模拟,总共生成 10000 个 硬清扫链接 模拟窗口。作者从 10000 个模拟集中随机抽取 1000 个模拟作为 硬清扫链接 训练集。
- 1000 个 软清扫链接 模拟窗口,即 常态突变( f=U(0.05,0.2)f=U(0.05, 0.2)f=U(0.05,0.2))的选择固定发生在 非中央 子窗口。discoal 用相同的策略生成 10000 个 软清扫链接 模拟窗口。作者从中随机抽取 1000 个模拟作为 软清扫链接 训练集。
- 1000 个 无清扫 的 中性 模拟窗口。
PS:对于不包含 软清扫链接 和 硬清扫链接 分类的模型,链接区 与 无清扫中性区 都统计为中性区。
比较软件:
- SweepFinder(composite-likelihood ratio,CLR,复合似然比);
- SFselect(SVM): SFS;
- evolBoosting(boosting): Tajima’s D,Fay and Wu’s H,integrated haplotype homozygosity(iHH);
- Approximate Bayesian Computation-like approach(Bayesian):Bayes Factors;
判断指标:ROC 曲线(receiver operating characteristic curve)
测试 1 :二分类 训测同选择强度 区分 硬清扫 与 中性(中性)
模拟 强、中、弱选择强度 的 3 组训练集,每组训练集的样本数量为 5000,训练得到 3 个模型。测试集也为 强、中、弱选择强度 的 3 组,其中每组包含 2000 个样本,1000 个硬清扫模拟窗口 与 1000 个无清扫的中性模拟窗口。用在 各自 选择强度训练集训练下的模型预测 各自 选择强度的测试集。结果显示,模型 可以 准确的区分 硬清扫区与中性区。
测试 2 :二分类 训测异选择强度 区分 硬清扫 与 中性(中性)
因为实际染色体上区间的选择强度是未知的,所以匹配型预测没有实际价值,需要使用统一训练好的模型来区分各个选择强度下的清扫区与中性区。作者将测试 1 中的 强、中、弱选择强度训练集组合,构成样本数量为 15000 的大训练集,训练得到 1 个模型。测试集与测试 1 相同,分 3 组,用同 1 个模型分别在 3 种选择强度下的测试集验证。结果显示,模型异选择强度下 可以 准确的区分 硬清扫区 与中性区。
测试 3 :二分类 训测异选择强度 区分 清扫(软 + 硬)与 中性(中性)
训练集与测试 2 相同。测试集结构与测试 1 一致,分 3 组,每组为 1000 个清扫模拟 + 1000 个无清扫的中性模拟。但 1000 个清扫模拟变为 500 个 f=0f = 0f=0 的从头突变和 500 个 f=U(0.05,0.2)f = U(0.05, 0.2)f=U(0.05,0.2) 的常态突变。测试集中样本中心子窗口无论被预测为 硬清扫区 还是 软清扫区,都统计为 清扫区。结果显示,模型 可以 准确的区分 清扫区(软+硬)与中性区。
测试 4 :二分类 训测异选择强度 区分 软、硬 清扫
训练集与测试 2 相同。测试集 3 组,每组为 1000 个硬清扫模拟 + 1000 个软清扫 f=U(0.05,0.2)f = U(0.05, 0.2)f=U(0.05,0.2) 模拟。结果显示,模型 可以 在清扫区中准确的区分 从头突变与常态突变(即区分 软、硬清扫区)。
测试 5 :二分类 训测异选择强度 区分 软、硬 清扫
训练集、测试集与测试 4 相同。但训练集与测试集中的软清扫模拟参数由 f=U(0.05,0.2)f = U(0.05, 0.2)f=U(0.05,0.2) 修改为 f=U(2/2N0,0.05)f = U(2/2N_0, 0.05)f=U(2/2N0,0.05) 。结果显示,模型 无法 准确的区分 从头突变与 低频 常态突变。
测试 6 :二分类 训测异选择强度 区分 清扫(软 + 硬)与 中性区(中性 + 链接)
训练集与测试 2 相同。测试集 3 组,每组为 1000 个清扫模拟 + 1000 个中性模拟。其中 1000 个清扫模拟包含 500 个硬清扫模拟和 500 个 f=U(0.05,0.2)f = U(0.05, 0.2)f=U(0.05,0.2) 的软清扫模拟;1000 个中性模拟包含 333 个无清扫中性模拟, 333 个硬链接模拟和 333 次软链接模拟(硬、软链接模拟为从 10000 次非中心硬、软清扫模拟中随机抽样 333 次模拟得到)。测试集中样本中心子窗口无论被预测为 硬清扫区 还是 软清扫区,都统计为 清扫区;同样,无清扫中性区 和 软、硬清扫链接区 都统计为 中性区。结果显示,模型 可以 准确的区分 清扫区(从头突变+常态突变)与 中性区(中性+链接)。
测试 7 :多分类 训测异选择强度 区分 软清扫、硬清扫、中性(中性 + 链接)
训练集与测试 2 训练集相同。测试集分 3 组,每组与测试 2 训练集相同,但重新生成。对测试集的预测由测试 1-5 的 二分类 改为了 多分类。结果显示,模型 可以 准确的区分 软清扫区、硬清扫区与 中性区(中性+链接)。
非平衡群体模拟
非洲人口模型(不断收缩)
模拟参数:
- 受选择位点的选择系数:强 ~ U(5.0×104,5.0×105)U(5.0×10^4, 5.0×10^5)U(5.0×104,5.0×105)、中 ~ U(5.0×103,5.0×104)U(5.0×10^3, 5.0×10^4)U(5.0×103,5.0×104)
- 初始基因型频率:f=U(2/2N0,0.2)f=U(2/2N_0, 0.2)f=U(2/2N0,0.2)
- 染色体长度:L=110KBL=110 KBL=110KB
- 群体突变率:4N0μL=U(10560,31680)4N_0μL=U(10560, 31680)4N0μL=U(10560,31680)
- 染色体重组率:4N0rL=176004N_0rL=176004N0rL=17600
- 群体不断缩小,最终在 0.00024×4N00.00024×4N_00.00024×4N0 代缩减至 0.034N00.034 N_00.034N0
- 突变固定距观测的时间:t=U(0,2.44×10−4)×2N0t=U(0, 2.44×10^{-4})×2N_0t=U(0,2.44×10−4)×2N0
- 模拟完成后从模拟群体中随机抽取 100 个染色体作为代表,计算 πππ、θwθ_wθw、θHθ_HθH 等参数
欧洲人口模型(不断收缩 + 突然扩张)
模拟参数:
- 受选择位点的选择系数:2N0s=U(5.0×103,5.0×105)2N_0s=U(5.0×10^3, 5.0×10^5)2N0s=U(5.0×103,5.0×105)
- 初始基因型频率:f=U(2/2N0,0.2)f=U(2/2N_0, 0.2)f=U(2/2N0,0.2)
- 染色体长度:L=110KBL=110 KBL=110KB
- 群体突变率:4N0μL=U(5406.72,54067.2)4N_0μL=U(5406.72, 54067.2)4N0μL=U(5406.72,54067.2)
- 染色体重组率:4N0rL=176004N_0rL=176004N0rL=17600
- 群体先不断缩小,在 0.0009×4N00.0009×4N_00.0009×4N0 代缩减至 0.002N00.002 N_00.002N0,然后不断扩张,在 0.002×4N00.002×4N_00.002×4N0 代扩增至 0.028N00.028 N_00.028N0
- 突变固定距观测的时间:t=U(0,2.0×10−3)×2N0t=U(0, 2.0×10^{-3})×2N_0t=U(0,2.0×10−3)×2N0
- 模拟完成后从模拟群体中随机抽取 100 个染色体作为代表,计算 πππ、θwθ_wθw、θHθ_HθH 等参数
瓶颈效应(突然收缩 + 突然扩张)
模拟参数:
- 受选择位点的选择系数:2N0s=U(1.0×102,1.0×104)2N_0s=U(1.0×10^2, 1.0×10^4)2N0s=U(1.0×102,1.0×104)
- 初始基因型频率:f=U(2/2N0,0.2)f=U(2/2N_0, 0.2)f=U(2/2N0,0.2)
- 染色体长度:L=110KBL=110 KBL=110KB
- 群体突变率:4N0μL=11004N_0μL=11004N0μL=1100
- 染色体重组率:4N0rL=11004N_0rL=11004N0rL=1100
- 突变固定距观测的时间:t=(0,0.022,0.044)×2N0t=(0, 0.022, 0.044) × 2N_0t=(0,0.022,0.044)×2N0
- 模拟完成后从模拟群体中随机抽取 100 个染色体作为代表,计算 πππ、θwθ_wθw、θHθ_HθH 等参数
严重 瓶颈效应模型:群体在 0.0084×4N00.0084 × 4N_00.0084×4N0 代时发生瓶颈效应,群体大小缩小为原群体大小的 2.9 % ;在 0.044×4N00.044 × 4N_00.044×4N0 代时群体大小恢复为原群体大小。
非严重 瓶颈效应模型:群体在 0.0084×4N00.0084 × 4N_00.0084×4N0 代时发生瓶颈效应,群体大小缩小为原群体大小的 29 % ;在 0.044×4N00.044 × 4N_00.044×4N0 代时群体大小恢复为原群体大小。
测试 1 :二分类 训测同非平衡 区分 清扫(软 + 硬)与 中性区(中性 + 链接)
测试模型:非洲、欧洲、瓶颈
针对非洲、欧洲、瓶颈 3 个模型的群体数量变化情况,分别设计 5 组(瓶颈、非洲各 2 组)训练集和测试集,并训练出 5 个模型。如欧洲,根据模型参数,使用 discoal 模拟 1000 个清扫(500 软 + 500 硬)群体 和 1000 个中性(333 中性 + 333 软链 + 333 硬链),总计 2000 个群体作为训练集;测试集同理。
结果显示(AUC):
非洲 α=U(5.0×104,5.0×105)α = U(5.0×10^4, 5.0×10^5)α=U(5.0×104,5.0×105),S/HIC = 0.9865
非洲 α=U(5.0×103,5.0×104)α = U(5.0×10^3, 5.0×10^4)α=U(5.0×103,5.0×104),S/HIC = 0.8060
欧洲 α=U(5.0×103,5.0×105)α = U(5.0×10^3, 5.0×10^5)α=U(5.0×103,5.0×105),S/HIC = 0.8188
严重瓶颈 t=0t=0t=0,S/HIC = 0.9182
严重瓶颈 t=0.022×2Nt=0.022×2Nt=0.022×2N,S/HIC = 0.6750
严重瓶颈 t=0.044×2Nt=0.044×2Nt=0.044×2N,S/HIC = 0.6672
非严重瓶颈 t=0t=0t=0,S/HIC = 0.9966
非严重瓶颈 t=0.022×2Nt=0.022×2Nt=0.022×2N,S/HIC = 0.9857
非严重瓶颈 t=0.044×2Nt=0.044×2Nt=0.044×2N,S/HIC = 0.9458
测试 2 :二分类 训平衡 测非平衡 区分 清扫(软 + 硬)与 中性区(中性 + 链接)
测试模型:非洲、欧洲、瓶颈
训练集使用 平衡模拟 中 测试 2 的训练集,总计 15000 个群体;测试集与 测试 1 相同,总共 5 类;使用 相同 的训练模型测试在不同测试集上的预测精度。
结果显示(AUC):
非洲 α=U(5.0×104,5.0×105)α = U(5.0×10^4, 5.0×10^5)α=U(5.0×104,5.0×105),S/HIC = 0.9844
非洲 α=U(5.0×103,5.0×104)α = U(5.0×10^3, 5.0×10^4)α=U(5.0×103,5.0×104),S/HIC = 0.8122
欧洲 α=U(5.0×103,5.0×105)α = U(5.0×10^3, 5.0×10^5)α=U(5.0×103,5.0×105),S/HIC = 0.8127
严重瓶颈 t=0t=0t=0,S/HIC = 0.7817
严重瓶颈 t=0.022×2Nt=0.022×2Nt=0.022×2N,S/HIC = 0.6790
严重瓶颈 t=0.044×2Nt=0.044×2Nt=0.044×2N,S/HIC = 0.6497
非严重瓶颈 t=0t=0t=0,S/HIC = 0.9927
非严重瓶颈 t=0.022×2Nt=0.022×2Nt=0.022×2N,S/HIC = 0.9841
非严重瓶颈 t=0.044×2Nt=0.044×2Nt=0.044×2N,S/HIC = 0.9491
测试 3 :多分类 训平衡 测非平衡 区分 软清扫、硬清扫、中性(中性 + 链接)
测试模型:非洲、欧洲
训练集与测试 2 训练集相同。测试集与测试 2 训练集相同,但重新生成。对测试集的预测由测试 1-5 的 二分类 改为了 多分类。下图为 非洲 模型的预测结果。
真实数据测试
数据使用的是 1000 Genomes Project’s CEU 群体的 18 号染色体数据。在使用数据前对数据进行了过滤,去除了染色体上的重复片段(ReapeatMasker)与测序质量较低的区间( 50 bp read mappability scores < 1)。过滤后,18 号染色体总共被分为 344 个 200kb 的小窗口,其中 9.9% 的窗口被识别为硬清扫区,6.4% 为硬清扫链接区,14% 为软清扫区,25.9% 为软清扫链接区,43.9% 为无清扫中性区。
最后的案例分析上,S/HIC 选择了 L3MBTL4 基因所处的区间,基因已经被研究过了,但该区间先前没有被其他软件识别出受到了选择。下图中 红色 表示 硬清扫,粉红 表示 硬清扫链接,淡蓝表示 软清扫链接,黑色 表示 中性。
实验结果讨论
- 在非平衡实验中的瓶颈模拟中可以发现,H12 对时间敏感,随着时间的增加,单倍型会被迅速破坏,H12 等特征适合挖掘最近产生的 sweep。
- 从各种模拟的实验结果来看,S/HIC 的预测能力相比于已有的 sweep 挖掘软件来说,无疑是更好的。但预测精度提高的原因是否与使用 RF 构建模型有关,还需要进一步讨论。因为在对比中,其他软件使用非归一化的参数值作为特征,并且在训练中没有 link 类标签。
- 附件 S2 Table 中显示了各个输入特征对不同 S/HIC 模型的重要性,值得注意的是, S2 Table 中所列的特征与文中给出的特征存在出入。表中特征为 πππ、θHθ_HθH、Fay and Wu’s H、H1H_1H1、H12H_{12}H12、 H2/H1H_2/H_1H2/H1、ss(不知道代表什么指标,估计为 ZnSZ_{nS}ZnS )、Tajima’s D。以平衡模拟训练集训练出的模型为例,可以发现,重要性 top5 的特征都是 中性窗口(win5)中遗传统计参数,top10 中有 6 个是 πππ、4 个边缘窗口(win 0-1、9-10),top15 中有 9 个是 πππ、3 个 ss、6 个边缘窗口,top25 中有 11 个是 πππ、10 个 ss、边缘窗口 9 个。综上,中心窗口和边缘窗口对模型预测贡献较大, πππ 和 ss 遗传参数对模型贡献较大。作者没有检测其他参数删除后模型精度的变化情况,所以这里对特征是否存在冗余存疑。
S/HIC 方法应用于作物基因组的局限性
- 挖掘受选择区间的窗口过大,分辨率为 200 kb,适用于基因片段较大的物种,如人类(基因平均长度为 72 kb,L3MBTL4 基因长度为 460 kb),不适用于基因片段小的物种,如水稻(基因平均长度为 4.5 kb)、玉米等。所以若要确定水稻中某基因是否受到选择,则需要 大幅缩小窗口大小,如 10 kb。
- S/HIC 使用相同的模型处理基因区和非基因区。基因中的外显子区因为表达蛋白质,相较于非表达区更为保守,即表达区与非表达区之间的群体遗传学参数存在差异。但在人类基因组中这种差异不需要着重考虑,因为人类基因中的表达区极少,被庞大的非表达区稀释了。如人类 L3MBTL4 基因长度为 460 kb,蛋白质长度 623 Aa,相当于 1.9 kb(0.4%),L3MBTL4 基因中有约 458.1 kb 的非表达区。但玉米基因中非表达片段较少,如 ZCN8 基因(pebp8)长度为 4.8 kb,蛋白质长度 175 Aa,相当于 525 bp(10.9%)。所以,当为了定位植物基因组上受选择基因而缩小窗口后,如果窗口扫描到基因区,会因为窗口内群体遗传学参数的改变,而误导模型将基因区识别为受选择区。所以,对植物基因组受选择区挖掘时,需要考虑构建 基因区 与 非基因区 两种模型 。
- S/HIC 因为窗口较大(200 kb)所以不用担心窗口内无 SNP 的问题。但当扫描植物基因组而缩小窗口大小后,需要考虑窗口内无 SNP 的情况,这会引出新问题:窗口内子窗口群体遗传参数缺失 。
- S/HIC 在预测非平衡群体时,预测精度下降。自然群体中,群体数量大规模变化的次数不多,而作物等受人工选择的群体会经常性的出现数量大规模变化的情况,S/HIC 的预测精度可能会发生显著下降。所以,针对自然群体设计的 sweep 挖掘软件可能不适合人工群体。
S/HIC 系列软件:S/HIC 利用随机森林识别 软/硬 清扫相关推荐
- S/HIC 系列软件:partialS/HIC 利用 CNN 识别 不完全软/硬 清扫
内容翻译整理自文章 Discovery of Ongoing Selective Sweeps within Anopheles Mosquito Populations Using Deep Lea ...
- 机器学习系列(10)_决策树与随机森林回归
注:本篇文章接上一篇文章>>机器学习系列(9)_决策树详解01 文章目录 一.决策树优缺点 二.泰坦尼克号幸存者案例 三.随机森林介绍 1.随机森林的分类 2.重要参数 [1]n_esti ...
- 利用随机森林进行特征选择
随机森林中的特征重要性 随机森林算法示意图 利用随机森林选择特征可参看论文Variable selection using Random Forests. 用随机森林进行特征重要性评估的思想其实很简单 ...
- 利用随机森林填补缺失值
利用随机森林填补缺失值 介绍 利用随机森林填补缺失值 介绍 说到缺失值,我想各位在进行数据分析之前或多或少都是会遇到的.在做有关机器学习的项目的时候,出题人都是会给你一个好几万好几十万的数据,可能会出 ...
- 利用随机森林算法实现Bank风险预测
利用随机森林算法实现Bank风险预测 源码分享及数据集分享:https://github.com/luo948521848/BigDatas 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且 ...
- MATLAB机器学习系列-9:决策树和随机森林的原理及其例子代码实现
决策树 原理 决策树通过把样本实例从根节点排列到某个叶子节点来对其进 行分类.树上的每个非叶子节点代表对一个属性取值的测试, 其分支就代表测试的每个结果:而树上的每个叶子节点均代表 一个分类的类别,树 ...
- 贷款利润最大化——利用随机森林和逻辑回归
文章目录 分析目的 一.数据采集 1.数据来源 2.数据说明 二.数据传输 三.数据处理 1.查看数据 2.清理无用特征值 3.标签列分析 4.清理只单一值的列 5.空值处理 6.数据类型转换 四.数 ...
- 利用随机森林预测股票大盘涨跌
本文仅从实战角度去观察,利用机器学习算法中,随机森林模型预测股票市场指数涨跌的准确率. 适合入门玩家 首先,我们导入所需要的模块 import numpy as np import pandas as ...
- 利用随机森林对特征重要性进行评估 方法一
https://hal.archives-ouvertes.fr/file/index/docid/755489/filename/PRLv4.pdf 前言 随机森林是以决策树为基学习器的集成学习算法 ...
- 利用随机森林对特征重要性进行评估(公式原理)
本文参考来源于: 杨凯, 侯艳, 李康. 随机森林变量重要性评分及其研究进展[J]. 2015. 码字不易,各位看官大大的赞是我更细的动力! 一.引言 随机森林(randomforest,RFrand ...
最新文章
- Python培训分享:python爬虫可以用来做什么?
- windows 远程执行 cmd 命令的 9 种方法
- Pytest fixture参数化params
- 【Flink】Flink 流处理 Sum操作 Table is not an append-only table. Use the toRetractStream() in order to hand
- jquery双击一行跳转页面_Word软件使用小技巧,鼠标双击在不同操作对象中有不同的功能...
- python中的cv2模块能否保存图像的地理坐标信息_Python中plt.plot图像保存有白边,CV2.polyline,fillpoly的参数问题,图像保存颜色发生异常...
- kotlin方法类型_Kotlin类型检查,Kotlin类型铸造
- mac os虚拟机镜像_为旧型Mac电脑配置支持OS 9的网络启动
- 论文笔记《Neural Machine Translation by Jointly Learning to Align and Translate》
- vcs与quartus联合仿真
- 灰色预测模型 matlab人口预测模型代码如下
- 从月薪3500到700万——一个大学生的成长经历
- 【风马一族_php】NO5_php基础知识_数组
- php srs api,srs 身份认证
- 洛谷P3004 宝箱Treasure Chest——DP
- Matlab 用途(我的理解)
- [数值计算-5]:一元二次非线性方程求解 - 解析法直接求解
- 驾校一点通2014电脑版 v1.5 官方版
- 关于Fluent网格尺寸的疑惑
- nginx实现ip端口转发_Nginx 实现端口转发