关于sklearn.model_selected中的KFold.split的理解

  1. 作用:返回样本切分之后数据集的indices,即索引

  2. 返回:

    • train: ndarray。如果KFold设置shuffle参数是True,是混乱的。
    • test: ndarray。如果KFold设置shuffle参数是True/False,是按照顺序连续!!
  3. 示例

ab_range = np.array(range(0,100))*100
ab_rangey = np.array(range(0,100))/100.0
print(len(ab_range),len(ab_rangey))
array([   0,  100,  200,  300,  400,  500,  600,  700,  800,  900, 1000,1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100,2200, 2300, 2400, 2500, 2600, 2700, 2800, 2900, 3000, 3100, 3200,3300, 3400, 3500, 3600, 3700, 3800, 3900, 4000, 4100, 4200, 4300,4400, 4500, 4600, 4700, 4800, 4900, 5000, 5100, 5200, 5300, 5400,5500, 5600, 5700, 5800, 5900, 6000, 6100, 6200, 6300, 6400, 6500,6600, 6700, 6800, 6900, 7000, 7100, 7200, 7300, 7400, 7500, 7600,7700, 7800, 7900, 8000, 8100, 8200, 8300, 8400, 8500, 8600, 8700,8800, 8900, 9000, 9100, 9200, 9300, 9400, 9500, 9600, 9700, 9800,9900])array([ 0.  ,  0.01,  0.02,  0.03,  0.04,  0.05,  0.06,  0.07,  0.08,0.09,  0.1 ,  0.11,  0.12,  0.13,  0.14,  0.15,  0.16,  0.17,0.18,  0.19,  0.2 ,  0.21,  0.22,  0.23,  0.24,  0.25,  0.26,0.27,  0.28,  0.29,  0.3 ,  0.31,  0.32,  0.33,  0.34,  0.35,0.36,  0.37,  0.38,  0.39,  0.4 ,  0.41,  0.42,  0.43,  0.44,0.45,  0.46,  0.47,  0.48,  0.49,  0.5 ,  0.51,  0.52,  0.53,0.54,  0.55,  0.56,  0.57,  0.58,  0.59,  0.6 ,  0.61,  0.62,0.63,  0.64,  0.65,  0.66,  0.67,  0.68,  0.69,  0.7 ,  0.71,0.72,  0.73,  0.74,  0.75,  0.76,  0.77,  0.78,  0.79,  0.8 ,0.81,  0.82,  0.83,  0.84,  0.85,  0.86,  0.87,  0.88,  0.89,0.9 ,  0.91,  0.92,  0.93,  0.94,  0.95,  0.96,  0.97,  0.98,  0.99])100 100
kf = KFold(5, random_state=123)# 一、仅仅打印test(即代码中model)的indices
for i, model in kf.split(ab_range, ab_rangey):print('*' * 10);# print(i, len(i));print(model, len(model));print('*' * 10)
**********
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19] 20
**********
**********
[20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39] 20
**********
**********
[40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59] 20
**********
**********
[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79] 20
**********
**********
[80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99] 20
**********

结果中test在5折切分中是从0-99按照顺序切分。

# 二、仅仅输出train数据集的indices
for i, model in kf.split(ab_range, ab_rangey):print('*' * 10);print(i, len(i));# print(model, len(model));print('*' * 10)
**********
[20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 4445 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 6970 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 9495 96 97 98 99] 80
**********
**********
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 40 41 42 43 4445 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 6970 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 9495 96 97 98 99] 80
**********
**********
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 2425 26 27 28 29 30 31 32 33 34 35 36 37 38 39 60 61 62 63 64 65 66 67 68 6970 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 9495 96 97 98 99] 80
**********
**********
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 2425 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 4950 51 52 53 54 55 56 57 58 59 80 81 82 83 84 85 86 87 88 89 90 91 92 93 9495 96 97 98 99] 80
**********
**********
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 2425 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 4950 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 7475 76 77 78 79] 80
**********

结果中train在5折切分中是从0-99中随机选出80个,对应顺序即是混乱的。

关于sklearn.model_selected中的KFold.split的理解相关推荐

  1. kfold_关于sklearn.model_selected中的KFold.split的理解

    关于sklearn.model_selected中的KFold.split的理解 作用:返回样本切分之后数据集的indices,即索引 返回: train: ndarray.如果KFold设置shuf ...

  2. Python中的KFold与StratifiedKFold

    skearn做数据集的处理需要用到这两个比较重要的函数:KFold与StratifiedKFold,作用是在机器学习中进行交叉验证来使用. 这两个函数都是sklearn模块中的,在应用之前应该导入: ...

  3. ML之sklearn:sklearn库中的ShuffleSplit()函数和StratifiedShuffleSplit()函数的讲解

    ML之sklearn:sklearn库中的ShuffleSplit()函数和StratifiedShuffleSplit()函数的讲解 目录 sklearn库中的ShuffleSplit()函数和St ...

  4. python svr回归_使用sklearn库中的SVR做回归分析

    sklearn中的回归有多种方法,广义线性回归集中在linear_model库下,例如普通线性回归.Lasso.岭回归等:另外还有其他非线性回归方法,例如核svm.集成方法.贝叶斯回归.K近邻回归.决 ...

  5. Python之 sklearn:sklearn.preprocessing中的StandardScaler函数的简介及使用方法之详细攻略

    Python之 sklearn:sklearn.preprocessing中的StandardScaler函数的简介及使用方法之详细攻略 目录 sklearn.preprocessing中的Stand ...

  6. ML之sklearn:sklearn.metrics中常用的函数参数(比如confusion_matrix等 )解释及其用法说明之详细攻略

    ML之sklearn:sklearn.metrics中常用的函数参数(比如confusion_matrix等 )解释及其用法说明之详细攻略 目录 sklearn.metrics中常用的函数参数 con ...

  7. ML之sklearn:sklearn.linear_mode中的LogisticRegression函数的简介、使用方法之详细攻略

    ML之sklearn:sklearn.linear_mode中的LogisticRegression函数的简介.使用方法之详细攻略 目录 sklearn.linear_mode中的LogisticRe ...

  8. java 中以||作为split分隔符正确的写法

    java 中以||作为split分隔符正确的写法 今天项目中需要在后台处理前台传递过来的拼接字符串,一开始写成str.split("\||"),得不到正确的结果,通过百度查找发现 ...

  9. sklearn.model_selection中train_test_split的坑

    坑 无论是做机器学习还是深度学习,有个叫做数据集的东西不可忽视,有时候数据集的好坏会影响最后学习的效果.特别是没有现成处理好的数据集时需要我们自己动手搜集整理得到训练和测试的数据集. 我在处理数据集的 ...

最新文章

  1. HBA and WWN
  2. 开发环境wamp3.06 + Zend studio 12 调试配置
  3. RESTful编程究竟是什么?
  4. vscode怎么设置打开新的文件而不会关闭原来文件
  5. bzoj3339 Rmq Problem
  6. 【快乐水题】997. 找到小镇的法官
  7. php://input和php://output
  8. SQL Server【一】简介和基本概念和命令
  9. 进程间通信-Queue(python版)
  10. 互斥对象与关键代码段的比较
  11. windows2003与文件共享有关的几个进程
  12. C++ STL 一个简单的stack程序
  13. 029 RDD Join相关API,以及程序
  14. 华硕主板升级更新BIOS版本
  15. linux回到桌面的命令符_Linux终端命令快捷键汇总
  16. IOS性能优化 - 分析应用
  17. Xshell上传文件到Ubuntu服务器
  18. 群晖服务器文件管理套件,群晖drive套件的使用教程
  19. 吴昊品游戏核心算法 Round 18 —— 吴昊教你把妹纸 第一弹 facemash中的妹纸性感程度PK算法...
  20. rabbitmq高并发RPC调用,你Get到了吗?

热门文章

  1. 合同管理系统为企业打通合同管理流程
  2. JavaScript 时间与日期处理实战:你肯定被坑过
  3. pro缺点和不足 一加7t_一加7TPro和华为P30Pro怎么选 其实两者的缺点都很明显
  4. Excel绘制流程图
  5. LaTeX用Font Awesome的图标新版
  6. Rockchip 增加SD卡加密解密功能
  7. 开发公众号H5本地调试重定向登录流程
  8. 知道这10个软件,策划再复杂的活动都不怕
  9. 百度网盘海外版Dubox正式更名为TeraBox,上传下载不限速
  10. 如何利用QA提升listing流量