在研究、应用机器学习算法的经历中,相信大伙儿经常遇到数据集太大、内存不够用的情况。

这引出一系列问题:

  • 怎么加载十几、几十 GB 的数据文件?

  • 运行数据集的时候算法崩溃了,怎么办?

  • 怎么处理内存不足导致的错误?

本文将讨论一些常用的解决办法,供大家参考。

处理大型 ML 数据文件的七种思路

1. 分配更多内存

有的机器学习工具/库有默认内存设置,比如 Weka。这便是一个限制因素。

你需要检查一下:是否能重新设置该工具/库,分配更多内存。

对于 Weka,你可以在打开应用时,把内存当作一个参数进行调整。

2. 用更小的样本

你真的需要用到全部数据吗?

可以采集一个数据的随机样本,比如前 1,000 或 100,000 行。在全部数据上训练最终模型之前(使用渐进式的数据加载技巧),先试着用这个小样本解决问题。

总的来说,对算法做快速地抽查、看到结果在前后的变化,在机器学习领域是一个很好的习惯。

你还可以考虑:相对于模型技巧,做一个数据大小的敏感性分析。或许,对于你的随机小样本,有一个天然的边际效应递减分水岭。越过这个关口,继续增加的数据规模带来的好处微乎其微。

3. 更多内存

你必须要用 PC 吗?

你可以考虑内存、性能高一个量级的计算设备。比如,租用 AWS 这样的云服务。租用云端有数十 GB 内存的机器,最低价格每小时不到一美元。我个人觉得这是非常实际的选择。

4. 转换数据格式

你是否把数据存为原始的 ASCII 文本,比如 CSV 文件?

或许,使用其它格式能加速数据载入并且降低内存占用。好的选择包括像 GRIB、NetCDF、HDF 这样的二进制格式。

有很多命令行工具能帮你转换数据格式,而且不需要把整个数据集载入内存里。

换一种格式,可能帮助你以更紧凑的形式存储数据,节省内存空间;比如 2-byte 整数,或者 4-byte 浮点。

5. 流式处理数据,或渐进式的数据加载

你的所有数据,需要同时出现在内存里吗?

或许,你可以用代码或库,随时把需要的数据做流式处理或渐进式加载,导入内存里训练模型。

这可能需要算法使用优化技术迭代学习,比如使用随机梯度下降。那些需要内存里有所有数据、以进行矩阵运算的算法,比如某些对线性回归和逻辑回归的实现,就不适用了。

比如,Keras 深度学习 API 就提供了渐进式加载图像文件的功能,名为 flow_from_directory

另一个例子式 Pandas 库,可批量载入大型 CSV 文件。

6. 使用关系数据库(Relational database)

关系数据库为存储、访问大型数据集提供了标准化的方法。

在内部,数据存在硬盘中,能渐进式地 in batch 批量加载,并使用标准检索语言 SQL 检索。

像 MySQL、Postgres 这样的开源数据库工具,支持绝大多数的(全部?)编程语言。许多机器学习工具,都能直接与关系数据库连通。你也可以用 SQLite 这样更轻量的方法。

我发现,这种方法对大型表格式数据集非常有效率。

雷锋网提醒,你需要用能迭代学习的算法。

7. 使用大数据平台

有的情况下,你可能必须要使用大数据平台,即为处理超大型数据集而开发的平台。它们能让你进行数据转换,并在其上开发机器学习算法。

两个很好的例子是 Hadoop 与机器学习库 Mahout,以及 Spark 与 MLLib 库。

我认为,这是用尽上述办法仍无法解决的情况下,才需要采用的最后手段。单纯是这为你的机器学习项目所带来的额外硬件、软件复杂情况,就会消耗许多精力。

即便如此,有的任务确实数据太过庞大,前面的选项都无法奏效。

如何解决处理大数据的时候的内存不足?

比如现在手上有70亿+1份身高数据,如何用有限的4GB内存找到这些数据中的中间值(也就是从小到大排列的第35亿个人的身高)

粗略计算了一下,4GB/sizeof(double)约等于5亿,也就是说无法把这70亿份数据同时放入内存中进行处理。

求可行的方案(内存可以反复擦写)

磁盘没要求的话,桶排序,然后直接找第35亿个记录。

桶排序就是文件分份然后每一份快排,排完了堆排。

全排到一个文件里之后,读一个数个数,数到中间就输出。

其实已经有的答案里开数组数数是线性时间最优的。

————————————————————————————————————————————————————————

首先,我觉得这个不是大数据的范畴。
对于大量的数据处理,如果使用内存有限制(一般在面试题中有更好的表述方式),应该采用的方式有一下几种:

  1. 分而治之/hash映射 + hash统计 + 堆/快速/归并排序;
  2. 双层桶划分
  3. Bloom filter/Bitmap;
  4. Trie树/数据库/倒排索引;
  5. 外排序;
  6. 分布式处理之Hadoop/Mapreduce。

内存不够解决大数据问题相关推荐

  1. Apache Mnemonic成为Apache顶级项目,主要解决大数据性能问题

    近日,Apache软件基金会宣布,Apache Mnemonic从Apache孵化器中毕业成为顶级项目. Apache Mnemonic是一个用于处理和分析链接对象的开源对象平台,旨在解决大数据性能问 ...

  2. MERGE INTO 解决大数据量 10w 更新缓慢的问题

    MERGE INTO 解决大数据量 10w 更新缓慢的问题 参考文章: (1)MERGE INTO 解决大数据量 10w 更新缓慢的问题 (2)https://www.cnblogs.com/yun9 ...

  3. 面试精讲之面试考点及大厂真题 - 分布式专栏 17 ElasticSearch解决大数据量检索难题

    17 ElasticSearch解决大数据量检索难题 理想的书籍是智慧的钥匙. --列夫·托尔斯泰 引言 如果你的项目里有超过千万上亿级别的数据,且数据日增量较大需要高性能检索时,如订单数据,你该怎么 ...

  4. 大数据 就业 缺口_三年培养10万大数据人才,解决大数据人才缺口

    (原标题:三年培养10万大数据人才,解决大数据人才缺口) 未来三年为中国培养10万大数据人才,大数据人才优选计划缓解中国大数据人才缺口 为缓解中国大数据人才缺口,小牛学堂联合工信部人才交流中心,开展& ...

  5. TensorFlow和Keras解决大数据量内存溢出问题

    NVIDIA DLI 深度学习入门培训 | 特设三场! 4月28日/5月19日/5月26日一天密集式学习  快速带你入门阅读全文> 正文共5771个字,1张图,预计阅读时间10分钟. 内存溢出问 ...

  6. MySQL数据库如何解决大数据量存储问题

    FROM http://blog.csdn.net/likika2012/article/details/38816037 各位高手您们好,我最近接手公司里一个比较棘手的问题,关于如何利用MySQL存 ...

  7. EasyExcel3.0.5 解决大数据导入导出,防止OOM

    文章目录 前言 源码 代码实现 POM 依赖 application.yaml Application 启动类 Config 相关配置类 创建员工信息表 导入和导出实体 Controller 层 Se ...

  8. 内存计算技术应对大数据挑战

    访SAP张志琦的过程中涉及到以下内容: 数据的"失控" 前言 时间快转,又到了岁末年初盘点之时. 2012年,不仅是末日之年,也是变革之年. 深刻的变化正在发生,而这将彻底改变人的 ...

  9. 一招教你解决大数据量下的各种报表使用问题

    在我们日常制作报表分析过程中,总会遇到各种问题.比如,报表底层数据日益增多.报表加载超慢,这些情况该怎么解决? 数据库是最常见的能处理大数据的计算方案,而永洪能利用数据库来完成数据计算.但是,有些报表 ...

最新文章

  1. 编程面试过程中最常见的10大算法
  2. 吴恩达、Jeff Dean、Bengio对话:如何用机器学习应对气候变化 | NeurIPS 2019
  3. 玩cf出现outofmemory_CF从女主播秀腿到假赛被罚,还能站在电竞上吗?
  4. 单片机IO口模拟SPI四种模式的程序
  5. 现代谱估计-互谱功率
  6. 使用Lucid Virtu在有独立显卡的情况下使用Intel硬件加速H.264编码
  7. 程序员为什么热衷于造轮子,而不是硬照,升职加薪吗?
  8. 保存时自动加分号_JavaScript 语句后应该加分号么?
  9. 2019美赛C题论文解读
  10. JavaSwing实现简单连连看小游戏
  11. Redis实现消息队列(订阅/发布模式 、LPUSH+BRPOP)
  12. 为什么边缘概率密度是联合概率密度的积分_看懂蒙特卡洛积分(一) 概率分布变换与随机采样...
  13. POJ 3422 Kaka's Matrix Travels 已翻译
  14. python0.1+0.2不等于0.3_为什么计算机编程语言中:0.1+0.2不等于0.3
  15. 一文搞定细菌基因组De Novo测序分析
  16. JS事件对象 (event)
  17. QQ空间点赞Jquery代码
  18. Angular 4入门教程系列:9:TypeScript:ECMAScript之前世今生
  19. matlab中计算标准差std函数
  20. UAV-5--链接飞控以及配置SITL以及ardupilot环境

热门文章

  1. polo换空气滤芯教程
  2. Spring Boot 配置文件加载顺序
  3. 《视觉开发专题》之 OpenGL 3D动画绘制图形学概念的理解
  4. 设计模式-牛刀小试02
  5. 辅助工具:支付宝“咻一咻” 无脑极速教程---2016.2.4 【只支持安卓Root手机(苹果:反正你玩的是寂寞)】
  6. 世上竟有此女子,她把自己的穿衣搭配都画了下来
  7. 接口测试的工具和范围
  8. win10禁止计算机进入休眠,关机还是休眠?一个命令告诉你上次Win10关闭方式
  9. win10连接文件服务器记住密码如何删除,win10共享文件夹取消访问密码怎么操作...
  10. 饿了么2018秋招笔试试题及其答案