10G数据,1G内存排序问题
将数据切分成n段,保证每段数据的大小在内存中放得下,然后将n个段的数据放到n个节点上进行并行计算,对计算的结果做多路归并,或者维护一个大小为n的小根堆,第一次从n个数据段中取第一个数据放入堆中,然后拿出最小的元素放入最终的文件中,然后从刚才从堆中取出值的文件中再取一个值,循环,直到将所有的数据排完。但是这样做存在一个问题,每次从n段文件中取数据比较耗时,这些数据可能来自于网络传输或者文件,通常可以将n段数据的前一批数据(做缓存)读入内存。各编程语言都有对堆的实现一般叫PriorityQueue(优先队列)。做缓冲区可以考虑用Iterable接口,用这个接口堆只管next就可以了,不需要考虑维护缓存的问题。
图片地址:https://blog.csdn.net/CleverCode/article/details/81743736
10G数据,1G内存排序问题相关推荐
- 10G数据,1G内存,如何排序?
外部排序问题 当数据量超过内存量,通过一般意义上的排序算法已经不能胜任排序工作了.我们需要借助于外存,保留我们排序的中间阶段. 处理过程 (1)按可用内存的大小,把外存上含有n个记录的文件分成若干个长 ...
- 10G数据量,只有2G内存,怎样找到中位数?
链接:http://blog.sina.com.cn/s/blog_62714d6a0100m96m.html 文件中有10G个整数,乱序排列,要求找出中位数 (2010-09-25 18:15:03 ...
- 小内存海量数据,找中位数: 只有2G内存,在10G数据量怎样找到中位数?
题目:在一个文件中有 10G 个整数,乱序排列,要求找出中位数.内存限制为 2G.只写出思路即可(内存限制为 2G的意思就是,可以使用2G的空间来运行程序,而不考虑这台机器上的其他软件的占用内存). ...
- 【转】Hive导入10G数据的测试
Hive导入10G数据的测试 让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务. 现在硬件越来越便宜,一台非 ...
- android 5 1g内存,最新版:1G的RAM真的足够吗?使用软件测试Android手机的1G内存是否真的足够...
如今,智能手机变得越来越流行.它就像一台迷你计算机.尽管麻雀虽小且完整,但CPU内核的数量和频率仍在不断增加,内存也在增加.如果您在已经是顶级配置之前就说过1G运行内存,那么现在2G内存已经成为标准配 ...
- 阿里云1核1G内存1M宽带可以支持多少IP访问量?
阿里云1核CPU/1G内存/1M公网宽带云服务器够用吗?1M宽带可以支持多少IP的访问量?来说说1M宽带可以跑多少流量及1核1G服务器配置性能: 1核/1G/1M宽带配置能跑多少IP? 一般来讲,如果 ...
- C语言学习(三)内存初识、数据在内存中的保存形式、程序载入内存
(一)内存与存储(硬盘) 首先要明确一点,内存不同于存储.内存中的数据存储在内存条中.而一般的存储,数据则保存在硬盘中.这里我只给出一些表象的区别,如果还想更深入的了解,请自行搜索,此篇所展示的重 ...
- 单核CPU, 1G内存,也能做JVM调优吗?
最近,笔者的技术群里有人问了一个有趣的技术话题:单核CPU, 1G内存的超低配机器,怎么做JVM调优? 这实际上是两个问题.单核CPU的超低配机器,怎么充分利用CPU?单核CPU, 1G内存的超低配机 ...
- 腾讯太狠:40亿QQ号, 给你1G内存,怎么去重?
说在前面 在40岁老架构师 尼恩的读者社区(50+)中,最近有小伙伴拿到了一线互联网企业如腾讯.美团.阿里.拼多多.极兔.有赞.希音的面试资格,遇到一几个很重要的面试题: 40亿Q号如何设计算法去重, ...
最新文章
- 【重复制造精讲】4、计划初识
- 正则表达式及测试工具
- 走线和交互式布线_画PCB时,一些非常好的布线技巧
- 10 条真心有趣的 Linux 命令
- 《你还在我身旁》 香港中文大学《独立时代》杂志社微情书征文大赛一等奖作品。作者为香港中文大学学生戴畅。
- [转帖]九句英语闯天下
- 关于利用exchange server 2003搭建邮件服务器:小进步……
- CentOS 下安装配置mongodb
- NODDI在临床研究中的应用
- Dotween常用方法详解
- SDIO接口(3)——SDIO总线接口
- 解决谷歌浏览器Chrome不能上网,其他浏览器可以正常上网问题
- 认识web,web的标准构成和基本元素
- 记一次贴吧签到脚本的编写
- Android: Android Studio 的模拟器一些使用问题
- 转载《五大免费采集器哪个好,火车头,海纳,ET,三人行,狂人采集 》
- 美创科技出席世界信息安全大会:多维数据安全框架体系,护航新基建发展
- 计算机中系统更新是指,Mac电脑操作系统更新了什么功能
- 计算机内存不足16g内存,win10 16g内存显示内存不足怎么办_win10 16g内存显示可用7.95g如何恢复...
- 浅析群控系统的发展之路,云控和群控的巨大差别