大数据量的处理
金蝶云社区-云社区用户D3466603
云社区用户D3466603
4人赞赏了该文章 145次浏览 未经作者许可,禁止转载编辑于2018年09月21日 19:22:23

5. 在2.5亿个整数中找出不重复的整数,内存不足以容纳这2.5亿个整数。 方案1:采用2-Bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义)进行,共需内存 内存,还可以接受。然后扫描这2.5亿个整数,查看Bitmap中相对应位,如果是00变01,01变10,10保持不变。所描完事后,查看bitmap,把对应位是01的整数输出即可。 方案2:也可采用上题类似的方法,进行划分小文件的方法。然后在小文件中找出不重复的整数,并排序。然后再进行归并,注意去除重复的元素。   


 6. 海量数据分布在100台电脑中,想个办法高校统计出这批数据的TOP10。 方案1: s 在每台电脑上求出TOP10,可以采用包含10个元素的堆完成(TOP10小,用最大堆,TOP10大,用最小堆)。比如求TOP10大,我们首先取前 10个元素调整成最小堆,如果发现,然后扫描后面的数据,并与堆顶元素比较,如果比堆顶元素大,那么用该元素替换堆顶,然后再调整为最小堆。最后堆中的元 素就是TOP10大。 s 求出每台电脑上的TOP10后,然后把这100台电脑上的TOP10组合起来,共1000个数据,再利用上面类似的方法求出TOP10就可以了。 --------------------- 本文来自 Aldeo 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/zhangzijiejiayou/article/details/50616520?utm_source=copy

赞 4