大数据量的处理

云社区用户D3466603

4人赞赏了该文章 164次浏览编辑于2018年09月21日 19:23:53

11. 一个文本文件，找出前10个经常出现的词，但这次文件比较长，说是上亿行或十亿行，总之无法一次读入内存，问最优解。方案1：首先根据用hash并求模，将文件分解为多个小文件，对于单个文件利用上题的方法求出每个文件件中10个最常出现的词。然后再进行归并处理，找出最终的10个最常出现的词。

12. 100w个数中找出最大的100个数。方案1：在前面的题中，我们已经提到了，用一个含100个元素的最小堆完成。复杂度为O(100w*lg100)。方案2：采用快速排序的思想，每次分割之后只考虑比轴大的一部分，知道比轴大的一部分在比100多的时候，采用传统排序算法排序，取前100个。复杂度为O(100w*100)。方案3：采用局部淘汰法。选取前100个元素，并排序，记为序列L。然后一次扫描剩余的元素x，与排好序的100个元素中最小的元素比，如果比这个最小的要大，那么把这个最小的元素删除，并把x利用插入排序的思想，插入到序列L中。依次循环，知道扫描了所有的元素。复杂度为O(100w*100)。 --------------------- 本文来自 Aldeo 的CSDN 博客，全文地址请点击：https://blog.csdn.net/zhangzijiejiayou/article/details/50616520?utm_source=copy

4人点赞

还没有人点赞，快来当第一个点赞的人吧！

打赏

0人打赏

还没有人打赏，快来当第一个打赏的人吧！

赞 4 评论收藏 1

您的鼓励与嘉奖将成为创作者们前进的动力，如果觉得本文还不错，可以给予作者创作打赏哦！

请选择打赏金币数 *

10金币20金币30金币40金币50金币60金币

可用金币: 0

大数据量的处理

您的鼓励与嘉奖将成为创作者们前进的动力，如果觉得本文还不错，可以给予作者创作打赏哦！

恭喜您！