分享好友 最新资讯首页 最新资讯分类 切换频道
海量数据——TopK问题
2024-11-07 22:54

TopK问题是一个经典的海量数据处理问题,比如微博热搜每隔10分钟都会更新出排行前10的热门搜索信息,再或者通过大数据找出一个地区最爱吃的水果等,都可以使用TopK问题来解决,其核心思想就是最小堆的引入。

海量数据——TopK问题

在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被称为TopK问题。

下面我们通过一个简单的例子来说明:假如面试官给你100W个数据,请找出其最大的前K个数,而且现在只有1M的空间

在32位操作系统中,默认一个字节为4个字节,则有下列运算

NeedSize = 100W * 4 / 1024 /1024 = 4M

计算结果大约等于4M,很显然1M的空间根本不够。也就是说,即使用最复杂的方法你也无法找到一个合适的空间来存储,因此引入了最小堆数据结构。

下面我只说实现的核心思路,对此有不理解的请查看最大堆和最小堆的相关性质。思路如下

(1)定义两个数组,arr用于存储海量数据,top用于存储最小堆(底层可以借助vector

(2)将海量数据的前K个元素先填满top堆

(3)调整top堆为最小堆结构

(4)通过遍历将新数据与堆顶元素(此时堆顶元素是堆里最小的数据)进行比较,大于堆顶就入堆,并向下调整堆结构

(5)遍历结束,则堆中的元素即n个数中最大的前K个

 
 

问题描述:本公司现在要给公司员工发福利,在员工工作时间会提供大量的水果供员工补充营养。由于水果种类比较多,但是又不知道哪种水果比较受欢迎,然后公司就让每个员工报告了自己最爱吃的K种水果,并且告知已经将所有员工喜欢的水果存储于一个数组中,然后让我们统计出所有水果出现的次数,并且求出大家最喜欢吃的前K种水果。

算法分析:往往笔试过程中,要求在很短的时间内写出一个算法,直接调用标准库里的函数是比较方便的,比如这道题就是对STL中三种容器的考察,具体步骤如下

(1)首先,使用vector来存储所有的水果。

(2)其次,采用map将vector中存在的水果的数量统计出来,map支持下标访问。

(3)最后,通过优先级队列来建立小堆,然后就是TopK问题。

代码实现

最新文章
kvm 动态虚拟磁盘 虚拟可移动磁盘
序言我们在学习的过程中不可能购买大量不同的硬盘来操作,那样太过耗费物力且没有必要,其实我们常用的Windows就有一个创建虚拟
怎样快速构建UI界面?用这个AI一键生成!
更新时间:2024-04-15 14:27:04怎样快速构建 UI 界面?用这个 AI 一键生成 —— 即时 AI ,文字生成界面设计图的宝藏工具,使用
二、内容优化:提升用户体验和搜索引擎友好度
随着互联网的快速发展,越来越多的企业和个人开始关注SEO(搜索引擎优化)技术,以提高自己的网站在搜索引擎中的排名。提升网站
ai在线人工智能写作
与传统的手动写作方式相比,ai在线人工智能写作具有以下优势:快速生成:只需输入关键词和需求,短短几分钟内即可获得一篇符合要
全面总结:五款高效生成小红书内容文案的AI工具与生成器
在数字时代,内容创作成为了吸引使用者、提升作用力的关键手。特别是在小红书这一充满活力的社交平台上,优质的内容文案更是吸引
SEO网站营销的最佳实践指南
SEO网站营销的最佳实践指南在当今数字时代,SEO网站营销已成为企业在线成功的关键。通过优化搜索引擎排名,企业能够吸引更多目标
好的餐饮行业推广营销-餐饮推广策略都有哪些
在当今竞争激烈的商业世界中,餐饮行业作为人们生活中不可或缺的一部分,其推广营销显得尤为重要,好的餐饮行业推广营销能够吸引
Opera 推出旗舰 AI 浏览器新版本:Opera One R2
2024年6月26日,Opera公司发布了其于2023年首次推出的以 AI 为中心的旗舰浏览器 Opera One 的新版本。通过Opera One,这家挪威公
Sem外包:企业数字营销转型的挺好策略
随着互联网技术的发展,数字化营销已经成为企业营销策略中不可或缺的一部分。在数字化营销策略的构建中,搜索引擎营销(SEM)被
百度蜘蛛池租用:揭秘蜘蛛池目录站群源码,高效SEO策略的秘密武器
百度蜘蛛池租用揭秘:深度解析蜘蛛池目录站群源码,揭示高效SEO策略的核心秘密,助您掌握搜索引擎优化利器。本文目录导读:蜘蛛