作者:来自 Elastic Elastic Platform Team
如果你是在互联网出现之前长大的,你会记得找到新喜好并不总是那么容易。我们是在无意中听到收音机里的新乐队时发现他们的,是因为忘了换频道偶然看到一个新电视节目的,也是几乎完全依据游戏封面的图片来找到新喜欢的视频游戏的。
如今,情况大为不同。Spotify 会向我推荐符合我的口味的艺术家,Netflix 会突出显示它知道我们会喜欢的电影和电视节目,Xbox 知道我们接下来可能想玩什么。这些推荐系统让我们更容易找到我们实际在寻找的东西,它们由最近邻(nearest neighbor - NN)算法驱动。NN 算法查看它可用的广泛信息海洋,并识别与你喜欢的东西或你正在寻找的东西最接近的东西。
但 NN 算法有一个固有的缺陷。如果它们分析的数据量太大,遍历每一个选项将永无止境。这尤其是问题,因为这些数据源每年都在变得越来越大。这就是近似最近邻(ANN)接过NN的接力棒并改变游戏规则的地方。
在本文中,我们将讨论关于 ANN 的以下关键主题:
- ANN 的定义
- ANN 的工作原理
- 何时使用 ANN 搜索
- ANN 在向量搜索中的重要性
- 各种类型的 ANN 算法
近似最近邻()是一种算法,它在数据集中找到一个非常接近给定查询点的数据点,但不一定是绝对最接近的一个。一个最近邻(NN)算法通过对所有数据进行详尽搜索来找到完美匹配,而近似最近邻(ANN)算法则会接受一个足够接近的匹配。
这听起来可能不是最好的解决方案,但实际上它是实现快速相似性搜索的关键。ANN 利用智能的快捷方式和数据结构来高效地遍历搜索空间。因此,它可以在大大减少时间和资源的情况下,识别出足够接近的数据点,在大多数实际场景中都是有用的。
基本上,这是一种权衡。如果你绝对需要找到最佳匹配,你可以通过 NN 来实现,但这会牺牲速度和性能。但是,如果你可以容忍精度的微小下降,ANN 几乎总是一个更好的解决方案。
工作原理的第一部分是降维,其目标是将高维数据集转化为低维数据集。其目的是使预测模型任务比分析所有数据更简单、更高效。
这些算法基于数学概念的度量空间,其中数据点存在并且它们之间的距离被定义。这些距离必须遵循特定的规则(非负性、恒等性、对称性、三角不等式),常见的函数如欧几里得距离或余弦相似度用于计算它们。
为了更好地理解这一点,想象一下你在度假,正在寻找你租的别墅。与其逐一检查每栋建筑(高维),你可以使用地图,将问题简化为二维(低维)。(这是一个故意简化的例子。降维并不是 ANN 算法改善效率的唯一方法。)
ANN 算法还利用称为索引的巧妙数据结构来提高效率。通过将数据预处理成这些索引,ANN 可以更快地遍历搜索空间。可以将这些想象成街道标志,帮助你在地图上找到你的位置,更快地到达度假别墅。
在数据科学的快速发展世界中,效率至上。虽然找到真正最近的邻居(精确最近邻搜索)具有价值,但它常常需要较大的计算成本,正如我们已经讨论过的。这就是近似最近邻(ANN)搜索发光发热的地方,它提供了一个有吸引力的折衷方案:闪电般的速度与高但非绝对的准确性。
但是,确切地说,你应该在什么情况下选择 ANN 而不是其他搜索方法呢?
精确最近邻搜索可能很慢,但当精确度是你的首要任务或你正在使用小数据集时,它是最佳选择。位于 NN 和 ANN 之间,它在保持高准确性的同时提供更快的结果。但是,在决定k的值时可能难以准确把握,它也难以处理高维数据。
ANN 的速度和效率结合其高(但非绝对的)准确性,使其在许多情况下非常完美:
- 大数据集:当处理百万甚至十亿级的数据点时,精确 NN 的详尽性质变得缓慢。ANN 在浏览庞大的数据景观中表现出色,迅速提供结果。
- 高维数据:随着维度的增加,精确 NN 的计算量激增。ANN 的降维技术有效地缩小了搜索空间并提高了复杂数据(如图像或文本)的效率。
- 实时应用:需要即时结果吗?推荐系统、欺诈检测和异常检测依赖于实时洞察。ANN 的速度使其非常适合这些场景。
- 可接受的近似:如果你的应用可以容忍结果中的轻微不准确,ANN 的速度变得非常宝贵。例如,在图像搜索中,找到视觉上相似的图像 —— 而不是绝对最接近的一个 —— 可能就足够了。
涉及将数据编码为密集向量,捕捉复杂的关系和嵌入式含义。这使得它非常适合搜索图像、文本和用户偏好等内容,而传统的基于关键词的搜索往往表现不佳。但是,维度诅咒也同样适用于这里。因为随着代表这些向量的维度数量增加,传统的搜索方法也会遇到困难,变得缓慢且低效。
ANN 通过将重点从寻找精确匹配转变为 “足够接近” 的匹配来解决了这个问题。这使得快速检索成为可能,你的向量搜索可以在庞大的数据集中快速找到相似的向量。它还提供了内置的可扩展性,因此你可以随意扩展数据集,而无需牺牲速度。
这些实时响应与提高的相关性和效率结合在一起,通常意味着 ANN 在释放向量搜索的真正潜力方面可能发挥着至关重要的作用。
虽然 ANN 的概念在搜索中提供了令人信服的速度优势,但实际上,这个术语涵盖了多种算法的多样化工具箱。它们都有各自的优势和权衡,了解这些细微差别在选择适合特定数据和搜索需求的正确工具时至关重要。
KD-trees 将数据点组织成分层树结构,根据特定维度对空间进行分区。这使得在低维空间和基于欧几里德距离的查询中能够进行快速高效的搜索。
但是,虽然 KD-trees 在低维空间中寻找最近邻时表现出色,但它们受到 “维度诅咒” 的影响。这是指随着维度数量的增加,点之间的距离会变得非常大。在这些高维空间中,KD-trees 基于单个轴进行分割的策略变得不再有效。这使得搜索需要检查大部分数据,失去了效率优势,并接近于简单线性扫描所有点的缓慢过程。
LSH 是一种强大的 ANN 技术,通过将数据点 “哈希” 到较低维度的空间中,以一种巧妙地保留它们相似关系的方式进行工作。这种聚类使它们更容易被找到,并且使 LSH 能够在搜索大规模、高维度的数据集(如图像或文本)时表现出色,既具有速度又具有可扩展性。而且,在返回 “足够接近” 的匹配结果时,它仍能保持良好的准确性。但请记住,LSH 有时也可能产生误报(将非相似点视为相似),其有效性可能会根据距离度量和数据类型而有所不同。有各种各样的LSH家族专门设计用于处理不同的度量标准(例如欧几里德距离、Jaccard 相似性),这意味着 LSH 具有很强的通用性。
Annoy(Approximate Nearest Neighbors Oh Yeah)并不是单一的算法,而是一个开源的 C++ 库,使用自己的算法来构建和查询树,而不是直接实现 LSH 或 KD-trees。它旨在实现在高维空间中的内存高效和快速搜索,适用于实时查询。实质上,它是一个提供了灵活性,适用于不同数据类型和搜索场景的用户友好接口。Annoy 的优势在于在一个平台上利用多种 ANN 方法,使你可以选择最适合你需求的方法。虽然它简化了流程,但请记住,在 Annoy 中选择正确的内部算法对于获得最佳性能至关重要,而其有效性仍取决于你的数据和准确性要求等因素。
虽然通常不被分类为 ANN 技术,但值得一提的是线性扫描,因为它是一种蛮力方法,可以为你提供与其他 ANN 算法类似的结果。它按顺序迭代每个数据点,计算记录之间的距离并跟踪最佳匹配项。由于算法的简单性,它易于实现,适用于小数据集。基本方法的缺点是对于大数据集而言效率低下,在处理高维数据时速度慢,并且在实时应用中不实用。
在选择 ANN 之前,你应该考虑以下几点:
- 数据集大小和维度:对于大型和高维数据,考虑使用局部敏感哈希;对于较小和低维数据,可以考虑使用 KD-trees。
- 期望的准确度水平:如果绝对精确度至关重要,则线性扫描可能是最佳选择;否则,可以考虑 LSH 或 Annoy,以实现速度与准确度的平衡。
- 计算资源:Annoy 提供了灵活性,但在选择其中的算法之前,请考虑内存和处理能力的限制。
记住,没有一种解决方案适用于所有情况。尝试不同的 ANN 算法,并评估它们在你特定数据上的性能,以找到最适合你向量搜索需求的完美匹配。除了这些选项之外,ANN 算法的世界不断发展,因此值得保持关注,以免错过可能改进你搜索的新内容。
庞大而复杂的数据世界需要高效的工具来穿越其迷宫。这就是 ANN 可以成为将你的相似性搜索从普通提升到出色的秘密武器的地方。它提供了速度和可伸缩性,尽管在轻微准确度上有所妥协。而且,每周都有研究和发展工作,这将为 ANN 领域的动态性做出贡献。例如,量子计算和机器学习方面的进步可能会导致新型的 ANN 算法,这些算法甚至更快更高效。
我们已经探讨了不同的 ANN 算法,每种算法都有其独特的优势和劣势。但最终,最佳选择取决于你的具体需求。考虑数据大小、维度、准确度要求和资源等因素。进行实验,探索,并选择适合你的 ANN 算法,以充分发挥其潜力。从图像搜索到欺诈检测,这些算法可以产生巨大的影响,快速揭示隐藏的联系,并赋予数据驱动的洞察力。
因此,下次你搜索下一首歌曲、电影或视频游戏时,请记住幕后的默默英雄 —— ANN 算法 —— 它们连接着各种信息,产生联系。
当你准备好时,我们有四种方式可以帮助你利用你企业数据的洞察力:
- ,了解 Elastic 如何帮助你的业务。
- ,了解 Elasticsearch 平台的工作原理以及我们的解决方案如何满足你的需求。
- 。
- 将本文与你认识的可能感兴趣的人分享。通过电子邮件、LinkedIn、Twitter 或 Facebook 与他们分享。