“按照片进行搜索”方式已经出现在各个领域,特别是在电子商务网站中(例如淘宝),并且 “通过关键词搜索图片”(对图片内容的理解)早已被谷歌、百度,bing等搜索引擎使用(图片搜索)。我认为自从计算机视觉界轰动一时的 CLIP: Connecting Text and Images 出现后,这种方法的全球化将会加速。在本文中,将只讨论研究计算机视觉中的神经网络的图片搜索方法。最后就是检查类似搜索质量的部分。初学者在第一次开始从事图像检索项目时可能不会注意到此任务中的许多细微之处。让我们看一下图像检索任务中这些流行的指标:precision@k、recall@k、R-precision、mAP 和 nDCG。- 对给定查询的相关样本的数量非常敏感,可能产生对搜索质量的非客观评估,因为不同的查询有不同数量的相关结果
- 仅当所有查询的相关数 >= k 时,才有可能达到1
与precision@k 相同,其中k 设置为等于相关查询的数量。
优点:对precision@k中数字k的敏感性消失,度量变得稳定缺点:必须知道与查询请求相关的样本总数(如果不是所有相关的都被标记,会产生问题)4、mAP(mean Average Precision)用相关结果填充搜索结果顶部的密集程度。可以将其视为搜索引擎用户收到相同的信息量时需要阅读的页面数(越少越好)。5、nDCG (Normalized Discounted Gain)该度量显示了 top-k 中的元素在它们之间的排序是否正确。这里不会介绍这个指标的优缺点,因为这是度量指标列表中唯一考虑元素顺序的一个指标。并且有研究表明当需要考虑顺序时,这个指标相当稳定并且适用于大多数情况。
输入:请求图像和与其相关的图像。需要有与此查询相关的列表形式的标记。
要计算指标:计算每个的相关矩阵,并根据有关元素相关性信息,计算指标。输入:请求的图像,以及与它们相关的图像。理想情况下应该有一个验证图像的数据库,所有相关查询都在其中被标记。需要注意的是相关图像中不应包含查询的图像以免它会排在 top-1,我们的任务是相关图像而不是找到他自己本身。
要计算指标:遍历所有请求,计算到所有元素(包括相关元素)的距离,并将它们发送到指标计算函数。