分享好友 最新资讯首页 最新资讯分类 切换频道
计算机视觉领域最全汇总(第2部分)
2024-12-27 17:50

7、纹理生成(Texture Synthesis)与风格迁移(Style Transform)

纹理生成用于生成包含相同纹理的较大图像。给定正常图像和包含特定风格的图像,然后通过风格迁移不仅保留图像的原始内容,而且将该图像转换为指定的风格。

特征反演是纹理生成和风格迁移背后的核心概念。给定一个中间层特征,我们希望迭代来创建与给定特征类似图像。特征反演还可以告诉我们在中间层特征中包含多少图像信息。

给定DxHxW的深度卷积特征,我们将它们转换为Dx(HW)矩阵X,因此我们可以将对应Gram矩阵定义为:G = XX ^ T

通过外积,Gram矩阵捕获不同特征之间的关系。

它对给定纹理图案的Gram矩阵进行特征逆向工程。使生成图像的各层特征的Gram矩阵接近给定纹理图像的各层Gram。低层特征倾向于捕获细节信息,而高层特征可以捕获更大面积的特征。

此优化有两个主要目标:第一个是使生成的图像的内容更接近原始图像的内容,而第二个是使生成的图像的风格与指定的风格匹配。风格由Gram矩阵体现,而内容直接由神经元的激活值体现。

上面直接生成风格迁移的图像的方法的缺点是需要多次迭代才能收敛。解决该问题的方案是训练一个神经网络来直接生成风格迁移的图像。一旦训练结束,进行风格迁移只需前馈网络一次,十分高效。在训练时,将生成图像、原始图像、风格图像三者前馈一固定网络以提取不同层特征用于计算损失函数。

实验证明,通过使用实例归一化,风格变换网络可以移除与图像相关的比较信息以简化生成过程。

上述方法的一个问题是我们必须为每种不同的风格训练一个单独的模型。由于不同的风格有时包含相似性,因此可以通过在不同风格的风格变换网络之间共享参数来完成这项工作。具体来说,它更改了风格转换网络的示例规范化,使其具有N组缩放和平移参数,每个组对应于特定风格。这样我们就可以从单个前馈过程中获得N个风格的变换图像。

人脸验证/识别可以认为是一种更加精细的细粒度图像识别任务。人脸验证是给定两张图像、判断其是否属于同一个人,而人脸识别是回答图像中的人是谁。一个人脸验证/识别系统通常包括三大步:检测图像中的人脸,特征点定位、及对人脸进行验证/识别。人脸验证/识别的难题在于需要进行小样本学习。通常情况下,数据集中每人只有对应的一张图像,这称为一次性学习(one-shot learning)。

作为分类问题(非常多的类别数),或作为度量学习的问题。如果两个图像属于同一个人,那么我们希望它们的深层特征非常相似。否则,它们的特征应该不同。之后,根据深度特征之间的距离进行验证或识别(k最近邻居分类)。

第一个成功将深度神经网络应用于面部验证/识别模型的系统。DeepFace使用非共享参数局部性连接。这是因为人脸的不同部分具有不同的特征(例如眼睛和嘴唇具有不同的特征),因此传统卷积层的经典“共享参数”不适用于面部验证。因此,面部识别网络使用非共享参数局部性连接。它使用的孪生(Siamese network)网络用于面部验证。当两个图像的深度特征小于给定阈值时,它们被认为是同一个人。

FaceNet通过三因子输入,希望负样本之间的距离大于正样本之间的距离给定量。此外,三个输入因子并不是随机的,否则,因为负样本的差异样本太大,网络将无法学习。选择最具挑战性的三个元素组(例如最远的正样本和最接近的负样本)会使该网络陷入局部最优。FaceNet使用半困难策略,选择比正样本更远的负样本。

近年来,这一直是一个热门的研究课题。由于类内波动大而类间相似度高,有研究工作旨在提升经典的交叉熵损失对深度特征的判断能力。例如,L-Softmax加强优化目标,使对应类别的参数向量和深度特征夹角增大。

 

A-Softmax进一步约束L-Softmax的参数向量长度为1,使训练更集中到优化深度特征和夹角上。实际中,L-Softmax和A-Softmax都很难收敛,训练时采用了退火方法,从标准softmax逐渐退火至L-Softmax或A-Softmax。

该系统确定面部图像是来自真人还是来自照片,这是面部验证/识别任务的关键障碍。目前在业界流行的一些方法是读取人的面部表情,纹理信息,眨眼或要求用户完成一系列动作的变化。

给定一个包含特定实例(例如特定目标,场景或建筑物)的图像,图像搜索用于在数据库中查找包含与给定实例类似的元素的图像。然而,由于两个图像中的角度,光照和障碍物通常不相同,因此创建能够处理图像类别中的这些差异的搜索算法的问题对研究人员构成了重大挑战。

首先,我们必须从图像中提取适当的代表性矢量。其次,将欧氏距离或余弦距离应用于这些矢量以执行最近邻居搜索并找到最相似的图像。最后,我们使用特定的处理技术对搜索结果进行小幅调整。我们可以看到图像搜索引擎性能的限制因素是图像的表示:

无监督图像搜索使用预先训练的ImageNet模型,没有外部信息作为特征提取引擎来提取图像的表示。

有监督图像搜索首先采用预先训练的ImageNet模型并将其调整到另一个训练数据集上。然后,它从这个调整的模型中提取图像表示。为了获得更好的结果,用于优化模型的训练数据集通常类似于搜索数据集。此外,我们可以使用候选区域网络从可能包含目标的图像中提取前景区域。

孪生网络:类似于人脸识别的思想,该系统使用两个元素或三个元素输入(++ -)来训练模型,以最小化两个样本之间的距离,并最大化两个不同样本之间的距离。

对象跟踪的目标是跟踪视频中目标的移动。通常,目标位于视频的第一帧中并由框标记。我们需要预测框在下一帧中的位置。对象跟踪与目标测试类似。然而,对象跟踪的难点在于我们不知道我们跟踪哪个目标。因此,我们无法在任务之前收集足够的训练数据并训练专门的测试。

类似于面部验证的概念,利用孪生网络可以在一条线上的目标框内输入图像,并且在另一条线上输入候选图像区域,然后输出两个图像之间的相似度。我们不需要遍历不同帧中的所有其他候选区域;相反,我们可以使用卷积网络,只需要将每个图像前馈一次,通过卷积,我们可以获得二维的响应图,其中最重要的响应位置确定了框的位置。基于孪生网络的方法非常快并且能够处理任何大小的图像。

相关滤波器训练线性模板以区分图像区域和它们周围的区域,然后使用傅立叶变换。CFNet与离线训练的孪生网络和相关的在线滤波模板相结合,能够提高加权网络的跟踪性能。

这种类型的模型用于学习数据(图像)的分布或从其分布中采样新图像。生成模型可用于超分辨率重建、图像着色、图像转换、从文本生成图像、学习隐藏的图像表示、半监督学习等。此外,生成式模型可以与强化学习相结合,用于模拟和逆强化学习。

使用条件概率的公式来对图像的分布进行最大似然估计并从中学习。该方法的缺点在于,由于每个图像中的像素取决于先前的像素,因此必须在一个角开始并以有序的方式进行,所以生成图像的过程将稍微缓慢。例如,WaveNet可以产生类似于人类创建的语音,但由于它不能同时产生,一秒钟的语音需要2分钟来计算,并且实时生成是不可能的。

为了避免显式建模的缺陷,变分自编码器对数据分布进行了隐式建模。它认为生成图像受隐藏变量控制的影响,并假设隐藏变量受到对角高斯分布的影响。

变分自编码器使用解码网络根据隐藏变量生成图像。由于我们无法直接应用最大似然估计,因此在训练时,类似于EM算法,变分自编码器构造似然函数的下界函数,然后使用该下界函数进行优化。变分自编码器的好处是因为每个维度的独立性;我们可以通过控制隐藏变量来控制影响输出图像变化的因素。

由于学习数据分布极其困难,生成对抗式网络完全避免了这一步骤并立即生成图像。生成对抗式网络使用生成网络G从随机噪声创建图像,并使用判别网络D来确定输入图像是真实的还是伪造的。

在训练期间,判别网络D的目标是确定图像是真实的还是伪造的,并且生成式网络G的目的是使判别网络D倾向于确定其输出图像是真实的。在实践中,训练生成式对抗网络会带来模型崩溃的问题,其中生成对抗式网络无法学习完整的数据分布。这在LS-GAN和W-GAN中产生了改进,与变分自编码器一样,生成对抗式网络提供更好的详细信息。

上述大多数任务都可以用于视频分类,这里我们将以视频分类为例来说明处理视频数据的一些基本方法。

这类方法将视频视为一系列帧图像,网络接收属于视频的一组多帧图像(例如15帧),然后从这些图像中提取深度特征,并最终集成这些图像特征以获得视频的该部分的特征以对其进行分类。实验表明,使用“慢速融合(slow fusion)”效果最佳。此外,独立组织单个帧也可以得到非常有竞争力的结果,这意味着来自单个帧的图像包含大量相关信息。

将标准的二维卷积扩展为三维卷积,以在时间维度上连接局部。例如,系统可以采用VGG 3x3卷积并将其扩展为3x3x3卷积或2x2收敛扩展为2x2x2收敛。

这种类型的方法使用两个独立的网络来区分从视频捕获的图像信息和时间信息。图像信息可以从单帧中的静止图像获得,并且是图像分类的经典问题。然后通过光流获得运动信息,跟踪目标在相邻帧上的运动。

先前的方法仅能够捕获几帧图像之间的依赖关系。此方法使用CNN从单个帧中提取图像特征,然后使用RNN捕获帧之间的依赖关系。

此外,研究人员已尝试将CNN和RNN结合起来,以便每个卷积层能够捕获远距离依赖性。

以上为译文。

本文由组织翻译。

文章原标题《deep-dive-into-computer-vision-with-neural-network-2》,

作者: 译者:虎说八道,审校:。

文章为简译,更为详细的内容,请查看

最新文章
资源利用最大化,华为云Serverless再度创新:高效的资源优化调度系统入选ATC'24
Key Takeaways1.USENIX ATC(USENIX Annual Technical Conference) 是计算机系统领域国际顶级学术会议之一(CCF-A),在国际上享
简洁手工编织商品展示网站WordPress模板(PC+手机站)
简洁手工编织商品展示网站wordpress模板简洁的手工编织商品展示网站Wordpress模板(带手机版)是简洁宽屏的手工编织商品公司网站
阿里云轻量应用服务器环境搭建-Docker部署vue-cli项目
参考链接:https://cli.vuejs.org/zh/guide/deployment.html#docker-nginx一些环境:Ubuntu 18.0Docker 19.0工具&#x
全景图转换器电脑端官方正版2024最新版绿色免费下载安装
全景图转换器,一般又称Pano2VR。  全景图转换器(Pano2VR)是一个全景图像转换应用软件。可以把全景图像转换成的QuickTime或者M
高岗传 pdf epub mobi txt 电子书 下载 2024
  高岗,中共党史上一位带有悲剧色彩的传奇人物。  生前,他身上光环耀眼。他是陕北红军和革命根据地的创建者之一,是陕甘宁
新手SEO必看!10招助你网站快速被百度收录
优化网站时,确保百度快速收录新官方网站是重要环节,亦是SEO行业关注焦点。作为资深SEO专家,在此分享十项实
普陀区发布《剧本娱乐经营场所消防安全管理要求》区级消防标准化指导性技术文件
加强新业态规范化治理迫在眉睫新规范着重强化安全管理一范 围明确了普陀区剧本娱乐经营场所消防安全管理总体要求,区分了剧本杀
揭秘!新建网站如何快速被百度收录?
问题一:如何让新建的网站被百度收录?尊敬的朋友们,我要告诉您新建网站百度怎么收录,有一些特定的步骤可以帮助您成功地收录新
郑州市汽车博览会的长尾关键词有哪些
【郑州市汽车博览会】长尾关键词有很多,郑州信息发布网为您整理各个搜索引擎的相关长尾关键词:百度的相关长尾关键词:郑州市汽
进口菲律宾果汁进口申报,境外生产商注册,全套进口代理
企业类型有限责任公司(自然人投资或控股)统一社会信用代码91310115324587899P成立日期2015-02-10法定代表人/负责人钱小玮注册资