分享好友 最新动态首页 最新动态分类 切换频道
机器/深度学习中的参数优化原理初探
2024-12-27 12:00

维纳的个人履历实在令人望而生畏,他真的将各种领域的知识融合在了一起。同时,他创造了自动控制理论,深刻地影响了机器/深度学习的发展历程。神经元模型以及GD梯度下降的发明也是基于自动控制理论基础上创立的。

机器/深度学习中的参数优化原理初探

笔者思考:
自动负反馈控制理论,从另一个角度讨论了一个信息处理系统如何达到稳态(即找到最优参数)。
笔者任务其核心思想是:比起一次接受所有历史状态信息,通过最小二乘估计得到最优参数。信息系统其实可以将时间序列切片,通过只获取一个有限时间段内的信息,对通过滤波器后的信息误差进行评估,进而对系统本身进行负反馈调节,这种方式最终可以让系统趋向于稳态。
这也是GD(梯度下降)思想的核心之一,当然,GD本身还解决了对高维多元随机变量求极值的计算复杂度问题,GD本身是易于通过计算机实现的。

数字滤波器是数字信号处理中使用得罪广泛的一种线性系统环节,是数字信号处理的重要基础。

数字滤波器的本质是将一组输入的数字序列通过一定的运算后转变为另一组输出的数字序列。

实现滤波处理的运算电路、或设备称为滤波器。

对输入信号通过一定的处理得到输出信号,这个处理通常是滤除输入信号的某些频率成分;保留信号中某些频率范围内的有用信号成分。所以把这种处理的过程称为滤波。

笔者思考:CNN卷积网络的训练过程体现了非常明显的滤波过程,CNN网络在训练样本数据的过程中,会自动地保留样本数据中和target有关的“关键性像素区域”,例如小猫识别任务中,CNN会保留图像样本中各种姿势的猫,而对背景这些“冗余信息”会逐渐通过权重调整过滤掉,从某种程度上来说,这就是一种滤波过程。

几乎所以的机器学习算法的参数优化(训练)过程都包含负反馈,算法通过在训练中不断根据本轮迭代的预测结果和目标结果之间的差距来动态调整自己的负反馈,从而逐渐将权值参数调整到”尽量完美“的状态(即拟合)。

作为对刺激的相应,系统产生一个输出 y(i) 作为相应。因此,次系统的外部行为由下述数据集描述:

从数字信号的时空特性角度来看,刺激向量 x(i) 能够以两种根本不同的方式出现,一种是空间的,另一种是空间的:

我们现在面对的问题是如何通过建立一个简单线性神经元来设计未知动态系统的一个多输入-单输出模型(即滤波器模型)。

这个神经元模型是在一个算法的影响下运行的,此算法控制对神经元的突触权值的必要调整,同时记住以下要点:

这样描述的神经元模型称为“自适应滤波器(adaptive filter)”,而其中负责进行调整的算法理论就是LMS(最小均方算法),LMS我们放到下一个章节来展开讨论,我们这里先关注滤波器系统本身。

虽然是在作为系统辨识(system identification)的任务背景下给出的描述,但自适应滤波器的特征还是有很广泛的应用。

下图是一个自适应滤波器的示意图,它的运行由两个连续过程组成:

这两个共同运作过程的组合构成了一个围绕神经元运作的反馈环(feedback loop)

上述的这两个连续过程的产生原理如下:

误差信号 e(i) 用来对神经元突触权值的调整进行控制的方式,是由用于导出自适应滤波算法的代价函数决定的。

这个问题与无约束最优化问题密切相关,无约束最优化不仅可以用在线性自适应滤波器上,还可以应用在一般的神经网络上。

为了下一章节讨论LMS作准备,我们这里先讨论下自适应滤波算法中的无约束最优化问题。

这样,代价函数就成功地将一个学习问题转换为了最优化问题。

也就是说,需要解决一个无约束的最优化问题,即:

最优性的必要条件(注意不是充要条件)是:

一类特别适合自适应滤波器设计的无约束最优化算法是以局部迭代下降(iterative descent)思想为基础的:

下面我们来讨论几种以迭代下降思想的基本形式或变种形式的无约束最优化方法。

具体来说,就是利用代价函数在点 w(n) 周围的二次泰勒级数展开式,我们得到:

一般来说,牛顿法收敛得很快,而且不会出现最速下降法有时会出现的锯齿形情况。但是,应用牛顿法时, Hessian矩阵必须对每个 n 都是正定矩阵。

遗憾的是,一般不能保证在算法的每次迭代中 H(n) 都是正定矩阵。

假如 Hessian矩阵 H(n) 不正定,对牛顿法进行修正就有必要。在很多时候,牛顿法的最主要局限在于其计算复杂度。

J(n) 是 e(n) 的 n x m  Jacobi 矩阵:

综合上式,可得:

上式描述了 Gauss-Newton方法的纯粹形式。

注意:梯度下降是最速下降在欧式范数下的特殊情况

Relevant Link:

 

我们从最小二乘估计器引入最小二乘滤波器,这样可以很自然地进入对LMS的讨论中。最小二乘滤波器和最小二乘估计器虽然只有几字之差,但是其整个优化运算过程是不一样的。最小二乘滤波器引入了自适应反馈的思想。

我们在前面的章节中讨论了最小二乘估计器,它利用极小化(求导极值)的传统放来从环境的观测模型中找到最小二乘解。

从这个小节开始,我们将最小二乘估计器放到一个维纳滤波器的框架中进行讨论,我们称之为最小二乘滤波器(least-squares filter)。我们接下来利用 Gauss-Newton法来重新推导这个滤波器公式。

我们定义如下误差向量:

因此,上式可写为:

读者注意!!

这个公式和我们在文章之前推导的最小二乘的几何意义得到的公式是一致的。通俗地说:

Gauss-Newton(以及其他迭代算法)的每一次迭代,本质上就是在这个 n 的时域内,进行最小二乘估计,并根据得到的本次最优解对权值向量进行更新

这个公式表示了下面所陈述的一个简便途径:

我们已经知道了,LMS算法在一次迭代中(时间 n 时域区间),本质上是在进行最小二乘估计。接下来继续思考,如果这个过程无限进行下去会得到什么呢?即 n 趋近于无穷。

基于公式

得到:

现在假设输入向量 x(i) 和相应的期望响应 d(i) 来自于联合遍历。我们可以用时间均值来代替总体均值。

输入向量 x(i) 的相关矩阵(correlation matrix)的总体平均形式是:

并且,相应地,输入向量 x(i) 和期望响应 d(i) 之间的互相关系(cross-correlation vector)的总体平均形式是:

综上,可将式:

因此,我们可以做以下的陈述:对一个遍历过程,当观察样本数趋于无穷时,线性最小二乘滤波器渐进趋于维纳滤波器

虽然,当样本量趋近于无穷时,线性最小二乘滤波器趋近于维纳滤波器,但是设计维纳滤波器需要二阶统计量的知识:

但是,在实际的情况下,这些信息都是未知的,所以维纳滤波器只是一个理论上的最优滤波器。

在实际工程实践中,我们可以利用线性自适应滤波器(linear adaptive filter)来处理未知的环境,自适应在这里的含义就是滤波器能够调整自己的自由参数来响应环境的统计变化。在连续的时间基础上做这类调整的一个流行的算法就是最小均方算法(LMS)。

接下来,我们进入对LMS的讨论。

LMS最小均方算法是第一个解决如预测和信道均等化等问题的线性自适应滤波算法。

值得注意的是,LSM算法自身不仅可以作为自适应滤波应用机器,它还可以作为其他自适应滤波算法的评价准则,这里面的原因包括:

对工程来说,上述性能都是非常重要的。之所以强调说工程,是因为其实LMS并不是理论上最优的算法,但是却是最实际工程有效的。

因为在实际情况中,我们很难获得全局最优解,甚至说都无法完整按照最速下降的思想进行最优方向的梯度下降,原因大致如下:

但是LMS拥有计算简单、鲁棒性等优点,使得LMS在之后的深度学习/BP理论的发展中被不断继承和发扬光大。

最小均方(least mean square,LMS)算法的建立是基于极小化代价函数的瞬时值。注意!是瞬时值。

代价函数为:

这里 e(n) 是 n 时刻的瞬时误差信号。

因此,

综上公式得:

最后,将上式梯度的瞬时估计公式,带入最速下降法作为最速下降法的梯度向量,可以得到LMS的算法公式:

这里值得注意的是:

利用最速下降法可以得到一个权值向量,而LMS算法产生该权值向量的一个瞬时估计。所以,利用LMS算法时我们牺牲掉最速下降法的一个明显特征。

一个重要的事实是,与最速下降法不同,LMS算法不需要知道环境的统计特征。从实际的角度来看,LMS的这一特征是非常重要的。

我们可以把LMS算法中的权值向量演变过程表示如下:

这里,I 是单位矩阵。通过运用LMS算法,我们认识到:

我们利用信号流图来表示LMS算法,这图揭示了LMS算法是随机反馈系统的一个实例。反馈的出现对LMS算法的收敛行为有重要影响。

为了给LMS算法提供一种统计分析,我们利用下式定义的权值误差向量(weight-error vector)更加方便。

2. 在时间 n 上状态的演化被内部所产生的噪音 f(n) 所扰动,这一噪声扮演者”驱动力“的角色。

和上面的原始形式相比,这个图中用紧凑形式重点强调了LMS算法中的反馈过程。

需要注意的是!

最新文章
虾皮店铺转让多少钱?如何转让?
现在很多卖家选择在跨境平台虾皮上注册开店,但是由于平台上的店铺是非常激烈的,很多卖家无法继续将店铺经营下去,就会想要将店铺进行转让,那么虾皮店铺转让是多少钱了?shopee店铺转让价格并不是一定的,主要还是看店铺的运营情况。一般
超高清美女写真,这款AI工具教你一键生成心仪形象!
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个数字时代,许多人希望通过高科技手段来实现艺术创作,而AI的崛起让这一切变得轻而易举
科技智能重塑外汇体验,最新动态与未来展望
摘要:外汇市场最新动态显示,科技引领未来发展趋势,智能产品正在重塑外汇交易体验。随着科技的不断进步,外汇交易逐渐实现智能化,提供更加便捷、高效的交易方式。智能产品的应用,使得外汇交易更加智能化、个性化,满足不同交易者的需求
ROWNUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)用法,先分组,然后在组内排名,分组计算,主表与附表一对多取唯一等
今天在使用多字段去重时,由于某些字段有多种可能性,只需根据部分字段进行去重,在网上看到了rownumber() over(partition by col1 order by col2)去重的方法,很不错,在此记录分享下:  row_number() OVER ( PARTITION BY COL1 ORDER B
讲座回顾 | 探秘以“假”乱真的AIGC图像与视频生成
图|广外国际学院随着人工智能深入高等教育,海内外优质高等教育资源也在积极响应科技发展的步伐,愈发重视人工智能在现代商业中的关键作用。本次AI系列讲座是广外国际学院响应高等教育高质量发展的一次全新举措,从AI的起源和发展史,到AI
《重返80年代之我靠抓螃蟹发家》短剧在线观看,致姗姗来迟的你(电视剧版)——时光深处的温暖相遇(集萃)短剧在线观看,致姗姗来迟的你百科短剧在线观看
《重返80年代之我靠抓螃蟹发家》是一部在线观看的短剧,讲述了一段关于时光深处的温暖相遇的故事。这部短剧展现了主人公通过抓螃蟹发家致富的历程,同时也展现了姗姗来迟的温暖相遇。观众可以在线观看这部短剧,感受其中的情感与温馨。久别
抖音申请药品类目的方法,开通具体步骤
如果您想在douyin平台上开设药品类目店铺,您需要遵循一系列严格而详细的步骤,以确保您的店铺合法、合规并成功运营。以下是一份详尽的申请和开通指南,帮助您顺利踏入douyin药品电商的蓝海。一、准备必要的资质文件首先,确保您已准备好所
用AI绘画生成超逼真美女写真,你绝不能错过的全新神器!
DALL·E 2:由OpenAI开发的这个工具使用更为复杂的神经网络,能根据文字描述生成惊人的真实图像。你只需输入“优雅的美女在樱花树下微笑”,就能获得相应的高质感画面。其不足之处在于,需要较好的描述能力,才能生成理想的图像。Midjourne
拼多多店铺标题能和别人一样吗?如何优化标题?
最近有很多商家朋友都问过我同一个问题:老师啊,我产品现在能改标题不?改了又降权,不改流量到瓶颈了,不知道如何提升!今天我就出一期关于拼多多商品在什么情况下去改标题怎么去改最好详细讲解一下。相信大家都知道,你的商品卖的好不好
私信卡片工具一键跳转微信加好友如何实现?
您是否常常遭遇这样的困扰:想要引导平台粉丝或潜在客户快速添加微信好友,却面临重重阻碍?繁琐的手动操作、复杂的引导流程,让许多宝贵的人脉资源和商业机会从指尖溜走。别担心,私信卡片工具一键跳转微信加好友功能的出现,将为您彻底扭
相关文章
推荐文章
发表评论
0评