分享好友 最新动态首页 最新动态分类 切换频道
SVM(支持向量机)
2024-12-28 16:24

分隔超平面: 将数据集分隔开来的直线(推及三维空间,就是一个平面, 也就是分类的决策边界。在超平面一侧的数据属于某一类, 在另一侧的数据属于另外一类。

SVM(支持向量机)

  我们希望能采用这种方式来构建分类器,即如果数据点离决策边界越远,那么其最后的预测,结果也就越可信。多个超平面它们都能将数据分隔开,但是其中哪一个最好呢?是否应该最小化数据点到分隔超平面的平均距离?来求最佳直线如果是那样,是不是有点寻找最佳拟合直线的感觉? 是的,上述做法确实有点像直线拟合,但这并非最佳方案。我们希望找到离分隔超平面最近的点,确保它们离分隔面的距离尽可能远。这里点到分隔面的距离被称为间隔°( margin)。我们希望间隔尽可能地大,这是因为如果我们犯错或者在有限数据上训练分类器的话,我们希望分类器尽可能的健壮。

1.2.1、分类器求解的优化问题

  前面已经提到了分类器,但还没有介绍它的工作原理。理解其工作原理将有助于理解基于优化问题的分类器求解过程。输入数据给分类器会输出一个类别标签 ,这相当于一个类似于Sigmoid的函数在作用。下面将使用类似海维赛德阶跃函数(即单位阶跃函数)的函数对作用得到,其中当u<0时f(u)输出-1,反之则输出+1。这和前一章的Logistic回归有所不同,那里的类别标签是0或1。这里的类别标签为什么采用 -1和+1 ,而不是0和1呢?这是由于1和+1仅仅相差-个符号,方便数学上的处理。我们可以通过一个统一公式来表示间隔或者数据点到分隔超平面的距离,同时不必担心数据到底是属于-1还是+1类。
  当计算数据点到分隔面的距离并确定分隔面的放置位置时间隔通过来计算,这时就能体现出-1和+1类的好处了。如果数据点处于正方向(即+1类)并且离分隔超平面很远的位置时, 会是一个很大的正数,同时 也会是一个很大的正数。而如果数据点处于负方向(-1类)并且离分隔超平面很远的位置时,此时由于类别标签为-1,则 仍然是一个很大的正数。
【注: 点到分割面的函数距离 , 是点到分割面的几何距离】

其约束条件

  至此,一切都很完美,但是这里有个假设:数据必须10%线性可分。目前为止,我们知道几乎所有数据都不那么“干净”。这时我们就可以通过引人所谓松弛变量(slack variable),来允许有些数据点可以处于分隔面的错误一侧。这样我们的优化目标就能保持仍然不变,但是此时新的约束条件则变为:

  这里的常数C用于控制“最大化间隔”和“保证大部分点的函数间隔小于1.0”这两个目标的权重。在优化算法的实现代码中,常数C是一个参数,因此我们就可以通过调节该参数得到不同的结果。一旦求出了所有的alpha,那么分隔超平面就可以通过这些alpha来表达。这一结论十分直接,SVM中的主要工作就是求解这些alpha。

1.3.1、Platt 的SMO算法

  1996年,John Platt发布了一个称为SMO”的强大算法,用于训练SVM。SM0表示序列最小优化( Sequential Minimal Optimization )。Platt的SMO算法是将大优化问题分解为多个小优化问题来求解的。这些小优化问题往往很容易求解,并且对它们进行顺序求解的结果与将它们作为整体来求解的结果是完全一致的。在结果完全相同的同时,SMO算法的求解时间短很多。
  SMO算法的目标是求出一系列alpha和b, 且求出了这些alpha,就很容易计算出权重向量w并得到分隔超平面。
  SMO算法的工作原理是:每次循环中选择两个alpha进行优化处理。一旦找到一对合适的alpha,那么就增大其中-个同时减小另一个。这里所谓的“合适”就是指两个alpha必须要符合一定的条件, ,条件之- -就是这两个alpha必须要 在间隔边界之外,而其第二个条件则是这两个alpha还没有进行过区间化处理或者不在边界上。

1.3.2、简化版SMO算法

最新文章
哈密企业在线曝光与率提升解决方案——百度推广优化服务
哈密百度推广优化服务,专业提升企业在线曝光和率,助力企业迅速扩大市场影响力,抢占网络营销先机。随着互联网的快速发展,越来越多的企业开始重视网络营销,尤其是,作为我国最大的搜索引擎,百度每天吸引着大量的网民关注,如何做好,成
如何设计受用户欢迎的AI产品?三大核心特性助力成功
在珠海参加第五届数据智能与知识服务研讨会,期间的交流让我对AI产品的设计方向有了更深的思考。虽然与会专家分享了许多关于AI助力科研的大事,但我却在他们的讨论中捕捉到了一条清晰的脉络,那就是:用户的真正需求,决定了AI产品应该具备
Shopee平台入驻规则条件,shopee入驻流水截图要求
Shopee作为东南亚及台湾地区领先的电商平台,为全球卖家提供了进入东南亚市场的便捷渠道。然而,想要在Shopee平台上成功开店,卖家需要满足一系列的入驻规则和条件。一、Shopee平台入驻规则条件Shopee平台入驻的基本条件和规则如下:1、企
畅游2024年人工智能趋势、预测和可能性
欢迎来到2024年人工智能的可能性之旅。在这里,每一个预测都是一个潜在的窗口,让我们看到一个充满创新、变革,更重要的是充满机遇的未来。就像20世纪50年代的工业革命一样,50年代见证了数字计算的兴起,重塑了行业和社会规范。如今,人工
领克03 u 盘不能自动播放下一曲
宝马 X1 的刹车片品牌型号主要为 ATE 或者 Bremb。 如果要进行更换厂家会建议选用原装或者菲罗多、优力、泰明顿、明泰斯、TRW 等型号的刹车片。
两款导航网站源码 全自动导航+自动收录+自动审核+自动检测友链+批量检测
欢迎使用微视媒-源码测试 经验教程 小程序源码 设计资源, 该资源来自用户分享,如果损害了你的权利,请提交站内信由技术处理。1:此资源为内部分享交流,仅供学习参考借鉴使用,请勿用于其他用途。请以学习技术参考理念为目的使用该资源,如
关键词排名找超快排[2807字]181
在线排名优化公司值得信赖的主要原因是什么?首先,查阅网络优化推广业务文件网上SEO公司营业执照,法人身份证,相关资质文件齐全。是否在有效期内,最重要的是是否检查企业信息网络中的相关信息,是否有异常。其次,咨询SEO优化排名企业的
详细分析360搜索,如何通过关键词布局优化文章
随着互联网的飞速发展,搜索引擎已经成为人们获取信息、解决问题的重要途径。在众多搜索引擎中,360搜索凭借其强大的技术实力和丰富的用户体验,赢得了广大用户的青睐。本文将深度解析360搜索,探讨如何通过优化文章,提高文章在搜索引擎中
探索电脑AI自动写作工具:全方位搜索指南,轻松找到最适合你的写作助手
在数字化时代写作已经不再是一件孤独的手工艺活。电脑自动写作工具的出现为创作者们带来了前所未有的便利。无论是撰写文章、生成报告还是创作小说这些智能助手都能提供强大的支持。本文将深入探索各类电脑自动写作工具为您打造一份全方位搜
碳中和|长三角氢能产业发展路径
文/朱松强 孙士恩 李想 王涛 许好好 吴舒琴 厉劲风,浙江浙能技术研究院 浙江能源集团 浙江火力发电高效节能与污染物控制技术研究重点实验室,现代化工  中国已经是世界能源最大的生产国和消费国,同时也是世界上最大的碳排放国,随着中
相关文章
推荐文章
发表评论
0评