分享好友 最新动态首页 最新动态分类 切换频道
一文讲清楚AI,以及AI的基础理论
2024-12-27 15:20

科普,科普。

一文讲清楚AI,以及AI的基础理论

AI大热。NVIDIA成为美股市值最高的公司,没有自动驾驶能力的汽车公司最终都成为诺基亚,AI是“人类”最后一项重要发明,机器学习、通用人工智能(AGI)、AI会取代80%的工作岗位,各种故事令人眼花缭乱。我想用一篇文章讲从头到尾讲清楚所有有关AI的各种逻辑,以及各种AI术语是什么意思。

一、什么是人工智能

现在有三种主流的人工智能实现方式:rule-based基于规则的技术路径,比如搜索引擎,这块现在不被视为人工智能;tree-based 决策树,比如下国际象棋的深蓝,每一步都做决策,用算力穷举出最后的结果;neural network 神经网络,现在主流所说的AI,所说的chatGPT,所说的大语言模型,都是基于这个技术实现的。

1943年的麦克卡洛夫模型,试图用数学模型来模拟人脑神经元的运行,这就是神经网络的起点。后来辛顿研究了几十年神经网络,一直没啥成果,神经网络一直也被当成是伪科学,辛顿本人也颠沛流离。一直到2012年一个图片识别大赛上,辛顿一举成名,第一次证明了神经网络这个技术路线是可行的。谷歌的alphago和openAI都是辛顿的学生搞出来的。可以说辛顿就是当下我们所说的人工智能之父,自他开始开创了我们看到的眼花缭乱的AI时代。

基于神经网络这个技术路径,第一个爆款应用就是下围棋的alphago,不依赖程序算法,不依赖穷举法,单纯靠机器自主学习,就能在几个月的时间内超越人类上千年的积累。深蓝下国际象棋用的是穷举法,因为机器能算出来结果,所以人类不可能战胜。Alphago的厉害之处是机器不知道结果,也不去算结果,只是自己学会了如何下围棋,并且比任何人类棋手学的都好。

神经网络技术第二个爆款应用就是chatGPT。openAI公司把超大量的人类网络上的文字数据让机器进行自主学习,所以也被叫做“大语言模型”。后面openAI又开发出来了语音模型、图片模型、视频模型,把新开发的各种模型都接入了chatGPT这个应用上面,让人使用自然语言就能直接向机器提出问题、提出需求,机器给与相应的反馈和回答。

第一个爆款应用证明了机器在特定领域的智能可以远超人类。继工业革命证明了机器的力量远超人类之后,人类好像再次迎来了大发展的曙光。第二个爆款应用证明了机器智能适用范围可能会非常的大,所以提出了AGI(artificial general intelligence通用人工智能)的概念。工业革命取代了人类的体力,如果AI能取代人类的智力呢?这就是人工智能的想象空间。而且不管是算力的提升还是模型的进步速度,远远比汽车取代马车的速度要快。

二、神经网络,或者说人工智能是如何实现的

传统的程序、软件对精度要求非常高,代码不能错,任何错误都是bug,任何不精确都是漏洞。神经网络虽然也需要电脑设备,但运行的不是程序,可以把他看做是一种智能。里面的内核是一整套“参数”,这些参数由机器自动学习来获得,无需人工进行设置。现在大模型动辄就是上千亿的参数,人类也没啥能力进行设置,甚至都无法看懂参数的意义。所以我们把大模型也叫做“黑箱”,有输入,有输出,但不明白中间是如何进行处理的。

人脑有800亿个神经元,人类不是单体,群体产生的智慧可以被单体学习,并迭代到下一代。现在chatGPT4.0的参数有5000亿个,虽然openAI也在不停地迭代它的模型,但确实不像人类整体一样,同时有上亿个个体在各种环境中去迭代。不过openAI一天耗电只要26万度电,比人类整体迭代效率还是高多了。后面会用alphago的迭代过程来详细说明神经网络的迭代路径。

如果喂给AI大模型一篇文章,这个大模型是不会把它储存下来的,大模型并没有储存功能,有的只是参数。当我们问起有关这篇文章的内容的时候,它是根据自身的参数、输入的文章、提问的语句,按顺序产生出来一个“回答”。人脑工作原理也大致如此,不会真的会“背过”什么,而是在“背诵”的时候,根据上一句才能连续的“想起”下一句。如果要问一首诗的第36和48个字是什么,问一篇文章第二段第三句是什么,人脑也需要先按顺序把文章整理出来,然后再去找目标的字和句子。要求一个人倒着背,跳着字背诵一个自己背的很熟的东西,如果不经过特殊训练是无法完成的。大模型回答问题的时候,也是按顺序生成答案,很类似人脑在回答问题时候的状态。而生成的答案质量高低,就是人脑的神经元结构和大模型的参数的问题了。当自己背错而不自知的时候,当自己的记忆出现幻觉的时候,真的是“忘了么”,还只是人脑压根没有储能能力,有的只是神经元之间的链接结构,一切的智能,只是顺着神经元的链接,把信号传递下去而已?

人脑通过大量的知识输入,系统性的建立了神经元之间的链接,然后拥有了智能,可以按顺序输出答案。大模型也是通过大量的信息输入,自动进行结构性的参数设定,就可以按顺序进行答案的输出,好似也拥有了智能。

三、AlphaGO是如何打造出来的

alphago先通过历史上的大量棋谱和网络平台上的大量对战记录的输入,凑出来一套还凑合的参数设置。然后找一些9段棋手,对参数设置进行进一步的调整,继续迭代参数。再让alphago自己跟自己下棋,继续迭代参数。第四步使用穷举法协助alphago找到局部最优解,通过明确的每一步胜率进一步提高整体胜率。第五步,让alphago去跟人类棋手下棋,进一步调整参数,适应与人类下棋。第六步让alphago去跟李世石、柯洁等人类顶尖棋手下棋,再次迭代参数。第七步就是alphago zero,在之前的参数体系下,自我重新迭代。各种方式的反复迭代后,使用神经网络技术构建的这个围棋大模型,就能彻底的超越人类的智能。人类的围棋技术迭代千年,alphago从2014年开发,到了2017年就超越的所有人类。

四、机器学习的方法、天气预报、中医

人类从零开始学习数学和物理知识,先有了问题和答案,然后去找规律。这个过程在机器学习领域里面,被叫做“监督学习”。人类找到的规律,不需要是正确的规律,凑合能用就行,机器学习也如此。经过各种角度和场景的迭代后,规律会越来越精确。人脸识别、天气预报就是监督学习的典型案例。区别在于,人类找到的规律,必须简化成公式,才能被理解和传承下去。神经网络找到的规律,就像人类的大脑结构一样,是神经元的整套链接结构,是整套的参数结构,完全无法解读,只是能用。

天气预报之前都是输入物理模型和参数,然后计算出来未来可能的天气情况。非常符合人类对于科学的研究思路。唯一的问题是,计算量太大了,又贵又慢又不准。让机器自动学习历史气象数据后,得出的并不是公式,而是一整套参数模型。这套模型只需要简单的计算设备就能在2分钟内给出未来的15天内的天气情况,准确程度比传统物理模型的计算高出30%。计算速度快,就能更好的提前预测到极端天气情况的发生。问题来了,这种拟合出来的参数模型就是一个黑箱,怎么算出来的根本不清楚,算是科学么?但这个方法又是这么简单,扔进去大量数据,机器自己学习,几个人的小公司,便宜的设备就能搞定,根本用不到大型计算机群。

大模型这个特性非常类似中医。虽然中医能提炼出来各种理论,但怎么看都不太“科学”。学中医靠的是悟性,这个悟性就像好用的大模型参数结构,说不清怎么运行的,但就是能用。神经网络的发展史跟中医一样,长期被视为伪科学,所以辛顿长期被人嘲笑,一直做冷板凳。神经网络开始爆红,从而转正成为科学,因为算力和数据都提升上来了,才明确了这种机器学习的方式确实有前景。现在算力有了,中医还差大量的数据。未来个人身体数据进行全面的提取储存后,能不能像天气预报的革命那样,弄出来一个新的医疗大模型呢?如果可以的话,那么中国医学分类,从中医、现代医学后,又能增加一个AI医学了。无论是大模型还是中医,都是解决问题的一个范式。

五、神经网络的基本结构

f(x)=ax+b,这是一个函数,在直角坐标系下描述的是一条直线。给出大量的数据,也就是直角坐标系下大量的散点,现在要找到一个函数来描述这些散点,于是用到了最小二乘法。最小二乘法不是最优,只是为了计算方便而已。有了这个函数,给定一个x,就能去预测f(x)的值。

现在定义一个矩阵函数f(x)=wx+b。其中w是一个M行N列的矩阵,b是一个M维的向量。每个f(x)相当于一个大脑的神经元,H个神经元按照特定结构链接,就形成了一个神经网络模型。每个矩阵函数输出,就是下一个矩阵函数的输入,经过完整的计算链条,就能产生最终的结果输出。也有一个类似最小二乘法的算法,最终找到一个整体的神经网络模型,使得输出结果最接近标准答案。现在常说的几千亿的大模型,这个几千亿的数就是M,N,H三个数的乘积。

有个说法是神经网络的大模型就是炼金术,矩阵w的行和列的大小多少比较好,H个矩阵函数如何进行链接效率更高,完全没有任何公式和规律可循,就是一点一点的尝试。生物从8.5亿年前进化出来神经元,通过海量生物的适者生存迭代下,进化出来各种神经元链接的结构。

化学本身也是炼金术,什么样的结构效率最好,也依赖超大量的实验和迭代。炼金术确实是神经网络的发展特点,跟天气预报、化学、蛋白质折叠一样,没必要先研究物理定律然后慢慢推导,按炼金术的模式发展效率要高的多。

建立神经网络一开始就要设定矩阵w的行和列的大小、矩阵函数的数量H,都只能靠尝试。在开发alphago的时候,第一步就是输入现有的棋谱和网络对战的数据,就是为了方便尝试。确定后了,再反复迭代,输入不同的数据进行机器学习,对现有的模型参数和结构进行反复迭代。在数据和算力的加持下,迭代效率远超自然界对于生物大脑的迭代效率,才能3年内完胜人类。毕竟alphago只是一个实验,类似的实验还有openai开发的打dota2的OpenAI Five,结果也是能够战胜人类顶尖选手。如果再投入更多的资源,更加激进一些,在建立神经网络之初w矩阵和矩阵数量链接的数量不要进行设置,完全由迭代产生,那就是模拟自然界的生物进化过程了。作为一个要控制成本的实验,没必要,但最终的效果一定会更好。openAI的ceo奥特曼提出7万亿美元的芯片计划,也是认为如果要实现通用人工智能(AGI),需要迭代的算力远远不够。生物迭代需要几十亿年外加无穷庞大的生物数量,化学炼金术只要200年外加有限人数的化学工程师。奥特曼认为,没有预设的生物进化方式,没有对神经网络进行预设的模型,才能真正的发挥出来AI的力量。即使要消耗全球一年整体GDP,也是值得的。大力确实能出奇迹。

六、提示词、智能体、提示词工程师

去百度搜索,输入的信息叫做关键词。在AI大模型中,输入的信息叫做提示词。基于神经网络的AI,本身不储存任何信息,无法通过检索来给出答案。AI有的只是无数个参数矩阵链接起来的特定结构,与之“交流”更像是与人类对话,需要把前因后果讲具体。跟一个陌生人说“发票”,陌生人可能莫名其妙。跟同事说发票,他可能会知道你的意思。输入AI的信息,也需要这种完整的前因后果,才能获得精确的答案。

假设要让AI写一封信,呼吁社区居民建立一个社区花园。可以这么写:假设你是一个女性社区物业经理,写一封信给社区居民,解释建立社区花园的好处,并请他们支持这个项目,信要情感真挚,居民读完信后投票率要高,并且包含一下几个点:一、社区花园如何改善环境。二、社区花园对居民健康的益处。三、社区花园如何增强社区凝聚力。信要求A4纸打印,布局要合理,易读,最好一页纸内完成。

针对一个特定的任务,提示词可能需要300字以上。比如先完成A动作,然后筛选出来符合B的结果,根据结果再去进行C操作,操作完成后按照D风格对语言进行修改,并对其中的生僻词语进行30字以内的解释,再把整段回答风格参照D风格进行整理,最后加上公司名称和日期。如果这种相似的任务非常多,就可以把这些提示词打包做成一个特定的智能体(agent)。以后再想完成这个特定任务,只要在这个智能体中输入关键词,剩下的工作这个智能体就会自动完成,不再需要输入完整的提示词了。比如一个名叫“把证件照背景更换颜色”的智能体,看名字就知道功能了。把多个单一功能智能体像编程一样拼接起来,就能得到一个更加针对特定任务的智能体。就像一个企业一样,把各个职位组合起来,完成一个特定的复杂任务。

当前的AI,都是基于大语言模型的AI。AI应用中,不同的架构适合处理不同的问题。transformer架构就适合大语言模型。CNN(卷积神经网络convolutional neural networks) 架构就适合图片处理。RNN架构就适合处理时间序列问题。基于大语言模型就是说只要输入自然语言就能完成各种不同的任务,其它架构都与大语言模型进行连接。如果要更好更准确的完成特定的任务,就需要把任务拆解成为SOP(standard operational progress)标准工作流,然后针对不同的架构去设计不同的提示词智能体,最后组成完整的智能体工作流。完成这个任务的人,被称为提示词工程师。提示词工程师要做的就是精准拆解任务流程,使用不同的AI架构去完成不同类型的任务,并且保证输入信息的完整性、精准性、有效性。

提示词工程师如同球队教练,需要了解各个队员的特点,设计不同的战术,整体性的完成任务。小白也能当教练,就是球队表现出来的水平差点。

七、适合AI发展的领域

首先就是专业服务。比如金融,治理,法律、财务、咨询、基建、设计、服装、视频、做图、医疗之类的,虽说又复杂又高端但不需要创新。喂足够的专业数据,就能做出来专业的模型。在智能体工作流配合下,只要有专业的工作流程,就能大规模替代人力。现在做图和法律这两个领域,因为数据量足够大、质量足够好,已经替代了大量的律师和画师了。

科研领域,尤其是适合“炼金术”的方向。比如天气预报、经济模型、蛋白质折叠、医药研发、材料科学、基因技术、农业育种。这些领域数据较多,但没有简洁的公式和规则,非常适合这种大力出奇迹的神经网络发挥作用。比如AlphaFold3使得蛋白质结构预测的时间从数月大幅缩短至数小时。天气预报从使用超算情况下6小时出7天的预测,到使用简单设备2分钟就能完成15天内的预测。

媒体、心理领域。大语言模型可以输入人类所有的文字的记录,AI可以善于知道如何说话更好听,更善于被接受,更容易激怒人,更易于骗到别人,更容易带节奏。经过对模型的微调后,会得到无限量成本非常低的专业发言人、专业撰稿人、专业心理咨询师、专业感情陪伴、专业谈判专家。

知识、教育领域。这类领域也是数据非常多的领域,AI可以拥有足够的水平。同时,AI还能实时针对每个特定的人的知识体系和掌握熟练度进行迭代,相当于一个一对一的高水平全科专家,同时这个专家还拥有最高效率的教学方法,还是一个合格的心理专家。一小时只要1元钱。随着推广的领域足够多,AI都能获得足够的数据。

从上面的特点可以看出来,AI在专业领域的替代程度非常高。只要数据质量足够好,投入够多,就能造出来一个特定领域远超人类能力的AI,同时保持极低的成本。越是特定的很窄的领域,效果越好,围棋、dota2、蛋白质折叠。以现在的算力水平,王牌飞行员、战神指挥官、CS巷战特种精英,这些AI可能只需要几个月的迭代就能远超人类,困难的只存在于工程方面。

八、AI的风险控制

早在1940年,阿西莫夫就提出了机器人三定律。openAI也因为AI的风险问题导致创始人出走,其CEO奥特曼也呼吁政府来监督他们。这人太滑头,AI的风险就是AI的特点,根本不是监督的问题。

人类学习数学和物理等知识,是因为先理解了规律和公式,然后会做题。AI只是在模拟人类大脑的神经网络,它本身无法产生逻辑,所以在数学领域表现一直不好。无法真正给AI去定义一个规则,这就是风险。告诉一个人不能随地大小便,可能这个人会遵守。告诉一个城市的人不能随地大小便,一定有人不遵守。AI就相当于一个城市的人,就算用没有污染的数据进行训练,让AI从根本上没有随地大小便这个神经元,也一定会偶然出现一个随地大小便的行为,而且都无法查验这个数据是哪里来的。

现在各个AI本身也有一些限制,问到类似的问题就会不予回答,但这不是AI的规则,只是强行屏蔽了一些结果,屏蔽结果的代价是降低了AI的智能。但敏感词仍然会存在于AI之中,因为AI不储存任何信息,所有训练过的数据只会塑造AI的矩阵架构,这个架构是确定的,所以无法去真正删除敏感词。只要教会AI火星文,就能绕过去。语言的魔法,适合大语言模型。人类程序中的漏洞会很多,AI的漏洞很可能更多。发现的程序漏洞可以被修补,AI漏洞无法被修补,强行屏蔽的话也会降低AI的智能。

人会犯错,AI也会,这就是神经网络结构决定的。风险这个词,并不单独存在,只要成本和收益合适,风险就不是问题。

九、关于AI的一些哲学思路

AI智能的来源是涌现,more is different。系统足够复杂,宏观现象就无法预测得出,比如三体问题。虽然无法找到答案,但是确实存在各种规律,也会出现各种现象,而且,可以出现智能。如果不相信神创论的话,人类的智能应该就是如此涌现出来的。现在算力确实没有达到通用人工智能的要求,无法短期跨越地球生物系统以一个庞大的规模和漫长的时间进化的结果,确实不知道AI能不能产生真正的智能,也许复杂程度还不够,最终也只是模拟。

AI大模型这类本身不存在任何逻辑的系统,有可能就是真实世界的样子,真实世界可能也并不存在逻辑。所有的逻辑,都是人类的定义,定义不为真,定义只是游戏规则而已。假设空间没有弯曲,假设光速不变,假设一切粒子和作用力都是弦的震动。物理学至今没有统一,历史上大多数的物理假设,几乎都被证伪过。因果律是科学界的“共识”,不是真理,只是工具。一直到被证伪的那天,那就再换个工具,再找一个物理学大厦的柱子,找不到那就找不到,反正现在也缺柱子。数学,本质上只是逻辑游戏,与真实世界无关。所以AI的发展并没有什么真正的限制,未来80%人类的工作,有可能都是在协助创造AI需要的数据资料。

虽然AI本身就不存在逻辑,那如果把逻辑看作是经验呢?看做是一个智能体工作流。AI如果发现经常用到一个智能体,那就可以把这个智能体流当做是模型架构的一部分。学生做题套公式,如果说就是逻辑的话,AI把常用公式反向嵌入自身架构,并赋予更高的权重,或者特别的权重,这个权重就叫做逻辑权重。以后再输入提示词给AI,AI会不会基于“逻辑”,给出更有信服的答案呢?随着逻辑权重越来越多,会不会也产生“觉醒”。也许迭代若干次之后,一堆相反的逻辑,竟然能在一个AI中并行不悖,这就是第一流AI的标准。

大语言AI模型的上限是人类的知识总和,因为所有的知识都可以被语言记录。AI如果继续提升多模态能力,拥有视觉、空间能力、触觉、味觉。那就很有可能超越人类,发展出来人类没有的奇怪能力。因为人类没有,所以我也想象不到那是什么。也许发明一种人类无法想象的“语言”,或者是信息记录和传递方式?

最新文章
详细介绍优化SQL Server 2000的设置
优化SQL Server 2000的设置  SQL Server已经为了优化自己的性能而进行了良好的配置,比今天市场其他的关系型数据库都要好得多。然而,你仍然有几项设置需要进行修改,以便你的数据库每分钟可以处理更多的事务(TPM)。本
使用WordPress和Astro创建静态网站
Astro 是一个现代前端框架,可帮助开发人员快速、高效地构建静态网站。借助 Astro,开发人员可以利用 React、Vue.js 和 Svelte 等现代 JavaScript 框架的强大功能来创建动态用户界面,同时在构建过程中生成静态 HTML、CSS 和 JavaScript 文
适用小白成功搭建属于自己的影视TV后台----神马.rar
# PSR-7 Message ImplementationThis repository contains a full [PSR-7](http://www.php-fig.org/psr/psr-7/)message implementation, several stream decorators, and some helpfulfunctionality like query string parsing.[![Build St
笔记本电脑搭载最新处理器,性能的革命性飞跃
摘要:,,笔记本电脑搭载最新处理器,实现了性能的革命性提升。新一代处理器采用先进的制程技术和架构设计,显著提高了运算速度和处理能力,为用户带来更快的应用响应速度和更流畅的多任务操作体验。处理器的能效比也得到提升,使得笔记本
Web前端开发推荐阅读书籍、学习课程下载
学校里没有前端的课程,那如何学习JavaScript,又如何使自己成为一个合格的前端工程师呢?除了在项目中学习和跟着有经验的同事学习,读书也是必不可少的。书中有着相对完整的知识体系,每读一本好书都会带来一次全面的提高。而如果深一脚浅
.net mvc 超过了最大请求长度 限制文件上传大小
在我们的项目中遇到"超过了最大请求长度"如下图所示,是因为IIS默认请求长度4M,当请求长度大于这个值的时候报错,下面是解决方案.解决方案:修改web.config文件1、注意在mvc中有两个web.config文件,如下图,一个位于Views下,是用来控制view
黄帝的故事
网上有关“黄帝的故事”话题很是火热,小编也是针对黄帝的故事寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。关于黄帝的传说:据传他出生几十天就会说话,少年时思维敏捷,青年时敦厚能干,成
云电脑的 7 种常见用途
云电脑通过节省成本、更大的灵活性、弹性和最佳的资源利用来提高竞争力。作为一种技术,云电脑不仅仅是其各个部分的总和。它为云原生技术打开了大门,支持更高效的工作方式,并支持机器学习 (ML) 和人工智能 (AI) 的新兴功能。在过去的十年
软件技术服务十大排行榜-12月12日相关股票成交额排名一览
《南方财富网概念查询工具》股票工具数据整理,截至12月12日,软件技术服务喜欢股票成交额排行榜中,润和软件位列第一位,成交额达到68.08亿元;科大讯飞排名第二,成交额为38.51亿元;汇洲智能排名第三,成交额27.36亿元。成交额排名前10
请问:PHP js 实现复杂的按钮功能
------解决方案--------------------ajax检测和入库,然后再跳转------解决方案--------------------利用ajax请求php,由php来检查姓名是否存在。------解决方案--------------------我最近也在研究,分享下:文件1、(conn.php) 代码如
相关文章
推荐文章
发表评论
0评