AI编程界添新星！普林斯顿研究团队推出了革命性的智能体

日期：2024-12-26 作者：n43hd 移动：http://ljhr2012.riyuangf.com/mobile/quote/44714.html

AI编程界再添新星！普林斯顿研究团队推出了革命性的智能体-计算机接口（ACI）——SWE-agent。这一创新使得大型语言模型如GPT-4能够华丽转身，成为软件工程领域的AI专家，自动在真实的GitHub仓库中修复bug。

困扰GPT-4已久的编程难题，如今迎刃而解。在SWE-bench测试集中，SWE-agent表现出色，解决了12.29%的问题，平均仅需93秒，准确率令人瞩目。更令人振奋的是，SWE-agent完全免费开源。

短短十几小时内，便在GitHub收获了1.6k星、109个Fork的热烈反响。感兴趣的朋友可访问：https://github.com/princeton-nlp/SWE-agent。英伟达高级科学家Jim Fan也透露了成功秘诀：要在SWEBench上取得12.3%的佳绩，关键在于精心设计GPT-4的命令行工具，无需其他复杂手段。

John Yang及其研究团队强调，大模型需要精心设计的智能体——计算机接口，以提供类似于人类喜好的UI设计体验。例如，当LLM出现缩进错误时，编辑器能够立即阻止并给出反馈。此外，他们还发现，在查看文件时，限制SWE-agent一次显示100行比展示200-300行或整个文件更为有效。

即使拥有强大的GPT-4模型支持，一个优秀的智能体-计算机设计同样至关重要。John Yang团队的技术报告将于4月10日发布，届时将详细展示SWE-agent的工作原理和应用前景。

此外，该项目的logo由Ofir Press使用DALLE-3精心设计，突显了开源Devin的独特性和创新精神。自推出以来，Devin在短短一个月内迅速走向大众化，吸引了众多开发者的关注。

有开发者表示：“我感受到了一个全新的研究领域正在崛起——智能体计算机交互（ACI）。它与人机交互（HCI）有着紧密联系，但更专注于LLM和LVM的应用。”同时，对于普林斯顿团队利用GPT-4在基准测试中取得的12.29%准确率，许多人感到惊叹，并期待GPT-5的诞生将带来更多突破。

随着开源Devin的普及和智能体计算机交互（ACI）领域的发展，软件行业的传统护城河似乎已经消失。数字经济应用实践专家骆仁童博士对此表示期待，随着更多的AI垂直应用出现，我们将看到更多创新工具和方法涌现，推动软件工程领域不断前进。

智能体工作流SWE-agent的运作可概括为两大环节：首先是“推理”阶段，SWE-agent针对GitHub中的某一问题，利用特定脚本进行处理后，提出相应的拉取请求以期待问题得到解决；随后进入“评估”阶段，对提出的拉取请求进行严格检查，以验证其是否有效解决了原问题。

目前，这一流程主要应用于SWE-bench基准测试中的问题。若要在任意GitHub问题上运行SWE-agent，可执行以下命令：`python run.py --model_name gpt4 --data_path [GitHub问题链接] --config_file config/default_from_url.yaml`。

而对于SWE-bench上的问题，需在SWE-bench Lite上运行SWE-agent并生成补丁：`python run.py --model_name gpt4 --per_instance_cost_limit 2.00 --config_file https://www.bilibili.com/read/config/default.yaml`。若需针对SWE-bench中的特定问题进行操作，可添加`--instance_filter`选项。

至于评估阶段，只需在终端中切换至evaluation目录并运行`https://www.bilibili.com/read/run_eval.sh

作者介绍

SWE-agent这项研究中两位核心作者是John Yang和Carlos E. Jimenez。

John Yang

John Yang目前是普林斯顿大学的研究助理，导师是Karthik Narasimhan。他曾在加州大学伯克利分校取得了电子工程和计算机学士学位。他本人对语言基础和交互、LLM的基准测试、软件工程和代码生成感兴趣。

Carlos E. Jimenez

Carlos E. Jimenez是普林斯顿的博士生，导师是Karthik Narasimhan教授。他研究的是自然语言处理的人工智能和ML，研究兴趣包括代码语言模型，以及面向任务的对话。

无疑，人工智能正在重塑技术行业的运作模式。从Devin、Devika到OpenDevin，他们在软件工程的舞台上展现出卓越的实力。AI已不再是软件工程师的简单助手，而是逐步取代他们，胜任曾被认为仅人类能完成的复杂任务。

这引发了一个深刻的问题：AI是否已从工具蜕变为工程合作伙伴？更进一步，AI是否具备独立编写安全代码的能力？未来，编程的大权是否会完全交给AI？这些问题不仅关乎技术的飞速发展，更触及我们对AI角色和能力的根本认知。

Devin：引领AI工程新时代

就在今年3月12日，一家仅创立两个月、由十名成员组成的初创企业，以其创新之举在全球范围内引发了强烈震撼。

这家公司的杰作便是全球首例AI程序员——Devin。Devin不仅具备全面的全栈技术能力，能够自主掌握未知技术领域，更能在整个开发流程中无缝构建与部署应用程序，从修正代码缺陷到亲自训练及优化自身的AI模型，无所不能。

在权威的SWE-bench测试中，Devin以显著优势超越了Claude 2、Llama、GPT-4等业界翘楚，其优异表现令人瞩目，得分高达13.86%，堪称卓越。

显然，Devin并非一款普通的AI辅助工具，而是具备独立执行全套软件工程任务的先进AI体系。它的诞生标志着AI技术在工程领域的重大飞跃。

与传统AI工具相比，Devin的独特之处在于其能够自主规划并执行复杂的软件工程项目，这意味AI现今已具备担当工程师角色的实力。

除了核心的编程工作，Devin还展现了处理程序故障、实现应用部署以及培育新型AI模型的全方位能力，彻底颠覆了人们对AI在软件开发中作用的认知。

OpenDevin：共绘未来图景

在首发当日，一款名为OpenDevin的Devin开源版本应运而生，它以革新之姿强势登场。

OpenDevin积极倡导社区成员参与代码贡献，并坚定秉持开放标准的理念，其核心目标在于持续优化与强化AI在软件开发领域的应用效能。如此一来，软件工程师们将能更为高效地驾驭编程工作，提升生产力。

Devika：开源社区冉冉升起的新星

在Devin于AI软件工程领域的开拓性贡献的启发下，又一极具潜力的开源项目——Devika应运而生。

Devika是一位积极进取的AI软件工程师角色，具备理解复杂人类指令的能力。它能将这些指令细化为明确的操作步骤，精准收集相关数据信息，进而依据这些输入自动生成实现预定目标的代码。

详言之，Devika巧妙借力于Claude 3的卓越性能，融合尖端的AI规划与编程技术，构建起一个面向公众、由社区集体驱动的开放式创新平台。

Devika不仅代表着一项技术创新，更是对全球开源社群的一份诚挚邀约。它呼唤着各路贡献者携手踏上AI创新之旅，共襄盛举，擘画并塑造AI技术的未来图景。

AI编程的崛起展示了其在软件工程领域的巨大潜力，从规划复杂任务到修复漏洞，甚至管理整个开发流程。尽管如此，AI仍难以应对现有复杂代码库和编写安全代码的挑战，这要求深入了解代码背景、潜在漏洞及最新安全研究。因此，人类的监督在此过程中不可或缺。

虽然AI尚未能完全替代软件工程师，但它正在重塑技术界的未来。当前，Devin、Devika和OpenDevin等AI软件工程师引发我们思考：AI应被视为类似人类的存在吗？Ethan Mollick在“On the Necessity of Sin”中探讨了与AI合作共创软件工程未来的机遇与挑战。答案或许取决于我们对未来的设想及是否愿意拥抱开源、透明和协作的精神。

商道童言（Innovationcases）欢迎点赞和分享哦！~~

免费电子书：结构化思维 | 荆棘商途 | 年度十词 | 创新企业案例 | 区块链金融

数字经济应用实践专家骆仁童主讲课程

人工智能：《AI趋势》《ChatGPT》

数字应用：《区块链》《元宇宙》《大数据》

数字中国：《智慧城市》《数字政府》《智慧建筑》《智慧交通》

数字化转型：《制造业数转》《零售业数转》《中小企业创新》

产业数字化：《烟草数转》《银行金融科技》《电力能源互联网》

宏观与趋势：《数字经济》《2024宏观》《双碳》

思维与技能：《数字化思维》《组织变革》

创新与创业：《创业导师》《商业模式》

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行