全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒

机器之心报道

编辑:泽南、陈陈

大家都在排 waitlist。

大模型正在「替代人类程序员」的道路上快速前进。

今年 3 月,人工智能软件工程师 Devin 引爆了 AI 社区,该产品由 OpenAI 的 GPT-4 基础大型语言模型(LLM)提供支持,可以在收到自然语言文本指令后自主编写和编辑代码。

但在生成式 AI 领域,快速发展是主旋律,现在技术又迭代了。

本周,一家 Y Combinator 支持,名为 Cosine 的创业公司宣布推出自己的全新自主 AI 工程师 Genie。该公司表示,Genie 的表现轻松超越了 Devin,在第三方基准测试 SWE-Bench 上的得分为 30%,而 Devin 的得分仅为 13.8%。

新工具甚至超过了亚马逊的 Q 和 Factory 的 Code Droid 的 19%,现在是全球性能最好的 AI 程序员。

全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒

Genie 在 SWE-Bench 基准上的表现,以及与其他 AI 代码模型的比较。

「这个模型远不止是一个基准跑分而已:它是以像人类 SWE(软件工程师)一样思考和行动为目标从头开始训练的,」Cosine 的联合创始人兼首席执行官 Alistair Pullen 表示。

全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒

会修 Bug,能写代码的 Genie

作为一种先进的 AI 软件工程模型,Genie 可以按照人类工程师的指示自主处理各种编码任务,包括 bug 修复、功能构建、代码重构、代码测试等。

Genie 可以完全自主运行,也可以与用户协作完成任务。

它支持多种编程语言,在技术报告中显示,其中包括 JavaScript、Python、TypeScript、TSX、Java、C#、C++、C、Rust、Scala、Kotlin、Swift、Golang、PHP、Ruby。

Cosine 声称 Genie 可以模拟人类工程师的认知过程。「让它观察人类工程师是如何工作的,并模仿这个过程。」Alistair Pullen 表示。

一直以来,安全问题是大家比较关心的,Genie 生成的代码存储在用户的 GitHub 仓库中,因而 Cosine 不会保留代码副本,从而避免了随之而来的安全风险。

此外,Cosine 的软件平台已经集成了 Slack 和系统通知,它就像一位 AI 同事,提醒用户状态或标记 issues。

Alistair Pullen 演示了如何使用 Genie 来解决实际问题。目标是 GitHub 上的一个 issue,我们只需要直接往里丢链接,AI 会自动分析问题,自动开始思考解决这个问题需要用到哪些文件,一直到满足要求为止。

全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒

然后,Genie 会开始尝试将问题分解成很多解决步骤,随后生成代码。

全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒

接着就是跑代码了,如果生成的代码有问题,它就自动寻找出问题的地方进行分析、修改,然后再尝试运行。

全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒

最后输出结果:两个文件、17 次测试,仅用时 84 秒。

全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒

这不知道比人类程序员要快上多少倍了。

长上下文由 OpenAI 模型提供支持

与许多依赖基础模型并辅以少量工具的 AI 模型不同,Genie 是通过专有流程开发的。

就模型而言,Genie 基于(目前)非通用的 GPT-4o 变体构建而成,OpenAI 允许 Cosine 将其作为实验访问计划的一部分进行训练。

通过技术报告我们得知,当研究者开始构建 Genie 之初,他们只能在 16-32k 范围内微调相对较短的上下文窗口模型。

为了解决这一问题,团队人员对这些模型进行了大量的早期探索,并在超过 1 亿个 token 的大量数据集上对它们进行训练,虽然发现架构具有一定优势,但还是面临模型在特定时间内可以处理的信息量的限制。

在尝试了各种压缩 / 分块方法后,团队认为唯一的解决方案是使用更大的上下文模型,尽管当时没有可供使用的模型。

幸运的是,不久之后,能够确保训练长上下文的 OpenAI 模型出现了。

Cosine 在其博客文章中表示,他们花了将近一年的时间来整理数据集,在最近的训练运行中,Genie 接受了数十亿个 token 数据的训练,选择的数据包含了用户目前最关心的编程语言。以下是训练 Genie 的过程中不同编程语言数据所占的比例:

全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒

以下是 Bug 修复、重构等不同功能的数据占比:

全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒

在价格方面,据 Pullen 透漏, Genie  最初定价将分为两个层级:

入门级选项,定价大约在 20 美元左右。这个层级会有一些功能和使用限制,适合个人和小型团队使用;

企业级选项,提供扩展功能,使用几乎不受限制,好比拥有了一个精通代码的 AI 同事。但这个层级的定价将更高。

Genie 的推出对软件开发团队具有深远的影响,特别是那些希望提高生产力并减少花在日常任务上的时间的团队。凭借其自主处理复杂编程挑战的能力,Genie 可能会改变工程资源的分配方式,使团队能够专注于更具战略性的计划。

Pullen 表示,对于他来说,工程资源不再成为限制是一个巨大的推动力,特别是在创办公司以来。他认为,一个能够快速进入未知代码库并解决未见过的问题的 AI 同事,其价值显而易见,并且对世界有着巨大的影响。

未来,该公司打算扩大其模型组合,包括用于简单任务的小模型和能够处理更复杂挑战的大模型。此外,Cosine 还计划将其工作拓展到开源社区。

现在 Genie 已向部分用户推出,但更广泛的访问权限还未完全开放。

申请地址:https://cosine.sh/register

创始团队:只有五人

提出 Genie 的创业公司 Cosine 由 Pullen、Sam Stenner 和 Yang Li 于 2022 年创立,其使命是通过应用人类推理的方式来解决复杂问题,从而突破 AI 的界限。显然,他们的努力是从软件工程开始。

其中,Yang Li 是一名华人,他硕士毕业于牛津大学,在 2021 年曾入选过福布斯 30 Under 30 欧洲区名单。

Cosine 已经从 Uphonest 和 SOMA Capital 筹集了 250 万美元的种子资金,Lakestar、Focal 等公司也参与其中。

团队规模虽小,但 Cosine 已经在 AI 领域取得了重大进展,而 Genie 只是一个开始。

「我们坚信能够为任何工作和行业构建起人类级别的推理能力,」Pullen 在公告文章中表示。「软件工程只是最直观的起点,我们很快将会展示出我们正在研究的其他一切。」

参考内容:

https://venturebeat.com/ai/4-considerations-to-help-organizations-implement-an-ai-code-of-conducts/

https://cosine.sh/blog/genie-technical-report

https://cosine.sh/blog/state-of-the-art

版权声明:lida 发表于 2024年8月14日 am8:10。
转载请注明:全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒 | ChatGPT资源导航

相关文章