OpenAI 史上最强 ChatGPT 智能体发布:浏览网站、写代码、做 PPT 样样精通 - 果核剥壳

7 月 18 日消息,OpenAI 今日凌晨宣布将在 ch*tg*t 中推出一款通用型 AI 智能体,该公司表示该智能体可以帮助用户完成各种基于计算机的任务。

OpenAI 介绍称,该智能体可以自动生成可编辑的演示文稿和幻灯片、查看用户的日历来简要介绍即将到来的客户会议、计划并购买制作家庭早餐的食材,以及运行代码等。

该工具名为 ch*tg*t agent,结合了 OpenAI 之前多种智能体工具的功能,包括 Operator 点击网站的能力,以及 Deep Research 从数十个网站中综合信息生成简洁研究报告的能力。OpenAI 表示用户只需通过自然语言提示 ch*tg*t 即可与该智能体进行交互。

为了开发这个新工具,OpenAI 将其背后的 Operator 和 Deep Research 团队合并为一个统一的团队。外媒 The Verge 报道称,这个新团队由产品和研究部门共 20~35 人组成。

OpenAI 史上最强 ChatGPT 智能体发布:浏览网站、写代码、做 PPT 样样精通

OpenAI 表示 ch*tg*t 智能体比其之前的任何产品都要强大得多,可以访问 ch*tg*t 连接器,允许用户连接像 Gmail 和 GitHub 这样的应用,智能体可以根据用户的提示找到相关信息。此外,OpenAI 表示 ch*tg*t 智能体可以访问终端,并可以使用 API 来访问某些应用。

OpenAI 史上最强 ChatGPT 智能体发布:浏览网站、写代码、做 PPT 样样精通

根据 OpenAI 的说法,ch*tg*t 智能体的底层模型在多个基准测试中提供了最先进的性能。ch*tg*t 智能体模型在 Humanity's Last Exam(pass@1)中得分率为 41.6%,这是一项由数千个问题组成的、涵盖超过一百个学科的困难测试。这个分数大约是 OpenAI o3 和 o4-mini 得分的两倍。

在已知最难的数学基准测试之一 FrontierMath 中,OpenAI 表示,当 ch*tg*t 智能体可以访问工具(IT之家注:如用于代码执行的终端)时,其得分为 27.4%,之前的最佳分数来自 o4-mini(得分仅为 6.3%)。

在 DSBench⁠ 测试中,该测试旨在评估智能体在涵盖数据分析和建模等现实数据科学任务中的表现,ch*tg*t 智能体显著超越了之前的最先进模型 —— 尤其在数据分析任务中,其表现明显优于人类水平。

在 SpreadsheetBench 平台上,该平台通过评估模型在处理基于真实世界场景的电子表格编辑任务时的表现来进行评分,ch*tg*t 智能体创下了新的行业领先水平(SOTA),其性能较当前行业领先的 GPT‑4o 提升了超过一倍。当具备直接编辑电子表格的能力时,ch*tg*t 智能体的得分进一步提升至 45.5%,与 Excel 中 Copilot 的 20.0% 相当。

在内部基准测试中,该模型展现了其处理投资银行分析师(1 至 3 年经验)任务的能力,例如为《财富》500 强企业构建符合规范的财务报表模型(包括格式和引用),或为私有化交易构建杠杆收购模型。ch*tg*t 智能体所采用的模型在该测试中显著优于深入研究和 o3 模型。每个任务均根据数百项与正确性和公式使用相关的标准进行评分。

在 WebArena⁠ 基准测试中(该测试旨在评估网络浏览智能体在完成真实世界网络任务时的性能),该模型相较于由 o3 驱动的 CUA(即驱动 Operator 的模型)表现更佳。

ch*tg*t 智能体在 BrowseComp⁠ 上的表现方面(OpenAI 今年早些时候发布的基准测试),用于衡量浏览智能体在网络上查找难以找到的信息的能力。该模型以 68.9% 的成绩创下了新的 SOTA 纪录,比 Deep research 高了 17.4%。

如果您喜欢本站,点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你: 下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件,加群提示为修改者自留,非本站信息,注意鉴别

(1)
上一篇 2025年7月18日 上午10:20
下一篇 2025年7月18日 下午12:01

相关推荐

回复 annvo

评论问题之前,点击我,能帮你解决大部分问题

您的电子邮箱地址不会被公开。 必填项已用*标注

评论列表(1条)

  • annvo
    annvo 2025年7月21日 上午8:47
    Google Chrome 128.0.0.0 Google Chrome 128.0.0.0 Windows 11 x64 Edition Windows 11 x64 Edition

    连manus都在diss openai,更不要说整个ai圈了。openai真的不再引领了。更看好gemini