Coding of Computer - 搜索 News

Codex上架GPT5.5，搭配gpt-image-2 ，形成全新的开发工作流，OpenAI—雪前耻

这个定位直接体现在 Terminal-Bench 2.0 上。这个 benchmark 不测单轮答题——给模型一个终端环境和一个模糊目标，让它自己规划路径、调工具、写脚本、处理报错、反复迭代，直到任务完成。

在衡量模型横跨 44 种职业知识工作能力的 GDPval 评测中，GPT-5.5 获胜或打平比例达 84.9%，GPT-5.4 为 83.0%，Claude Opus 4.7 为 80.3%，Gemini 3.1 Pro 仅 67.3%。

一些您可能无法访问的结果已被隐去。