这个定位直接体现在 Terminal-Bench 2.0 上。这个 benchmark 不测单轮答题——给模型一个终端环境和一个模糊目标,让它自己规划路径、调工具、写脚本、处理报错、反复迭代,直到任务完成。
在衡量模型横跨 44 种职业知识工作能力的 GDPval 评测中,GPT-5.5 获胜或打平比例达 84.9%,GPT-5.4 为 83.0%,Claude Opus 4.7 为 80.3%,Gemini 3.1 Pro 仅 67.3%。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果