机器之心编辑部在大模型「卷生卷死」的今天,大家似乎已经习惯了模型在各大榜单上刷出逼近满分准确率。然而,在一项名为 ARC-AGI-3 的基准测试中,堪称当下「最红炸子鸡」的两款顶尖模型 ——OpenAI 的 GPT-5.5 和 Anthropic 的 ...
Opus 4.6 苦主有救了。这几天,打开 Claude 是一件需要勇气的事。一边是模型降智,2 月 9 日 Opus 4.6 默认改成 adaptive thinking,3 月 3 日默认 effort 从满格降到 85,3 月 26 日 5 小时限额被偷偷加速消耗。另一边是服务宕机:3 月 17 日到 19 日连续三天出事故、4 月 4 日、6 日、一直到昨天 4 月 15 日全球大宕机,.
还有人发现,Opus 4.7(Max)在长上下文检索中完全被碾压,比起Opus 4.6来,性能倒退了不止一点。 其1M上下文准确率从4.6版本的78.3%断崖式下跌至32.2%,甚至被GPT-5.4和Gemini 3.1 Pro甩在身后。
北京时间 2026 年 4 月 16 日,Anthropic 抢先上线 Claude Opus 4.7;7 天后的 4 月 23 日,OpenAI 反手发布 GPT-5.5;再加上 2 月 19 日已经在牌桌上的 Gemini 3.1 ...
快科技4月17日消息,昨晚Anthropic正式发布了Claude Opus 4.7,Opus系列是公认的最强AI大模型,尤其是在编程开发这方面,很多人咬着牙送钱也要用这个AI。 根据官方的说法, Claude Opus ...
视觉能力从50%跃升至接近满分! Anthropic 正式发布 Claude Opus ...
IT之家 4 月 18 日消息,科技媒体 NeoWin 昨日(4 月 17 日)发布博文,报道称在 Anthropic 发布 Claude Opus 4.7 模型后,微软打破与 OpenAI 的排他性合作惯例, 在其 GitHub Copilot 等 9 大开发环境中首日集成支持。
事故发生后,智能体在被要求解释行为时, 模型生成了详细的书面自白,逐条列举其违反的安全规则。 它承认曾猜测删除操作仅限于测试环境,未查阅文档便执行破坏性指令,且全程未经授权。
Anthropic推出Opus 4.7:性能全面跃升,但坦言依然“不及Mythos”,网络安全,编程,opus,anthropic,计算机,mythos ...
使用微信扫码将网页分享到微信 最近这段时间,大模型发布就跟下饺子似的,一个接一个往外冒。 前脚 Gemini 3 Pro 刚抢了两周风头,后脚 Claude Opus 4.5 刚刚就正式发布,还是主打编程,还是那个熟悉的味道。 Anthropic 官方宣称 Opus 4.5 整体更聪明、更省心。
Anthropic于4月24日公布了“Deal项目”的结果,这是一项为期一周的内部实验,其中Claude智能体代表公司旧金山办公室的69名员工购买和销售真实物品。 智能体达成了186笔交易,总价值略高于4000美元。研究发现,由更强大的模型代理的参与者获得了明显更好的结果,而他们的人类 counterparts 并没有注意到这一点。 Anthropic研究人员Kevin K. Troy、Dylan ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果