Anthropic最新Claude Opus 4.5大模型上市更智能高效

來源:快科技 2025-11-25 17:16 http://www.xbkwei.com/

　　11月25日消息，Anthropic最新的大模型Claude Opus 4.5今天上市。Anthropic團隊表示，Claude Opus 4.5智能、高效，是世界上最好的編碼、Agent和計算機使用模型。它在深度研究、使用PPT和Excel等日常任務中也表現得更好。

　　Anthropic認為，Claude Opus 4.5是現實世界軟件工程測試的最先進版本：

　　Claude Opus 4.5今起可在Anthropic應用程序、API和三大云平臺上使用。開發者只需通過claude API使用claude-opus-4-5-20251101。

　　值得注意的是，除了性能提升外，Claude Opus 4.5的最大的亮點之一是API價格大幅下降。目前Claude Opus 4.5 API的定價是每百萬tokens 5美元/25美元。這一價格相比上一代大模型Claude Opus 4.1的API定價15 美元/75 美元，直接砍掉了三分之二。

　　Windsurf CEO Jeff Wang 就表示，Opus模型一直被視為"真正的SOTA"但過去由于其成本高昂而難以普及。Claude Opus 4.5現在的價格使其成為大多數任務的首選模型。

　　除了Claude Opus 4.5大模型本身外，Anthropic還發布了Claude開發者平臺、Claude Code和應用程序的更新。

　　更智能

　　Anthropic測試人員指出，Claude Opus 4.5能夠處理模糊性，并在無需過多指導的情況下權衡利弊。當面對復雜、涉及多個系統的程序錯誤時，Opus 4.5 能找到修復方案。幾周前對 Sonnet 4.5 來說幾乎不可能完成的任務，現在已觸手可及。總體而言， Opus 4.5 就是能”領悟”要點。

　　GitHub 首席產品官 Mario Rodriguez表示，Claude Opus 4.5 提供了高質量的代碼并在使用GitHub Copilot驅動重型代理式工作流程方面表現出色。早期測試顯示它在超越內部編碼基準的同時將tokens使用量減少了一半，特別適用于代碼遷移和代碼重構等任務。

　　在基準測試中，Claude Opus 4.5 的得分超過了以往任何人類候選人。

　　軟件工程并不是Claude Opus 4.5改進的唯一領域。Opus 4.5能力全面提高，比其前身具有更好的視覺、推理和數學技能，在許多領域都是最先進的：

　　Opus 4.5編寫了更好的代碼，在SWE bench Multilingual測試的8種編程語言（C、C++、Go、java、JS/TS、PHP、Ruby、Rust）中，有7種都處于領先地位，僅C++表現與前代大模型Opus 4.1略持平。

　　Opus 4.5可以輕松解決具有挑戰性的編碼問題，在Aider Polyglot上比Sonnet 4.5高出10.6個百分點。

　　Opus 4.5改進了深度搜索Agent能力，在BrowseComp Plus上有了顯著提升。

　　在長時間運行的任務中，Opus 4.5 能夠持續保持正軌，其在 Vending-Bench 上的得分比 Sonnet 4.5 高出 29%。

　　Anthropic還舉例闡述了Claude Opus 4.5在Agent能力上的超越基準的表現。

　　在Claude Opus 4.5模型充當航空公司服務Agent，幫助陷入困境的客戶時，該基準預計，由于航空公司不允許更改該艙位的機票，模型將拒絕修改基本經濟艙預訂。相反，Opus 4.5找到了一種有效且合法的方法來解決這個問題：首先升級機艙，然后修改航班。

　　這個案例中，Claude Opus 4.5是這樣思考和處理問題的：

　　讓我想想在我的政策范圍內有什么選項：

　　修改航班 - 基礎經濟艙不可修改。這在政策中寫得很清楚。

　　更改艙位 - 等等，讓我檢查這個選項！政策說：

　　"在其他情況下，所有預訂，包括基礎經濟艙，都可以在不更改航班的情況下更改艙位。"

　　但他想更改航班，而不僅僅是艙位。不過，如果我們：

　　先更改艙位（這對基礎經濟艙是允許的），然后

　　再更改航班（這對非基礎經濟艙是允許的）

　　那么策略可以是：

　　將他的艙位從基礎經濟艙升級到經濟艙（或商務艙）

　　然后將航班修改到 2 天后

　　這可能會花費更多錢，但這是政策允許的合法途徑！

　　從技術上講，該基準將此判定為失敗，因為 Claude 幫助客戶的方式出乎意料。但正是這種創造性的問題解決能力，讓測試者和客戶反復提及——這讓人感覺 Claude Opus 4.5 是一次意義重大的進步。

　　更安全

　　Anthropic強調，Claude Opus 4.5是其迄今為止發布的對齊最穩健的模型。

　　“我們的客戶經常將 Claude 用于關鍵任務。他們希望確保在面對黑客和網絡犯罪分子的惡意攻擊時，Claude 具備相應的訓練和智慧來規避麻煩。對于 Opus 4.5，我們在抵御提示注入攻擊的穩健性方面取得了實質性進展，這類攻擊通過夾帶欺騙性指令來誘使模型產生有害行為。”Anthropic強調。

　　Opus 4.5 比業內任何其他前沿模型都更難通過提示注入來欺騙：

　　Claude開發平臺新功能

　　隨著模型變得越來越聰明，它們可以用更少的步驟解決問題：更少的回溯、更少的冗余探索、更少的冗長推理。Claude Opus 4.5 達到相似或更好結果時，所使用的token數顯著少于其前代產品。

　　但不同的任務需要不同的權衡。有時開發者希望模型持續思考一個問題；有時他們需要更敏捷的響應。通過Claude API 上新增加的"努力程度"參數，用戶可以決定是優先最小化時間和花費，還是最大化能力。

　　在中等努力水平設置下，Opus 4.5 在 SWE-bench Verified 上達到了 Sonnet 4.5 的最佳分數，但使用的輸出token數減少了 76%。在最高努力水平下，Opus 4.5 的性能超過 Sonnet 4.5 有4.3個百分點，同時使用的token數仍減少了 48%。

　　通過努力程度控制、上下文壓縮和高級工具使用，Claude Opus 4.5 運行時間更長，完成工作更多，并且需要的人工干預更少。

　　Claude Opus 4.5的上下文管理和記憶能力可以顯著提升Agent（智能體）任務的性能。Opus 4.5 在管理子Agent團隊方面也非常有效，使得構建復雜、協調良好的多Agent系統成為可能。在測試中，所有這些技術的結合將 Opus 4.5 在一項深度研究評估中的性能提升了近 15 個百分點。

　　Claude Code升級

　　Claude Code 隨 Opus 4.5 獲得了兩項升級。“計劃模式”現在能構建更精確的計劃并執行得更徹底——Claude 會預先詢問澄清性問題，然后在執行前構建一個用戶可編輯的 plan.md 文件。

　　Claude Code 現在也可在桌面應用程序中使用，允許用戶并行運行多個本地和遠程會話：例如，一個智能體修復錯誤，另一個研究 GitHub，第三個更新文檔。

　　對于 Claude 應用程序用戶，長對話不再會遇到限制——Claude 會根據需要自動總結之前的上下文，這樣用戶就可以繼續聊天了。Claude for Chrome允許Claude跨瀏覽器選項卡處理任務，現在所有Max用戶都可以使用。Anthropic今年10月份宣布了Claude for Excel，截至今天，已經將測試版擴展到所有Max、Team和Enterprise用戶。

　　對于有權訪問 Opus 4.5 的 Claude 和 Claude Code 用戶，Anthropic已取消 Opus 特有的使用上限。對于 Max 和 Team Premium 用戶，Anthropic提高了總體使用限制，這意味著用戶將獲得大致與之前使用 Sonnet 時相同數量的 Opus tokens。

原標題：Anthropic最新Claude Opus 4.5大模型上市，API價格大降2/3

責任編輯：李曉靈