超碰无码国产|色婷婷在线第一区|久久久久久久久久久久久久成人爽片|2025最新超碰|亚洲日韩中字幕在线观看|美女裸体秘视频网站|99re99婷婷一区二区三区|亚洲精品超碰精品|主播国产在线XXX|国产情侣啪啪一区

注冊
閩南網(wǎng) > 新聞中心 > 數(shù)碼科技 > 正文

Anthropic最新Claude Opus 4.5大模型上市 更智能高效

來源:快科技 2025-11-25 17:16 http://m.ghqlgyb.cn/

  11月25日消息,Anthropic最新的大模型Claude Opus 4.5今天上市。Anthropic團隊表示,Claude Opus 4.5智能、高效,是世界上最好的編碼、Agent和計算機使用模型。它在深度研究、使用PPT和Excel等日常任務中也表現(xiàn)得更好。

  Anthropic認為,Claude Opus 4.5是現(xiàn)實世界軟件工程測試的最先進版本:

  Claude Opus 4.5今起可在Anthropic應用程序、API和三大云平臺上使用。開發(fā)者只需通過claude API使用claude-opus-4-5-20251101。

  值得注意的是,除了性能提升外,Claude Opus 4.5的最大的亮點之一是API價格大幅下降。目前Claude Opus 4.5 API的定價是每百萬tokens 5美元/25美元。這一價格相比上一代大模型Claude Opus 4.1的API定價15 美元/75 美元,直接砍掉了三分之二。

  Windsurf CEO Jeff Wang 就表示,Opus模型一直被視為"真正的SOTA"但過去由于其成本高昂而難以普及。Claude Opus 4.5現(xiàn)在的價格使其成為大多數(shù)任務的首選模型。

  除了Claude Opus 4.5大模型本身外,Anthropic還發(fā)布了Claude開發(fā)者平臺、Claude Code和應用程序的更新。

  更智能

  Anthropic測試人員指出,Claude Opus 4.5能夠處理模糊性,并在無需過多指導的情況下權衡利弊。當面對復雜、涉及多個系統(tǒng)的程序錯誤時,Opus 4.5 能找到修復方案。幾周前對 Sonnet 4.5 來說幾乎不可能完成的任務,現(xiàn)在已觸手可及??傮w而言, Opus 4.5 就是能”領悟”要點。

  GitHub 首席產(chǎn)品官 Mario Rodriguez表示,Claude Opus 4.5 提供了高質(zhì)量的代碼并在使用GitHub Copilot驅動重型代理式工作流程方面表現(xiàn)出色。早期測試顯示它在超越內(nèi)部編碼基準的同時將tokens使用量減少了一半,特別適用于代碼遷移和代碼重構等任務。

  在基準測試中,Claude Opus 4.5 的得分超過了以往任何人類候選人。

  軟件工程并不是Claude Opus 4.5改進的唯一領域。Opus 4.5能力全面提高,比其前身具有更好的視覺、推理和數(shù)學技能,在許多領域都是最先進的:

  Opus 4.5編寫了更好的代碼,在SWE bench Multilingual測試的8種編程語言(C、C++、Go、java、JS/TS、PHP、Ruby、Rust)中,有7種都處于領先地位,僅C++表現(xiàn)與前代大模型Opus 4.1略持平。

  Opus 4.5可以輕松解決具有挑戰(zhàn)性的編碼問題,在Aider Polyglot上比Sonnet 4.5高出10.6個百分點。

  Opus 4.5改進了深度搜索Agent能力,在BrowseComp Plus上有了顯著提升。

  在長時間運行的任務中,Opus 4.5 能夠持續(xù)保持正軌,其在 Vending-Bench 上的得分比 Sonnet 4.5 高出 29%。

  Anthropic還舉例闡述了Claude Opus 4.5在Agent能力上的超越基準的表現(xiàn)。

  在Claude Opus 4.5模型充當航空公司服務Agent,幫助陷入困境的客戶時,該基準預計,由于航空公司不允許更改該艙位的機票,模型將拒絕修改基本經(jīng)濟艙預訂。相反,Opus 4.5找到了一種有效且合法的方法來解決這個問題:首先升級機艙,然后修改航班。

  這個案例中,Claude Opus 4.5是這樣思考和處理問題的:

  讓我想想在我的政策范圍內(nèi)有什么選項:

  修改航班 - 基礎經(jīng)濟艙不可修改。這在政策中寫得很清楚。

  更改艙位 - 等等,讓我檢查這個選項!政策說:

  "在其他情況下,所有預訂,包括基礎經(jīng)濟艙,都可以在不更改航班的情況下更改艙位。"

  但他想更改航班,而不僅僅是艙位。不過,如果我們:

  先更改艙位(這對基礎經(jīng)濟艙是允許的),然后

  再更改航班(這對非基礎經(jīng)濟艙是允許的)

  那么策略可以是:

  將他的艙位從基礎經(jīng)濟艙升級到經(jīng)濟艙(或商務艙)

  然后將航班修改到 2 天后

  這可能會花費更多錢,但這是政策允許的合法途徑!

  從技術上講,該基準將此判定為失敗,因為 Claude 幫助客戶的方式出乎意料。但正是這種創(chuàng)造性的問題解決能力,讓測試者和客戶反復提及——這讓人感覺 Claude Opus 4.5 是一次意義重大的進步。

  更安全

  Anthropic強調(diào),Claude Opus 4.5是其迄今為止發(fā)布的對齊最穩(wěn)健的模型。

  “我們的客戶經(jīng)常將 Claude 用于關鍵任務。他們希望確保在面對黑客和網(wǎng)絡犯罪分子的惡意攻擊時,Claude 具備相應的訓練和智慧來規(guī)避麻煩。對于 Opus 4.5,我們在抵御提示注入攻擊的穩(wěn)健性方面取得了實質(zhì)性進展,這類攻擊通過夾帶欺騙性指令來誘使模型產(chǎn)生有害行為。”Anthropic強調(diào)。

  Opus 4.5 比業(yè)內(nèi)任何其他前沿模型都更難通過提示注入來欺騙:

  Claude開發(fā)平臺新功能

  隨著模型變得越來越聰明,它們可以用更少的步驟解決問題:更少的回溯、更少的冗余探索、更少的冗長推理。Claude Opus 4.5 達到相似或更好結果時,所使用的token數(shù)顯著少于其前代產(chǎn)品。

  但不同的任務需要不同的權衡。有時開發(fā)者希望模型持續(xù)思考一個問題;有時他們需要更敏捷的響應。通過Claude API 上新增加的"努力程度"參數(shù),用戶可以決定是優(yōu)先最小化時間和花費,還是最大化能力。

  在中等努力水平設置下,Opus 4.5 在 SWE-bench Verified 上達到了 Sonnet 4.5 的最佳分數(shù),但使用的輸出token數(shù)減少了 76%。在最高努力水平下,Opus 4.5 的性能超過 Sonnet 4.5 有4.3個百分點,同時使用的token數(shù)仍減少了 48%。

  通過努力程度控制、上下文壓縮和高級工具使用,Claude Opus 4.5 運行時間更長,完成工作更多,并且需要的人工干預更少。

  Claude Opus 4.5的上下文管理和記憶能力可以顯著提升Agent(智能體)任務的性能。Opus 4.5 在管理子Agent團隊方面也非常有效,使得構建復雜、協(xié)調(diào)良好的多Agent系統(tǒng)成為可能。在測試中,所有這些技術的結合將 Opus 4.5 在一項深度研究評估中的性能提升了近 15 個百分點。

  Claude Code升級

  Claude Code 隨 Opus 4.5 獲得了兩項升級。“計劃模式”現(xiàn)在能構建更精確的計劃并執(zhí)行得更徹底——Claude 會預先詢問澄清性問題,然后在執(zhí)行前構建一個用戶可編輯的 plan.md 文件。

  Claude Code 現(xiàn)在也可在桌面應用程序中使用,允許用戶并行運行多個本地和遠程會話:例如,一個智能體修復錯誤,另一個研究 GitHub,第三個更新文檔。

  對于 Claude 應用程序用戶,長對話不再會遇到限制——Claude 會根據(jù)需要自動總結之前的上下文,這樣用戶就可以繼續(xù)聊天了。Claude for Chrome允許Claude跨瀏覽器選項卡處理任務,現(xiàn)在所有Max用戶都可以使用。Anthropic今年10月份宣布了Claude for Excel,截至今天,已經(jīng)將測試版擴展到所有Max、Team和Enterprise用戶。

  對于有權訪問 Opus 4.5 的 Claude 和 Claude Code 用戶,Anthropic已取消 Opus 特有的使用上限。對于 Max 和 Team Premium 用戶,Anthropic提高了總體使用限制,這意味著用戶將獲得大致與之前使用 Sonnet 時相同數(shù)量的 Opus tokens。

原標題:Anthropic最新Claude Opus 4.5大模型上市,API價格大降2/3
責任編輯:李曉靈
相關閱讀:
新聞 娛樂 福建 泉州 漳州 廈門
猜你喜歡:
熱門評論:
頻道推薦
  • 2025成都乒乓球混合團體世界杯賽程直播時間
  • 今天(11月29日)油價調(diào)整最新消息:油價連
  • 11月29日至12月1日,香港將下半旗志哀
  • 新聞推薦
    @所有人 多項民生禮包加速落地快來查收 三峽大壩變形?專家:又有人在惡意炒作 北京新一波疫情為什么沒出現(xiàn)死亡病例? 戴口罩、一米線 疫情改變了哪些習慣? 呼倫貝爾現(xiàn)幻日奇觀 彩虹光帶環(huán)繞太陽
    視覺焦點
    石獅:秋風起,紫菜香 石獅:秋風起,紫菜香
    石獅環(huán)灣生態(tài)公園內(nèi)粉黛亂子草盛放 石獅環(huán)灣生態(tài)公園內(nèi)粉黛亂子草盛放
    精彩視頻
    世遺泉州|名居·李贄故居:古城煙火深處的思想圣地(視頻)
    世遺泉州|名居·李贄故居:古城煙火深處的思想圣地(視頻)
    2025年福建省海洋生物產(chǎn)業(yè)高質(zhì)量發(fā)展對接活動在石獅舉行(視頻)
    2025年福建省海洋生物產(chǎn)業(yè)高質(zhì)量發(fā)展對接活動在石獅舉行(視頻)
    專題推薦
    世遺泉州
    世遺泉州

    挖掘泉州的鄉(xiāng)村之美、名橋之美、名山之美、飲食之美,讓時代記憶在城市更新中重煥榮光

    新質(zhì)生產(chǎn)力在泉州
    何以中國·向海泉州
     
    48小時點擊排行榜
    洛江區(qū)鄉(xiāng)賢青年聯(lián)誼會、洛江區(qū)僑界青年聯(lián) 看見惠安|周末喜樂 看見惠安|周末喜樂 今天(11月29日)油價調(diào)整最新消息:油價 大熊貓抓取竹子的“大拇指”其實是什么? 感染了幽門螺桿菌一定會導致胃癌嗎?螞蟻 2025成都乒乓球混合團體世界杯賽程直播時 第三屆中國僑智發(fā)展大會全要素演練評估總