"GPT"的搜尋結果
今天
06:31

DeepSeek V4-Pro 價格砍 75%,API 快取成本降至 1/10

Gate 新聞訊息,4 月 27 日——DeepSeek 宣布,其新款 V4-Pro 模型面向開發者提供 75% 的折扣,並將其 API 產品線中的輸入快取命中價格下調至先前水準的 1/10。 V4 模型於 4 月 25 日以 Pro 和 Flash 版本發布,已針對華為的 Ascend 處理器進行優化。DeepSeek 表示,V4-Pro 在世界知識基準(world-knowledge benchmarks)上優於其他開源模型,並且僅次於 Google 的封閉式 Gemini-Pro-3.1。V4 系列專為 AI 代理而設計,能處理超出聊天機器人能力範圍的複雜任務。 V4-Pro API 成本已低於主要的西方競爭對手,定價為每 100 萬輸出 tokens $3.48,相較之下 for OpenAI 的 GPT-4.5。V4-Flash 定價為每 100 萬輸入 tokens $0.14、每 100 萬輸出 tokens $0.28,可能讓透過單次請求就能完成整份程式碼庫或監管文件的審閱等具成本效益的應用成為可能。
展開
05:17

GPT-5.5 重返編碼最前沿,但 OpenAI 在輸給 Opus 4.7 後更換了基準測試

Gate 新聞訊息,4月27日——SemiAnalysis,一家半導體與 AI 分析公司,發布了一份包含 GPT-5.5、Claude Opus 4.7 與 DeepSeek V4 的編碼助手對比基準測試。關鍵發現:GPT-5.5 標誌著 OpenAI 在六個月後首次重返編碼模型的最前沿,且 SemiAnalysis 工程師如今在 Codex 與 Claude Code 之間交替使用;此前他們幾乎完全依賴 Claude,S
展開
05:21

DeepSeek V4 引爆美國辯論:智庫質疑晶片使用,Replit 執行長為開放創新辯護

Gate News 訊息,4 月 24 日——美國就 DeepSeek V4 的技術能力與合規性引發了爭論。Chris McGuire,外交關係委員會 (CFR) 的資深研究員,以及曾任白宮國家安全委員會與國防部官員,發表了分析,主張 V4 並未改變美中 AI 的競爭格局。據 McGuire 稱,DeepSeek 自己的 V4 報告承認,其推理能力較前沿模型落後約 3 到 6 個月,基準測試對標的是六個月前發布的 GPT-5.2 與 Gemini 3.0 Pro。 McGuire 對此表示擔憂:雖然 V4 報告披露了在推論階段對 NVIDIA GPU 與 Huawei Ascend NPU 的適配,但並未公開指定開發期間使用的 GPU 型號或訓練成本。他質疑這種沉默是否意味著使用了受出口管制的 NVIDIA Blackwell 晶片,並指出 V3 先前曾聲稱使用了 2,000 張 H800 GPU,成本為 5.57 百萬美元。DeepSeek 已否認使用 Blackwell,稱該模型是在 NVIDIA H800 與 Huawei Ascend 910C 處理器上訓練。 Replit 執行長 Amjad Masad 反駁了 McGuire 的分析,認為中國科學家正在公開分享真正的 AI 突破,而美國的政策制定者與遊說者則放大了「中國蒸餾」的疑慮。Masad 強調 DeepSeek 官方表述中披露的架構創新,包括令牌級注意力壓縮 DeepSeek Sparse Attention 以及用於長上下文運算的顯著效率提升。他指出,V4-Pro 相較於 V3.2,在 1M 上下文長度下展現了大幅更低的每令牌推論運算量與 KV 快取需求,並強調這些架構進展與訓練資料蒸餾無關,而且所有研究人員(包括美國的實驗室)都能從開源發展中受益。
展開
04:54

Perplexity 揭露 Web 搜尋代理後訓練方法;基於 Qwen3.5 的模型在準確率與成本上超越 GPT-5.4

Perplexity 使用搭配 Qwen3.5 模型的 SFT,並在其後使用帶有 RL 的強化學習;透過多跳 QA 資料集與規則量表檢查來提升搜尋的準確性與效率,實現業界一流的 FRAMES 表現。 摘要:Perplexity 的線上搜尋代理後訓練流程,結合監督式微調 (SFT),以透過線上強化學習 (RL)(使用 GRPO 演算法)來強制遵循指令與語言一致性。RL 階段使用專有的多跳可驗證問答資料集,以及基於規則量表的對話資料,以防止 SFT 漂移,並採用獎勵閘控與同組內效率懲罰。評估顯示 Qwen3.5-397B-SFT-RL 在 FRAMES 上取得頂尖表現:單次工具呼叫準確率為 57.3%,四次呼叫為 73.9%,每次查詢成本為 $0.02;在這些指標上超越 GPT-5.4 與 Claude Sonnet 4.6。定價採用 API 計費,且不包含快取。
展開
12:05

Kimi K2.6 登頂 OpenRouter 編程基準測試,超越 Claude 與 GPT 系列

Kimi K2.6 登頂 OpenRouter 排名榜,超越 Claude、GPT 與開源競爭對手,顯示本土 AI 進展並縮小與全球領先者之間的差距。 摘要:Kimi.ai 宣布其最新模型 Kimi K2.6 在 OpenRouter 編程能力排行榜中排名第一,領先開發者評測。基準測試顯示,相較於 Claude、GPT 系列及其他開源模型,K2.6 在各類編程任務上表現更出色,凸顯其在程式碼生成與開發任務處理方面的進步,並表明本土 AI 朝向國際領先者前進。
展開