乐天發布 Rakuten AI 3.0 模型,配置文件顯示底層架構為 DeepSeek V3

Gate News 消息,3 月 17 日,樂天集團今日以「日本最大高性能 AI 模型」為名發布 Rakuten AI 3.0,並以 Apache 2.0 協議免費開源。該模型採用 MoE(混合專家)架構,總參數 671B,每次推理激活 37B,上下文窗口 128K,針對日語優化,在多項日語基準測試中超越 GPT-4o。該模型系日本經濟產業省與新能源產業技術綜合開發機構(NEDO)聯合推進的 GENIAC 項目成果,日本政府為其提供了部分訓練算力資助。樂天在公告中以「充分利用開源社區最佳成果」描述基礎模型來源,未點名具體模型。社區隨即查閱 HuggingFace 上發布的模型文件,發現 config.json 中明確寫入 model_type: deepseek_v3 與 architectures: DeepseekV3ForCausalLM,總參數 671B、激活 37B、上下文 128K 亦與 DeepSeek V3 完全一致,表明該模型系在 DeepSeek V3 基礎上經日語資料微調而來。

查看原文
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言