智譜復盤GLM-5「亂碼門」:日均數億次Coding Agent調用,兩個競態bug藏在KV Cache裡

币界網消息,智譜發文復盤GLM-5系列模型在coding agent場景下出現亂碼、復讀和生僻字的問題。自3月起,用戶反饋異常僅在高並發、長上下文(平均超70k token)任務中觸發。智譜稱其推理系統每天承受數億次coding agent調用。經過排查,團隊定位到兩個獨立的競態bug。第一個bug出在pd分離架構,解碼側超時中止請求後回收kv cache,但預填充側的rdma寫入未結束,新請求覆蓋舊數據。修復方法是在回收前加顯式同步,異常率從萬分之十幾降至萬分之三以下。第二個bug出在hicache,載入和計算兩條流水線缺少同步點,計算側可能在數據未載入完畢時讀取。修復後異常完全消失,補丁已提交sglang社區。團隊還發現,投機採樣的接受率指標可作為異常檢測信號,亂碼時草稿token幾乎全被拒絕,復讀時接受率偏高。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆