分析:TileKernels 开源内容与张一凡的 V4 架构规范相对应

根据东查贝廷的监测,DeepSeek开源的TileKernels内核库在多个方面与Yifan Zhang之前披露的V4架构规范相对应。Zhang表示,V4的残差连接使用超连接(Hyper-Connections)。开源的TileKernels具有mHC(流形约束超连接),这是Byte Seed团队在2024年提出的HC的改进版本,解决了在大规模训练中原始HC遇到的信号发散问题。mHC本身是一种超连接类型,因为原始HC无法支持稳定的大规模训练;因此,mHC很可能是V4实际使用的类型。Zhang提到,V4采用融合的MoE Mega-Kernel来管理6个MoE层中的384个专家激活,而TileKernels中的MoE模块包括Top-k专家选择、令牌到专家的映射,以及融合专家的分发和收集。TileKernels还包含Engram内核,这是DeepSeek今年早些时候在一篇论文中提出的条件记忆模块,但Engram未在Zhang的V4规范中提及。该库支持SM90(Hopper)和SM100(Blackwell),但不支持华为昇腾。此前,《信息》报道V4是在Blackwell上训练的,DeepSeek已花费数月时间为华为和寒武纪芯片调整模型。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论