News | Gate.com

今天

12:31

DeepSeek 以 $20B 估值寻求 18 亿美元融资，伴随人才流失

Gate 新闻消息，4月25日——据知情人士透露，DeepSeek 正计划融资 18 亿美元，估值约为 $20 billion。随着这家 AI 初创公司面临严重的人才流失，多位核心研究人员离职加入字节跳动、腾讯、小米，以及自动驾驶公司 Horizon Robotics，推动了本轮融资的进程。

展开

05:33

百度智能云在千帆平台上线 DeepSeek-V4 API

AI 行业动态

Gate News 消息，4月25日——百度智能云已将 DeepSeek-V4 引入其千帆平台，为新发布的 AI 模型提供 API 访问。DeepSeek-V4 提供两个版本——DeepSeek-V4-Pro 和 DeepSeek-V4-Flash，并具备百万令牌的扩展上下文窗口。企业和开发

展开

14:42

DeepSeek V4 以 1M 上下文窗口发布；华为 Ascend 与寒武纪芯片实现全面兼容

AI 行业动态

Gate News 消息，4月24日——DeepSeek V4-Pro 和 DeepSeek V4-Flash 于 4 月 24 日正式发布，并开源发布；上下文处理长度从 128K 大幅扩展至 1M，容量提升接近 10 倍。华为计算宣布其 Ascend 超算节点

展开

05:21

DeepSeek V4 引发美国争论：智库质疑芯片使用，Replit CEO 为开放创新辩护

AI 行业动态

Gate News 消息，4 月 24 日——围绕 DeepSeek V4 的技术能力与合规性，美国爆发了一场争论。Chris McGuire 是外交关系委员会 (CFR) 的资深研究员，曾任白宫国家安全委员会以及国防部官员，发表了分析文章，称 V4 并未改变美中 AI 的竞争格局。根据 McGuire 的说法，DeepSeek 自己的 V4 报告承认，其推理能力比前沿模型大约落后 3 到 6 个月，并以发布于六个月前的 GPT-5.2 与 Gemini 3.0 Pro 作为基准。 McGuire 提出担忧：尽管 V4 报告披露了在推理阶段对 NVIDIA GPU 以及华为 Ascend NPU 的适配，但并未公开说明开发过程中所使用的 GPU 型号或训练成本。他质疑这种沉默是否意味着使用了受出口管制的 NVIDIA Blackwell 芯片，并指出 V3 先前曾声称使用了 2,000 张 H800 GPU，成本为 5.57 million 美元。DeepSeek 已否认使用 Blackwell，表示该模型是在 NVIDIA H800 与华为 Ascend 910C 处理器上训练的。 Replit 首席执行官 Amjad Masad 反驳了 McGuire 的分析，认为中国科学家正在公开分享真正的 AI 突破，而美国政策制定者与游说者则放大“China distillation”（中国蒸馏）的担忧。Masad 强调了 DeepSeek 在官方声明中披露的架构创新，包括 DeepSeek 稀疏注意力的按 token 级别注意力压缩，以及针对长上下文计算的显著效率提升。他指出，V4-Pro 在 1M 上下文长度下，展现出比 V3.2 更低得多的按 token 推理计算量与 KV 缓存需求，并强调这些架构进展与训练数据蒸馏无关，所有研究人员——包括美国的实验室——都可以从开源发展中获益。

展开

04:49

DeepSeek V4 在 Putnam-2025 上取得满分成绩，与 Axiom 在形式化数学推理中并列第一

AI 行业动态

Gate News 消息，4月24日——DeepSeek V4 已发布来自形式化数学推理评测的结果，在 Putnam-2025 上获得满分 120/120，与 Axiom 并列第一。在使用 LeanExplore 和受约束采样的实际模式下，V4-Flash-Max 在 Putnam-200 Pass@8 基准测试中得分 81.00，显著优于 Seed-2.0-Prover 35.50、Gemini 3 Pro 26.50 和 Seed-1.5-Prover 26.50。前沿模式的结果显示，V4 在 Seed-1.5-Prover 110/120 与 Aristotle 100/120 之前。 V4 采用混合的形式化-非形式化推理方法：非形式化推理生成候选自然语言解答，自我验证用于筛选结果，而形式化智能体在 Lean 中完成严格证明。前沿结果采用了大规模计算扩展，而实际模式分数更能反映标准部署能力。

展开

03:21

DeepSeek V4 训练数据翻倍至 33T，导致不稳定性并延迟了发布

AI 行业动态

Gate News 消息，4月24日——DeepSeek 的 V4 技术报告显示，V4-Flash 和 V4-Pro 分别在 32T 和 33T token 上进行了预训练，相较于 V3 使用的约 15T token 翻了一倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”，损失尖峰反复出现，是由于 Mixture-of-Experts MoE 层中的异常；路由机制本身会加剧这些异常，而简单的回滚也无法解决问题。

展开

03:04

DeepSeek发布V4开源模型系列，参数达1.6T并采用MIT许可证

AI 行业动态

Gate News消息，4月24日——DeepSeek已在MIT许可证下发布V4系列开源模型，权重现已在Hugging Face和ModelScope提供。该系列包含两个混合专家 (MoE) 模型：V4-Pro 总参数达1.6万亿，且每token激活49亿

展开

09:45

DeepSeek 开源 TileKernels：大型模型训练与推理的 GPU 内核库

项目进展

AI 行业动态

Gate News 消息，4月23日——DeepSeek 已在 MIT 许可下开源了 TileKernels，这是一款使用 TileLang 编写的 GPU 内核库，面向大型语言模型的训练与推理。TileLang 是 tile-ai 团队开发的领域专用语言，用于在

展开

20:02

深度求索估值飙升超越 $20 十亿美元，腾讯与阿里巴巴权衡投资

AI 行业动态

深度求索（DeepSeek）寻求 >$20B 作为腾讯/阿里巴巴讨论投资；英伟达警告称，美国的芯片技术优势可能会被华为削弱；随着Vast Data的 $1B 轮融资以及OpenAI/Anthropic/xAI投资，AI融资仍在持续飙升。深度求索旨在将估值推高至 $20 十亿美元以上，伴随其与腾讯和阿里巴巴的商谈；与此同时，英伟达警告称，如果将AI模型转移到华为芯片上，可能会削弱美国的领先地位。该报道还指出，全球AI融资出现激增，包括Vast Data的 $1 十亿美元融资轮，其估值为 $30 十亿美元，并且OpenAI、Anthropic和xAI也获得了重大投资.

展开

14:05

Yifan Zhang 披露 DeepSeek V4 完整技术规格：1.6T 参数，384 位专家（6 次激活）

AI 行业动态

Gate News 消息，4月22日——普林斯顿大学 PhD 学生 Yifan Zhang 在 X 上披露了 DeepSeek V4 的完整技术规格，此前于 4月19日进行了预览。V4 拥有 1.6 万亿（1.6 trillion）总参数，并提供轻量化变体 V4-Lite，参数规模为 2850 亿（285 billion）。该模型采用 DSA2

展开