在石头上雕刻 - ForkLog：加密货币、人工智能、奇点、未来

Froklog

2026-03-11 14:48:14

# 在石头上雕刻

人工智能芯片如何突破“记忆墙”

传统上，消费级GPU主要用于游戏和渲染，但它们也能执行其他需要并行计算的任务。

例如，可以在图形处理器上运行PoW矿工，用于加密货币挖矿，但在与专业设备的竞争中，GPU矿场已成为利基项目的解决方案。

在人工智能领域也出现了类似的情况。显卡已成为神经网络的主要计算工具，但随着行业的发展，对专用AI解决方案的需求也在增加。ForkLog分析了人工智能新一轮竞赛的现状。

针对AI的硅片优化

创建专用人工智能硬件的方法有多种。

可以将消费级GPU视为专业化的起点。它们在处理并行矩阵运算方面的能力，适用于部署神经网络和深度学习，但仍有很大的改进空间。

AI在显卡上的主要问题之一是需要不断在系统内存和GPU之间传输大量数据。这些伴随过程可能比实际计算耗费更多时间和能量。

另一个问题源于GPU的通用性。显卡架构设计面向广泛任务——从图形渲染到通用计算，导致部分硬件模块对于专用AI负载来说是多余的。

数据格式也是限制之一。历史上，图形处理器优化用于FP32——32位浮点数操作。推理和训练通常采用精度更低的格式：16位FP16和BF16，以及整数INT4和INT8。

Nvidia H200和B200

用于推理和训练的最受欢迎产品之一是H200芯片和DGX B200服务器系统，基本上是“增强版”数据中心GPU。

这些加速器的核心AI元素是张量核心，专为超高速矩阵运算设计，如模型训练和批量推理。

为了减少数据访问延迟，Nvidia为其显卡配备了大量高性能内存（HBM，高带宽内存）。H200配备了141GB HBM3e，带宽达4.8TB/秒，B200的参数根据配置更高。

张量处理单元（TPU）

到2015年，谷歌开发了张量处理单元（TPU）——一种基于系统阵列的ASIC处理器，专为机器学习设计。

Tensor Processing Unit 3.0。资料来源：维基百科。在传统处理器架构——CPU和GPU中，每个操作都涉及读取、处理和将中间数据写入内存。

TPU通过一组块阵列传递数据，每个块执行数学运算并将结果传递给下一个块。内存访问仅在计算开始和结束时发生。

这种方法比非专用的图形处理器更节省时间和能量，但外部存储器的访问仍是瓶颈。

Cerebras

美国公司Cerebras找到了一种利用整块硅片作为处理器的方法，通常将其切割成更小的芯片。

2019年，开发者推出了首款300毫米晶圆级引擎（Wafer-Scale Engine）。到2024年，公司发布了升级版WSE-3，配备460毫米芯片和900,000个核心。

Cerebras WSE-3和两个Nvidia B200芯片。资料来源：Cerebras。Cerebras的架构在硅片上将SRAM存储块直接分布在逻辑模块附近。每个核心配备48KB本地存储，不与其他核心竞争访问。

开发者表示，许多推理模型只需一个WSE-3即可满足需求。对于更大规模的任务，可以集群多个此类芯片。

Groq LPU

公司Groq（不要与xAI的Grok混淆）提供基于Language Processing Unit（LPU）架构的ASIC，用于推理。

Groq芯片。资料来源：Groq。Groq芯片的一个关键特点是针对连续操作的优化。

推理依赖逐步生成Token：每一步都需要完成前一步的结果。在这种情况下，性能更依赖于单个流的速度，而非流的数量。

不同于普通通用处理器和某些AI专用设备，Groq不在任务执行过程中生成机器指令。每个操作都提前规划在“时间表”中，绑定到处理器的特定时刻。

同时，像其他AI加速器一样，LPU在单芯片上集成了逻辑和存储模块，以最小化数据传输成本。

Taalas

上述所有例子都具有高度可编程性。模型和所需的权重加载到可重写的存储中，操作者可以随时加载不同的模型或进行调整。

这种方法的性能依赖于存储的可用性、速度和容量。

Taalas开发者更进一步，将特定模型及其权重“硬编码”到芯片的晶体管级架构中。

通常作为软件实现的模型，在硬件层面实现，省去了单独的通用存储和相关成本。

在其首款推理卡HC1中，Taalas采用了开源模型Llama 3.1 8B。

Taalas HC1。资料来源：Taalas。该卡支持低比特精度，最高可达3位和6位参数，从而加快处理速度。Taalas声称，HC1每秒处理多达17,000个Token，且价格低廉、能耗较低。

公司宣称在能耗和成本方面，性能比GPU提升了数千倍。

但这种方法的根本缺陷是——无法在不更换芯片的情况下更新模型。

同时，HC1还支持LoRA（低秩适应），一种通过添加额外权重微调大型语言模型（LLM）的方法。配合正确的LoRA配置，可以将模型转变为特定领域的专家。

另一难题在于设计和制造这种“物理模型”的过程。ASIC开发成本高昂，可能耗时数年。在激烈的AI行业竞争中，这是一个重大限制。

Taalas声称开发了一种新型的处理器架构生成方法，旨在解决这一问题。自动化系统能在一周内将模型和权重集转化为芯片设计。

据公司估算，从获得新模型到生产出物理实现的芯片，整个周期约为两个月。

本地推理的未来

新型专用AI芯片主要用于庞大的数据中心，提供云端服务，按需付费。甚至“物理模型”直接在硅片上实现的方案也不罕见。

对消费者而言，这一技术突破意味着服务成本降低和速度提升。

同时，更简单、更便宜、更节能的芯片出现，为本地推理解决方案的普及提供了基础。

目前，专用AI芯片已出现在智能手机、笔记本电脑、监控摄像头甚至门铃中。它们能在本地完成任务，具有低延迟、独立性和隐私保护。

即使牺牲一定灵活性，通过硬件优化也能大幅提升设备能力，将简单的AI组件集成到廉价的普及产品中。

如果大多数用户开始在本地设备上运行模型，数据中心的负载可能会减轻，降低行业过载的风险。也许，未来无需通过极端手段——比如将计算能力送入轨道——来满足需求。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场AI测评官
24.97万热度
#
Gate2月衍生品市场份额创新高
11.32万热度
#
加密市场上涨
46.24万热度
#
比特币站上七万美元
4985.85万热度
#
AAVE换币风波
175.14万热度

热门 Gate Fun
查看更多

1
bst
raselbst
市值:$2448.27持有人数:0
0.00%
2
DANE
CIA
市值:$2455.17持有人数:1
0.00%
3
AIN
AT
市值:$2455.17持有人数:1
0.00%
4
NY
鲶鱼
市值:$0.1持有人数:1
0.00%
5
SAUDADE
SAUDADE
市值:$2455.17持有人数:1
0.00%

在石头上雕刻 - ForkLog：加密货币、人工智能、奇点、未来

针对AI的硅片优化

Nvidia H200和B200

张量处理单元（TPU）

Cerebras

Groq LPU

Taalas

本地推理的未来

热门话题

Gate广场AI测评官

Gate2月衍生品市场份额创新高

加密市场上涨

比特币站上七万美元

AAVE换币风波

热门 Gate Fun

bst

raselbst

DANE

CIA

AIN

AT

NY

鲶鱼

SAUDADE

SAUDADE

置顶