在石头上雕刻 - ForkLog:加密货币、人工智能、奇点、未来

img-e85279aa380bface-8456330719811929# 在石头上雕刻

人工智能芯片如何突破“记忆墙”

传统上,消费级GPU主要用于游戏和渲染,但它们也能执行其他需要并行计算的任务。

例如,可以在图形处理器上运行PoW矿工,用于加密货币挖矿,但在与专业设备的竞争中,GPU矿场已成为利基项目的解决方案。

在人工智能领域也出现了类似的情况。显卡已成为神经网络的主要计算工具,但随着行业的发展,对专用AI解决方案的需求也在增加。ForkLog分析了人工智能新一轮竞赛的现状。

针对AI的硅片优化

创建专用人工智能硬件的方法有多种。

可以将消费级GPU视为专业化的起点。它们在处理并行矩阵运算方面的能力,适用于部署神经网络和深度学习,但仍有很大的改进空间。

AI在显卡上的主要问题之一是需要不断在系统内存和GPU之间传输大量数据。这些伴随过程可能比实际计算耗费更多时间和能量。

另一个问题源于GPU的通用性。显卡架构设计面向广泛任务——从图形渲染到通用计算,导致部分硬件模块对于专用AI负载来说是多余的。

数据格式也是限制之一。历史上,图形处理器优化用于FP32——32位浮点数操作。推理和训练通常采用精度更低的格式:16位FP16和BF16,以及整数INT4和INT8。

Nvidia H200和B200

用于推理和训练的最受欢迎产品之一是H200芯片和DGX B200服务器系统,基本上是“增强版”数据中心GPU。

这些加速器的核心AI元素是张量核心,专为超高速矩阵运算设计,如模型训练和批量推理。

为了减少数据访问延迟,Nvidia为其显卡配备了大量高性能内存(HBM,高带宽内存)。H200配备了141GB HBM3e,带宽达4.8TB/秒,B200的参数根据配置更高。

张量处理单元(TPU)

到2015年,谷歌开发了张量处理单元(TPU)——一种基于系统阵列的ASIC处理器,专为机器学习设计。

Tensor Processing Unit 3.0。资料来源:维基百科。在传统处理器架构——CPU和GPU中,每个操作都涉及读取、处理和将中间数据写入内存。

TPU通过一组块阵列传递数据,每个块执行数学运算并将结果传递给下一个块。内存访问仅在计算开始和结束时发生。

这种方法比非专用的图形处理器更节省时间和能量,但外部存储器的访问仍是瓶颈。

Cerebras

美国公司Cerebras找到了一种利用整块硅片作为处理器的方法,通常将其切割成更小的芯片。

2019年,开发者推出了首款300毫米晶圆级引擎(Wafer-Scale Engine)。到2024年,公司发布了升级版WSE-3,配备460毫米芯片和900,000个核心。

Cerebras WSE-3和两个Nvidia B200芯片。资料来源:Cerebras。Cerebras的架构在硅片上将SRAM存储块直接分布在逻辑模块附近。每个核心配备48KB本地存储,不与其他核心竞争访问。

开发者表示,许多推理模型只需一个WSE-3即可满足需求。对于更大规模的任务,可以集群多个此类芯片。

Groq LPU

公司Groq(不要与xAI的Grok混淆)提供基于Language Processing Unit(LPU)架构的ASIC,用于推理。

Groq芯片。资料来源:Groq。Groq芯片的一个关键特点是针对连续操作的优化。

推理依赖逐步生成Token:每一步都需要完成前一步的结果。在这种情况下,性能更依赖于单个流的速度,而非流的数量。

不同于普通通用处理器和某些AI专用设备,Groq不在任务执行过程中生成机器指令。每个操作都提前规划在“时间表”中,绑定到处理器的特定时刻。

同时,像其他AI加速器一样,LPU在单芯片上集成了逻辑和存储模块,以最小化数据传输成本。

Taalas

上述所有例子都具有高度可编程性。模型和所需的权重加载到可重写的存储中,操作者可以随时加载不同的模型或进行调整。

这种方法的性能依赖于存储的可用性、速度和容量。

Taalas开发者更进一步,将特定模型及其权重“硬编码”到芯片的晶体管级架构中。

通常作为软件实现的模型,在硬件层面实现,省去了单独的通用存储和相关成本。

在其首款推理卡HC1中,Taalas采用了开源模型Llama 3.1 8B。

Taalas HC1。资料来源:Taalas。该卡支持低比特精度,最高可达3位和6位参数,从而加快处理速度。Taalas声称,HC1每秒处理多达17,000个Token,且价格低廉、能耗较低。

公司宣称在能耗和成本方面,性能比GPU提升了数千倍。

但这种方法的根本缺陷是——无法在不更换芯片的情况下更新模型。

同时,HC1还支持LoRA(低秩适应),一种通过添加额外权重微调大型语言模型(LLM)的方法。配合正确的LoRA配置,可以将模型转变为特定领域的专家。

另一难题在于设计和制造这种“物理模型”的过程。ASIC开发成本高昂,可能耗时数年。在激烈的AI行业竞争中,这是一个重大限制。

Taalas声称开发了一种新型的处理器架构生成方法,旨在解决这一问题。自动化系统能在一周内将模型和权重集转化为芯片设计。

据公司估算,从获得新模型到生产出物理实现的芯片,整个周期约为两个月。

本地推理的未来

新型专用AI芯片主要用于庞大的数据中心,提供云端服务,按需付费。甚至“物理模型”直接在硅片上实现的方案也不罕见。

对消费者而言,这一技术突破意味着服务成本降低和速度提升。

同时,更简单、更便宜、更节能的芯片出现,为本地推理解决方案的普及提供了基础。

目前,专用AI芯片已出现在智能手机、笔记本电脑、监控摄像头甚至门铃中。它们能在本地完成任务,具有低延迟、独立性和隐私保护。

即使牺牲一定灵活性,通过硬件优化也能大幅提升设备能力,将简单的AI组件集成到廉价的普及产品中。

如果大多数用户开始在本地设备上运行模型,数据中心的负载可能会减轻,降低行业过载的风险。也许,未来无需通过极端手段——比如将计算能力送入轨道——来满足需求。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论
  • 热门 Gate Fun

    查看更多
  • 市值:$2448.27持有人数:0
    0.00%
  • 市值:$2455.17持有人数:1
    0.00%
  • 市值:$2455.17持有人数:1
    0.00%
  • 市值:$0.1持有人数:1
    0.00%
  • 市值:$2455.17持有人数:1
    0.00%