Gate Booster 第 4 期:发帖瓜分 1,500 $USDT
🔹 发布 TradFi 黄金福袋原创内容,可得 15 $USDT,名额有限先到先得
🔹 本期支持 X、YouTube 发布原创内容
🔹 无需复杂操作,流程清晰透明
🔹 流程:申请成为 Booster → 领取任务 → 发布原创内容 → 回链登记 → 等待审核及发奖
📅 任务截止时间:03月20日16:00(UTC+8)
立即领取任务:https://www.gate.com/booster/10028?pid=allPort&ch=KTag1BmC
更多详情:https://www.gate.com/announcements/article/50203
在石头上雕刻 - ForkLog:加密货币、人工智能、奇点、未来
人工智能芯片如何突破“记忆墙”
传统上,消费级GPU主要用于游戏和渲染,但它们也能执行其他需要并行计算的任务。
例如,可以在图形处理器上运行PoW矿工,用于加密货币挖矿,但在与专业设备的竞争中,GPU矿场已成为利基项目的解决方案。
在人工智能领域也出现了类似的情况。显卡已成为神经网络的主要计算工具,但随着行业的发展,对专用AI解决方案的需求也在增加。ForkLog分析了人工智能新一轮竞赛的现状。
针对AI的硅片优化
创建专用人工智能硬件的方法有多种。
可以将消费级GPU视为专业化的起点。它们在处理并行矩阵运算方面的能力,适用于部署神经网络和深度学习,但仍有很大的改进空间。
AI在显卡上的主要问题之一是需要不断在系统内存和GPU之间传输大量数据。这些伴随过程可能比实际计算耗费更多时间和能量。
另一个问题源于GPU的通用性。显卡架构设计面向广泛任务——从图形渲染到通用计算,导致部分硬件模块对于专用AI负载来说是多余的。
数据格式也是限制之一。历史上,图形处理器优化用于FP32——32位浮点数操作。推理和训练通常采用精度更低的格式:16位FP16和BF16,以及整数INT4和INT8。
Nvidia H200和B200
用于推理和训练的最受欢迎产品之一是H200芯片和DGX B200服务器系统,基本上是“增强版”数据中心GPU。
这些加速器的核心AI元素是张量核心,专为超高速矩阵运算设计,如模型训练和批量推理。
为了减少数据访问延迟,Nvidia为其显卡配备了大量高性能内存(HBM,高带宽内存)。H200配备了141GB HBM3e,带宽达4.8TB/秒,B200的参数根据配置更高。
张量处理单元(TPU)
到2015年,谷歌开发了张量处理单元(TPU)——一种基于系统阵列的ASIC处理器,专为机器学习设计。
TPU通过一组块阵列传递数据,每个块执行数学运算并将结果传递给下一个块。内存访问仅在计算开始和结束时发生。
这种方法比非专用的图形处理器更节省时间和能量,但外部存储器的访问仍是瓶颈。
Cerebras
美国公司Cerebras找到了一种利用整块硅片作为处理器的方法,通常将其切割成更小的芯片。
2019年,开发者推出了首款300毫米晶圆级引擎(Wafer-Scale Engine)。到2024年,公司发布了升级版WSE-3,配备460毫米芯片和900,000个核心。
开发者表示,许多推理模型只需一个WSE-3即可满足需求。对于更大规模的任务,可以集群多个此类芯片。
Groq LPU
公司Groq(不要与xAI的Grok混淆)提供基于Language Processing Unit(LPU)架构的ASIC,用于推理。
推理依赖逐步生成Token:每一步都需要完成前一步的结果。在这种情况下,性能更依赖于单个流的速度,而非流的数量。
不同于普通通用处理器和某些AI专用设备,Groq不在任务执行过程中生成机器指令。每个操作都提前规划在“时间表”中,绑定到处理器的特定时刻。
同时,像其他AI加速器一样,LPU在单芯片上集成了逻辑和存储模块,以最小化数据传输成本。
Taalas
上述所有例子都具有高度可编程性。模型和所需的权重加载到可重写的存储中,操作者可以随时加载不同的模型或进行调整。
这种方法的性能依赖于存储的可用性、速度和容量。
Taalas开发者更进一步,将特定模型及其权重“硬编码”到芯片的晶体管级架构中。
通常作为软件实现的模型,在硬件层面实现,省去了单独的通用存储和相关成本。
在其首款推理卡HC1中,Taalas采用了开源模型Llama 3.1 8B。
公司宣称在能耗和成本方面,性能比GPU提升了数千倍。
但这种方法的根本缺陷是——无法在不更换芯片的情况下更新模型。
同时,HC1还支持LoRA(低秩适应),一种通过添加额外权重微调大型语言模型(LLM)的方法。配合正确的LoRA配置,可以将模型转变为特定领域的专家。
另一难题在于设计和制造这种“物理模型”的过程。ASIC开发成本高昂,可能耗时数年。在激烈的AI行业竞争中,这是一个重大限制。
Taalas声称开发了一种新型的处理器架构生成方法,旨在解决这一问题。自动化系统能在一周内将模型和权重集转化为芯片设计。
据公司估算,从获得新模型到生产出物理实现的芯片,整个周期约为两个月。
本地推理的未来
新型专用AI芯片主要用于庞大的数据中心,提供云端服务,按需付费。甚至“物理模型”直接在硅片上实现的方案也不罕见。
对消费者而言,这一技术突破意味着服务成本降低和速度提升。
同时,更简单、更便宜、更节能的芯片出现,为本地推理解决方案的普及提供了基础。
目前,专用AI芯片已出现在智能手机、笔记本电脑、监控摄像头甚至门铃中。它们能在本地完成任务,具有低延迟、独立性和隐私保护。
即使牺牲一定灵活性,通过硬件优化也能大幅提升设备能力,将简单的AI组件集成到廉价的普及产品中。
如果大多数用户开始在本地设备上运行模型,数据中心的负载可能会减轻,降低行业过载的风险。也许,未来无需通过极端手段——比如将计算能力送入轨道——来满足需求。