Интересное событие произошло на рынке AI-инференса, о котором стоит поговорить. NVIDIA приобрела Groq, и когда Хуан Ренсюнь начал объяснять логику этой сделки, стало ясно, что это не просто так.



До этого весь фокус был на одном: как пропустить больше данных одновременно, то есть на пропускной способности. Но оказывается, что рынок раскололся. Некоторые пользователи готовы платить более высокую цену за то, чтобы получить ответ быстрее. Токены стали дороже, и время их генерации начало иметь реальную стоимость. Это меняет всю игру.

Итак, Groq специализируется именно на этом — на низкой задержке. Их архитектура LPU построена так, чтобы обеспечивать детерминированную, предсказуемую задержку. Когда NVIDIA приобрела Groq, они по сути заполнили пробел в своем портфеле. GPU NVIDIA остаются королями пропускной способности, но для сегмента низкой задержки нужна другая архитектура.

Новый чип Groq 3 LPU — это первый продукт после объединения, изготовленный по технологии 4 нм. По заявлениям NVIDIA, его эффективность при работе с большими моделями в 35 раз превышает показатели их флагмана Blackwell NVL72. Это не о абсолютной скорости, а о том, сколько мощности нужно для достижения этой скорости.

Практически это означает, что теперь можно предлагать разные решения для разных потребностей: хочешь максимум пропускной способности — есть GPU; нужна быстрая реакция любой ценой — есть Groq. Одна и та же модель может стоить по-разному в зависимости от того, как быстро ты хочешь результат. Это расширение границ того, что можно оптимизировать на рынке инференса.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить