Uma coisa interessante aconteceu com o mercado de inferência de IA, que vale a pena discutir. A NVIDIA adquiriu a Groq, e quando Juan Rensun começou a explicar a lógica desse acordo, ficou claro que não era por acaso.



Até então, o foco estava em uma coisa: como processar mais dados simultaneamente, ou seja, na capacidade de throughput. Mas, na verdade, o mercado se dividiu. Alguns usuários estão dispostos a pagar um preço mais alto para obter uma resposta mais rápida. Os tokens ficaram mais caros, e o tempo de geração deles começou a ter um custo real. Isso muda todo o jogo.

Portanto, a Groq se especializa exatamente nisso — em baixa latência. Sua arquitetura LPU foi construída para fornecer uma latência determinística e previsível. Quando a NVIDIA adquiriu a Groq, eles basicamente preencheram uma lacuna em seu portfólio. Os GPUs da NVIDIA continuam sendo reis em throughput, mas para o segmento de baixa latência, é necessária uma arquitetura diferente.

O novo chip Groq 3 LPU é o primeiro produto após a fusão, fabricado com tecnologia de 4 nm. Segundo a NVIDIA, sua eficiência ao trabalhar com modelos grandes é 35 vezes superior às do seu flagship Blackwell NVL72. Não se trata de velocidade absoluta, mas de quanta potência é necessária para alcançar essa velocidade.

Praticamente, isso significa que agora é possível oferecer soluções diferentes para necessidades distintas: quer o máximo de throughput — há GPUs; precisa de uma resposta rápida a qualquer custo — há Groq. O mesmo modelo pode custar de maneiras diferentes, dependendo de quão rápido você deseja o resultado. Isso amplia os limites do que pode ser otimizado no mercado de inferência.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar