Da declínio da Elpida ao crescimento da Micron: a reconstrução da lógica fundamental dos chips de armazenamento

2012 年全球顶级 DRAM 内存制造商尔必达正式宣告破产。

Como uma antiga referência na indústria de semicondutores do Japão, a Elpida integrou tecnologias centrais dos três gigantes NEC, Hitachi e Mitsubishi, mesmo com o apoio financeiro do governo japonês, ainda assim não conseguiu reverter a tendência de declínio. Após acumular uma dívida de 430 bilhões de ienes e solicitar proteção contra falência, a empresa foi adquirida pela Micron Technology dos EUA por 200 bilhões de ienes, sendo completamente retirada do mercado após a integração e digestão.

Ao olhar para o desenvolvimento da indústria, Intel, Texas Instruments e Motorola já investiram na pista de DRAM, mas posteriormente saíram do mercado. Toda a indústria de memória semicondutora do Japão, que esteve no auge, entrou em colapso em menos de vinte anos. Logo depois, empresas sul-coreanas assumiram a liderança, com Samsung e SK Hynix apoiadas por subsídios governamentais, usando estratégias agressivas de preços para varrer o mercado global, comprimindo a sobrevivência de todos os concorrentes.

E a Micron tornou-se a sobrevivente final, sendo atualmente a única empresa nos EUA com capacidade de produção em larga escala de chips de armazenamento avançados. Essa fabricante, sediada em Boise, Idaho, permaneceu na sombra do halo da Nvidia e TSMC, sem se envolver em design de GPU ou fabricação de chips lógicos. Mas, com a demanda explosiva por poder de processamento de IA, um gargalo físico de décadas de existência tornou-se cada vez mais evidente: o tempo de espera do processamento de unidades de cálculo por transmissão de dados já supera o tempo de cálculo em si. Essa dor de cabeça da indústria não tem solução por otimizações de software, apenas por avanços tecnológicos de hardware, que é justamente o foco de quatro décadas de dedicação da Micron à tecnologia HBM.

Gargalo do núcleo de cálculo de IA: a parede de memória como problema comum da indústria

Na arquitetura de Von Neumann, unidades de GPU e TPU são fisicamente independentes da memória principal. As unidades de cálculo possuem SRAM de baixa capacidade integrada como cache no chip, enquanto os pesos de grandes modelos e dados de entrada são armazenados principalmente fora do chip em DRAM, sendo transferidos por sinais elétricos através de camadas intermediárias.

Por exemplo, um grande modelo de linguagem com 700 bilhões de parâmetros, em precisão FP16, exige cerca de 140GB de memória física apenas para os pesos. Atualmente, as principais placas de IA de alta performance possuem entre 80GB e 192GB de VRAM, o que limita modelos de grande porte a serem divididos e executados em múltiplas placas. Nos últimos dez anos, a capacidade de processamento dos chips cresceu exponencialmente, mas a largura de banda da memória, limitada pelo número de pinos físicos, frequência de sinais e limites de dissipação térmica, cresceu muito mais lentamente. Quando o desempenho de cálculo ultrapassa a capacidade de fornecimento de memória, as unidades de cálculo ficam ociosas aguardando dados, reduzindo drasticamente a eficiência do hardware.

A IA possui dois cenários principais: treinamento e inferência, com lógicas bastante distintas. Durante o treinamento, há processamento paralelo em grande escala, com dados sendo chamados repetidamente do cache do núcleo de cálculo, resultando em alta intensidade de cálculo. O gargalo aqui é a velocidade de processamento, não a memória, caracterizando um cenário de computação intensiva, onde a vantagem da Nvidia é plenamente explorada.

Na inferência, a lógica é completamente diferente. Grandes modelos de linguagem geram texto token por token usando mecanismos autoregressivos. Para evitar recomputar scores de atenção históricos, o sistema precisa montar um cache KV na VRAM. Por exemplo, com um comprimento de contexto de cerca de 4096 tokens, uma solicitação de usuário ocupa aproximadamente 1,34GB de VRAM; duas placas A100, descontando os pesos do modelo, deixam apenas cerca de 20GB disponíveis para o cache KV, suportando no máximo 14 solicitações simultâneas. A intensidade de cálculo na inferência é extremamente baixa, e o desempenho é totalmente limitado pela largura de banda da memória, sendo uma tarefa intensiva em acesso à memória, onde a taxa de transferência física do HBM determina diretamente o limite de throughput.

Do ponto de vista de consumo de energia, ler cada bit de dados do HBM fora do chip consome cerca de 10 a 20 pJ/bit, enquanto uma única operação de ponto flutuante FP16 consome apenas 0,1 pJ. Assim, o consumo de energia na movimentação de dados é de 100 a 200 vezes maior que o de cálculo. Em cenários de inferência em larga escala, se não houver otimizações no padrão de acesso à memória, grande parte da energia do data center será gasta na transmissão de dados pelo barramento, e não na operação lógica real. Essa é uma das principais motivações da Micron continuar investindo na tecnologia HBM.

Fundamentos da Micron e posicionamento na cadeia de suprimentos de IA

A Micron é um fabricante IDM (Integrated Device Manufacturer) típico, que realiza toda a cadeia de desenvolvimento e produção de componentes, incluindo design de chips, fabricação de wafers, embalagem e testes, com foco exclusivo na pista de chips de armazenamento, sem atuar em CPU ou GPU, concentrando-se na pesquisa e produção de memória e flash.

Na estrutura de receita, mais de 70% vem do negócio de DRAM, enquanto NAND responde por 20-30%, e NOR tem uma fatia menor. O DRAM é o principal componente de memória padrão, enquanto NAND é o meio de armazenamento para SSDs, e NOR é usado em eletrônicos automotivos e industriais, com funções de execução rápida de código de boot, sendo um nicho com alta especialização e indispensável.

No portfólio, a Micron divide suas operações em quatro grandes áreas: redes de computação para data centers e servidores, dispositivos móveis para smartphones, armazenamento empresarial com SSDs, e aplicações automotivas e industriais com produtos embarcados.

Na cadeia de suprimentos de IA, Nvidia é responsável pelo design de GPUs, enquanto TSMC realiza a fabricação. A Micron, embora não participe dessas etapas, é fornecedora essencial de componentes para placas aceleradoras de IA. Chips lógicos de GPU sozinhos não suportam grandes modelos; o gargalo na inferência é a largura de banda da memória, que exige integração estreita com memória de alta largura de banda HBM. A Micron, junto com SK Hynix e Samsung, é fornecedora de HBM, com produtos integrados em pacotes CoWoS da TSMC, formando módulos completos de computação de IA. A GPU é o cérebro de IA, e o HBM é o canal de transmissão de dados de alta velocidade, ambos essenciais.

Na lógica de competição, Nvidia constrói sua barreira de proteção com arquitetura e ecossistema, enquanto a Micron investe em processos de fabricação e tecnologias de empilhamento de pacotes para criar barreiras de entrada. Cada geração de HBM com maior largura de banda depende de processos mais avançados de TSV e maior empilhamento de camadas, com altos requisitos técnicos.

DRAM: a infraestrutura fundamental por trás do poder de cálculo de IA


Na arquitetura tradicional de computadores, o DRAM funciona como memória principal, atendendo à dor de cabeça de discos rígidos de grande capacidade e baixa velocidade, e CPUs de alta velocidade com caches pequenos. Durante a execução de programas, os dados são carregados do disco para o DRAM, e a CPU realiza operações de leitura e escrita com latência na faixa de nanossegundos e banda ultra alta, com o núcleo do sistema e processos em segundo plano residindo nesse espaço. O DRAM possui a característica de perder dados na falta de energia, devido à fuga natural de carga dos capacitores internos, exigindo atualizações constantes para manter os dados. Sua unidade básica é composta por um transistor e um capacitor.

Na era da IA, a aplicação do DRAM foi completamente reformulada. O núcleo de cálculo migrou de CPU para GPU, e o DRAM deixou de ser apenas um módulo DDR na placa-mãe, passando a existir na forma de memória de alta largura de banda HBM, empilhada verticalmente usando tecnologia TSV, integrada ao GPU em uma camada intermediária de silício.

Atualmente, o valor central do DRAM concentra-se em duas dimensões: primeiro, o carregamento de pesos de grandes modelos, como o de 700 bilhões de parâmetros, que em FP16 requer 140GB de armazenamento, devendo ser carregados integralmente na HBM antes da inferência; segundo, o cache KV dinâmico, que armazena o histórico de contexto durante a geração de texto, onde quanto maior o comprimento do contexto, maior o consumo de memória. Em servidores de alta performance, a capacidade de suportar múltiplas solicitações simultâneas é limitada. Para treinamento, o consumo de memória é ainda maior, pois além dos pesos, é necessário armazenar resultados intermediários, além de dados de otimizadores, podendo chegar a três ou quatro vezes o consumo na inferência.

Devido à parede de memória, o crescimento da capacidade de processamento da GPU supera a velocidade de evolução da largura de banda da memória, fazendo com que as GPUs fiquem ociosas na fase de inferência, e a atualização da largura de banda do HBM seja o fator decisivo para o throughput de servidores de IA, justificando o investimento contínuo da Micron em pesquisa e desenvolvimento de HBM.

Três grandes players do mercado de memória: Samsung, SK Hynix e Micron, com diferenças estratégicas


O mercado global de DRAM é dominado por Samsung, SK Hynix e Micron, que juntos detêm cerca de 95% do mercado, cada uma com vantagens específicas.

Na evolução de processos, a Micron lidera, com avanços desde as gerações 1-alpha, 1-beta até 1-gamma, sendo a primeira a alcançar produção em massa de DRAM de alta densidade na nova geração, com maior rendimento por wafer e menor custo por bit, além de margens de lucro superiores. A Samsung, com processos abaixo de 14nm, enfrenta gargalos de yield, com ritmo de evolução mais lento; a SK Hynix está na mesma faixa de avanço.

No cenário de HBM, a situação é diferente. A SK Hynix mantém liderança, com mais de 50% de participação de mercado, sendo fornecedora exclusiva para os GPUs de alta gama da Nvidia, usando tecnologia MR-MUF de empilhamento múltiplo com vantagens em dissipação térmica e yield. A Micron, como entrante, pula o HBM3 e investe diretamente no HBM3E, aproveitando sua eficiência energética para entrar na cadeia de fornecimento da Nvidia, usando tecnologia TC-NCF, com maior complexidade de fabricação, menor capacidade de produção e participação de mercado inferior à SK Hynix. A Samsung, por sua vez, enfrentou problemas de calor e consumo na fase HBM3 e HBM3E, não atendendo aos testes da Nvidia, perdendo a janela de oportunidade no mercado de memória de IA, e agora aposta na HBM4 para tentar superar a concorrência.

A eficiência energética é uma vantagem competitiva da Micron: com mesma largura de banda, seu HBM consome 20% a 30% menos energia que os concorrentes. Em escala de data centers com dezenas de milhares de placas, essa redução representa uma economia significativa em custos de energia e refrigeração. Além disso, sua tecnologia de processo LPDDR5X de 1-gamma atinge 9,6 Gbps, com redução de consumo de 30%, ideal para dispositivos móveis com IA local.

Em termos de capacidade, a Samsung mantém a liderança, aproveitando seu volume para dominar o mercado por preço; a Micron, com menor capacidade, evita competição de preços, focando em tecnologia premium, usando processos avançados e maior eficiência energética para consolidar sua posição.

Além de DRAM e HBM, a Micron também atua em NAND e NOR Flash, formando uma segunda curva de crescimento. No mercado de NAND, ocupa a quarta ou quinta posição global, com fatia de 10% a 15%. No segmento de NOR Flash, abandona o mercado de consumo de baixo nível, focando em aplicações automotivas e industriais de alta gama, liderando o padrão de interface Octal xSPI, com certificação ASIL-D de segurança máxima, fornecendo por mais de uma década a partir de suas próprias fábricas, atendendo clientes automotivos e industriais, evitando a guerra de preços e obtendo premium por confiabilidade e desempenho.

Valoração da Micron e comparação com pares

Atualmente, as ações da Micron estão cotadas em cerca de 600 dólares, com P/E de 21,44, e valor de mercado de aproximadamente 650 bilhões de dólares. Analistas de Wall Street estimam um preço-alvo para os próximos 12 meses entre 400 e 675 dólares, com média próxima de 500 dólares, indicando uma avaliação relativamente subvalorizada.

Historicamente, chips de armazenamento são considerados setor de ciclo forte, onde a alta do ciclo leva à expansão de capacidade, seguida de excesso de oferta e queda de preços, com múltiplos de P/E entre 8 e 10. Hoje, a valorização da Micron aumentou bastante, principalmente por sua reestruturação de receita com HBM: enquanto o DDR tradicional sofre com oscilações de mercado, o HBM, com produção sob encomenda e contratos de fornecimento de longo prazo com Nvidia e outros clientes, já tem toda a capacidade vendida até 2026, mudando sua receita de ciclo para receita contratual estável, sendo reclassificado como fornecedor de infraestrutura de IA, elevando seu múltiplo de avaliação.

Além disso, com apoio de políticas e fundos, como a Lei de Chips dos EUA e a tendência de cadeia de suprimentos doméstica, a Micron, como a única fabricante avançada de armazenamento nos EUA, recebe fluxo contínuo de investimentos, conferindo um prêmio de liquidez.

No comparativo, a SK Hynix possui P/E de apenas 12,17, mesmo tendo mais da metade do mercado de HBM e fornecendo para Nvidia, mas sofre influência da estrutura de acionistas coreanos, com baixa distribuição de dividendos e recompra de ações. Além disso, cerca de 40% de sua capacidade de DRAM está na China, na fábrica de Wuxi, e restrições às exportações de equipamentos estrangeiros limitam sua capacidade de avançar em processos mais modernos, representando risco de migração de capacidade e depreciação de ativos, o que mantém sua avaliação sob pressão.

A Samsung Electronics tem P/E de 34,18, não por avaliação premium, mas por queda no lucro líquido, devido ao seu portfólio diversificado de armazenamento, foundry, smartphones e displays. Seus negócios de foundry, que investem pesadamente em processos avançados, ainda apresentam baixa taxa de yield, gerando prejuízos contínuos que puxam para baixo o lucro líquido do grupo. A estabilidade de suas ações é sustentada por fundos locais, elevando seu P/E.

A lógica de investidores favoráveis à Micron é clara: aumento na participação de receita de HBM eleva a margem bruta; contratos de fornecimento garantem receita estável; expansão de capacidade em HBM reduz oferta de DRAM comum, apoiando alta de preços; a produção em processo 1-gamma entra na fase de retorno de investimentos, com fluxo de caixa livre em melhora contínua. Contudo, é importante notar que o ciclo do setor de armazenamento ainda não acabou, apenas foi suavizado pelos contratos de longo prazo de HBM. Se os investimentos em infraestrutura de IA desacelerarem ou a Samsung superar tecnologicamente a HBM4, o equilíbrio de oferta e demanda pode se reconfigurar.

Critérios de avaliação do HBM e a próxima geração de tecnologia de interconexão CXL

Cada fabricante avalia a qualidade do HBM com base em três parâmetros principais:

Primeiro, a taxa de pinos, que determina a largura de banda de transmissão de dados. O HBM usa micro-bumps de milésimos de polegada para interligar com a GPU, e a taxa de pinos representa a quantidade de dados transmitidos por segundo por canal. O padrão do setor fixa a largura total do barramento em 1024 pinos, e a largura de banda total segue uma fórmula de conversão fixa. A Micron HBM3E tem uma taxa nominal de 9,2 Gbps, com largura de banda por pilha de aproximadamente 1,2 TB/s, superior ao padrão de 8,0 a 8,5 Gbps dos concorrentes. No entanto, aumento na taxa de transmissão aumenta o consumo de energia e o risco de distorção do sinal, pois a voltagem de transição frequente gera calor, e taxas muito altas podem causar erros de sinal, afetando a estabilidade da transmissão.

Segundo, a eficiência energética, medida em pJ/bit, quanto menor, melhor. Como o HBM é empacotado junto à GPU, alto consumo de energia aumenta a dissipação térmica, forçando a GPU a reduzir frequência e desempenho. A Micron, com seu processo 1-beta de baixa voltagem, consegue cerca de 30% de eficiência energética superior aos concorrentes, reduzindo custos de energia e refrigeração em data centers.

Terceiro, resistência térmica e tecnologia de embalagem, que representam a barreira competitiva principal. A temperatura de operação depende do consumo de energia e da resistência térmica do pacote. Estruturas empilhadas de múltiplas camadas dificultam a condução de calor, e o material de preenchimento entre as camadas influencia diretamente essa resistência. Os principais processos do setor são TC-NCF e MR-MUF. A Micron e Samsung usam TC-NCF, que é mais fácil de montar, mas pode deixar bolhas de ar, elevando a resistência térmica. A SK Hynix usa MR-MUF, que preenche as lacunas com material líquido, sem bolhas, com resistência térmica mais baixa.

Resistência térmica elevada provoca efeitos em cadeia: aumento da temperatura ambiente acelera a fuga de carga dos capacitores do DRAM, levando a mais refreshes e maior consumo de banda; além disso, a quantidade de camadas empilhadas é limitada pela resistência mecânica e expansão térmica, e mais camadas aumentam a complexidade de fabricação, impactando a yield. Analisar os dados técnicos do HBM requer atenção a três pontos: a voltagem de teste, o número de camadas empilhadas e a capacidade de cada chip, além do cliente final que compra o produto, sendo a validação final por testes de aceitação.

CXL: o próximo campo de batalha para pools de memória em clusters de IA


O HBM resolve o gargalo de largura de banda dentro de uma GPU, mas à medida que os clusters de IA expandem para milhares de GPUs, a alocação ineficiente de memória e a inconsistência de cache entre dispositivos tornam-se novos problemas, levando ao desenvolvimento da tecnologia CXL.

No data center tradicional, a memória física está vinculada a um único servidor, sem compartilhamento entre dispositivos, causando problemas como caches KV saturados em alguns nós e ociosidade de memória em outros, com taxas de ineficiência de 20% a 30%, gerando desperdício de capital. Além disso, a sincronização de cache entre CPU e GPU é lenta, com alto overhead, e requer adaptação de código, com baixa tolerância a falhas.

A raiz desses problemas está na limitação do protocolo PCIe, que só suporta transferência de grandes blocos de dados, sem mecanismos de cache-coerência. O protocolo CXL, baseado na camada física do PCIe, redesenha a lógica para otimizar a semântica de memória e a coerência de cache, usando hardware para manter automaticamente o estado do cache, sincronizando dados em nanossegundos, sem intervenção de sistema ou código. Utiliza formato de transmissão fixo FLIT, simplificando a análise de dados, e reduzindo a latência de acesso remoto à memória para cerca de 170 a 250 nanossegundos.

Além disso, o CXL permite montar switches para criar pools de memória compartilhada, desvinculando a memória de um único servidor, e possibilitando a alocação dinâmica de recursos ociosos em microssegundos, resolvendo de vez o problema de memória ociosa.

A Micron lançou módulos de expansão de memória CXL Type 3, baseados em seu processo DDR5 próprio, formando uma combinação de alto e baixo desempenho: HBM para largura de banda extrema e baixa latência por placa; CXL para expansão de memória de grande capacidade entre nós, suportando pools de recursos de TBs. No mercado, dados quentes permanecem na HBM local, enquanto dados frios de longo prazo são descarregados para pools CXL, usando pré-breaching para esconder a latência de transmissão, viabilizando modelos de contexto ultra longo com milhões de tokens.

Na competição, o mercado de HBM está se tornando cada vez mais acirrado, enquanto a tecnologia CXL ainda está em estágio inicial de desenvolvimento, com o cenário de mercado indefinido. Como fabricante de armazenamento puro, a Micron não tem cargas históricas, e seus módulos CXL usam processos DDR5 padrão, sem necessidade de empilhamento complexo, com controle de yield e capacidade de produção gerenciáveis, podendo conquistar vantagem competitiva inicial.

Fundamentos econômicos e limites tecnológicos na fronteira

A fabricação de wafers avançados de DRAM custa entre 150 e 200 bilhões de dólares, com uma única máquina de litografia EUV custando mais de 200 milhões de dólares. Os custos de energia, refrigeração e suporte elevam o investimento, e a depreciação ao longo de cinco anos faz com que o custo diário seja alto. Para diluir esses custos, a utilização deve ser superior a 95%. Quando a demanda cai, os fabricantes enfrentam dificuldades para reduzir a produção, tendo que suportar a pressão e entrar em guerras de preços, uma raiz do ciclo forte da indústria de armazenamento.

O alto custo do HBM também decorre de limitações físicas: o empilhamento vertical de múltiplas camadas de chips de DRAM, onde qualquer defeito leva à perda de toda a pilha, faz a yield cair exponencialmente com o aumento de camadas. Mesmo com uma yield de 95% no chip individual e 99% na ligação entre camadas, a yield total de um pacote HBM3E de 8 camadas é de aproximadamente 61%, e de HBM4 de 12 camadas fica abaixo de 50%. A melhora na fabricação de SK Hynix e Micron visa aumentar a yield geral e reduzir custos unitários, mas essa melhora não é rápida, mantendo o preço do HBM elevado no curto prazo.

A tecnologia PIM (Processing-in-Memory), que propõe integrar unidades de processamento leves na base do chip de memória há duas décadas, ainda não é comercializada em escala, devido a conflitos físicos. Os transistores do DRAM precisam de baixa fuga de carga e alta tensão de limiar para garantir armazenamento, o que torna seu funcionamento mais lento. Chips lógicos de CPU e GPU buscam baixa tensão e alta frequência, com maior fuga de carga, criando conflito de processos. Inserir unidades de cálculo no DRAM reduziria o desempenho em relação à GPU e aceleraria a fuga de carga, comprometendo a confiabilidade dos dados.

A estratégia intermediária atual é integrar uma camada de lógica leve na parte inferior do HBM, usando processos avançados de logic da TSMC, para evitar as limitações do processo de DRAM, mas ainda longe de uma solução de armazenamento e cálculo integrados verdadeira.

A longo prazo, a estratégia da Micron é clara: usar o processo 1-gamma para reduzir o custo por bit, com alta margem de lucro no HBM, e contratos de fornecimento de longo prazo para suavizar o ciclo de mercado. Mas o setor ainda enfrenta gargalos estruturais: a miniaturização do DRAM se aproxima do limite físico, e a taxa de yield de empilhamento aumenta com o número de camadas, dificultando uma solução de armazenamento e cálculo integrada no curto prazo. A competição futura não dependerá apenas de avanços em um único nó de processo, mas de melhorias em yield, embalagem e integração de sistemas, que representam a barreira profunda construída por décadas de tecnologia das gigantes de armazenamento.

A análise do setor revela que a evolução dos chips sempre entra em ciclos: aumento de área para compensar falta de poder de cálculo, mas isso limita o yield; mudança para arquiteturas interconectadas trazem atrasos na movimentação de dados; empilhamento de chips resolve problemas de interconexão, mas gera problemas de dissipação térmica, que por sua vez prejudicam o yield. Em última análise, a competição final do setor de chips retornará à ciência dos materiais, e tecnologias como fotônica, semicondutores bidimensionais e arquiteturas de computação disruptivas podem ser o caminho para romper as limitações físicas atuais.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar