Os grandes modelos de linguagem têm capacidade de raciocínio não linguístico?

Fonte: Quantum Number

Um artigo de destaque da Ars Technica hoje discute a questão de se os grandes modelos de linguagem têm ou não a capacidade de raciocínio não linguístico, citando descobertas de pesquisadores que sugerem que lidar com o 'espaço latente' pode ajudar a inteligência artificial a resolver problemas lógicos difíceis. O que está acontecendo aqui, continuamos lendo para descobrir.

Até agora, os grandes modelos de linguagem têm tido um grande sucesso, utilizando a sua arquitetura de transformadores para prever eficazmente a próxima palavra necessária para responder a uma consulta (ou seja, um token de linguagem). No entanto, alguns pesquisadores descobriram que quando se trata de tarefas de raciocínio complexas que requerem abstração lógica, interpretar tudo através deste 'espaço de linguagem' pode levar a problemas, mesmo para os modelos de 'raciocínio' modernos.

Atualmente, os pesquisadores estão tentando resolver esses problemas projetando modelos que podem calcular soluções lógicas potenciais completamente no 'espaço latente' - ou seja, na camada de cálculo oculta antes da geração de linguagem pelo transformador. Embora esse método não leve a mudanças drásticas na capacidade de raciocínio de modelos de linguagem em larga escala, ele claramente melhora a precisão de certos tipos de problemas lógicos e aponta para algumas direções interessantes para novas pesquisas.

Aguarde, que espaço?

Os modelos modernos de raciocínio (como o o1 do ChatGPT) tendem a funcionar gerando uma 'cadeia de pensamento'. Em tais modelos, cada etapa do processo lógico é representada por uma série de marcadores de palavras em linguagem natural e é alimentada de volta ao modelo.

Num novo artigo, a equipa de investigação em inteligência artificial fundamental da Meta e os investigadores da Universidade da Califórnia em San Diego consideram esta dependência da linguagem natural e das "marcas de palavras" como um dos "fatores restritivos fundamentais" para esses modelos de raciocínio. Isto deve-se ao facto de a conclusão bem-sucedida de tarefas de raciocínio muitas vezes exigir um planeamento complexo de marcadores-chave específicos para encontrar o caminho lógico correto entre muitas opções.

A figura acima explica que o modelo padrão passa por um conversor em cada etapa, em contraste com o modelo COCONUT, que usa um estado latente 'oculto'. (Fonte da imagem: Treinar modelos de linguagem grandes para raciocinar em um espaço latente contínuo)

Os pesquisadores escreveram que, nos modelos de corrente de pensamento atuais, as marcas de palavras geralmente são geradas para 'coerência textual' e 'fluidez', com 'contribuição mínima para o processo de raciocínio real'. Em vez disso, eles sugerem que 'o cenário ideal é que os grandes modelos de linguagem possam raciocinar livremente, sem restrições de linguagem, e depois traduzir suas descobertas para a linguagem apenas quando necessário'.

Para realizar este 'ideal', os pesquisadores descreveram um método de 'treinamento de modelos de linguagem em grande escala para inferência em um espaço potencial contínuo', conforme descrito no título do artigo. Este 'espaço potencial' é essencialmente composto por um conjunto de pesos de marcações intermediárias 'ocultas', que são exatamente o conjunto de pesos de marcações intermediárias que o modelo contém antes de gerar uma versão em linguagem natural legível pelo ser humano desse estado interno através do gerador.

No modelo COCONUT (Cadeia de Pensamento Contínuo) dos pesquisadores, esses estados ocultos são codificados como 'pensamentos latentes', que substituem etapas escritas individuais por uma sequência lógica ao treinar e processar consultas. Os pesquisadores afirmam que isso evita a necessidade de converter cada etapa em linguagem natural e 'libera o raciocínio do espaço da linguagem', resultando em um caminho de raciocínio otimizado que eles chamam de 'pensamento contínuo'.

Visão mais ampla

Embora o processamento lógico no espaço latente tenha alguma vantagem em melhorar a eficiência do modelo, a descoberta mais importante é que esse modelo pode "codificar simultaneamente várias etapas futuras latentes". O processamento lógico no "espaço latente" pode realizar um tipo de retrocesso instantâneo, que os pesquisadores compararam a uma busca em largura em um gráfico. Em vez de seguir um processo "ganancioso" e procurar exaustivamente cada opção lógica uma a uma.

Os pesquisadores escreveram que, mesmo que o modelo não seja treinado explicitamente, essa característica de processamento repentino e síncrono também será refletida nos testes. "Embora o modelo possa inicialmente não tomar decisões corretas, ele pode manter muitas opções possíveis em um pensamento contínuo e eliminar gradualmente caminhos incorretos por meio de raciocínio guiado por algumas funções de valor implícitas", eles escreveram.

Esta figura destaca algumas maneiras pelas quais diferentes modelos podem falhar em certos tipos de raciocínio lógico. (Fonte da imagem: Treinamento de Modelos de Linguagem Grandes para Raciocinar em um Espaço Latente Contínuo)

Em testes de raciocínio matemático relativamente simples (GSM8K) ou de raciocínio geral (ProntoQA), a multicaminho de raciocínio não melhorou significativamente a precisão do COCONUT em comparação com o modelo de cadeia de pensamento tradicional. No entanto, os pesquisadores descobriram que o modelo se saiu relativamente bem em um conjunto de consultas estilo ProntoQA geradas aleatoriamente, que envolviam conjuntos de condições lógicas complexas e tortuosas (como "cada maçã é uma fruta, cada fruta é um alimento, etc.").

Para essas tarefas, os modelos padrão de raciocínio em cadeia de pensamento muitas vezes encontram um beco sem saída ao tentar resolver problemas lógicos em cadeia, e até mesmo geram regras completamente fictícias. Pesquisas anteriores também mostraram que os passos lógicos 'verbalizados' produzidos por esses modelos de raciocínio em cadeia podem realmente utilizar processos de raciocínio subjacentes diferentes do processo de raciocínio compartilhado.

Este novo estudo junta-se a uma crescente lista de estudos que visam entender e aproveitar o funcionamento dos grandes modelos de linguagem em seu nível de rede neural subjacente. Embora esses estudos ainda não tenham alcançado avanços significativos, os pesquisadores acreditam que o uso de modelos pré-treinados com esse tipo de 'pensamento contínuo' desde o início pode torná-los 'mais eficazes na generalização em cenários de raciocínio mais amplos'.

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)