20B pequeno modelo de busca alcança a capacidade do GPT-5 e Opus: modelo de busca Agent Context-1 da base de dados vetorial Chroma open source.

BlockBeatNews

De acordo com a monitorização da 1M AI News, o banco de dados vetorial de código aberto Chroma lançou o Context-1, um modelo de busca inteligente com 20 bilhões de parâmetros, especialmente projetado para tarefas de pesquisa em múltiplas rodadas. Os pesos do modelo são de código aberto sob a licença Apache 2.0, e o código do pipeline de geração de dados sintéticos também foi divulgado simultaneamente.

O objetivo do Context-1 é atuar como um subagente de recuperação: ele não responde diretamente às perguntas, mas retorna um conjunto de documentos de suporte ao modelo de raciocínio downstream através de buscas em múltiplas rodadas. A tecnologia central é o “contexto de autoedição” (self-editing context), ou seja, o modelo descarta ativamente trechos de documentos irrelevantes durante a busca, liberando espaço na janela de contexto limitada para buscas subsequentes, evitando a degradação de desempenho causada pela expansão do contexto.

O treinamento ocorre em duas fases: primeiro, utiliza grandes modelos como Kimi K2.5 para gerar trajetórias de SFT (Supervised Fine-Tuning) como supervisão inicial, depois treina-se por reforço (com base no algoritmo CISPO) em mais de 8.000 tarefas sintéticas. A recompensa é projetada com um mecanismo de currículo, incentivando ampla exploração na fase inicial com re-recuperação, e gradualmente focando na precisão na fase final, promovendo a retenção seletiva. O modelo base é o gpt-oss-20b, adaptado com LoRA, e durante a inferência é quantizado com MXFP4 para rodar em B200, atingindo uma taxa de throughput de 400-500 tokens por segundo.

Nos quatro benchmarks de domínio próprio da Chroma (web, finanças, direito e e-mail) e nos benchmarks públicos (BrowseComp-Plus, SealQA, FRAMES, HotpotQA), a versão paralela de 4 vias do Context-1 alcançou desempenho equivalente ou próximo ao de modelos de ponta como GPT-5.2, Opus 4.5 e Sonnet 4.5 na métrica de “taxa de acerto na resposta final”, por exemplo, atingindo 0,96 no BrowseComp-Plus (contra 0,87 do Opus 4.5 e 0,82 do GPT-5.2), com custos e latências apenas uma fração dos últimos. É importante notar que o modelo foi treinado apenas com dados de web, direito e finanças, mas também apresentou melhorias significativas na área de e-mails, onde não foi treinado, demonstrando a transferência de capacidade de busca entre domínios.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário