Resultados da pesquisa de "GPT-4O"
Hoje
06:31

DeepSeek reduz preços do V4-Pro em 75%, corta custos de cache da API para um décimo

Mensagem de Notícias da Gate, 27 de Abril — A DeepSeek anunciou um desconto de 75% no seu novo modelo V4-Pro para programadores e reduziu os preços de acerto de cache de entrada em toda a sua gama de APIs para um décimo dos níveis anteriores. O modelo V4, lançado a 25 de Abril nas versões Pro e Flash, foi otimizado para os processadores Ascend da Huawei. A DeepSeek disse que o V4-Pro tem melhor desempenho do que outros modelos de código aberto em benchmarks de conhecimento do mundo e fica apenas em segundo lugar atrás do Gemini-Pro-3.1 da Google, um modelo proprietário. A família V4 foi concebida especificamente para agentes de IA a lidar com tarefas complexas além das capacidades de um chatbot. Os custos da API V4-Pro já ficam abaixo dos principais concorrentes ocidentais, com preços de $3.48 por milhão de tokens de saída em comparação com para o GPT-4.5 da OpenAI. A tabela de preços do V4-Flash está em $0.14 por milhão de tokens de entrada e $0.28 por milhão de tokens de saída, o que pode permitir aplicações economicamente eficientes, como rever bases de código inteiras ou documentos regulamentares em solicitações únicas.
Mais
05:17

GPT-5.5 Regressa ao Estado da Arte na Codificação, mas a OpenAI Muda os Benchmarks Depois de Perder para o Opus 4.7

Gate News mensagem, 27 de Abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, publicou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal conclusão: GPT-5.5 marca o primeiro regresso da OpenAI ao estado da arte em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora a alternar entre Codex e Claude Code após antes dependerem quase exclusivamente de Claude. O GPT-5.5 baseia-se numa nova abordagem de pré-treinamento com o nome de código "Spud" e representa a primeira expansão do OpenAI da escala de pré-treinamento desde o GPT-4.5. Em testes práticos, surgiu uma divisão clara de responsabilidades. Claude trata do planeamento de novos projectos e da configuração inicial, enquanto Codex se destaca em correcções de bugs que exigem raciocínio intensivo. O Codex mostra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades em inferir intenções de utilizador ambíguas. Numa tarefa única no mesmo painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados; já o Codex ignorou o layout, mas entregou dados significativamente mais precisos. A análise revela um detalhe de manipulação do benchmark: um post de Fevereiro da OpenAI incentivava a indústria a adoptar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado "Expert-SWE." O motivo, escondido nas letras pequenas, é que o GPT-5.5 foi ultrapassado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do Mythos 77.8%, ainda não lançado da Anthropic. Quanto ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de Março a Abril, afectando quase todos os utilizadores. Vários engenheiros tinham previamente reportado degradação de desempenho na versão 4.6, mas foram descartados como observações subjectivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, o que a Anthropic admitiu abertamente — constituindo, na prática, um aumento de preço oculto. O DeepSeek V4 foi avaliado como "acompanhar o ritmo da fronteira, mas não liderar," posicionando-se como a alternativa de menor custo entre os modelos de código fechado. A análise também notou que "o Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita chinesa de alta dificuldade," comentando que "o Claude venceu o modelo chinês na sua própria língua." O artigo introduz um conceito-chave: a precificação do modelo deve ser avaliada por "custo por tarefa" e não por "custo por token." A precificação do GPT-5.5 é o dobro da do GPT-5.4 input $5, output por milhão de tokens, mas conclui as mesmas tarefas usando menos tokens, pelo que o custo real não é necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a razão input-para-output do Codex é de 80:1, inferior à do Claude Code, que é de 100:1.
Mais
03:11

Nvidia Implementa o Agente de IA Codex da OpenAI em Toda a Força de Trabalho na Infraestrutura Blackwell

Mensagem da Gate News, 25 de Abril — A Nvidia lançou o Codex da OpenAI, um agente de IA alimentado por GPT-5.5, para toda a sua força de trabalho após um ensaio bem-sucedido com cerca de 10.000 empregados, segundo comunicações internas do CEO Jensen Huang e do CEO da OpenAI, Sam Altman. O Codex foi concebido para ajudar com tarefas de programação, planeamento e de fluxo de trabalho
Mais
01:46

A OpenAI Lança o GPT-5.5, Concebido para Tarefas de Agentes e Fluxos de Trabalho Complexos

Mensagem de Notícias da Gate, 24 de abril — A OpenAI lançou oficialmente o GPT-5.5, um modelo de IA de nova geração concebido para lidar com objectivos complexos, integração de ferramentas, auto-verificação e conclusão de tarefas em múltiplas etapas. O modelo destaca-se na escrita e depuração de código, investigação online, análise de dados, criação de documentos
Mais
04:54

A Perplexity revela o método de pós-treinamento do agente de pesquisa na web; o modelo baseado em Qwen3.5 supera o GPT-5.4 em precisão e custo

A Perplexity utiliza SFT seguida de RL com modelos Qwen3.5, tirando partido de um conjunto de dados de QA multi-hop e de verificações por rubrica para melhorar a precisão e a eficiência da pesquisa, atingindo um desempenho FRAMES de referência. Resumo: O fluxo de pós-treinamento da Perplexity para agentes de pesquisa na web combina fine-tuning supervisionado (SFT) para impor obediência a instruções e consistência linguística com aprendizagem por reforço online (RL) via o algoritmo GRPO. A fase de RL utiliza um conjunto proprietário de QA verificável multi-hop e dados conversacionais baseados em rubricas para impedir a deriva do SFT, com gating de recompensas e penalizações de eficiência dentro do grupo. A avaliação mostra que o Qwen3.5-397B-SFT-RL atinge o melhor desempenho FRAMES, com 57,3% de precisão com uma única chamada de ferramenta e 73,9% com quatro chamadas a $0,02 por consulta, superando o GPT-5.4 e o Claude Sonnet 4.6 nestas métricas. A tarifação é baseada em API e exclui caching.
Mais
12:05

Kimi K2.6 lidera o benchmark de programação do OpenRouter, superando Claude e a série GPT

Kimi K2.6 lidera o ranking do OpenRouter, superando Claude, GPT e concorrentes open-source, sinalizando progresso em IA a nível nacional e reduzindo a distância para os líderes globais. Resumo: A Kimi.ai anunciou que o seu modelo mais recente, Kimi K2.6, ficou em primeiro lugar no ranking de capacidade de programação do OpenRouter, liderando as avaliações dos programadores. Os benchmarks indicam que o K2.6 oferece desempenho superior em tarefas de programação face a Claude, às séries GPT e a outros modelos open-source, evidenciando melhorias na geração de código e no tratamento de tarefas de desenvolvimento e sinalizando progresso da IA nacional em direção aos líderes internacionais.
Mais
07:05

A remoção do Claude Code da Anthropic provoca reação negativa dos programadores; a OpenAI ganha apoio da comunidade

A Anthropic remove o Claude Code do plano Pro, gerando críticas à medida que os programadores migram para a OpenAI; o Codex continua gratuito/básico, o GPT-5.4 e o Image 2.0 melhoram o desempenho, impulsionando uma grande migração de utilizadores. Resumo: O artigo analisa a remoção do Claude Code do plano $20 Pro pela Anthropic, o que desencadeia uma reação negativa por parte de programadores que o descrevem como um aumento de preço oculto e um risco de fiabilidade. Contrasta esta medida com a política da OpenAI de manter o Codex nos escalões gratuitos e básicos, ao mesmo tempo que destaca um forte desempenho dos modelos do GPT-5.4 e do ChatGPT Images 2.0, e assinala uma migração rápida de utilizadores para a OpenAI, com o Codex supostamente a ultrapassar 4 milhões de utilizadores ativos semanais.
Mais