Será que a programação de IA pode ganhar 400.000 dólares?

robot
Geração do resumo em andamento

Autor: Tan Zixin, tecnologia de cabeça

Fonte da imagem: Gerada por IA sem fronteiras

O grande modelo de linguagem (LLM) está a mudar a forma como o software é desenvolvido, e se a IA pode ou não substituir em grande escala os programadores humanos tornou-se um tópico de grande interesse na indústria.

Em apenas dois anos, os grandes modelos de IA evoluíram de resolver problemas básicos de ciência da computação para competir em pé de igualdade com especialistas humanos em competições de programação internacionais, como o OpenAI o1, que participou com sucesso da Olimpíada Internacional de Informática (IOI) de 2024 sob as mesmas condições que os participantes humanos e conquistou a medalha de ouro, demonstrando um potencial de programação poderoso.

Ao mesmo tempo, a taxa de iteração da IA também está acelerando. No benchmark de avaliação de geração de código SWE-Bench Verified, em agosto de 2024, a pontuação do GPT-4o era de 33%, mas com o novo modelo o3 da próxima geração, a pontuação dobrou para 72%.

Para melhor avaliar a capacidade de engenharia de software de modelos de IA no mundo real, hoje, a OpenAI lançou em código aberto um novo benchmark de avaliação, SWE-Lancer, ligando pela primeira vez o desempenho do modelo ao valor monetário.

SWE-Lancer é uma referência de mais de 1.400 tarefas de engenharia de software freelance da plataforma Upwork, com um valor total de remuneração no mundo real de cerca de US$ 1 milhão.

Nova referência 'característica'

O preço base da tarefa SWE-Lancer reflete a situação real do valor de mercado, quanto mais difícil for a tarefa, maior será a recompensa.

Isso inclui tarefas de engenharia independentes, bem como tarefas de gestão, e a escolha entre soluções técnicas. Este padrão não é apenas para programadores, mas também para toda a equipe de desenvolvimento, incluindo arquitetos e gerentes.

Em comparação com os benchmarks anteriores de testes de engenharia de software, o SWE-Lancer possui várias vantagens, como:

  1. Todas as 1488 tarefas representam as verdadeiras recompensas pagas pelos empregadores aos engenheiros freelancers, proporcionando uma graduação natural e baseada no mercado em termos de dificuldade, com recompensas que variam de 250 a 32.000 dólares, o que é bastante significativo.

35% das tarefas têm um valor superior a 1000 dólares, enquanto 34% têm um valor entre 500 e 1000 dólares. O grupo de tarefas de Engenharia de Software (SWE) para Contribuidores Individuais (IC) contém 764 tarefas, com um valor total de 414775 dólares; o grupo de tarefas de Gestão SWE contém 724 tarefas, com um valor total de 585225 dólares.

2, a engenharia de software em larga escala no mundo real não só requer a capacidade de programar e desenvolver concretamente, mas também de gerir tecnicamente, este teste de referência utiliza dados do mundo real para avaliar o modelo que desempenha o papel de 'diretor técnico' da SWE.

  1. Capacidades avançadas de avaliação de engenharia full-stack. SWE-Lancer significa engenharia de software do mundo real porque suas tarefas vêm de uma plataforma com milhões de usuários reais.

As tarefas envolvem o desenvolvimento de engenharia móvel e web, interação com APIs, navegadores e aplicações externas, bem como verificação e reprodução de problemas complexos.

Por exemplo, há tarefas que custam US$ 250 para melhorar a confiabilidade (corrigir chamadas de API acionadas duplamente), US$ 1.000 para corrigir bugs (para corrigir discrepâncias de permissão) e US$ 16.000 para implementar novos recursos (adicionar suporte à reprodução de vídeo no aplicativo na Web, iOS, Android e desktop, etc.).

  1. Diversidade de domínios. 74% das tarefas IC SWE e 76% das tarefas de gerenciamento SWE envolvem lógica de aplicativo, enquanto 17% das tarefas IC SWE e 18% das tarefas de gerenciamento SWE envolvem desenvolvimento de UI/UX.

Em termos de dificuldade de tarefa, as tarefas selecionadas pelo SWE-Lancer são muito desafiadoras, e as tarefas no conjunto de dados de código aberto levam em média 26 dias para serem resolvidas no Github.

Além disso, a OpenAI disse que não havia viés na coleta de dados, que selecionou uma amostra representativa de tarefas do Upwork e contratou 100 engenheiros de software profissionais para escrever e validar testes de ponta a ponta para todas as tarefas.

Codificação de IA ganha dinheiro PK

Embora muitos gigantes da tecnologia continuem a afirmar na sua promoção que os modelos de IA podem substituir engenheiros de software 'de baixo nível', a questão de se as empresas podem realmente substituir completamente engenheiros de software humanos com LLM ainda é uma grande incógnita.

Os resultados iniciais mostram que, no conjunto de dados completo do SWE-Lancer, os modelos dos principais jogadores de IA testados até agora têm um retorno muito abaixo dos potenciais ganhos totais de 1.000.000 dólares.

Globalmente, todos os modelos têm um desempenho superior na tarefa de gestão de SWE em comparação com a tarefa de IC SWE, sendo que a tarefa de IC SWE ainda não foi totalmente dominada pelos modelos de IA. Atualmente, o modelo testado com melhor desempenho é o Claude 3.5 Sonnet, desenvolvido pela concorrente da OpenAI, Anthropic.

Na tarefa IC SWE, a taxa de aprovação única e o rendimento de todos os modelos foram inferiores a 30%, e na tarefa de gerenciamento SWE, a pontuação do modelo Claude 3.5 Sonnet com melhor desempenho foi de 45%.

Claude 3.5 Sonnet demonstrou um desempenho forte em tarefas de IC SWE e gerenciamento de SWE, superando o modelo o1, que teve o segundo melhor desempenho em tarefas de IC SWE, em 9,7%, e 3,4% em tarefas de gerenciamento de SWE.

Se convertido em receita, o melhor desempenho foi o Claude 3.5 Sonnet, com uma receita total superior a 400 mil dólares no conjunto de dados completo.

Vale a pena notar que uma maior quantidade de computação de inferência será de grande ajuda para "IA ganhando dinheiro".

Na tarefa IC SWE, os pesquisadores conduziram experimentos no modelo O1 com ferramentas de inferência profunda habilitadas mostraram que uma computação de inferência mais alta poderia aumentar a taxa de passagem única de 9,3% para 16,5%, e o retorno de US$ 16.000 para US$ 29.000 e o retorno de 6,8% para 12,1%.

Os pesquisadores concluíram que, embora o melhor modelo Claude 3.5 Sonnet resolva 26,2% dos problemas IC SWE, a maioria das soluções restantes ainda contém erros, muitos aprimoramentos são necessários para alcançar uma implementação confiável. Em seguida, vem o o1, seguido pelo GPT-4o, e a taxa de aprovação única para tarefas de gerenciamento geralmente é mais do que o dobro da taxa de aprovação única para tarefas IC SWE.

Isso também significa que, embora a ideia de agentes de IA substituindo engenheiros de software humanos seja muito divulgada, as empresas ainda precisam pensar duas vezes sobre como os modelos de IA podem resolver alguns problemas de codificação de "baixo nível", mas não engenheiros de software de "baixo nível", porque eles não conseguem entender por que alguns erros de código existem e continuam a cometer erros mais extensos.

O atual quadro de avaliação ainda não suporta entradas multimodais, e os pesquisadores ainda não avaliaram o "retorno do investimento", como o pagamento pago a um freelancer em comparação com o custo de usar uma API ao concluir uma tarefa, que seria o foco do próximo refinamento do benchmark.

Ser um programador 'AI-enhanced'

Por enquanto, a IA ainda tem um longo caminho a percorrer antes de poder realmente substituir programadores humanos, afinal, desenvolver um projeto de engenharia de software não é tão simples quanto gerar código como necessário.

Por exemplo, os programadores muitas vezes encontram requisitos extremamente complexos, abstratos e ambíguos do cliente, que exigem uma compreensão profunda de vários princípios técnicos, lógica de negócios e arquitetura de sistema.

Além disso, a programação não é apenas sobre a implementação da lógica existente, mas também requer muita criatividade e pensamento inovador, e os programadores precisam conceber novos algoritmos, projetar interfaces de software e métodos de interação únicos, etc., e essas ideias e soluções verdadeiramente novas são as deficiências da IA.

Os programadores muitas vezes precisam se comunicar e colaborar com membros da equipe, clientes e outras partes interessadas, entender as necessidades e a viabilidade de todas as partes, articular suas opiniões e colaborar com outras pessoas em projetos.

A indústria de desenvolvimento de software também está sujeita a várias restrições legais e regulatórias, como propriedade intelectual, proteção de dados e licenciamento de software, o que pode tornar difícil para a inteligência artificial entender e cumprir totalmente esses requisitos legais e regulamentares, o que pode resultar em riscos legais ou disputas de responsabilidade.

A longo prazo, a substituição de posições de programador provocada pelo avanço da tecnologia de IA ainda existe, mas, a curto prazo, os "programadores aprimorados por IA" são o mainstream, e dominar o uso das mais recentes ferramentas de IA é uma das principais habilidades de excelentes programadores.

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • 1
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)