Большие языковые модели (LLM) меняет способ разработки программного обеспечения, и вопрос о том, может ли ИИ заменить программистов в больших масштабах, стал предметом большой озабоченности в отрасли.
За два года крупные модели искусственного интеллекта перешли от решения базовых проблем компьютерных наук к участию в международных соревнованиях по программированию с лучшими людьми, например, OpenAI о1 участвовал в Олимпиаде информатики 2024 (IOI) наравне с участниками-людьми и успешно завоевал золотую медаль, продемонстрировав свой огромный потенциал в области программирования.
В то же время, скорость итераций искусственного интеллекта также увеличивается. На проверенной базе оценки кода SWE-Bench Verified в августе 2024 года оценка GPT-4o составляла 33%, но к моменту появления новой модели o3 оценка удвоилась и составила 72%.
Для более точной оценки инженерных способностей модели искусственного интеллекта в реальном мире сегодня OpenAI впервые выпустила новый инженерный бенчмарк SWE-Lancer, который связывает производительность модели с денежной ценностью.
SWE-Lancer — это эталон из более чем 1400 задач по разработке программного обеспечения для фрилансеров с платформы Upwork, с общей реальной стоимостью вознаграждения около 1 миллиона долларов.
Новые 'особенности' базового
Цена эталонного задания SWE-Lancer отражает истинную рыночную стоимость, и чем сложнее задание, тем выше награда.
Это включает как независимые инженерные задачи, так и управленческие задачи, которые могут быть выбраны между техническими вариантами реализации, этот стандарт предназначен не только для программистов, но и для всей команды разработчиков, включая архитекторов и управленцев.
По сравнению с предыдущими базовыми тестами по программной инженерии, SWE-Lancer обладает рядом преимуществ, таких как:
Все 1488 задач представляют собой реальную оплату, которую работодатель выплачивает свободным инженерам, обеспечивают естественный уровень сложности, определяемый рынком, и оплата варьируется от 250 до 32 000 долларов США, что довольно значительно.
35% задач имеют стоимость более 1000 долларов, 34% задач имеют стоимость от 500 до 1000 долларов. Группа задач индивидуальных вкладчиков (IC) в области программной инженерии (SWE) включает в себя 764 задачи общей стоимостью 41.4775 тысяч долларов; Группа управления задачами SWE включает 724 задачи общей стоимостью 58.5225 тысяч долларов.
2、в крупномасштабной инженерии программного обеспечения в реальном мире необходимо не только умение писать код и разрабатывать, но и способность к техническому управлению, этот базовый тест использует данные из реального мира для оценки модели в роли "технического директора" по SWE.
3、Обладает высокой оценочной способностью для полного стека инженерии. SWE-Lancer представляет собой реальный мир программной инженерии, потому что его задачи происходят от платформы с миллионами реальных пользователей.
Одна из задач включает в себя разработку мобильных и веб-инженерных проектов, взаимодействие с API, браузерами и внешними приложениями, а также проверку и воспроизведение сложных проблем.
Например, есть задачи, которые стоят $250 за повышение надежности (исправление вызовов API с двойным срабатыванием), $1 000 за исправление ошибок (исправление расхождений в разрешениях) и $16 000 за реализацию новых функций (добавление поддержки воспроизведения видео в приложении на веб-сайте, iOS, Android, ПК и т. д.).
4、диверсификация области. 74% задач IC SWE и 76% задач управления SWE связаны с логикой приложения, в то время как 17% задач IC SWE и 18% задач управления SWE связаны с разработкой пользовательского интерфейса/UX.
В отношении сложности задач, задачи, выбранные SWE-Lancer, очень вызывающие, средняя задача в открытом наборе данных требует 26 дней для решения на Github.
Кроме того, OpenAI заявила, что они собрали данные без предвзятости, выбрав представительные образцы задач на Upwork и наняв 100 профессиональных инженеров-программистов для написания и проверки конечных тестов для всех задач.
Способность к заработку на кодировании AI PK
Несмотря на то, что многие технологические гиганты продолжают утверждать, что модели искусственного интеллекта могут заменить «низкоуровневых» инженеров, все еще остается большой вопрос о том, могут ли компании полностью заменить инженеров-программистов на LLM.
Результаты первого обзора показывают, что на полном наборе данных SWE-Lancer текущая модель золотого медалиста ИИ приносит значительно меньше потенциального общего вознаграждения в 1 миллион долларов.
В целом, все модели превосходят задачи IC SWE в задачах управления SWE, в то время как задачи IC SWE в значительной степени еще не полностью преодолены моделями ИИ, и лучшей тестируемой моделью является Claude 3.5 Sonnet, разработанная конкурентом OpenAI Anthropic.
В задаче IC SWE процент однократных проходов и выход всех моделей составляли менее 30%, а в задаче управления SWE показатель наилучшей производительности модели Claude 3.5 Sonnet составил 45%.
Claude 3.5 Sonnet проявляет сильную производительность как в задачах IC SWE, так и в управлении SWE, превосходя модель o1, показавшую вторую лучшую производительность, на 9.7% в задаче IC SWE и на 3.4% в задаче управления SWE.
Если преобразовать в доход, то лучший результат показал Claude 3.5 Sonnet, общий доход по полному набору данных превысил 400 тысяч долларов.
Стоит отметить, что больший объем вычислений логического вывода будет большим подспорьем для «ИИ, делающего деньги».
В рамках задачи IC SWE исследователи провели эксперименты с моделью o1, в которой был включен инструмент глубокого рассуждения. Результаты показали, что более высокая вычислительная нагрузка по рассуждению позволила увеличить однократную проходимость с 9.3% до 16.5%, а доходы соответственно увеличились с 16 тыс. до 29 тыс. долларов, что повысило доходность с 6.8% до 12.1%.
Исследователи подводят итоги, лучшая модель Claude 3.5 Sonnet, хотя и решает 26.2% проблем IC SWE, но большинство оставшихся решений все еще содержат ошибки, и для достижения надежного развертывания требуется много доработок. Затем идет o1, затем GPT-4o, и обычно процент однократного прохождения задачи управления вдвое превышает процент однократного прохождения задачи IC SWE.
Это также означает, что хотя мнение о замене искусственным интеллектом человеческих программистов сильно раздуто, компаниям все же следует тщательно взвесить все за и против, модель искусственного интеллекта может решить некоторые "низкоуровневые" проблемы с кодированием, но она пока не может заменить "низкоуровневых" программистов, потому что они не могут понять причины ошибок в коде и продолжают совершать еще больше производных ошибок.
Текущая оценочная структура пока не поддерживает мультимодальный ввод, кроме того, исследователи еще не оценили "возврат инвестиций", например, сравнение вознаграждения, выплачиваемого фрилансеру за выполнение задания, с затратами на использование API, будет ключевым улучшением этого базового показателя.
Станьте программистом с усиленным искусственным интеллектом
На данный момент искусственный интеллект имеет еще долгий путь к тому, чтобы действительно заменить человеческих программистов, ведь разработка проекта по программной инженерии - это не только просто создание кода в соответствии с требованиями.
Например, программисты часто сталкиваются с крайне сложными, абстрактными и неопределенными проблемами клиентских запросов, что требует глубокого понимания различных технических принципов, бизнес-логики и архитектуры систем. При оптимизации сложной архитектуры программного обеспечения человеческий программист способен учитывать различные факторы, такие как будущую масштабируемость, поддерживаемость и производительность системы, в то время как искусственный интеллект может иметь затруднения с проведением полного анализа и принятием решений.
Кроме того, программирование — это не только реализация существующей логики, но и требует большого творчества и инновационного мышления, а программистам нужно придумывать новые алгоритмы, проектировать уникальные программные интерфейсы и методы взаимодействия и т.д., а это действительно новые идеи и решения являются недостатками ИИ.
Программистам часто необходимо общаться и сотрудничать с членами команды, клиентами и другими заинтересованными сторонами, понимать потребности и достижимость всех сторон, формулировать свое мнение и сотрудничать с другими над проектами.
Отрасль разработки программного обеспечения также подвержена различным правовым и регулирующим ограничениям, таким как интеллектуальная собственность, защита данных и лицензирование программного обеспечения, что может создать правовые риски или споры о ответственности, которые искусственный интеллект может затруднить полностью понять и соблюдать.
В долгосрочной перспективе по-прежнему существует замещение рабочих мест программистов, обусловленное прогрессом в области ИИ, но на краткосрочный период, "программисты с улучшенными навыками ИИ" становятся основным трендом, владение последними инструментами ИИ является одним из ключевых навыков отличного программиста.
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Можете ли вы заработать 400 000 долларов, позволив программированию ИИ сделать всю работу?
Автор: Тан Цзысинь, головная техника
Источник изображения: Generated by Unbounded AI
Большие языковые модели (LLM) меняет способ разработки программного обеспечения, и вопрос о том, может ли ИИ заменить программистов в больших масштабах, стал предметом большой озабоченности в отрасли.
За два года крупные модели искусственного интеллекта перешли от решения базовых проблем компьютерных наук к участию в международных соревнованиях по программированию с лучшими людьми, например, OpenAI о1 участвовал в Олимпиаде информатики 2024 (IOI) наравне с участниками-людьми и успешно завоевал золотую медаль, продемонстрировав свой огромный потенциал в области программирования.
В то же время, скорость итераций искусственного интеллекта также увеличивается. На проверенной базе оценки кода SWE-Bench Verified в августе 2024 года оценка GPT-4o составляла 33%, но к моменту появления новой модели o3 оценка удвоилась и составила 72%.
Для более точной оценки инженерных способностей модели искусственного интеллекта в реальном мире сегодня OpenAI впервые выпустила новый инженерный бенчмарк SWE-Lancer, который связывает производительность модели с денежной ценностью.
SWE-Lancer — это эталон из более чем 1400 задач по разработке программного обеспечения для фрилансеров с платформы Upwork, с общей реальной стоимостью вознаграждения около 1 миллиона долларов.
Новые 'особенности' базового
Цена эталонного задания SWE-Lancer отражает истинную рыночную стоимость, и чем сложнее задание, тем выше награда.
Это включает как независимые инженерные задачи, так и управленческие задачи, которые могут быть выбраны между техническими вариантами реализации, этот стандарт предназначен не только для программистов, но и для всей команды разработчиков, включая архитекторов и управленцев.
По сравнению с предыдущими базовыми тестами по программной инженерии, SWE-Lancer обладает рядом преимуществ, таких как:
35% задач имеют стоимость более 1000 долларов, 34% задач имеют стоимость от 500 до 1000 долларов. Группа задач индивидуальных вкладчиков (IC) в области программной инженерии (SWE) включает в себя 764 задачи общей стоимостью 41.4775 тысяч долларов; Группа управления задачами SWE включает 724 задачи общей стоимостью 58.5225 тысяч долларов.
2、в крупномасштабной инженерии программного обеспечения в реальном мире необходимо не только умение писать код и разрабатывать, но и способность к техническому управлению, этот базовый тест использует данные из реального мира для оценки модели в роли "технического директора" по SWE.
3、Обладает высокой оценочной способностью для полного стека инженерии. SWE-Lancer представляет собой реальный мир программной инженерии, потому что его задачи происходят от платформы с миллионами реальных пользователей.
Одна из задач включает в себя разработку мобильных и веб-инженерных проектов, взаимодействие с API, браузерами и внешними приложениями, а также проверку и воспроизведение сложных проблем.
Например, есть задачи, которые стоят $250 за повышение надежности (исправление вызовов API с двойным срабатыванием), $1 000 за исправление ошибок (исправление расхождений в разрешениях) и $16 000 за реализацию новых функций (добавление поддержки воспроизведения видео в приложении на веб-сайте, iOS, Android, ПК и т. д.).
4、диверсификация области. 74% задач IC SWE и 76% задач управления SWE связаны с логикой приложения, в то время как 17% задач IC SWE и 18% задач управления SWE связаны с разработкой пользовательского интерфейса/UX.
В отношении сложности задач, задачи, выбранные SWE-Lancer, очень вызывающие, средняя задача в открытом наборе данных требует 26 дней для решения на Github.
Кроме того, OpenAI заявила, что они собрали данные без предвзятости, выбрав представительные образцы задач на Upwork и наняв 100 профессиональных инженеров-программистов для написания и проверки конечных тестов для всех задач.
Способность к заработку на кодировании AI PK
Несмотря на то, что многие технологические гиганты продолжают утверждать, что модели искусственного интеллекта могут заменить «низкоуровневых» инженеров, все еще остается большой вопрос о том, могут ли компании полностью заменить инженеров-программистов на LLM.
Результаты первого обзора показывают, что на полном наборе данных SWE-Lancer текущая модель золотого медалиста ИИ приносит значительно меньше потенциального общего вознаграждения в 1 миллион долларов.
В целом, все модели превосходят задачи IC SWE в задачах управления SWE, в то время как задачи IC SWE в значительной степени еще не полностью преодолены моделями ИИ, и лучшей тестируемой моделью является Claude 3.5 Sonnet, разработанная конкурентом OpenAI Anthropic.
В задаче IC SWE процент однократных проходов и выход всех моделей составляли менее 30%, а в задаче управления SWE показатель наилучшей производительности модели Claude 3.5 Sonnet составил 45%.
Claude 3.5 Sonnet проявляет сильную производительность как в задачах IC SWE, так и в управлении SWE, превосходя модель o1, показавшую вторую лучшую производительность, на 9.7% в задаче IC SWE и на 3.4% в задаче управления SWE.
Если преобразовать в доход, то лучший результат показал Claude 3.5 Sonnet, общий доход по полному набору данных превысил 400 тысяч долларов.
Стоит отметить, что больший объем вычислений логического вывода будет большим подспорьем для «ИИ, делающего деньги».
В рамках задачи IC SWE исследователи провели эксперименты с моделью o1, в которой был включен инструмент глубокого рассуждения. Результаты показали, что более высокая вычислительная нагрузка по рассуждению позволила увеличить однократную проходимость с 9.3% до 16.5%, а доходы соответственно увеличились с 16 тыс. до 29 тыс. долларов, что повысило доходность с 6.8% до 12.1%.
Исследователи подводят итоги, лучшая модель Claude 3.5 Sonnet, хотя и решает 26.2% проблем IC SWE, но большинство оставшихся решений все еще содержат ошибки, и для достижения надежного развертывания требуется много доработок. Затем идет o1, затем GPT-4o, и обычно процент однократного прохождения задачи управления вдвое превышает процент однократного прохождения задачи IC SWE.
Это также означает, что хотя мнение о замене искусственным интеллектом человеческих программистов сильно раздуто, компаниям все же следует тщательно взвесить все за и против, модель искусственного интеллекта может решить некоторые "низкоуровневые" проблемы с кодированием, но она пока не может заменить "низкоуровневых" программистов, потому что они не могут понять причины ошибок в коде и продолжают совершать еще больше производных ошибок.
Текущая оценочная структура пока не поддерживает мультимодальный ввод, кроме того, исследователи еще не оценили "возврат инвестиций", например, сравнение вознаграждения, выплачиваемого фрилансеру за выполнение задания, с затратами на использование API, будет ключевым улучшением этого базового показателя.
Станьте программистом с усиленным искусственным интеллектом
На данный момент искусственный интеллект имеет еще долгий путь к тому, чтобы действительно заменить человеческих программистов, ведь разработка проекта по программной инженерии - это не только просто создание кода в соответствии с требованиями.
Например, программисты часто сталкиваются с крайне сложными, абстрактными и неопределенными проблемами клиентских запросов, что требует глубокого понимания различных технических принципов, бизнес-логики и архитектуры систем. При оптимизации сложной архитектуры программного обеспечения человеческий программист способен учитывать различные факторы, такие как будущую масштабируемость, поддерживаемость и производительность системы, в то время как искусственный интеллект может иметь затруднения с проведением полного анализа и принятием решений.
Кроме того, программирование — это не только реализация существующей логики, но и требует большого творчества и инновационного мышления, а программистам нужно придумывать новые алгоритмы, проектировать уникальные программные интерфейсы и методы взаимодействия и т.д., а это действительно новые идеи и решения являются недостатками ИИ.
Программистам часто необходимо общаться и сотрудничать с членами команды, клиентами и другими заинтересованными сторонами, понимать потребности и достижимость всех сторон, формулировать свое мнение и сотрудничать с другими над проектами.
Отрасль разработки программного обеспечения также подвержена различным правовым и регулирующим ограничениям, таким как интеллектуальная собственность, защита данных и лицензирование программного обеспечения, что может создать правовые риски или споры о ответственности, которые искусственный интеллект может затруднить полностью понять и соблюдать.
В долгосрочной перспективе по-прежнему существует замещение рабочих мест программистов, обусловленное прогрессом в области ИИ, но на краткосрочный период, "программисты с улучшенными навыками ИИ" становятся основным трендом, владение последними инструментами ИИ является одним из ключевых навыков отличного программиста.