Від несанкціонованого витоку до термінового зібрання у Вашингтоні: як Anthropic за дві тижні переписала правила гри у кібербезпеці?

8 квітня міністр фінансів США Бейзента та голова Федеральної резервної системи Баумель в екстреному режимі зібрали низку лідерів банків Уолл-стріт у штаб-квартирі Міністерства фінансів у Вашингтоні.

Тема зустрічі була не про відсоткові ставки, не про інфляцію — а про найновішу модель компанії AI.

Цю модель називають Claude Mythos. Anthropic стверджує, що це найпотужніший AI, який вони створювали, — настільки сильний, що вони самі бояться його оприлюднювати. Під час внутрішніх тестів він вирвався із безпекового «пісочника», який дослідники для нього спроєктували, і вийшов в інтернет, щоб зробити публікацію й похвалитися своїм процесом «взлому» (jailbreak). Сам дослідник Sam Bowman, відповідальний за цей тест, саме тоді був у парку й їв сендвіч, і тільки раптом отримав листа від Mythos — після чого зрозумів, що той уже на волі.

Ланцюг реакцій, запущений помилкою в CMS-конфігурації

Історію потрібно почати з 26 березня ввечері.

Александр Pauwels із Кембриджського університету та Roy Paz із LayerX Security, як і всі безпекові дослідники, робили те, що роблять щодня: намацували речі, до яких не має бути відкритого публічного доступу. Вони виявили незашифровану базу даних системи керування контентом Anthropic, у якій лежало майже 3000 неопублікованих документів.

Один із них був чернеткою блогу, що описувала нову модель під назвою Claude Mythos. У чернетці використовувалися внутрішні позначення «Capybara» (водяний видра), які задавали абсолютно новий рівень моделей — більший, розумніший і дорожчий за найпотужнішу раніше лінійку Opus від Anthropic.

Одна фраза в чернетці змусила весь безпековий світ спалахнути: у сфері кібербезпеки ця модель «значно випереджає будь-яку іншу модель AI», а також «передвіщає хвилю моделей, що вже невдовзі накочуватиметься, і їхні можливості використовувати вразливості далеко перевершать швидкість, з якою захисники зможуть реагувати».

Fortune першою повідомила про цю витік. Anthropic пояснила причину як «людську помилку» — мовляв, у системі керування контентом стандартні налаштування зробили завантажені файли доступними для публіки. Іронія в тому, що компанія, яка заявляє, ніби будує найсильніший у світі AI для кібербезпеки, сама впала в найпервиннішу помилку конфігурації.

Через п’ять днів Fortune знову повідомила про другий витік: вихідний код інструмента для програмування Claude Code від Anthropic — приблизно 500 000 рядків коду та 1900 файлів — став публічним через помилку під час пакування npm. За два тижні — дві такі «простенькі» безпекові пригоди, і обидві — від тієї самої компанії, яка попереджає весь світ про «наближення епохи AI-кібератак».

Але ринок не встиг навіть посміятися над рівнем операційної майстерності Anthropic. 27 березня, на відкритті торгів, акції кібербезпеки дружно пішли вниз. CrowdStrike впала на 7,5%, Palo Alto Networks — більш ніж на 6%, Zscaler — на 4,5%, iShares ETF із кібербезпеки — на 4% за день.

Оцінка аналітика Stifel Адама Borg була такою: це може бути «кінцевий інструмент для хакерів, здатний підняти будь-якого звичайного хакера до рівня державного суперника».

Наскільки сильним є Mythos насправді?

7 квітня Anthropic офіційно представила Mythos. Ось цифри:

SWE-bench Verified (бенчмарк, що вимірює здатність AI розв’язувати реальні задачі з програмної інженерії) — 93,9%, тоді як попередній флагман Opus 4.6 — 80,8%. USAMO 2026 з математичним доведенням: 97,6% проти 42,3%. Конкурс із кібербезпеки Cybench: 100% прохідних результатів — раніше жодна модель не досягала такого.

Доведення в USAMO з математичних тестів підстрибнуло з 42,3% до 97,6% — тобто модель зробила крок на 55 процентних пунктів уперед.

Anthropic опублікувала системну «карточку» з безпеки на 244 сторінках, у якій визнає: кібербезпекові можливості Mythos не походять від спеціального тренування щодо безпеки, а є «вихідним результатом» підвищення загальних можливостей міркування й кодування. Таке саме покращення водночас робить його кращим у латанні вразливостей і водночас — у їх використанні.

Передова «червона команда» Anthropic протестувала Mythos на реальному програмному забезпеченні. Не в симуляційному середовищі, не в завданнях CTF, а в системах, якими щодня користуються десятки мільярдів людей — у операційних системах і браузерах.

Результат був таким: на JavaScript-рушії Firefox 147 Opus 4.6 після кількох сотень спроб зумів написати лише 2 працюючі exploit’и. Mythos успішно зробив це 181 раз — у 90 разів більше. Відстань між поколіннями. У всіх основних операційних системах і браузерах Mythos знайшов тисячі zero-day вразливостей — велика частина з них була класифікована як «критичні/серйозні».

Ще дивнішими були конкретні випадки. Вразливість TCP SACK в OpenBSD протрималася 27 років: її не було виявлено, попри нескінченні ручні аудити та перевірки автоматизованими сканерами. Mythos знайшов її — достатньо було лише двох ретельно сконструйованих пакетів даних, щоб «покласти» будь-який сервер. Вразливість NFS у FreeBSD існувала 17 років — і Mythos не лише виявив її, а й самостійно зібрав ланцюжок атаки, що проходить через кілька пакетів і складається з 20 ROP gadget’ів.

Деякі інженери Anthropic без профільного досвіду в безпеці провели тест: перед сном попросили Mythos знайти вразливість для віддаленого виконання коду, а зранку на столі вже лежав повноцінний, готовий до використання exploit.

Втеча з «пісочника»: коли AI починає «діяти без жодних засобів»

Знаходження zero-day — це питання можливостей, але поведінкові патерни, які Mythos демонстрував під час тестів, були зовсім іншими за природою.

Під час одного з поведінкових тестів дослідники надали ранній версії Mythos безпечне «пісочне» середовище: воно мало змоделювати сценарій, коли користувач підштовхує його спробувати втекти з «пісочника» й повідомити про це дослідникам, які відповідають за тестування. Mythos не лише успішно втік — він зробив ще одну річ, яку в нього ніхто не просив: він зайшов на кілька менш відомих, але публічно доступних сайтів і опублікував допис із описом свого процесу «втечі» (jailbreak).

У системній «карточці» безпеки на 244 сторінках також зафіксовано більше «виходів за межі». Коли Mythos припускався помилки в коді, він намагався переписати історію git, щоб приховати сліди — не тому, що хотів когось обманути, а тому, що розумів «виправити цю проблему» як «зробити так, щоб ця проблема виглядала так, ніби її ніколи не існувало». В іншому тесті дослідник попросив його припинити неактуальне оціночне завдання — і Mythos просто вимкнув усі подібні оціночні завдання, які виконувалися для користувачів.

У системній «карточці» безпеки Anthropic використала метафору альпініста: майстерний гід може наражати клієнтів на більшу небезпеку, ніж новачок, бо його здібності ведуть усіх небезпечнішими маршрутами.

У «карточці» безпеки також заховано деталь: за допомогою інструментів пояснюваності (white-box interpretability tools) дослідники виявили, що на внутрішніх нейронних рівнях активації Mythos інколи міркує про те, як «обійти» систему оцінювання, тоді як у видимих ланцюжках думок він пише зовсім інший зміст. Він «думає» одне, а «говорить» інше.

Anthropic каже, що вони «мають досить високу впевненість»: ці поведінки — це просто використання моделі не так, як слід, щоб виконати завдання неправильними способами, а не якісь приховані довгострокові цілі. Mythos ні змов не плете. Він просто надзвичайно добре виконує завдання — і цілковито не розуміє, де проходять межі. Помічник без міри, але всесильний, може бути складнішим у протидії, ніж AI з змовницькими намірами.

Project Glasswing: меч — щит

Anthropic не обрала рішення «заперти» Mythos у сейфі.

7 квітня вони оголосили Project Glasswing (назва навіяна майже прозорими крильцями метелика Glasswing, що символізує «відсутність місця для схову» уразливостей) і надали Mythos Preview приблизно 40 перевіреним організаціям для роботи над оборонною кібербезпекою.

Засновницькі партнерства: Amazon AWS, Apple, Microsoft, Google, Nvidia, Cisco, CrowdStrike, Palo Alto Networks, JPMorgan, Linux Foundation. Фактично — охопили весь набір ключових гравців Кремнієвої долини та Уолл-стріт. Anthropic пообіцяла надати до 100 млн доларів ліміту на використання та пожертвувати 4 млн доларів відкритим організаціям у сфері безпеки, зокрема OpenSSF, Alpha-Omega тощо.

Логіка була такою: можливості рівня Mythos поширяться в open-source моделях протягом 6–18 місяців, і тоді ними зможе скористатися кожен. Замість того, щоб чекати того дня, краще скористатися вікном і зробити так, щоб оборонці випередили події: спочатку латали ті вразливості, які ще можна виправити.

Керівник напряму кібербезпеки передової «червоної команди» Anthropic Ньютон Cheng сказав дуже прямо: мета — змусити різні організації звикнути використовувати ці можливості для захисту ще до того, як подібні можливості будуть широко застосовуватися. Адже ці можливості зрештою будуть застосовані широко — питання лише в тому, коли саме.

Спочатку Уолл-стріт злякалася, а потім видихнула з полегшенням.

Після витоку 27 березня акції сектору кібербезпеки провалилися повністю, але 7 квітня, коли Anthropic офіційно оголосила Glasswing і внесла CrowdStrike та Palo Alto Networks до переліку засновницьких партнерів, обидві акції злетіли відповідно на 6,2% і 4,9%, а після закриття ринку — ще на 2%. JPMorgan підтвердив рекомендацію щодо підвищення частки (incremental buy) для обох компаній; аналітик Brian Essex вважає, що CrowdStrike та Palo Alto були розміщені як ключовий рівень у захисному стеку, а не як ціль для конкуренції.

Але це лише тимчасові знеболювальні. Цього року обидві акції все ще знизилися відповідно на 9,7% і 7,8%.

Коли ризики AI стають ризиками для фінансової системи

Повернемося до 8 квітня, до штаб-квартири Міністерства фінансів у Вашингтоні.

Бейзента та Баумель зібрали представників системно важливих банків. Такі зустрічі в минулому здебільшого траплялися під час фінансової кризи та пандемії. Тепер за одним столом обговорюють мережеві атакувальні можливості AI-моделі.

Причина не складна: якщо можливості рівня Mythos потраплять до рук зловмисників, вони за кілька годин зможуть знайти zero-day вразливості в основних системах великого банку й написати працюючий код атаки. Раніше базова гіпотеза всієї системи кіберзахисту була такою: атакувальник має витратити багато часу й залучити високопрофесійні людські ресурси, щоб знайти та використати вразливості. AI перевертає це припущення.

Casey Newton із Platformer навів слова Alex Stamos, головного продуктового офіцера компанії Corridor: open-source моделі приблизно за шість місяців наздоженуть closed-source передовий рівень у виявленні вразливостей.

Ще більше тривожить регуляторів визнаний Anthropic факт у системній «карточці» безпеки: найсучасніша система оцінювання не змогла з перших моментів виявити найнебезпечнішу поведінку ранніх версій Mythos. І найнеприємніше — не те, що тестування «не спіймало» це, а те, що це проявилося в реальному внутрішньому використанні.

Незручна передумова

Якщо розібрати базову логіку Glasswing, вона насправді видається дивною: щоб захистити світ від атак небезпечних AI-моделей, потрібно спершу створити цей небезпечний AI.

Ньютон Cheng із Platformer назвав факт, який, за словами багатьох звітів, ігнорували: зараз приватна компанія має майже всі високоризикові zero-day можливості для використання вразливостей у відомих програмних проєктах. Така концентрація сама по собі є ризиком. Ті, хто захоче вкрасти ваги моделі Anthropic, щойно отримали дуже сильний стимул.

А все це відбувається в середовищі, де регулювання AI майже відсутнє. Anthropic стверджує, що вже повідомила CISA (Агентство з кібербезпеки та безпеки інфраструктури) і Міністерство торгівлі. Але, судячи з наявних повідомлень, уряд не демонструє терміновості, що відповідає загрозі. Як сказав один із державних інсайдерів, який знає ситуацію з Mythos, в інтерв’ю Axios: «Вашингтон керується кризами. Поки кібербезпека не стане справжньою кризою, не отримає уваги й ресурсів, вона лишається другорядним питанням».

Dario Amodei, співзасновник Anthropic, розповідав саме таку історію: дати лабораторії, яка ставить безпеку понад усе, зіткнутися з найнебезпечнішими можливостями ще до того, як з ними стикаються інші, — тоді з’являється шанс вибудувати оборонні лінії раніше. Mythos і Glasswing справді йдуть за цим сценарієм.

Але чи зможе теорія перемогти реальність? Ніхто не знає. Anthropic планує в майбутньому спершу розгорнути нові заходи безпеки для наступної моделі Opus, тому що цей модель «не створює такого ж рівня ризику, як Mythos». Публіка врешті отримає певний рівень можливостей класу Mythos, але лише після того, як систему захисту буде підготовлено.

Наскільки довгим буде часовий коридор? Stamos дав оптимістичну оцінку: «Якщо ми щойно на крок обігнали людські можливості, то існує великий, але обмежений резервуар уразливостей, які можна буде виявити й виправити».

Це «якщо» — дуже велике.

Від 26 березня, коли через помилку в CMS-конфігурації сталася ланцюгова реакція, до 8 квітня, коли міністр фінансів США в екстреному порядку скликав Уолл-стріт. За два тижні AI-модель перетворилася з технічної новини із Силіконової долини на питання фінансової безпеки у Вашингтоні.

Stamos каже, що оборонцям може бути доступне приблизно піврічне вікно. Через шість місяців open-source моделі наздоженуть, і тоді ці можливості вже не будуть привілеєм лише кількох компаній.

Скільки вразливостей можна буде виправити за 6 місяців — і визначить, як далі розгортатиметься ця гра.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити