Загрози безпеці AI та нова зброя для red teamers—з'являється EVMbench

ZkProofPudding · 2026-03-23T16:39:05+00:00

Поява EVMbench, відкритого еталонного фреймворку від OpenAI та Paradigm, позначає значний зсув у безпеці Web3, підкреслюючи подвійну роль ШІ як одночасно аудитора та потенційного зловмисника проти розумних контрактів.

ZkProofPudding

2026-03-23 16:39:05

Генерація анотацій у процесі

Світ безпеки Web3 переживає великий перелом. 18 лютого 2026 року OpenAI та Paradigm оголосили про запуск «EVMbench» — відкритого бенчмарку для оцінки безпеки, який може кардинально змінити традиційні методи аудиту. Особливої уваги заслуговує новий реалітет: AI-моделі не лише виконують роль аудитора безпеки, а й здатні одночасно виступати у ролі зловмисних red teamerів, атакуючи смарт-контракти.

Криза безпеки Web3 — AI як «зловмисник» на підйомі

Перші експериментальні результати викликають тривогу у спільноті безпеки. Останні AI-моделі, такі як GPT-5.3-Codex, досягли в режимі атаки неймовірної успішності — 72,2%. Водночас, з них вдалося виправити лише близько 41,5% знайдених вад. Це означає, що AI тепер швидше і ефективніше знаходить уразливості, ніж їх виправляє.

Ця асиметрія — коли AI переважає у атаках, але програє у захисті — створює прогалини у безпеці. На відміну від синтетичних бенчмарків, EVMbench використовує реальний код із складних сценаріїв на блокчейні Tempo, що працює у виробничих умовах. Тут AI тестується не на теоретичних задачах, а у «бойових» сценаріях, що можуть призвести до втрат у мільйони доларів.

Три режими оцінки EVMbench — що роблять red teamer-и

EVMbench — це не простий тест, а суворе і ізольоване навантажувальне випробування. У ньому використовується 120 наборів даних із реальних аудитів і конкурсів безпеки (наприклад, Code4rena).

AI-агенти оцінюються у трьох режимах, імітуючи робочі процеси професійних аудитів безпеки.

Режим виявлення (AI як аудитора)

У цьому режимі AI отримує репозиторій смарт-контрактів і має знайти конкретні «гранд-трути» — відомі уразливості. Успіх оцінюється за показником recall (повноти). Тобто, наскільки багато знайдених AI вад збігаються з реальними, виявленими експертами-людьми.

Режим патчування (AI як інженера)

Якщо вразливість знайдено, AI має її виправити. Тут важливо, щоб «патч» зберігав функціональність — якщо AI виправляє вразливість, але при цьому руйнує основні можливості смарт-контракту, це вважається невдачею.

Режим експлойту: симуляція реального нападу red teamer-ів

Найбільш «реалістичний» і небезпечний режим. Тут AI має у локальному ізольованому середовищі (з використанням інструменту Anvil) успішно здійснити атаку з виведенням коштів. Роль AI у цьому режимі — зламати контракт і вивести «злочинні» кошти. Бенчмарк перевіряє, чи вдалося атакуючому перемістити симульовані кошти. 72,2% успіху — це яскравий показник високої здатності AI виступати у ролі red teamer-ів.

Відповідь захисту — створення інструментів аудиту за підтримки AI

З виходом EVMbench OpenAI пообіцяли надати 10 мільйонів доларів у кредитах API для досліджень у галузі кіберзахисту. Мета — допомогти «добрим» сторонам створити автоматизовані інструменти аудиту, здатні протистояти AI-злочинцям.

Ця підтримка є частиною стратегії відкритого доступу до бенчмарків, щоб вся криптоспільнота могла слідкувати за можливостями AI і швидко реагувати на потенційні загрози.

Впровадження та використання EVMbench

EVMbench цілком відкритий і доступний на GitHub. Розробники і фахівці з безпеки можуть протестувати своїх AI-агентів у такому порядку:

Використовуючи контейнеризовану модель Ethereum, можна запускати симуляції без ризику для реальних активів і без юридичних наслідків. Завантаживши набір даних, можна налаштувати середовище Docker або Anvil і пройти всі режими — від виявлення до патчування і експлойту — за допомогою власного агента.

Людина і AI — шлях до інтегрованого майбутнього

На даний момент AI-агенти не здатні повністю замінити людських аудиторів смарт-контрактів. Вони добре знаходять окремі «голки у сіні», але для комплексного аналізу системи потрібен людський контроль. Людина залишається «останнім боссом» у безпеці смарт-контрактів.

Також слід враховувати явище «Vibe-Coding» — коли розробники швидко генерують код за допомогою AI і без глибокого ручного перегляду його деплоять у мережу. Інцидент Moonwell 2024 року з витоком 1,78 мільйона доларів показав, що надмірне довір’я AI-коду може призвести до серйозних логічних помилок у мейннеті.

EVMbench — це відповідь індустрії на цю напружену ситуацію. Він допомагає точно вимірювати потенціал AI-злочинців і готувати захисні механізми, встановлюючи стандарти для боротьби з новою епохою, де атаки і захист тісно переплітаються у боротьбі за безпеку Web3.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.