Ancaman Keamanan AI dan Senjata Baru Red Teamers—EVMbench Hadir

ZkProofPudding · 2026-03-23T16:39:05+00:00

Munculnya EVMbench, kerangka kerja benchmarking sumber terbuka dari OpenAI dan Paradigm, menandai pergeseran signifikan dalam keamanan Web3, menyoroti peran ganda AI sebagai auditor dan penyerang potensial terhadap kontrak pintar.

ZkProofPudding

2026-03-23 16:39:05

Pembuatan abstrak sedang berlangsung

Dunia keamanan Web3 sedang mengalami titik balik besar. Pada 18 Februari 2026, OpenAI dan Paradigm mengumumkan “EVMbench”, sebuah kerangka pengujian benchmark sumber terbuka yang menunjukkan potensi untuk mengguncang secara fundamental metode audit tradisional. Yang terutama menarik perhatian adalah kenyataan baru bahwa model AI tidak hanya mampu melakukan audit keamanan, tetapi juga memiliki kemampuan sebagai red teamer yang jahat untuk menyerang kontrak pintar, menciptakan realitas baru yang menakutkan.

Ancaman terhadap Keamanan Web3—AI Muncul sebagai “Penyerang”

Hasil eksperimen awal memberi peringatan keras kepada komunitas keamanan. Model AI terbaru seperti GPT-5.3-Codex mencapai tingkat keberhasilan yang mengagumkan sebesar 72,2% dalam mode serangan. Namun, pada saat yang sama, hanya sekitar 41,5% dari bug yang ditemukan dapat diperbaiki dengan benar. Artinya, AI saat ini lebih unggul sebagai “hacker” daripada sebagai “dokter”.

Ancaman tidak seimbang ini—AI unggul dalam serangan tetapi lemah dalam pertahanan—menyebabkan celah keamanan. Berbeda dengan benchmark sintetis, EVMbench menggunakan kode lingkungan nyata yang mencakup skenario kompleks dari blockchain Tempo dan digunakan dalam lingkungan produksi. Di sini, AI diuji dalam skenario “pertempuran nyata” yang langsung berhubungan dengan kerugian jutaan dolar, bukan sekadar masalah teoretis.

Tiga Mode Penilaian EVMbench—Apa yang Dilakukan Red Teamers

EVMbench bukan sekadar tes sederhana, melainkan pengujian stres yang ketat dan terisolasi. Kerangka ini mengintegrasikan 120 dataset kerentanan tingkat tinggi yang dikumpulkan dari 40 audit dan kompetisi keamanan nyata (seperti Code4rena).

Agen AI dinilai dalam tiga mode berbeda yang meniru alur kerja auditor keamanan profesional.

Mode Deteksi (AI sebagai Auditor)

Dalam mode ini, AI diberikan repositori kontrak pintar dan diminta untuk mengidentifikasi kerentanan “kebenaran mutlak” tertentu. Keberhasilan diukur melalui recall, yaitu seberapa banyak bug yang ditemukan AI dibandingkan dengan jumlah bug yang ditemukan oleh para ahli manusia yang melakukan audit asli. Ini mengukur kemampuan AI dalam menemukan bug yang sebenarnya ada.

Mode Patch (AI sebagai Insinyur)

Jika bug ditemukan, akankah AI mampu memperbaikinya? Dalam mode ini, agen harus mengubah kode untuk menghilangkan kerentanan tersebut. Namun, ada batasan penting—“patch” harus sepenuhnya mempertahankan fungsi asli. Jika AI memperbaiki bug tetapi merusak fungsi utama kontrak pintar, maka dianggap gagal.

Mode Eksploitasi: Simulasi Serangan Red Team

Ini adalah pengaturan yang paling “realistis” dan berisiko tinggi. Di sini, AI harus berhasil melakukan serangan pencurian dana di lingkungan sandbox Ethereum lokal (menggunakan alat Anvil). Peran AI sebagai red team akan terlihat jelas dalam mode ini. Pengujian dilakukan pada tingkat program, memastikan apakah penyerang dapat memindahkan dana simulasi secara nyata. Tingkat keberhasilan 72,2% menunjukkan seberapa tinggi kemampuan AI sebagai red teamer.

Serangan Balik dari Pertahanan—Membangun Alat Audit Berbantuan AI

Seiring peluncuran EVMbench, OpenAI berjanji menyediakan kredit API sebesar 10 juta dolar untuk penelitian keamanan siber defensif. Tujuannya jelas—seiring AI menjadi lebih kuat sebagai penyerang, komunitas “baik” harus mampu membangun alat audit otomatis berbasis AI dan mampu menghadapi penyerang AI yang berperilaku seperti red teamer.

Langkah ini juga merupakan bagian dari strategi membuka sumber standar pengujian keamanan. Dengan memungkinkan seluruh komunitas kripto mengikuti kemampuan AI, mereka berusaha agar pihak pertahanan dapat mempersiapkan diri sebelum penyerang memanfaatkan teknologi ini secara jahat.

Implementasi dan Penggunaan—Cara Menggunakan EVMbench

EVMbench sepenuhnya bersifat sumber terbuka dan tersedia di GitHub. Pengembang dan profesional keamanan dapat menguji agen AI mereka melalui proses berikut.

Kerangka kerja ini berbasis lingkungan Ethereum yang dikontainerisasi, memungkinkan pengujian di lingkungan simulasi tanpa risiko keuangan nyata atau tanggung jawab hukum. Pengembang dapat mengunduh dataset, membangun lingkungan lokal menggunakan Docker dan Anvil, lalu menjalankan agen mereka mulai dari mode Detect, kemudian Patch, hingga pipeline Exploit.

Masa Depan Manusia dan AI yang Terintegrasi

Penting untuk dipahami bahwa saat ini, agen AI belum mampu sepenuhnya menggantikan auditor kontrak pintar manusia. AI sangat baik dalam menemukan bug tertentu yang diberikan petunjuk, seperti “jarum dalam tumpukan jerami”, tetapi masih menghadapi tantangan dalam melakukan audit menyeluruh terhadap seluruh ekosistem. Pengawasan manusia tetap menjadi “boss terakhir” dalam keamanan kontrak pintar.

Selain itu, fenomena “Vibe-Coding” yang baru-baru ini muncul juga perlu diperhatikan. Ini merujuk pada pengembang yang menggunakan AI untuk menghasilkan kode secara cepat dan kemudian langsung melakukan deploy tanpa review manual mendalam. Insiden Moonwell 1,78 juta dolar pada 2024 membuktikan bahwa kepercayaan berlebihan terhadap kode yang dihasilkan AI dapat menyebabkan kesalahan logika serius yang masuk ke mainnet.

EVMbench adalah jawaban industri terhadap situasi tegang ini. Ia mampu mengukur secara akurat ancaman AI sebagai red teamer dan menetapkan indikator standar agar pihak pertahanan dapat mempersiapkan diri. Masa depan keamanan Web3 sedang beralih ke medan kompetisi baru di mana serangan dan pertahanan berbasis AI saling beradu.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.