OpenAI și Paradigm lansează EVMbench pentru a testa hackingul contractelor inteligente prin AI

Rongchai Wang 05 Mar 2026 00:55

Noul benchmark evaluează capacitatea agenților AI de a detecta, corecta și exploata vulnerabilitățile contractelor inteligente. GPT-5.3-Codex obține 72,2% la sarcinile de exploatare.

OpenAI și Paradigm lansează EVMbench pentru a testa hackingul contractelor inteligente prin AI

OpenAI și firma de capital de risc crypto Paradigm au lansat EVMbench, un benchmark care măsoară cât de bine pot agenții AI să găsească, să remedieze și să exploateze vulnerabilitățile din contractele inteligente Ethereum. Anunțul vine în momentul în care instrumentele de securitate alimentate de AI se grăbesc să protejeze peste 100 de miliarde de dolari blocați în protocoalele DeFi.

Benchmark-ul se bazează pe 120 de vulnerabilități grave selectate din 40 de audituri de securitate reale, în principal din competițiile Code4rena. Include, de asemenea, scenarii de vulnerabilitate din revizuirile de securitate ale Tempo, un blockchain Layer 1 construit pentru plăți cu stablecoin.

Trei moduri de a compromite contractele inteligente

EVMbench testează agenții AI în trei moduri distincte. În modul Detect, agenții auditează depozitele de contracte și sunt evaluați pe baza găsirii vulnerabilităților cunoscute. Modul Patch necesită ca agenții să repare codul vulnerabil fără a afecta funcționalitatea existentă. Modul Exploit este cel mai agresiv - agenții trebuie să execute atacuri reale de drenare a fondurilor împotriva contractelor implementate pe un blockchain izolat.

Rezultatele arată cât de rapid avansează capacitățile AI în acest domeniu. GPT-5.3-Codex rulând prin Codex CLI a atins o rată de succes de 72,2% la sarcinile de exploatare. Acest lucru este mai mult decât dublu față de scorul de 31,9% al GPT-5, care a fost lansat cu doar șase luni înainte.

Interesant este că agenții AI performează mai bine la atac decât la apărare. Setarea de exploatare are un obiectiv clar - continuă să iterezi până drenezi fondurile. Detectarea și corectarea s-au dovedit mai dificile. Agenții se opreau uneori după ce găseau un singur bug în loc să auditeze exhaustiv, iar menținerea funcționalității complete a contractului în timp ce eliminau vulnerabilitățile subtile a rămas o provocare.

Limitări reale demne de remarcat

OpenAI a recunoscut că EVMbench nu surprinde întreaga dificultate a securității contractelor din lumea reală. Protocoalele masiv implementate precum Uniswap sau Aave sunt supuse unei scrutinii mult mai mari decât codul din competițiile de audit. Benchmark-ul nu poate verifica nici dacă un agent găsește vulnerabilități legitime pe care auditorii umani le-au ratat - verifică doar probleme cunoscute.

Mediul de exploatare rulează pe o instanță locală Anvil curată, nu pe starea mainnet bifurcată, iar atacurile dependente de timp cad în afara scopului. Doar medii single-chain deocamdată.

10 milioane $ pentru cercetare defensivă

Alături de EVMbench, OpenAI s-a angajat cu 10 milioane de dolari în credite API special pentru cercetarea de securitate defensivă. Compania își extinde agentul de cercetare în securitate Aardvark la mai mulți utilizatori și colaborează cu întreținătorii open-source pentru scanarea gratuită a bazelor de cod.

Momentul contează. Pe măsură ce agenții AI devin mai buni la exploatarea contractelor, fereastra dintre descoperirea vulnerabilității și exploatare se micșorează. Echipele de protocol care nu folosesc auditare asistată de AI se vor găsi din ce în ce mai des în dezavantaj față de atacatorii care o folosesc.

OpenAI a lansat public sarcinile, instrumentele și cadrul de evaluare al EVMbench. Pentru dezvoltatorii DeFi și cercetătorii în securitate, este atât un instrument de măsurare, cât și un avertisment cu privire la direcția în care se îndreaptă capacitățile AI.

Sursa imaginii: Shutterstock

openai
paradigm
contracte inteligente
securitate ai
defi

OpenAI și Paradigm lansează EVMbench pentru testarea hackingului contractelor inteligente prin AI

OpenAI și Paradigm lansează EVMbench pentru a testa hackingul contractelor inteligente prin AI

Trei moduri de a compromite contractele inteligente

Limitări reale demne de remarcat

10 milioane $ pentru cercetare defensivă

Poate îți place și

Furtul de Bitcoin al Queenbee Coin: Detalii Șocante Apar din Investigația Poliției din Seul

Șocuri din Orientul Mijlociu și Răspunsuri Economice Africane

DOJ spune că viitoarea publicare a dosarelor Epstein conține 'afirmații senzaționaliste împotriva lui Trump'

Știri în tendințe

Furtul de Bitcoin al Queenbee Coin: Detalii Șocante Apar din Investigația Poliției din Seul

Șocuri din Orientul Mijlociu și Răspunsuri Economice Africane

DOJ spune că viitoarea publicare a dosarelor Epstein conține 'afirmații senzaționaliste împotriva lui Trump'

Atac de Otrăvire a Adreselor Devastează Influencer Crypto: 24 Milioane $ Furați într-o Înșelătorie Sofisticată

Kenia lansează registrul electronic de depozite

Prețuri cripto