Un nou benchmark evaluează capacitatea agenților AI de a detecta, corecta și exploata vulnerabilitățile contractelor inteligente. GPT-5.3-Codex obține un scor de 72,2% la sarcinile de exploatare. (Citește mai multUn nou benchmark evaluează capacitatea agenților AI de a detecta, corecta și exploata vulnerabilitățile contractelor inteligente. GPT-5.3-Codex obține un scor de 72,2% la sarcinile de exploatare. (Citește mai mult

OpenAI și Paradigm lansează EVMbench pentru testarea hackingului contractelor inteligente prin AI

2026/03/05 08:55
3 min de lectură
Pentru opinii sau preocupări cu privire la acest conținut, contactează-ne la crypto.news@mexc.com

OpenAI și Paradigm lansează EVMbench pentru a testa hackingul contractelor inteligente prin AI

Rongchai Wang 05 Mar 2026 00:55

Noul benchmark evaluează capacitatea agenților AI de a detecta, corecta și exploata vulnerabilitățile contractelor inteligente. GPT-5.3-Codex obține 72,2% la sarcinile de exploatare.

OpenAI și Paradigm lansează EVMbench pentru a testa hackingul contractelor inteligente prin AI

OpenAI și firma de capital de risc crypto Paradigm au lansat EVMbench, un benchmark care măsoară cât de bine pot agenții AI să găsească, să remedieze și să exploateze vulnerabilitățile din contractele inteligente Ethereum. Anunțul vine în momentul în care instrumentele de securitate alimentate de AI se grăbesc să protejeze peste 100 de miliarde de dolari blocați în protocoalele DeFi.

Benchmark-ul se bazează pe 120 de vulnerabilități grave selectate din 40 de audituri de securitate reale, în principal din competițiile Code4rena. Include, de asemenea, scenarii de vulnerabilitate din revizuirile de securitate ale Tempo, un blockchain Layer 1 construit pentru plăți cu stablecoin.

Trei moduri de a compromite contractele inteligente

EVMbench testează agenții AI în trei moduri distincte. În modul Detect, agenții auditează depozitele de contracte și sunt evaluați pe baza găsirii vulnerabilităților cunoscute. Modul Patch necesită ca agenții să repare codul vulnerabil fără a afecta funcționalitatea existentă. Modul Exploit este cel mai agresiv - agenții trebuie să execute atacuri reale de drenare a fondurilor împotriva contractelor implementate pe un blockchain izolat.

Rezultatele arată cât de rapid avansează capacitățile AI în acest domeniu. GPT-5.3-Codex rulând prin Codex CLI a atins o rată de succes de 72,2% la sarcinile de exploatare. Acest lucru este mai mult decât dublu față de scorul de 31,9% al GPT-5, care a fost lansat cu doar șase luni înainte.

Interesant este că agenții AI performează mai bine la atac decât la apărare. Setarea de exploatare are un obiectiv clar - continuă să iterezi până drenezi fondurile. Detectarea și corectarea s-au dovedit mai dificile. Agenții se opreau uneori după ce găseau un singur bug în loc să auditeze exhaustiv, iar menținerea funcționalității complete a contractului în timp ce eliminau vulnerabilitățile subtile a rămas o provocare.

Limitări reale demne de remarcat

OpenAI a recunoscut că EVMbench nu surprinde întreaga dificultate a securității contractelor din lumea reală. Protocoalele masiv implementate precum Uniswap sau Aave sunt supuse unei scrutinii mult mai mari decât codul din competițiile de audit. Benchmark-ul nu poate verifica nici dacă un agent găsește vulnerabilități legitime pe care auditorii umani le-au ratat - verifică doar probleme cunoscute.

Mediul de exploatare rulează pe o instanță locală Anvil curată, nu pe starea mainnet bifurcată, iar atacurile dependente de timp cad în afara scopului. Doar medii single-chain deocamdată.

10 milioane $ pentru cercetare defensivă

Alături de EVMbench, OpenAI s-a angajat cu 10 milioane de dolari în credite API special pentru cercetarea de securitate defensivă. Compania își extinde agentul de cercetare în securitate Aardvark la mai mulți utilizatori și colaborează cu întreținătorii open-source pentru scanarea gratuită a bazelor de cod.

Momentul contează. Pe măsură ce agenții AI devin mai buni la exploatarea contractelor, fereastra dintre descoperirea vulnerabilității și exploatare se micșorează. Echipele de protocol care nu folosesc auditare asistată de AI se vor găsi din ce în ce mai des în dezavantaj față de atacatorii care o folosesc.

OpenAI a lansat public sarcinile, instrumentele și cadrul de evaluare al EVMbench. Pentru dezvoltatorii DeFi și cercetătorii în securitate, este atât un instrument de măsurare, cât și un avertisment cu privire la direcția în care se îndreaptă capacitățile AI.

Sursa imaginii: Shutterstock
  • openai
  • paradigm
  • contracte inteligente
  • securitate ai
  • defi
Oportunitate de piață
Logo Smart Blockchain
Pret Smart Blockchain (SMART)
$0.00428
$0.00428$0.00428
-0.74%
USD
Smart Blockchain (SMART) graficul prețurilor în timp real
Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează crypto.news@mexc.com pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.