OpenAI และ Paradigm เปิดตัว EVMbench เพื่อทดสอบการแฮ็กสัญญาอัจฉริยะด้วย AI

Rongchai Wang 05 มี.ค. 2026 00:55

เกณฑ์มาตรฐานใหม่ประเมินความสามารถของตัวแทน AI ในการตรวจจับ แก้ไข และใช้ประโยชน์จากช่องโหว่ของสัญญาอัจฉริยะ GPT-5.3-Codex ทำคะแนนได้ 72.2% ในงานการโจมตี

OpenAI และ Paradigm เปิดตัว EVMbench เพื่อทดสอบการแฮ็กสัญญาอัจฉริยะด้วย AI

OpenAI และบริษัทเวนเจอร์คริปโต Paradigm ได้เปิดตัว EVMbench ซึ่งเป็นเกณฑ์มาตรฐานที่วัดความสามารถของตัวแทน AI ในการค้นหา แก้ไข และใช้ประโยชน์จากช่องโหว่ในสัญญาอัจฉริยะ Ethereum การประกาศนี้เกิดขึ้นในขณะที่เครื่องมือรักษาความปลอดภัยที่ขับเคลื่อนด้วย AI แข่งขันกันเพื่อปกป้องมูลค่ากว่า 100 พันล้านดอลลาร์ที่ถูกล็อกอยู่ในโปรโตคอล DeFi

เกณฑ์มาตรฐานนี้ดึงข้อมูลมาจากช่องโหว่ความรุนแรงสูง 120 รายการที่คัดสรรมาจากการตรวจสอบความปลอดภัยจริง 40 รายการ ส่วนใหญ่มาจากการแข่งขัน Code4rena นอกจากนี้ยังรวมถึงสถานการณ์ช่องโหว่จากการตรวจสอบความปลอดภัยของ Tempo ซึ่งเป็นบล็อกเชน Layer 1 ที่สร้างขึ้นสำหรับการชำระเงินด้วยสเตเบิลคอยน์

สามวิธีในการทำลายสัญญาอัจฉริยะ

EVMbench ทดสอบตัวแทน AI ในสามโหมดที่แตกต่างกัน ในโหมดตรวจจับ ตัวแทนตรวจสอบที่เก็บสัญญาและได้รับคะแนนจากการค้นหาช่องโหว่ที่ทราบแล้ว โหมดแก้ไขต้องการให้ตัวแทนแก้ไขโค้ดที่มีช่องโหว่โดยไม่ทำให้ฟังก์ชันที่มีอยู่เสียหาย โหมดโจมตีเป็นโหมดที่ดุเดือดที่สุด ตัวแทนต้องดำเนินการโจมตีเพื่อถอนเงินจริงต่อสัญญาที่ถูกปรับใช้บนบล็อกเชนแบบแซนด์บ็อกซ์

ผลลัพธ์แสดงให้เห็นว่าความสามารถของ AI กำลังก้าวหน้าอย่างรวดเร็วในสาขานี้ GPT-5.3-Codex ที่ทำงานผ่าน Codex CLI ทำคะแนนความสำเร็จได้ 72.2% ในงานโจมตี นั่นมากกว่าสองเท่าของคะแนน 31.9% จาก GPT-5 ที่เปิดตัวเพียงหกเดือนก่อนหน้านี้

น่าสนใจที่ตัวแทน AI ทำงานด้านการโจมตีได้ดีกว่าการป้องกัน การตั้งค่าโจมตีมีเป้าหมายที่ชัดเจน คือทำซ้ำจนกว่าคุณจะถอนเงินได้ การตรวจจับและการแก้ไขพิสูจน์แล้วว่ายากกว่า บางครั้งตัวแทนหยุดหลังจากพบบั๊กเดียวแทนที่จะตรวจสอบอย่างละเอียดถี่ถ้วน และการรักษาฟังก์ชันสัญญาเต็มรูปแบบในขณะที่กำจัดช่องโหว่ที่ละเอียดอ่อนยังคงเป็นเรื่องที่ท้าทาย

ข้อจำกัดที่แท้จริงที่ควรสังเกต

OpenAI ยอมรับว่า EVMbench ไม่ได้จับความยากลำบากทั้งหมดของความปลอดภัยสัญญาในโลกแห่งความเป็นจริง โปรโตคอลที่ถูกปรับใช้อย่างกว้างขวางเช่น Uniswap หรือ Aave ได้รับการตรวจสอบมากกว่าโค้ดการแข่งขันตรวจสอบมาก เกณฑ์มาตรฐานนี้ยังไม่สามารถยืนยันได้ว่าตัวแทนพบช่องโหว่ที่ถูกต้องตามกฎหมายที่ผู้ตรวจสอบมนุษย์พลาดไป มันเพียงแค่ตรวจสอบกับปัญหาที่ทราบแล้วเท่านั้น

สภาพแวดล้อมการโจมตีทำงานบนอินสแตนซ์ Anvil ในเครื่องที่สะอาดแทนที่จะเป็นสถานะเมนเน็ตที่แยก และการโจมตีที่ขึ้นอยู่กับเวลาอยู่นอกขอบเขต สภาพแวดล้อมเชนเดียวเท่านั้นสำหรับตอนนี้

10 ล้านดอลลาร์สำหรับการวิจัยเชิงป้องกัน

ควบคู่ไปกับ EVMbench OpenAI มุ่งมั่น 10 ล้านดอลลาร์ในเครดิต API โดยเฉพาะสำหรับการวิจัยความปลอดภัยเชิงป้องกัน บริษัทกำลังขยายตัวแทนการวิจัยความปลอดภัย Aardvark ไปยังผู้ใช้มากขึ้นและเป็นพันธมิตรกับผู้ดูแลโอเพนซอร์สสำหรับการสแกนโค้ดเบสฟรี

เวลามีความสำคัญ ในขณะที่ตัวแทน AI ดีขึ้นในการใช้ประโยชน์จากสัญญา หน้าต่างระหว่างการค้นพบช่องโหว่และการใช้ประโยชน์ก็แคบลง ทีมโปรโตคอลที่ไม่ได้ใช้การตรวจสอบที่ช่วยเหลือโดย AI จะพบว่าตัวเองเสียเปรียบมากขึ้นเมื่อเทียบกับผู้โจมตีที่ใช้

OpenAI เปิดตัวงาน เครื่องมือ และกรอบการประเมินของ EVMbench ต่อสาธารณะ สำหรับนักพัฒนา DeFi และนักวิจัยด้านความปลอดภัย มันเป็นทั้งไม้วัดและคำเตือนเกี่ยวกับทิศทางที่ความสามารถของ AI กำลังมุ่งหน้าไป

แหล่งที่มาของภาพ: Shutterstock