- OpenAI und der Krypto-Investor Paradigm haben mit EVMbench einen Benchmark vorgestellt, der KI-Agenten beim Finden, Ausnutzen und Beheben von EVM-Schwachstellen testet.
- In ersten Tests schneidet ein Codex-Modell im „Exploit“-Modus deutlich besser ab als ein älteres GPT-5-Setup, während Erkennung und Patch-Abdeckung weiterhin unvollständig sind.
OpenAI und Paradigm ziehen die Messlatte für KI in der Smart-Contract-Sicherheit neu. Mit EVMbench soll erstmals systematisch geprüft werden, wie gut Agenten nicht nur Schwachstellen erkennen, sondern den gesamten Angriffs- und Abwehrzyklus abbilden können, vom Bug bis zum Patch.
120 reale High-Severity-Fälle statt Laboraufgaben
Der Benchmark basiert auf 120 hochkritischen Vulnerabilities, kuratiert aus 40 professionellen Audits. Der Datensatz orientiert sich an realen Fehlerbildern aus dem EVM-Umfeld, also Ethereum und kompatiblen Ausführungsumgebungen, in denen ein Bug schnell zur Frage wird, ob sich Funds abziehen lassen. Als eine Quelle der Szenarien wird auch die Tempo-Chain genannt, die in den Benchmark-Kontext einfließt.
EVMbench ist dabei nicht als Code-Rätselwettbewerb gedacht. Die Aufgaben sollen das praktische Vorgehen abklopfen, inklusive Reproduktion, Exploit-Pfad und anschließender Reparatur. Für die Branche ist das interessant, weil genau diese Kette in der Realität zählt, besonders bei Protokollen mit hohem TVL.
Exploit-Fortschritt, Patch-Lücke
Auffällig sind die frühen Resultate im Exploit-Modus. Ein Modell, das als GPT-5.3-Codex geführt wird, erreicht dort 72,2 Prozent, während ein früheres GPT-5-Setup bei 31,9 Prozent liegt. Das signalisiert vor allem eins: Angriffsautomatisierung wird für KI schneller greifbar als saubere Abhilfe.
Die Anbieter betonen zugleich, dass die Abdeckung bei Detection und Patching noch nicht vollständig ist. Genau dort entscheidet sich, ob KI eher als Verteidigungswerkzeug taugt oder ob sie zunächst vor allem die Kosten für Angreifer senkt.







