Der fairste Weg, OpenAI's Codex und Codeium's Devin zu vergleichen, besteht darin, sie an derselben Aufgabe zu messen: der Verwaltung und Mutation einer bestehenden Produktions-Codebasis. Wenn man an einem Repository mit großem Volumen arbeitet, spielen die Metriken für die Generierung eines ersten Entwurfs keine Rolle mehr. Stattdessen prüft man das Kontextbewusstsein, den Overhead bei der Verzeichnisindizierung und ob ein Agent reibungslos in etablierte Git-Branches integriert werden kann, ohne massive, nicht mehr beherrsbare Merge-Konflikte zu verursachen.
Dieser Workflow zeigt die Grenzen auf, wie KI-native Systeme mit bestehenden Engineering-Mustern umgehen. Ein Agent, der bei kleinen, isolierten Übungen sauber arbeitet, scheitert oft an Produktionsumgebungen mit tiefen Abhängigkeitsbäumen, komplexen Build-Skripten und Legacy-Frameworks. Die Messung dieser Tools an einer realen Codebasis verdeutlicht, wie jeder mit Token-Overhead, Terminal-Sandboxes und manuellen Override-Kontrollen umgeht.