La manière la plus juste de comparer Codex d'OpenAI et Devin de Codeium est de les juger sur la même tâche : gérer et modifier une base de code de production existante. Lorsque vous modifiez un dépôt volumineux, les mesures de génération du premier jet d'un outil de codage ne comptent plus. Vous testez alors la connaissance du contexte, la surcharge d'indexation des répertoires et la capacité d'un agent à s'intégrer harmonieusement dans des branches Git établies sans créer de conflits de fusion massifs et ingérables.
Ce flux de travail expose les limites de la façon dont les systèmes natifs IA gèrent les modèles d'ingénierie existants. Un agent qui fonctionne parfaitement sur de petits exercices isolés échoue souvent face à des environnements de production contenant des arbres de dépendances profonds, des scripts de build complexes et des frameworks hérités. Mesurer ces outils sur une base de code réelle met en lumière la gestion de la surcharge de tokens, des bacs à sable de terminal et des contrôles de remplacement manuels.