2 février 2026

Comment mesurer la performance des agents IA

Vous avez déployé un agent IA. Il semble fonctionner. Mais est-il réellement performant ? “Il donne généralement la bonne réponse” n’est pas un cadre d’évaluation. Si vous souhaitez améliorer la performance de vos agents de manière systématique, vous devez la mesurer de manière systématique.

Voici le cadre que nous utilisons.

Les six indicateurs qui comptent

1. Taux de complétion des tâches

La question la plus fondamentale : l’agent termine-t-il ce qu’il commence ? Suivez le pourcentage de tâches qui atteignent un état terminal réussi par rapport à celles qui échouent, expirent ou nécessitent une reprise humaine.

Un faible taux de complétion indique que quelque chose ne fonctionne pas. Un taux de complétion élevé indique que l’agent est fonctionnel — mais pas nécessairement performant. Les autres indicateurs sont nécessaires pour distinguer “terminé” de “bien terminé”.

2. Précision et qualité

L’agent a-t-il produit le bon résultat ? Cet indicateur est spécifique au domaine et souvent le plus difficile à automatiser.

Pour les tâches structurées (extraction de données, classification, remplissage de formulaires), vous pouvez comparer les résultats de l’agent à des jeux de données de référence. Pour les tâches moins structurées (rédaction de réponses, synthèse de documents), vous avez besoin de grilles d’évaluation — soit des évaluateurs humains notant les résultats selon des critères définis, soit des évaluations de type LLM-as-judge calibrées sur des jugements humains.

Nous utilisons les deux approches. Les évaluations automatisées détectent rapidement les régressions. Les évaluations humaines périodiques détectent les problèmes de qualité que les contrôles automatisés manquent.

3. Latence

Combien de temps l’agent met-il pour accomplir une tâche ? Les utilisateurs et les systèmes en aval ont des attentes en matière de latence. Un agent qui produit une réponse parfaite en dix minutes alors que l’utilisateur en avait besoin en dix secondes a échoué.

Décomposez la latence en composantes : temps d’inférence du LLM, latence des appels d’outils et temps d’attente (pour les étapes d’intervention humaine ou les dépendances externes). Cette décomposition vous indique où optimiser.

4. Coût par tâche

Chaque exécution d’agent coûte de l’argent : tokens LLM, appels API, ressources de calcul. Suivez le coût total chargé de chaque exécution de tâche.

Cet indicateur est important pour deux raisons. Premièrement, il détermine le retour sur investissement. Si l’agent coûte plus par tâche que l’humain qu’il remplace, vous avez un problème. Deuxièmement, les pics de coûts indiquent souvent des bugs — un agent bloqué dans une boucle de raisonnement ou effectuant des appels API redondants apparaîtra dans les données de coûts avant de se manifester ailleurs.

5. Taux d’escalade

À quelle fréquence l’agent transfère-t-il à un humain ? Un certain niveau d’escalade est positif — cela signifie que les garde-fous fonctionnent. Trop d’escalades signifie que l’agent n’est pas assez autonome pour justifier son existence.

Suivez les escalades par motif : faible confiance, entrée hors périmètre, contrainte de politique, récupération d’erreur. Chaque catégorie a une solution différente. Un taux élevé d’escalades pour faible confiance peut signifier que vous avez besoin de meilleurs prompts ou de plus d’exemples. Un taux élevé d’escalades hors périmètre peut signifier que vous devez étendre les capacités de l’agent ou affiner le routage des tâches.

6. Satisfaction des utilisateurs

Si des humains interagissent avec les résultats de l’agent — reçoivent ses réponses, examinent son travail, utilisent ses résultats — leur satisfaction est le signal de qualité ultime. Collectez-la.

Cela peut être aussi simple qu’un pouce levé/baissé sur les résultats de l’agent, ou aussi structuré que des enquêtes CSAT périodiques. L’essentiel est de boucler la boucle entre ce que l’agent produit et son utilité réelle.

Pourquoi vous avez besoin d’un cadre, pas seulement d’indicateurs

Les indicateurs individuels sont faciles à manipuler ou à mal interpréter. Un agent peut avoir un taux de complétion de 95 % en ne tentant que les tâches faciles. Il peut avoir un faible coût par tâche en sacrifiant la qualité. Il peut avoir des scores de satisfaction élevés parce que les utilisateurs ne notent que les bons résultats.

Le cadre fonctionne parce que les indicateurs se contraignent mutuellement. Taux de complétion élevé plus haute précision plus latence acceptable plus coût raisonnable plus faible taux d’escalade plus retour utilisateur positif — voilà un bon agent. Une faiblesse dans n’importe quelle dimension vous indique précisément où concentrer vos efforts.

Boucles d’évaluation

L’évaluation statique ne suffit pas. La performance des agents évolue dans le temps à mesure que les distributions de données changent, que les systèmes en amont évoluent et que les attentes des utilisateurs se transforment.

Intégrez l’évaluation dans votre cycle opérationnel :

Évaluation automatisée continue. Exécutez des suites de tests sur vos agents selon un calendrier régulier. Détectez les régressions avant vos utilisateurs.
Évaluation humaine périodique. Échantillonnez les résultats des agents chaque semaine ou chaque mois et faites-les examiner par des experts métier selon vos grilles de qualité.
Supervision en production. Suivez les six indicateurs en temps réel. Configurez des alertes pour les anomalies.
Intégration des retours. Réinjectez les retours utilisateurs et les données d’escalade dans l’amélioration des agents — meilleurs prompts, exemples supplémentaires, configurations d’outils affinées.

Cela crée un cercle vertueux : mesurer, identifier les faiblesses, améliorer, mesurer à nouveau. Les agents intégrés dans cette boucle s’améliorent avec le temps. Ceux qui ne le sont pas stagnent — ou se dégradent silencieusement pendant que tout le monde suppose qu’ils fonctionnent correctement.

Mesurez avant d’optimiser

L’erreur la plus courante que nous observons est celle d’équipes qui optimisent le comportement des agents sur la base de ressentis. “On a l’impression que ça s’améliore.” Ce n’est pas de l’ingénierie. Définissez vos indicateurs, établissez des référentiels et laissez les données vous indiquer où investir. Le cadre ne rendra pas vos agents parfaits, mais il rendra l’amélioration délibérée plutôt qu’accidentelle.