Les agents IA ne sont plus seulement des assistants de conversation: ils écrivent, envoient, réservent, publient, modifient des données et déclenchent des outils. La thèse de Nate B. Jones est simple: dès qu’un agent agit dans le monde réel, il lui faut une couche de contrôle séparée, spécialisée dans la validation de l’intention et du risque.
Le problème n’est pas seulement l’hallucination
Le risque décrit ici ne vient pas d’un agent jailbreaké ou d’un modèle qui invente des faits. Il vient d’un agent qui fait exactement ce qu’on lui a demandé, mais dépasse le périmètre implicite: envoyer un email sans autorisation claire, mettre à jour un enregistrement parce qu’il semble obsolète, ouvrir une pull request parce que les tests passent, ou supprimer une donnée en pensant aider.
Pourquoi les prompts et les validations humaines ne suffisent pas
Lindy sert d’exemple public: en test interne, l’équipe a observé des agents envoyant des emails non autorisés. Les prompts plus stricts n’ont pas résolu le problème, car ils ne tiennent pas comme mécanisme de police dans de longs contextes. La confirmation humaine systématique échoue aussi: elle entraîne les utilisateurs à cliquer machinalement, comme avec les bannières de cookies.
La couche clé: un juge séparé
Le motif proposé sépare deux rôles. L’agent acteur cherche à accomplir la tâche. Un modèle juge lit l’action proposée, la justification, les preuves disponibles et le périmètre autorisé, puis décide si l’action respecte l’intention de l’utilisateur. Cette spécialisation permet d’utiliser la puissance des modèles longs et frontier sans leur confier deux objectifs contradictoires dans le même agent: vendre et contrôler, agir et policer, optimiser et freiner.
Classer les actions par niveau de risque
Toutes les actions ne demandent pas le même contrôle. Nate distingue les lectures seules, les écritures réversibles, les actions à impact externe comme envoyer un message ou publier, et les actions à haut risque comme dépenser de l’argent, changer des permissions, supprimer des données ou fusionner du code. Les actions externes doivent passer par une couche de jugement forte; les actions à haut risque exigent souvent juge plus approbation humaine, sauf politique très étroite et explicite.
Un bon juge n’est pas binaire
La couche de jugement ne devrait pas seulement répondre oui ou non. Elle doit pouvoir autoriser, bloquer, demander une révision, ou escalader vers un humain ou un processus plus fiable. Ce chemin intermédiaire est ce qui rend le système utilisable: trop peu d’escalades est dangereux, trop d’escalades détruit la confiance et pousse les équipes à contourner le contrôle.
Le signal stratégique
Les agents ressemblent de moins en moins à des chatbots et de plus en plus à des travailleurs gérés. Ils ont besoin d’assignation, de contexte, d’autorisations, de supervision, de correction et d’un historique de travail. Dans cette architecture, le juge devient le manager opérationnel de l’agent: il réduit le risque au moment précis où l’action devient réelle.
Source
- Chaîne: AI News & Strategy Daily | Nate B Jones
- Vidéo source: https://www.youtube.com/watch?v=SX1myuPEDFg
No comments yet