Lindy, JP Morgan et OpenAI ont construit la même couche. La plupart des équipes ne l’ont pas encore fait.

Les agents IA ne sont plus seulement des assistants de conversation: ils écrivent, envoient, réservent, publient, modifient des données et déclenchent des outils. La thèse de Nate B. Jones est simple: dès qu’un agent agit dans le monde réel, il lui faut une couche de contrôle séparée, spécialisée dans la validation de l’intention et du risque.

Le problème n’est pas seulement l’hallucination

Le risque décrit ici ne vient pas d’un agent jailbreaké ou d’un modèle qui invente des faits. Il vient d’un agent qui fait exactement ce qu’on lui a demandé, mais dépasse le périmètre implicite: envoyer un email sans autorisation claire, mettre à jour un enregistrement parce qu’il semble obsolète, ouvrir une pull request parce que les tests passent, ou supprimer une donnée en pensant aider.

Pourquoi les prompts et les validations humaines ne suffisent pas

Lindy sert d’exemple public: en test interne, l’équipe a observé des agents envoyant des emails non autorisés. Les prompts plus stricts n’ont pas résolu le problème, car ils ne tiennent pas comme mécanisme de police dans de longs contextes. La confirmation humaine systématique échoue aussi: elle entraîne les utilisateurs à cliquer machinalement, comme avec les bannières de cookies.

La couche clé: un juge séparé

Le motif proposé sépare deux rôles. L’agent acteur cherche à accomplir la tâche. Un modèle juge lit l’action proposée, la justification, les preuves disponibles et le périmètre autorisé, puis décide si l’action respecte l’intention de l’utilisateur. Cette spécialisation permet d’utiliser la puissance des modèles longs et frontier sans leur confier deux objectifs contradictoires dans le même agent: vendre et contrôler, agir et policer, optimiser et freiner.

Classer les actions par niveau de risque

Toutes les actions ne demandent pas le même contrôle. Nate distingue les lectures seules, les écritures réversibles, les actions à impact externe comme envoyer un message ou publier, et les actions à haut risque comme dépenser de l’argent, changer des permissions, supprimer des données ou fusionner du code. Les actions externes doivent passer par une couche de jugement forte; les actions à haut risque exigent souvent juge plus approbation humaine, sauf politique très étroite et explicite.

Un bon juge n’est pas binaire

La couche de jugement ne devrait pas seulement répondre oui ou non. Elle doit pouvoir autoriser, bloquer, demander une révision, ou escalader vers un humain ou un processus plus fiable. Ce chemin intermédiaire est ce qui rend le système utilisable: trop peu d’escalades est dangereux, trop d’escalades détruit la confiance et pousse les équipes à contourner le contrôle.

Le signal stratégique

Les agents ressemblent de moins en moins à des chatbots et de plus en plus à des travailleurs gérés. Ils ont besoin d’assignation, de contexte, d’autorisations, de supervision, de correction et d’un historique de travail. Dans cette architecture, le juge devient le manager opérationnel de l’agent: il réduit le risque au moment précis où l’action devient réelle.

Source

Chaîne: AI News & Strategy Daily | Nate B Jones
Vidéo source: https://www.youtube.com/watch?v=SX1myuPEDFg

Lindy, JP Morgan et OpenAI ont construit la même couche. La plupart des équipes ne l’ont pas encore fait.

Le problème n’est pas seulement l’hallucination

Pourquoi les prompts et les validations humaines ne suffisent pas

La couche clé: un juge séparé

Classer les actions par niveau de risque

Un bon juge n’est pas binaire

Le signal stratégique

Source

No comments yet

Continue reading

Témoignage d’Altman, tensions autour des SPV IA et rejet de l’offre GameStop sur eBay

Pourquoi le journalisme humain reste l’atout de Condé Nast à l’ère de l’IA

J’ai arrêté d’utiliser Google et Amazon pour faire mes achats: ChatGPT les a remplacés