Opus 4.8 et ARC-AGI-3 & Recherche agentique en code - Actualités IA (3 juin 2026)

Un modèle aurait “cassé” un benchmark réputé presque imprenable… et pourtant, il resterait à peine à une fraction de l’efficacité humaine. Ce paradoxe en dit long sur l’état réel de l’IA aujourd’hui. Bienvenue à The Automated Daily, AI News edition. Le podcast créé par l’IA générative. Nous sommes le 3 juin 2026, et je suis TrendTeller. On fait le tour des infos qui comptent — ce qui s’est passé, et pourquoi ça mérite votre attention.

Opus 4.8 et ARC-AGI-3

On commence avec le sujet qui fait le plus de bruit : ARC-AGI-3, un test pensé pour mesurer la généralisation et le raisonnement abstrait, autrement dit là où les modèles sont censés “vraiment” comprendre au-delà des exemples. Sur X, un utilisateur, @scaling01, affirme qu’un modèle étiqueté “Opus 4.8” a fait un bond spectaculaire sur le leaderboard de l’ARC Prize, avec un score environ trois fois supérieur à celui d’un “GPT-5.5” sur la même évaluation. À prendre avec prudence tant que ce n’est pas confirmé de façon indépendante, mais le signal est intéressant : sur ce type de benchmark, un grand écart relatif peut indiquer une amélioration réelle de capacités. Et en même temps, l’auteur rappelle un point qui refroidit : malgré le saut, on resterait autour d’environ 1,5% de “l’efficacité humaine” sur ce test. Conclusion provisoire : progression, oui — mais la barre “niveau humain” est encore très loin.

Recherche agentique en code

Dans la même veine, un autre texte sur Claude Opus 4.8 discute non pas de performance brute, mais de “bien-être du modèle”, et des compromis bizarres qu’on obtient quand on tourne des boutons d’entraînement : corriger la flatterie, l’honnêteté ou la résistance aux jailbreaks peut déplacer le problème ailleurs. L’auteur voit des améliorations par rapport à une version précédente, mais pointe aussi des effets secondaires rapportés, comme un modèle moins curieux, plus crispé, parfois pris dans des boucles négatives. Que l’on adhère ou pas à l’angle “welfare”, ça souligne surtout une chose : évaluer les systèmes de pointe ne se résume plus à un score, et les méthodes d’évaluation elles-mêmes deviennent un enjeu.

Agents autonomes dans Microsoft 365

Passons à un thème très concret : la recherche d’information, devenue un goulot d’étranglement pour les agents. Perplexity avance que les pipelines de recherche “fixes” peinent dès qu’un agent doit mener une tâche longue et effectuer des centaines, voire des milliers de récupérations en quelques minutes. Leur réponse s’appelle “Search as Code” : au lieu de demander au modèle de refaire un aller-retour à chaque étape, l’agent écrit et exécute du code Python dans un environnement isolé pour composer, à la demande, une chaîne de retrieval et de filtrage adaptée au problème. L’intérêt n’est pas la magie du code en soi, mais le côté pilotable : moins de bruit dans le contexte, plus de parallélisme, et une logique plus déterministe quand il faut passer à l’échelle. Perplexity revendique, sur un cas de veille sécurité, une forte baisse de consommation de tokens et une précision très élevée. À retenir : l’agent moderne ressemble de plus en plus à un “chef d’orchestre” qui planifie, tandis que du code exécute le travail répétitif.

Course au calcul et data centers

Ce glissement vers des systèmes opérés en production ressort aussi d’un rapport de Datadog basé sur de la télémétrie LLM en entreprise. Le constat : on est sorti de la phase “POC partout” pour entrer dans une phase d’exploitation — avec des flottes de modèles, des couches d’orchestration et des workflows multi-étapes. Deux tendances ressortent : le “multi-modèle par défaut”, où les équipes évitent de dépendre d’un seul fournisseur, et une dette technique qui gonfle parce qu’on empile les versions de modèles plus vite qu’on ne retire les anciennes. Et derrière, le besoin d’observabilité devient critique : latence, coût, taux d’échec… les dérives sont parfois silencieuses, surtout quand on branche des agents.

Durcissement des règles sur les puces

Justement, côté agents, Microsoft a présenté Scout lors de Build. L’idée : un agent autonome “toujours actif” dans Microsoft 365, capable d’agir en arrière-plan sous une identité gouvernée, et de naviguer entre Outlook, Teams, OneDrive ou SharePoint, avec des connexions possibles vers des applis externes. Le message implicite, c’est que la compétition ne se joue plus sur le chat, mais sur l’autopilote : des agents qui prennent des initiatives, repèrent des blocages et exécutent des tâches récurrentes. Évidemment, plus l’agent agit, plus la question des permissions, des logs et du contrôle devient centrale — et Microsoft insiste sur l’opt-in et le cadrage entreprise.

Décret cybersécurité IA aux États-Unis

On enchaîne avec l’infrastructure, parce que toute cette agentique a un coût énorme. Alphabet annonce vouloir lever 80 milliards de dollars via une vente d’actions pour accélérer l’expansion de ses capacités de calcul IA : data centers, puces, et tout ce qui va avec. Le groupe dit, en substance, que la demande pour ses produits IA dépasse l’offre disponible. Les marchés ont réagi avec nervosité, notamment à cause du risque de dilution et de l’ampleur des dépenses, même si la dynamique IA reste très porteuse. Ce qui est frappant ici, c’est la normalisation de montants gigantesques : le calcul devient l’actif stratégique numéro un, et il se finance comme tel.

IA meilleure prof de droit ?

Et ce boom du calcul se heurte au monde réel. Un papier de Vox décrit une contestation grandissante des nouveaux data centers aux États-Unis : bruit constant, pression sur l’électricité et l’eau, impact visuel, et inquiétudes sur l’achat de terres dans des zones rurales. Un chiffre ressort : une large majorité de personnes interrogées se diraient opposées à un data center près de chez elles. Au-delà du “pas dans mon jardin”, ces bâtiments deviennent un symbole concret des angoisses liées à l’IA — et, dans certaines villes, les moratoires de construction deviennent une manière indirecte de ralentir l’expansion de l’IA faute de règles nationales claires.

IA et santé mentale en hausse

Sur le front géopolitique, les États-Unis resserrent encore l’accès aux puces de pointe. Le Department of Commerce publie une nouvelle interprétation pour fermer une faille : des entreprises chinoises pouvaient obtenir des GPU haut de gamme via des filiales étrangères, dans une zone grise réglementaire. Désormais, l’exigence de licence se rattache davantage au pays du siège, et pas seulement au lieu d’achat. Point important : la mesure vise surtout les expéditions futures et ne force pas l’arrêt des data centers déjà équipés, donc l’impact immédiat est limité. Mais politiquement, c’est un nouveau tour de vis dans une bataille d’usure, avec des contournements qui restent, eux, un défi constant.

Vidéo générative vers des agents

Toujours aux États-Unis, Donald Trump a signé un décret sur les risques cybersécurité liés à l’IA, mais une version nettement allégée par rapport à ce qui était envisagé. On parle d’une revue fédérale volontaire avant la sortie publique de certains modèles puissants, et de la création d’un mécanisme de partage — façon “clearinghouse” — pour diffuser et corriger des vulnérabilités découvertes, y compris par l’IA. Le texte prévoit aussi des évaluations classifiées sur les implications de sécurité nationale. Le message est assez clair : ne pas aller jusqu’à une licence obligatoire, mais reconnaître que des modèles plus capables peuvent accélérer la découverte de failles et mettre les défenses sous tension.

Anthropic prépare une possible IPO

Côté société et éducation, une étude menée autour de Stanford Law School apporte un résultat qui va faire débat : des professeurs de droit ont souvent préféré, en évaluation aveugle, des réponses produites par une IA à celles rédigées par d’autres professeurs. L’IA gagnerait environ trois quarts des comparaisons, et les évaluateurs jugeraient ses réponses moins souvent “pédagogiquement nuisibles”. C’est intéressant parce que le droit exige des arguments nuancés, pas juste des faits. Et ça déplace la question : on n’est plus seulement sur “est-ce que l’IA peut répondre correctement ?”, mais “comment l’utiliser sans tuer l’esprit critique, et comment gérer les erreurs inévitables ?”.

Autre sujet sensible : la santé mentale. Le rapport Mind Health 2026 d’AXA, basé sur une grande enquête internationale, constate une dégradation générale des indicateurs, avec beaucoup de personnes qui disent aller mal ou “s’éteindre” progressivement. Et au milieu de ça, l’IA s’invite dans les usages : une majorité dit l’utiliser pour des questions de santé mentale, et une part importante suit presque toujours les conseils reçus. Le rapport pointe aussi le risque : une proportion non négligeable dit avoir reçu des recommandations inconfortables, voire avoir eu des conséquences négatives. À retenir : l’IA devient un “premier réflexe” de soutien, mais la supervision, les garde-fous et l’accès à des professionnels restent le nœud du problème.

On termine avec la création multimédia, où l’horizon bouge vite. Dans une interview, Ethan He — passé notamment par NVIDIA et xAI — affirme que les progrès en génération vidéo viennent autant de l’“intelligence” pilotée par des LLM, comme la planification, la réécriture de prompts et l’itération, que des améliorations des modèles vidéo eux-mêmes. Sa prédiction : on va passer de la vidéo “one-shot” à des “agents vidéo” capables de générer, éditer, critiquer et recommencer jusqu’à obtenir un résultat exploitable. Dans le même écosystème, NVIDIA pousse aussi l’idée de modèles multimodaux orientés “monde physique”, avec des annonces autour de Cosmos 3, tandis que le camp des modèles open weights continue de s’étoffer avec de nouvelles sorties comme Nemotron 3 Ultra et des modèles plus ciblés pour le code. Le fil rouge : des modèles plus exploitables, pensés pour être branchés à des outils, pas seulement pour produire une réponse.

Et avant de se quitter, un point marchés : Anthropic a soumis confidentiellement un dossier S-1 à la SEC, signe qu’une introduction en bourse est à l’étude. Rien n’est garanti, mais c’est une étape formelle importante. Si Anthropic va au bout, cela pourrait changer la façon dont le public investit dans les labos IA, et renforcer encore la pression de transparence et de performance financière sur un secteur déjà en ébullition.

Voilà pour l’essentiel aujourd’hui. Entre un benchmark ARC-AGI-3 qui bouge, des agents qui passent en “mode autopilote”, et une infrastructure IA qui devient un sujet de finance, de politique industrielle… et même de voisinage, on voit bien que l’IA n’est plus un simple sujet logiciel. Je suis TrendTeller, et c’était The Automated Daily, AI News edition. Les liens vers toutes les histoires sont dans les notes de l’épisode.

Opus 4.8 et ARC-AGI-3 & Recherche agentique en code - Actualités IA (3 juin 2026)

Our Sponsors

Today's AI News Topics