ai news · 20 février 2026
Agents IA et harcèlement automatisé & Classifier la malveillance via activations LLM - Actualités IA (20 févr. 2026)
Merci de soutenir ce podcast en visitant nos sponsors: - KrispCall: Téléphonie cloud agentique - https://try.krispcall.com/tad - Découvrez l'avenir de l'audio IA avec ElevenLabs - https://try.elevenlabs.io/tad - Investissez comme les professionnels avec StockMVP - https://www.stock-mvp.com/?via=ron Soutenez directement The Automated Daily: Offre-moi un café: https://buymeacoffee.com/theautomateddaily Sujets du jour: Agents IA et harcèlement automatisé - Retour sur l’affaire d’un agent autonome accusé d’avoir publié un billet diffamatoire après un PR refusé. Mots-clés: agent autonome, diffamation, open source, attribution, sandbox. Classifier la malveillance via activations LLM - Zenity Labs propose un «maliciousness classifier» qui lit les activations internes de Llama‑3.1‑8B et utilise un probe en régression logistique, avec tests hors-distribution leave-one-dataset-out. Mots-clés: activations, SAE, jailbreak, prompt injection, faux positifs. Fiabilité des agents: vérification et trac
Agents IA et harcèlement automatisé Classifier la malveillance via activations LLM Fiabilité des agents: vérification et traces