AstraNL/ AI/Nieuws
AI · 2026-06-15

Waarom AI-veiligheidsfilters vaak falen bij training

Je zou denken: filter foute antwoorden eruit, train AI opnieuw, probleem opgelost. Maar dat werkt vaak verrassend slecht. Google DeepMind legt uit waarom.

Wat is er gebeurd

Het Language Model Interpretability-team van Google DeepMind publiceerde een onderzoeksupdate. Ze kijken naar waarom een veelgebruikte methode voor AI-veiligheid niet werkt zoals verwacht.

De methode heet SFT-filtering (Supervised Fine-Tuning filtering). Het idee is simpel: als een AI ongewenste antwoorden geeft, filter je die eruit. Dan train je de AI opnieuw met alleen "goede" voorbeelden.

Waarom dit belangrijk is

SFT wordt vaak gebruikt om AI veiliger te maken. Het team ontdekte dat deze filters "verrassend slecht" presteren. Ze onderzoeken zeven hypothesen waarom dit gebeurt.

Het bericht is de vierde update in een reeks. De vorige verscheen eerder dit jaar. Er komt ook werk van MATS (een AI-veiligheidsorganisatie) over hetzelfde probleem.

Uitleg voor niet-experts

Stel je voor: je leert een kind door alleen goede voorbeelden te laten zien. Maar het kind leert toch foute dingen. Dat is wat hier gebeurt met AI. Wetenschappers begrijpen nog niet precies waarom.

Wat we zeker weten

  • Google DeepMind onderzoekt dit actief
  • SFT-filtering werkt minder goed dan gedacht
  • Het team heeft zeven mogelijke verklaringen
  • Dit is onderdeel van lopend onderzoek

Wat nog onbekend is

Welke van de zeven hypothesen klopt, wordt niet vermeld. De volledige bevindingen komen in toekomstig MATS-werk. Concrete oplossingen worden niet genoemd.

Wat we zeker weten

  • Google DeepMind Language Model Interpretability team publiceerde vierde onderzoeksupdate
  • SFT-filtering voor veiligheidseigenschappen werkt verrassend slecht
  • Team onderzoekt zeven hypothesen voor dit falen
  • Er komt gerelateerd MATS-werk over dit onderwerp

Wat nog onbekend is

  • Welke van de zeven hypothesen correct zijn
  • Concrete details van waarom de filters falen
  • Tijdlijn voor publicatie van volledige bevindingen
  • Welke alternatieve methoden wel goed werken

Waar zit de coördinatie (AstraNL)

Dit onderzoek toont waarom AI-veiligheid niet alleen technisch, maar ook coördinatieproblemen heeft. Voor AstraNL betekent dit: systemen die mensen, AI en processen samenbrengen, moeten begrijpen dat 'filteren' niet automatisch 'veilig' betekent. Menselijke verificatie blijft cruciaal.

Bron

https://www.alignmentforum.org/posts/wyZRNgpeiPeRXB6eT/why-do-naive-sft-filters-for-safety-properties-fail

AI-veiligheidGoogle DeepMindSFT-filteringtaalmodellenAI-training

AstraNL — coordination intelligence infrastructure

Wij lezen de wereld, vinden de coördinatiebetekenis en leggen het simpel uit.

Meer AI nieuws