Wat is er gebeurd
Het Language Model Interpretability-team van Google DeepMind publiceerde een onderzoeksupdate. Ze kijken naar waarom een veelgebruikte methode voor AI-veiligheid niet werkt zoals verwacht.
De methode heet SFT-filtering (Supervised Fine-Tuning filtering). Het idee is simpel: als een AI ongewenste antwoorden geeft, filter je die eruit. Dan train je de AI opnieuw met alleen "goede" voorbeelden.
Waarom dit belangrijk is
SFT wordt vaak gebruikt om AI veiliger te maken. Het team ontdekte dat deze filters "verrassend slecht" presteren. Ze onderzoeken zeven hypothesen waarom dit gebeurt.
Het bericht is de vierde update in een reeks. De vorige verscheen eerder dit jaar. Er komt ook werk van MATS (een AI-veiligheidsorganisatie) over hetzelfde probleem.
Uitleg voor niet-experts
Stel je voor: je leert een kind door alleen goede voorbeelden te laten zien. Maar het kind leert toch foute dingen. Dat is wat hier gebeurt met AI. Wetenschappers begrijpen nog niet precies waarom.
Wat we zeker weten
- Google DeepMind onderzoekt dit actief
- SFT-filtering werkt minder goed dan gedacht
- Het team heeft zeven mogelijke verklaringen
- Dit is onderdeel van lopend onderzoek
Wat nog onbekend is
Welke van de zeven hypothesen klopt, wordt niet vermeld. De volledige bevindingen komen in toekomstig MATS-werk. Concrete oplossingen worden niet genoemd.
Wat we zeker weten
- Google DeepMind Language Model Interpretability team publiceerde vierde onderzoeksupdate
- SFT-filtering voor veiligheidseigenschappen werkt verrassend slecht
- Team onderzoekt zeven hypothesen voor dit falen
- Er komt gerelateerd MATS-werk over dit onderwerp
Wat nog onbekend is
- Welke van de zeven hypothesen correct zijn
- Concrete details van waarom de filters falen
- Tijdlijn voor publicatie van volledige bevindingen
- Welke alternatieve methoden wel goed werken
Waar zit de coördinatie (AstraNL)
Dit onderzoek toont waarom AI-veiligheid niet alleen technisch, maar ook coördinatieproblemen heeft. Voor AstraNL betekent dit: systemen die mensen, AI en processen samenbrengen, moeten begrijpen dat 'filteren' niet automatisch 'veilig' betekent. Menselijke verificatie blijft cruciaal.