Waarom AI-veiligheidsfilters vaak falen bij training

Wat is er gebeurd

Het Language Model Interpretability-team van Google DeepMind publiceerde een onderzoeksupdate. Ze kijken naar waarom een veelgebruikte methode voor AI-veiligheid niet werkt zoals verwacht.

De methode heet SFT-filtering (Supervised Fine-Tuning filtering). Het idee is simpel: als een AI ongewenste antwoorden geeft, filter je die eruit. Dan train je de AI opnieuw met alleen "goede" voorbeelden.

Waarom dit belangrijk is

SFT wordt vaak gebruikt om AI veiliger te maken. Het team ontdekte dat deze filters "verrassend slecht" presteren. Ze onderzoeken zeven hypothesen waarom dit gebeurt.

Het bericht is de vierde update in een reeks. De vorige verscheen eerder dit jaar. Er komt ook werk van MATS (een AI-veiligheidsorganisatie) over hetzelfde probleem.

Uitleg voor niet-experts

Stel je voor: je leert een kind door alleen goede voorbeelden te laten zien. Maar het kind leert toch foute dingen. Dat is wat hier gebeurt met AI. Wetenschappers begrijpen nog niet precies waarom.

Wat we zeker weten

Google DeepMind onderzoekt dit actief
SFT-filtering werkt minder goed dan gedacht
Het team heeft zeven mogelijke verklaringen
Dit is onderdeel van lopend onderzoek

Wat nog onbekend is

Welke van de zeven hypothesen klopt, wordt niet vermeld. De volledige bevindingen komen in toekomstig MATS-werk. Concrete oplossingen worden niet genoemd.

Wat we zeker weten

Google DeepMind Language Model Interpretability team publiceerde vierde onderzoeksupdate
SFT-filtering voor veiligheidseigenschappen werkt verrassend slecht
Team onderzoekt zeven hypothesen voor dit falen
Er komt gerelateerd MATS-werk over dit onderwerp

Wat nog onbekend is

Welke van de zeven hypothesen correct zijn
Concrete details van waarom de filters falen
Tijdlijn voor publicatie van volledige bevindingen
Welke alternatieve methoden wel goed werken

Waar zit de coördinatie (AstraNL)

Dit onderzoek toont waarom AI-veiligheid niet alleen technisch, maar ook coördinatieproblemen heeft. Voor AstraNL betekent dit: systemen die mensen, AI en processen samenbrengen, moeten begrijpen dat 'filteren' niet automatisch 'veilig' betekent. Menselijke verificatie blijft cruciaal.

Bron

https://www.alignmentforum.org/posts/wyZRNgpeiPeRXB6eT/why-do-naive-sft-filters-for-safety-properties-fail

AI-veiligheidGoogle DeepMindSFT-filteringtaalmodellenAI-training

Wat is er gebeurd

Waarom dit belangrijk is

Uitleg voor niet-experts

Wat we zeker weten

Wat nog onbekend is

Wat we zeker weten

Wat nog onbekend is

Waar zit de coördinatie (AstraNL)

Bron

AstraNL — coordination intelligence infrastructure