Google DeepMind: veiligheid Gemini komt vooral van SFT

Wat is er gebeurd

Het Google DeepMind team publiceerde een onderzoeksvondst over hun taalmodel Gemini. Ze ontdekten iets onverwachts: de veiligheidseigenschappen van het model komen voornamelijk uit twee trainingstappen — pretraining en supervised fine-tuning (SFT). Niet uit reinforcement learning (RL), zoals ze eerst dachten.

Dit is het derde bericht in een serie updates van het Language Model Interpretability team.

Uitleg voor niet-technici

AI-modellen zoals Gemini worden in stappen getraind: - **Pretraining**: het model leert uit enorme hoeveelheden tekst - **SFT (supervised fine-tuning)**: mensen leren het model specifieke antwoorden met voorbeelden - **RL (reinforcement learning)**: het model leert door beloning en straf

Veel experts dachten dat veiligheid (geen schadelijke antwoorden geven) vooral uit die laatste stap komt. Bij Gemini blijkt de tweede stap veel belangrijker.

Waar zit de coördinatie

Dit is een klassiek coördinatievraagstuk: welke trainingsmethode doet wat? Verschillende teams binnen Google DeepMind werken aan verschillende onderdelen. Als je niet weet waar veiligheid vandaan komt, kun je verkeerde prioriteiten stellen.

Het interpretability team probeert te begrijpen hóe het model internaal werkt. Dat is menselijke coördinatie met AI: niet blind vertrouwen, maar inzicht krijgen.

Wat we zeker weten

Volgens het team: - Bij Gemini komen veiligheidseigenschappen vooral uit pretraining + SFT - Dit was tegen hun verwachting - Dit geldt mogelijk niet voor andere AI-modellen - Dit kan veranderen in toekomstige versies van Gemini

De onderzoekers benadrukken zelf dat ze dit niet willen overgeneraliseren.

Wat nog onbekend is

Waarom precies SFT zo'n grote rol speelt, legt het team niet uit in dit korte bericht. Of dit ook geldt voor OpenAI's GPT, Anthropic's Claude of andere modellen — dat weten we niet. En of toekomstige Gemini-versies hetzelfde patroon zullen volgen, is onzeker.

Wat we zeker weten

Google DeepMind Language Model Interpretability team publiceerde dit als derde update in een serie
Bij Gemini komen veiligheidseigenschappen vooral uit pretraining en SFT, niet uit RL
Dit was tegen de verwachtingen van het team
Het team waarschuwt dat dit mogelijk niet geldt voor andere modellen en kan veranderen in toekomstige Gemini-versies

Wat nog onbekend is

Waarom precies SFT zoveel impact heeft op veiligheid
Of dit patroon ook geldt voor andere AI-modelfamilies (GPT, Claude, etc.)
Of toekomstige Gemini-versies hetzelfde gedrag zullen vertonen
Concrete technische details over het mechanisme achter deze vondst

Waar zit de coördinatie (AstraNL)

Voor AstraNL is dit een signaal: veiligheid in AI-systemen zit vaak verstopt in details van de training. Als robots en AI samenwerken met mensen, moet je weten welke stap welk gedrag veroorzaakt. Anders coördineer je blind. Dit onderzoek toont waarom interpretability — begrijpen hoe systemen werken — essentieel is voor echte mens-AI-coördinatie.

Bron

https://www.alignmentforum.org/posts/nLrrYweeFxgXACSmS/sft-drives-gemini-s-safety-properties-1

Gemini AI veiligheidsupervised fine-tuning SFTGoogle DeepMind interpretabilityAI training methodenreinforcement learning RL

Wat is er gebeurd

Uitleg voor niet-technici

Waar zit de coördinatie

Wat we zeker weten

Wat nog onbekend is

Wat we zeker weten

Wat nog onbekend is

Waar zit de coördinatie (AstraNL)

Bron

AstraNL — coordination intelligence infrastructure