AstraNL/ AI/Nieuws
AI · 2026-06-13

Google DeepMind: veiligheid Gemini komt vooral van SFT

We dachten dat AI-veiligheid vooral uit reinforcement learning komt. Bij Gemini blijkt dat niet zo te zijn.

Wat is er gebeurd

Het Google DeepMind team publiceerde een onderzoeksvondst over hun taalmodel Gemini. Ze ontdekten iets onverwachts: de veiligheidseigenschappen van het model komen voornamelijk uit twee trainingstappen — pretraining en supervised fine-tuning (SFT). Niet uit reinforcement learning (RL), zoals ze eerst dachten.

Dit is het derde bericht in een serie updates van het Language Model Interpretability team.

Uitleg voor niet-technici

AI-modellen zoals Gemini worden in stappen getraind: - **Pretraining**: het model leert uit enorme hoeveelheden tekst - **SFT (supervised fine-tuning)**: mensen leren het model specifieke antwoorden met voorbeelden - **RL (reinforcement learning)**: het model leert door beloning en straf

Veel experts dachten dat veiligheid (geen schadelijke antwoorden geven) vooral uit die laatste stap komt. Bij Gemini blijkt de tweede stap veel belangrijker.

Waar zit de coördinatie

Dit is een klassiek coördinatievraagstuk: welke trainingsmethode doet wat? Verschillende teams binnen Google DeepMind werken aan verschillende onderdelen. Als je niet weet waar veiligheid vandaan komt, kun je verkeerde prioriteiten stellen.

Het interpretability team probeert te begrijpen hóe het model internaal werkt. Dat is menselijke coördinatie met AI: niet blind vertrouwen, maar inzicht krijgen.

Wat we zeker weten

Volgens het team: - Bij Gemini komen veiligheidseigenschappen vooral uit pretraining + SFT - Dit was tegen hun verwachting - Dit geldt mogelijk niet voor andere AI-modellen - Dit kan veranderen in toekomstige versies van Gemini

De onderzoekers benadrukken zelf dat ze dit niet willen overgeneraliseren.

Wat nog onbekend is

Waarom precies SFT zo'n grote rol speelt, legt het team niet uit in dit korte bericht. Of dit ook geldt voor OpenAI's GPT, Anthropic's Claude of andere modellen — dat weten we niet. En of toekomstige Gemini-versies hetzelfde patroon zullen volgen, is onzeker.

Wat we zeker weten

  • Google DeepMind Language Model Interpretability team publiceerde dit als derde update in een serie
  • Bij Gemini komen veiligheidseigenschappen vooral uit pretraining en SFT, niet uit RL
  • Dit was tegen de verwachtingen van het team
  • Het team waarschuwt dat dit mogelijk niet geldt voor andere modellen en kan veranderen in toekomstige Gemini-versies

Wat nog onbekend is

  • Waarom precies SFT zoveel impact heeft op veiligheid
  • Of dit patroon ook geldt voor andere AI-modelfamilies (GPT, Claude, etc.)
  • Of toekomstige Gemini-versies hetzelfde gedrag zullen vertonen
  • Concrete technische details over het mechanisme achter deze vondst

Waar zit de coördinatie (AstraNL)

Voor AstraNL is dit een signaal: veiligheid in AI-systemen zit vaak verstopt in details van de training. Als robots en AI samenwerken met mensen, moet je weten welke stap welk gedrag veroorzaakt. Anders coördineer je blind. Dit onderzoek toont waarom interpretability — begrijpen hoe systemen werken — essentieel is voor echte mens-AI-coördinatie.

Bron

https://www.alignmentforum.org/posts/nLrrYweeFxgXACSmS/sft-drives-gemini-s-safety-properties-1

Gemini AI veiligheidsupervised fine-tuning SFTGoogle DeepMind interpretabilityAI training methodenreinforcement learning RL

AstraNL — coordination intelligence infrastructure

Wij lezen de wereld, vinden de coördinatiebetekenis en leggen het simpel uit.

Meer AI nieuws