Wat is er gebeurd
Het Google DeepMind team publiceerde een onderzoeksvondst over hun taalmodel Gemini. Ze ontdekten iets onverwachts: de veiligheidseigenschappen van het model komen voornamelijk uit twee trainingstappen — pretraining en supervised fine-tuning (SFT). Niet uit reinforcement learning (RL), zoals ze eerst dachten.
Dit is het derde bericht in een serie updates van het Language Model Interpretability team.
Uitleg voor niet-technici
AI-modellen zoals Gemini worden in stappen getraind: - **Pretraining**: het model leert uit enorme hoeveelheden tekst - **SFT (supervised fine-tuning)**: mensen leren het model specifieke antwoorden met voorbeelden - **RL (reinforcement learning)**: het model leert door beloning en straf
Veel experts dachten dat veiligheid (geen schadelijke antwoorden geven) vooral uit die laatste stap komt. Bij Gemini blijkt de tweede stap veel belangrijker.
Waar zit de coördinatie
Dit is een klassiek coördinatievraagstuk: welke trainingsmethode doet wat? Verschillende teams binnen Google DeepMind werken aan verschillende onderdelen. Als je niet weet waar veiligheid vandaan komt, kun je verkeerde prioriteiten stellen.
Het interpretability team probeert te begrijpen hóe het model internaal werkt. Dat is menselijke coördinatie met AI: niet blind vertrouwen, maar inzicht krijgen.
Wat we zeker weten
Volgens het team: - Bij Gemini komen veiligheidseigenschappen vooral uit pretraining + SFT - Dit was tegen hun verwachting - Dit geldt mogelijk niet voor andere AI-modellen - Dit kan veranderen in toekomstige versies van Gemini
De onderzoekers benadrukken zelf dat ze dit niet willen overgeneraliseren.
Wat nog onbekend is
Waarom precies SFT zo'n grote rol speelt, legt het team niet uit in dit korte bericht. Of dit ook geldt voor OpenAI's GPT, Anthropic's Claude of andere modellen — dat weten we niet. En of toekomstige Gemini-versies hetzelfde patroon zullen volgen, is onzeker.
Wat we zeker weten
- Google DeepMind Language Model Interpretability team publiceerde dit als derde update in een serie
- Bij Gemini komen veiligheidseigenschappen vooral uit pretraining en SFT, niet uit RL
- Dit was tegen de verwachtingen van het team
- Het team waarschuwt dat dit mogelijk niet geldt voor andere modellen en kan veranderen in toekomstige Gemini-versies
Wat nog onbekend is
- Waarom precies SFT zoveel impact heeft op veiligheid
- Of dit patroon ook geldt voor andere AI-modelfamilies (GPT, Claude, etc.)
- Of toekomstige Gemini-versies hetzelfde gedrag zullen vertonen
- Concrete technische details over het mechanisme achter deze vondst
Waar zit de coördinatie (AstraNL)
Voor AstraNL is dit een signaal: veiligheid in AI-systemen zit vaak verstopt in details van de training. Als robots en AI samenwerken met mensen, moet je weten welke stap welk gedrag veroorzaakt. Anders coördineer je blind. Dit onderzoek toont waarom interpretability — begrijpen hoe systemen werken — essentieel is voor echte mens-AI-coördinatie.
Bron
https://www.alignmentforum.org/posts/nLrrYweeFxgXACSmS/sft-drives-gemini-s-safety-properties-1