Wat is er gebeurd
Normal Tech kondigt CRUX aan, een nieuwe manier om geavanceerde AI te evalueren. Het systeem test AI niet met korte vragen, maar met lange, rommelige taken die lijken op echt werk.
Traditionele AI-benchmarks vragen simpele antwoorden. CRUX geeft AI opdrachten die uren duren. Denk aan: analyseer dit bedrijf, schrijf een volledig rapport, los dit echte probleem op.
Waarom dit anders is
Bestaande tests meten kennis. CRUX meet of AI echt iets kan doen. Het verschil is groot.
Bij normale tests krijgt AI een vraag en geeft een antwoord. Bij CRUX moet AI zelf beslissen wat te doen, informatie zoeken, prioriteiten stellen, en een resultaat maken dat bruikbaar is.
De taken zijn "open-world". Dat betekent: geen duidelijke route, geen lijst met stappen. Net zoals echte opdrachten.
Waar zit de coördinatie
CRUX test eigenlijk of AI kan coördineren: met onduidelijke informatie, met eigen beslissingen, met tijdsdruk. Het is geen quiz, het is samenwerking met chaos.
Voor systemen die mensen, AI en processen moeten laten samenwerken, is dit cruciaal. Je wilt weten of AI niet alleen slim is, maar ook handig.
Wat we zeker weten
- CRUX is een nieuw evaluatieproject van Normal Tech
- Het test AI op lange, complexe taken in plaats van korte vragen
- De taken zijn "open-world", zonder vooraf bepaalde oplossingsmethode
- Dit moet beter meten hoe AI presteert in echte situaties
Wat nog onbekend is
Het artikel geeft geen specifieke voorbeelden van CRUX-taken. Ook niet welke AI-systemen al getest zijn, of wat de resultaten waren. Er staat niet wanneer CRUX publiek beschikbaar komt, of hoe iemand het kan gebruiken.
Wat we zeker weten
- Normal Tech heeft CRUX aangekondigd als nieuw evaluatieproject
- CRUX test AI op lange, rommelige taken in plaats van traditionele benchmarks
- De taken zijn 'open-world', zonder vooraf bepaalde oplossingsmethode
- Doel is meten hoe AI presteert in echte situaties
Wat nog onbekend is
- Geen concrete voorbeelden van CRUX-taken gegeven
- Niet bekend welke AI-systemen al getest zijn
- Geen resultaten of scores gepubliceerd
- Tijdlijn voor publieke beschikbaarheid onbekend
Waar zit de coördinatie (AstraNL)
Voor AstraNL is dit een signaal dat evaluatie zelf moet evolueren. Als AI, mensen en robots samen moeten werken, kun je ze niet testen op solo-quizjes. Je moet meten of ze kunnen omgaan met rommel, onduidelijkheid en echte coördinatie-uitdagingen. CRUX toont dat frontier AI steeds meer getest wordt op samenwerkingskwaliteiten, niet alleen op kennis.
Bron
https://www.normaltech.ai/p/open-world-evaluations-for-measuring