AstraNL/ AI/Nieuws
AI · 2026-06-21

CRUX: nieuwe methode om AI te testen op echte chaos

AI-systemen scoren hoog op traditionele tests, maar falen vaak in de echte wereld. Een nieuw project wil dat veranderen.

Wat is er gebeurd

Normal Tech kondigt CRUX aan, een nieuwe manier om geavanceerde AI te evalueren. Het systeem test AI niet met korte vragen, maar met lange, rommelige taken die lijken op echt werk.

Traditionele AI-benchmarks vragen simpele antwoorden. CRUX geeft AI opdrachten die uren duren. Denk aan: analyseer dit bedrijf, schrijf een volledig rapport, los dit echte probleem op.

Waarom dit anders is

Bestaande tests meten kennis. CRUX meet of AI echt iets kan doen. Het verschil is groot.

Bij normale tests krijgt AI een vraag en geeft een antwoord. Bij CRUX moet AI zelf beslissen wat te doen, informatie zoeken, prioriteiten stellen, en een resultaat maken dat bruikbaar is.

De taken zijn "open-world". Dat betekent: geen duidelijke route, geen lijst met stappen. Net zoals echte opdrachten.

Waar zit de coördinatie

CRUX test eigenlijk of AI kan coördineren: met onduidelijke informatie, met eigen beslissingen, met tijdsdruk. Het is geen quiz, het is samenwerking met chaos.

Voor systemen die mensen, AI en processen moeten laten samenwerken, is dit cruciaal. Je wilt weten of AI niet alleen slim is, maar ook handig.

Wat we zeker weten

  • CRUX is een nieuw evaluatieproject van Normal Tech
  • Het test AI op lange, complexe taken in plaats van korte vragen
  • De taken zijn "open-world", zonder vooraf bepaalde oplossingsmethode
  • Dit moet beter meten hoe AI presteert in echte situaties

Wat nog onbekend is

Het artikel geeft geen specifieke voorbeelden van CRUX-taken. Ook niet welke AI-systemen al getest zijn, of wat de resultaten waren. Er staat niet wanneer CRUX publiek beschikbaar komt, of hoe iemand het kan gebruiken.

Wat we zeker weten

  • Normal Tech heeft CRUX aangekondigd als nieuw evaluatieproject
  • CRUX test AI op lange, rommelige taken in plaats van traditionele benchmarks
  • De taken zijn 'open-world', zonder vooraf bepaalde oplossingsmethode
  • Doel is meten hoe AI presteert in echte situaties

Wat nog onbekend is

  • Geen concrete voorbeelden van CRUX-taken gegeven
  • Niet bekend welke AI-systemen al getest zijn
  • Geen resultaten of scores gepubliceerd
  • Tijdlijn voor publieke beschikbaarheid onbekend

Waar zit de coördinatie (AstraNL)

Voor AstraNL is dit een signaal dat evaluatie zelf moet evolueren. Als AI, mensen en robots samen moeten werken, kun je ze niet testen op solo-quizjes. Je moet meten of ze kunnen omgaan met rommel, onduidelijkheid en echte coördinatie-uitdagingen. CRUX toont dat frontier AI steeds meer getest wordt op samenwerkingskwaliteiten, niet alleen op kennis.

Bron

https://www.normaltech.ai/p/open-world-evaluations-for-measuring

CRUX AI evaluatiefrontier AI testenopen-world AI benchmarksAI coördinatie metenlange AI-taken

AstraNL — coordination intelligence infrastructure

Wij lezen de wereld, vinden de coördinatiebetekenis en leggen het simpel uit.

Meer AI nieuws