OpenGameEval Brings AI to Roblox

OpenGameEval: AI voor Roblox

OpenGameEval, een open-source framework voor het evalueren van AI-assistenten en LLM-prestaties in Roblox Studio.

Eliza Crichton-Stuart

Eliza Crichton-Stuart

Bijgewerkt Jan 13, 2026

OpenGameEval Brings AI to Roblox

Roblox Studio is steeds meer een testterrein geworden voor agentieve AI-assistenten die zijn ontworpen om makers te helpen sneller games te bouwen. Hoewel deze tools al scripts kunnen schrijven, assets kunnen invoegen en omgevingen kunnen aanpassen, is het meten van hoe goed ze presteren in echte ontwikkelingsscenario's moeilijk geweest. OpenGameEval beoogt dat probleem aan te pakken door een framework te introduceren dat native is voor Roblox Studio, om AI-assistenten onder realistische omstandigheden te evalueren.

Ontwikkeld door Tiantian Zhang, Kartik Ayyar, Mengsha Sun en Lynn Gong, wordt OpenGameEval gepositioneerd als het eerste evaluatiesysteem dat direct is gebouwd rond de workflows van Roblox Studio. In plaats van codefragmenten te isoleren of te vertrouwen op stateless prompts, voert het AI-modellen uit binnen gesimuleerde bewerkings- en speelsessies die nauw aansluiten bij hoe makers daadwerkelijk werken.

Waarom traditionele benchmarks tekortschieten voor Roblox

De meeste bestaande AI-benchmarks richten zich op nauwe codeerproblemen met duidelijk gedefinieerde inputs en outputs. Roblox-ontwikkeling past zelden in dat plaatje. Games worden gebouwd binnen persistente 3D-werelden waar scripts interageren met hiërarchieën van objecten, multiplayer-netwerken en client-servergrenzen. Wijzigingen die in één deel van een ervaring worden aangebracht, zijn vaak afhankelijk van context die verspreid is over meerdere scripts en instanties.

OpenGameEval is gemaakt als reactie op deze beperkingen. Het doel is om te testen of een AI-assistent kan redeneren binnen een live Roblox-omgeving, bestaande logica kan begrijpen en wijzigingen kan aanbrengen die standhouden wanneer het spel daadwerkelijk wordt uitgevoerd. Deze aanpak verschuift de evaluatie van theoretische correctheid naar praktische bruikbaarheid voor makers.

Een nadere blik op het OpenGameEval-framework

In de kern reconstrueert OpenGameEval de Roblox Studio-ontwikkelomgeving op een reproduceerbare manier. Elke evaluatie simuleert zowel bewerkingstijd- als speeltijdgedrag, waardoor ervoor wordt gezorgd dat fysica, netwerken en multiplayer-interacties precies zo functioneren als in een echt project. Dit stelt beoordelaars in staat te observeren hoe de wijzigingen van een AI-assistent een ervaring beïnvloeden zodra deze draait, en niet alleen of de code compileert.

Het framework bevat ook inputsimulatie, waardoor het mogelijk is om spelersacties zoals beweging, knopdrukken en camerawijzigingen tijdens tests te activeren. Dit is met name belangrijk voor het evalueren van functies die problemen alleen onthullen via interactie. Al deze functionaliteit wordt blootgesteld via een uniforme API, waardoor het voor onderzoeksteams gemakkelijker wordt om verschillende grote taalmodellen te vergelijken op dezelfde reeks taken.

Testen van echte ontwikkelingsscenario's, niet alleen codefragmenten

De OpenGameEval benchmarkdataset bevat momenteel 47 handgemaakte testgevallen. Elk daarvan is gebaseerd op veelvoorkomende Roblox-ontwikkelingstaken, waaronder spelmechanismen, omgevingsopbouw, animatie, gebruikersinterfaces en geluid. Deze scenario's worden gebouwd en beoordeeld door domeinexperts om ervoor te zorgen dat ze de echte workflows van makers weerspiegelen.

In tegenstelling tot traditionele codeeruitdagingen, zijn deze tests end-to-end. Een succesvolle AI-assistent moet relevante scripts lokaliseren, bestaande logica interpreteren, beslissen waar nieuwe code hoort en wijzigingen implementeren die werken op zowel client als server. Scoring wordt afgehandeld via uitvoerbare unit tests en standaard metrics zoals pass@k, waardoor resultaten kunnen worden gereproduceerd en vergeleken tussen modellen.

Hoe context de moeilijkheidsgraad verandert

Een van de bepalende kenmerken van OpenGameEval is de focus op contextuele variatie. Dezelfde prompt kan worden geëvalueerd in meerdere omgevingen die verschillen in structuur en complexiteit. Een taak die bijvoorbeeld een vierwegstoplicht omvat, kan worden getest in een lege placefile, een drukke stedelijke scène, of een opstelling die zowel verkeers- als voetgangerssignalen bevat. Elke variatie dwingt de AI-assistent om zijn redenering aan te passen op basis van wat er al in de ervaring aanwezig is.

Complexere taken, zoals het implementeren van een gezondheidsregeneratiesysteem, vereisen dat het model de schadelogica door scripts traceert, bepaalt of wijzigingen op de server of client moeten worden aangebracht, en ervoor zorgt dat timing en replicatie correct werken. Deze scenario's zijn ontworpen om te onthullen of een AI-assistent context kan behouden over meerdere stappen in plaats van te vertrouwen op patroonherkenning op oppervlakkig niveau.

Vroege resultaten benadrukken huidige beperkingen

Initiële resultaten van OpenGameEval suggereren een duidelijke kloof in de huidige AI-capaciteiten. Modellen presteren doorgaans goed op atomische taken die directe manipulatie van een enkele instantie of eigenschap omvatten. Acties zoals het aanpassen van de sprongkracht van een speler of het configureren van een deeltjeseffect slagen vaak met hoge betrouwbaarheid.

De prestaties dalen scherp wanneer taken dieper contextueel redeneren vereisen. Scenario's met gecoördineerde wijzigingen tussen scripts, zorgvuldige filtering van relevante objecten, of het begrijpen van multiplayergedrag blijven lage succespercentages opleveren. Deze resultaten onderstrepen hoeveel ruimte er is voor verbetering voordat AI-assistenten zelfstandig complexe Roblox-ontwikkelingstaken betrouwbaar kunnen uitvoeren.

Tekenen van gestage vooruitgang

Ondanks deze uitdagingen heeft OpenGameEval al tekenen van verbetering vastgelegd naarmate modellen evolueren. In een taak die een kleurwijziging aan het Roblox-logo betrof, faalden vroege modellen omdat het object niet expliciet was benoemd. Recentere evaluaties tonen aan dat sommige modellen erin slagen het juiste object te identificeren door de eigenschappen en positie in de instantiehiërarchie te inspecteren, in plaats van uitsluitend te vertrouwen op naamgevingsconventies.

Deze incrementele winsten suggereren dat AI-assistenten langzaam verbeteren in structureel redeneren binnen spelomgevingen, zelfs als een breder contextueel begrip inconsistent blijft.

Wat OpenGameEval betekent voor makers en onderzoekers

OpenGameEval is ontworpen om zowel Roblox-makers als de bredere AI-onderzoeksgemeenschap te dienen. Een openbaar leaderboard biedt inzicht in hoe verschillende modellen presteren in categorieën zoals codegeneratie en toolgebruik. Voor onderzoekers biedt het framework een gestandaardiseerde manier om reproduceerbare evaluaties uit te voeren binnen een echte game-engineomgeving.

Vooruitkijkend is het team achter OpenGameEval van plan de dataset uit te breiden, de evaluatietools te verfijnen en feedback van de makergemeenschap te verwerken. Het langetermijndoel is om een gedeeld referentiepunt vast te stellen voor het meten van vooruitgang in agentieve AI voor game-ontwikkeling, inclusief toekomstige toepassingen die gekoppeld zijn aan web3-achtige maker-economieën.

Bekijk Roblox Cadeaubonnen op Amazon hier.

Lees hier meer over andere populaire Roblox-ervaringen:

Grow a Garden

Plants vs Brainrots

Steal a Brainrot

99 Nights in the Forest

Endless Horde

Blade x Zombies

Veelgestelde Vragen (FAQ's)

Wat is OpenGameEval?
OpenGameEval is een open-source evaluatieframework en benchmark, ontworpen om AI-assistenten rechtstreeks binnen Roblox Studio te testen. Het meet hoe goed modellen presteren op echte ontwikkelingstaken in plaats van op geïsoleerde codeerproblemen.

Hoe verschilt OpenGameEval van andere AI-benchmarks?
In tegenstelling tot traditionele benchmarks, voert OpenGameEval evaluaties uit in een gesimuleerde Roblox Studio-omgeving. Dit maakt het mogelijk om contextueel redeneren, multiplayergedrag en stateful interacties te testen die veelvoorkomend zijn in game-ontwikkeling.

Wat voor soort taken bevat OpenGameEval?
De benchmark bevat taken met betrekking tot spelmechanismen, scripting, omgevingsbouw, animatie, gebruikersinterfaces en geluid. Veel taken vereisen redeneren in meerdere stappen over meerdere scripts en objecten.

Wie kan OpenGameEval gebruiken?
Het framework is open source en bedoeld voor AI-onderzoekers, toolontwikkelaars en teams die AI-assistenten voor Roblox Studio bouwen of evalueren.

Waarom is OpenGameEval belangrijk voor Roblox-makers?
Door transparante prestatiegegevens en realistische evaluaties te bieden, helpt OpenGameEval makers de sterke en zwakke punten van AI-assistenten te begrijpen en bij te houden hoe deze tools in de loop van de tijd verbeteren.

Educatief, Rapporten

bijgewerkt

January 13th 2026

geplaatst

January 13th 2026

Klassement

Alles bekijken

Streamen