Roblox Studio est devenu de plus en plus un terrain d'essai pour les assistants IA agentiques conçus pour aider les créateurs à développer des jeux plus rapidement. Bien que ces outils puissent déjà écrire des scripts, insérer des assets et modifier des environnements, il a été difficile de mesurer leurs performances réelles dans des scénarios de développement concrets. OpenGameEval vise à résoudre ce problème en introduisant un framework natif à Roblox Studio pour évaluer les assistants IA dans des conditions réalistes.
Développé par Tiantian Zhang, Kartik Ayyar, Mengsha Sun et Lynn Gong, OpenGameEval est présenté comme le premier système d'évaluation construit directement autour des workflows de Roblox Studio. Plutôt que d'isoler des extraits de code ou de s'appuyer sur des prompts sans état, il exécute des modèles d'IA dans des sessions d'édition et de jeu simulées qui ressemblent étroitement à la façon dont les créateurs travaillent réellement.
Pourquoi les benchmarks traditionnels sont insuffisants pour Roblox
La plupart des benchmarks d'IA existants se concentrent sur des problèmes de codage étroits avec des entrées et des sorties clairement définies. Le développement Roblox correspond rarement à ce modèle. Les jeux sont construits dans des mondes 3D persistants où les scripts interagissent avec des hiérarchies d'objets, la mise en réseau multijoueur et les limites client-serveur. Les modifications apportées dans une partie d'une expérience dépendent souvent d'un contexte dispersé sur plusieurs scripts et instances.
OpenGameEval a été créé en réponse à ces limitations. Son objectif est de tester si un assistant IA peut raisonner dans un environnement Roblox en direct, comprendre la logique existante et apporter des modifications qui tiennent la route lorsque le jeu est réellement exécuté. Cette approche déplace l'évaluation de la correction théorique vers l'utilité pratique pour les créateurs.
Un examen plus approfondi du framework OpenGameEval
À la base, OpenGameEval recrée l'environnement de développement Roblox Studio de manière reproductible. Chaque évaluation simule à la fois le comportement en mode édition et en mode jeu, garantissant que la physique, le réseau et les interactions multijoueurs se comportent exactement comme ils le feraient dans un projet réel. Cela permet aux évaluateurs d'observer comment les modifications d'un assistant IA affectent une expérience une fois qu'elle est en cours d'exécution, et pas seulement si le code compile.
Le framework inclut également la simulation d'entrée, ce qui permet de déclencher des actions de joueur telles que le mouvement, les pressions de bouton et les changements de caméra pendant les tests. Ceci est particulièrement important pour évaluer des fonctionnalités qui ne révèlent des problèmes que par l'interaction. Toutes ces fonctionnalités sont exposées via une API unifiée, ce qui facilite la comparaison de différents grands modèles de langage par les équipes de recherche sur le même ensemble de tâches.
Tester des scénarios de développement réels, pas seulement des extraits de code
L'ensemble de données de benchmark OpenGameEval comprend actuellement 47 cas de test élaborés à la main. Chacun est basé sur des tâches de développement Roblox courantes, y compris les mécanismes de jeu, la configuration de l'environnement, l'animation, les interfaces utilisateur et le son. Ces scénarios sont construits et examinés par des experts du domaine pour s'assurer qu'ils reflètent les workflows réels des créateurs.
Contrairement aux défis de codage traditionnels, ces tests sont de bout en bout. Un assistant IA performant doit localiser les scripts pertinents, interpréter la logique existante, décider où le nouveau code doit être placé et implémenter des modifications qui fonctionnent à la fois côté client et côté serveur. Le scoring est géré par des tests unitaires exécutables et des métriques standard telles que pass@k, permettant de reproduire et de comparer les résultats entre les modèles.
Comment le contexte modifie la difficulté
L'une des caractéristiques distinctives d'OpenGameEval est son accent sur la variation contextuelle. Le même prompt peut être évalué dans plusieurs environnements qui diffèrent par leur structure et leur complexité. Par exemple, une tâche impliquant un feu de circulation à quatre voies pourrait être testée dans un fichier de lieu vide, une scène suburbaine peuplée ou une configuration incluant à la fois des feux de circulation et des signaux piétons. Chaque variation force l'assistant IA à adapter son raisonnement en fonction de ce qui est déjà présent dans l'expérience.
Des tâches plus complexes, telles que l'implémentation d'un système de régénération de santé, exigent que le modèle trace la logique des dégâts à travers les scripts, détermine si les modifications doivent être apportées côté serveur ou client, et s'assure que le timing et la réplication fonctionnent correctement. Ces scénarios sont conçus pour révéler si un assistant IA peut maintenir le contexte sur plusieurs étapes plutôt que de s'appuyer sur une correspondance de motifs superficielle.
Les premiers résultats mettent en évidence les limitations actuelles
Les premiers résultats d'OpenGameEval suggèrent une nette division dans les capacités actuelles de l'IA. Les modèles ont tendance à bien performer sur des tâches atomiques qui impliquent la manipulation directe d'une seule instance ou propriété. Des actions comme l'ajustement de la puissance de saut d'un joueur ou la configuration d'un effet de particule réussissent souvent avec une grande fiabilité.
Les performances chutent brusquement lorsque les tâches nécessitent un raisonnement contextuel plus approfondi. Les scénarios impliquant des changements coordonnés entre les scripts, un filtrage minutieux des objets pertinents ou la compréhension du comportement multijoueur continuent de produire de faibles taux de réussite. Ces résultats soulignent l'ampleur des améliorations à apporter avant que les assistants IA puissent gérer de manière fiable des tâches de développement Roblox complexes par eux-mêmes.
Signes de progrès constants
Malgré ces défis, OpenGameEval a déjà enregistré des signes d'amélioration à mesure que les modèles évoluent. Dans une tâche impliquant un changement de couleur du logo Roblox, les premiers modèles ont échoué car l'objet n'était pas explicitement nommé. Des évaluations plus récentes montrent que certains modèles identifient avec succès l'objet correct en inspectant ses propriétés et sa position dans la hiérarchie des instances, plutôt que de se fier uniquement aux conventions de nommage.
Ces gains progressifs suggèrent que les assistants IA s'améliorent lentement en matière de raisonnement structurel dans les environnements de jeu, même si la compréhension contextuelle plus large reste incohérente.
Ce que OpenGameEval signifie pour les créateurs et les chercheurs
OpenGameEval est conçu pour servir à la fois les créateurs Roblox et la communauté de recherche en IA au sens large. Un classement public offre une visibilité sur les performances des différents modèles dans des catégories telles que la génération de code et l'utilisation d'outils. Pour les chercheurs, le framework fournit un moyen standardisé d'effectuer des évaluations reproductibles dans un environnement de moteur de jeu réel.
À l'avenir, l'équipe derrière OpenGameEval prévoit d'élargir l'ensemble de données, d'affiner les outils d'évaluation et d'intégrer les retours de la communauté des créateurs. L'objectif à long terme est d'établir un point de référence commun pour mesurer les progrès de l'IA agentique pour le développement de jeux, y compris les futures applications liées aux économies de créateurs de type web3.
Découvrez les cartes cadeaux Roblox sur Amazon ici.
Découvrez d'autres expériences Roblox populaires ici :
Foire aux questions (FAQ)
Qu'est-ce qu'OpenGameEval ?
OpenGameEval est un framework d'évaluation et un benchmark open-source conçus pour tester les assistants IA directement dans Roblox Studio. Il mesure les performances des modèles sur des tâches de développement réelles plutôt que sur des problèmes de codage isolés.
En quoi OpenGameEval est-il différent des autres benchmarks d'IA ?
Contrairement aux benchmarks traditionnels, OpenGameEval exécute des évaluations dans un environnement Roblox Studio simulé. Cela lui permet de tester le raisonnement contextuel, le comportement multijoueur et les interactions avec état qui sont courants dans le développement de jeux.
Quels types de tâches OpenGameEval inclut-il ?
Le benchmark comprend des tâches liées aux mécanismes de jeu, au scripting, à la construction d'environnements, à l'animation, aux interfaces utilisateur et au son. De nombreuses tâches nécessitent un raisonnement en plusieurs étapes à travers plusieurs scripts et objets.
Qui peut utiliser OpenGameEval ?
Le framework est open source et destiné aux chercheurs en IA, aux développeurs d'outils et aux équipes qui construisent ou évaluent des assistants IA pour Roblox Studio.
Pourquoi OpenGameEval est-il important pour les créateurs Roblox ?
En fournissant des données de performance transparentes et des évaluations réalistes, OpenGameEval aide les créateurs à comprendre les forces et les limites des assistants IA et à suivre l'amélioration de ces outils au fil du temps.




