OpenGameEval Brings AI to Roblox

OpenGameEval integra IA en Roblox

Descripción general de OpenGameEval, un marco de código abierto para evaluar asistentes de IA y el rendimiento de LLM en tareas de desarrollo de Roblox Studio.

Eliza Crichton-Stuart

Eliza Crichton-Stuart

Actualizado Dec 18, 2025

OpenGameEval Brings AI to Roblox

Roblox Studio se ha convertido cada vez más en un campo de pruebas para asistentes de IA agenciales diseñados para ayudar a los creadores a construir videojuegos más rápido. Si bien estas herramientas ya pueden escribir scripts, insertar assets y modificar entornos, medir qué tan bien se desempeñan realmente en escenarios de desarrollo reales ha sido difícil. OpenGameEval tiene como objetivo abordar ese problema introduciendo un framework nativo de Roblox Studio para evaluar asistentes de IA en condiciones realistas.

Desarrollado por Tiantian Zhang, Kartik Ayyar, Mengsha Sun y Lynn Gong, OpenGameEval se posiciona como el primer sistema de evaluación construido directamente en torno a los flujos de trabajo de Roblox Studio. En lugar de aislar fragmentos de código o depender de prompts sin estado, ejecuta modelos de IA dentro de sesiones simuladas de edición y partida que se asemejan mucho a cómo trabajan realmente los creadores.

Por qué los benchmarks tradicionales se quedan cortos para Roblox

La mayoría de los benchmarks de IA existentes se centran en problemas de codificación específicos con entradas y salidas claramente definidas. El desarrollo de Roblox rara vez encaja en ese molde. Los videojuegos se construyen dentro de mundos 3D persistentes donde los scripts interactúan con jerarquías de objetos, redes multijugador y límites cliente-servidor. Los cambios realizados en una parte de una experiencia a menudo dependen de un contexto disperso en múltiples scripts e instancias.

OpenGameEval fue creado en respuesta a estas limitaciones. Su objetivo es probar si un asistente de IA puede razonar a través de un entorno Roblox en vivo, comprender la lógica existente y realizar cambios que se mantengan cuando el videojuego se ejecute realmente. Este enfoque aleja la evaluación de la corrección teórica y la acerca a la utilidad práctica para los creadores.

Una mirada más cercana al framework OpenGameEval

En su esencia, OpenGameEval recrea el entorno de desarrollo de Roblox Studio de una manera reproducible. Cada evaluación simula el comportamiento tanto en tiempo de edición como en tiempo de partida, asegurando que la física, las redes y las interacciones multijugador se comporten exactamente como lo harían en un proyecto real. Esto permite a los evaluadores observar cómo los cambios de un asistente de IA afectan una experiencia una vez que se está ejecutando, no solo si el código compila.

El framework también incluye simulación de entrada, lo que permite activar acciones del jugador como movimiento, pulsaciones de botones y cambios de cámara durante las pruebas. Esto es particularmente importante para evaluar características que solo revelan problemas a través de la interacción. Toda esta funcionalidad se expone a través de una API unificada, lo que facilita a los equipos de investigación comparar diferentes large language models en el mismo conjunto de tareas.

Probando escenarios de desarrollo reales, no solo fragmentos de código

El conjunto de datos de referencia de OpenGameEval actualmente incluye 47 casos de prueba hechos a mano. Cada uno se basa en tareas comunes de desarrollo de Roblox, incluyendo mecánicas de videojuego, configuración de entorno, animación, interfaces de usuario y sonido. Estos escenarios son construidos y revisados por expertos en el dominio para asegurar que reflejen los flujos de trabajo reales de los creadores.

A diferencia de los desafíos de codificación tradicionales, estas pruebas son de extremo a extremo. Un asistente de IA exitoso debe localizar scripts relevantes, interpretar la lógica existente, decidir dónde debe ir el nuevo código e implementar cambios que funcionen tanto en el cliente como en el servidor. La puntuación se maneja a través de pruebas unitarias ejecutables y métricas estándar como pass@k, lo que permite que los resultados se reproduzcan y comparen entre modelos.

Cómo el contexto cambia la dificultad

Una de las características definitorias de OpenGameEval es su enfoque en la variación contextual. El mismo prompt puede evaluarse en múltiples entornos que difieren en estructura y complejidad. Por ejemplo, una tarea que involucre un semáforo de cuatro vías podría probarse en un archivo de lugar vacío, una escena suburbana poblada o una configuración que incluya señales de tráfico y peatonales. Cada variación obliga al asistente de IA a adaptar su razonamiento basándose en lo que ya está presente en la experiencia.

Tareas más complejas, como implementar un sistema de regeneración de salud, requieren que el modelo rastree la lógica de daño a través de scripts, determine si los cambios deben hacerse en el servidor o el cliente, y asegure que el tiempo y la replicación funcionen correctamente. Estos escenarios están diseñados para revelar si un asistente de IA puede mantener el contexto a través de múltiples pasos en lugar de depender del emparejamiento de patrones a nivel superficial.

Los primeros resultados resaltan las limitaciones actuales

Los resultados iniciales de OpenGameEval sugieren una clara división en las capacidades actuales de la IA. Los modelos tienden a funcionar bien en tareas atómicas que implican la manipulación directa de una sola instancia o propiedad. Acciones como ajustar el poder de salto de un jugador o configurar un efecto de partículas a menudo tienen éxito con alta fiabilidad.

El rendimiento disminuye drásticamente cuando las tareas requieren un razonamiento contextual más profundo. Los escenarios que implican cambios coordinados entre scripts, un filtrado cuidadoso de objetos relevantes o la comprensión del comportamiento multijugador siguen produciendo bajas tasas de éxito. Estos resultados subrayan cuánto margen de mejora hay antes de que los asistentes de IA puedan manejar de forma fiable tareas complejas de desarrollo de Roblox por sí solos.

Señales de progreso constante

A pesar de estos desafíos, OpenGameEval ya ha capturado señales de mejora a medida que los modelos evolucionan. En una tarea que implicaba un cambio de color en el logotipo de Roblox, los modelos iniciales fallaron porque el objeto no estaba nombrado explícitamente. Evaluaciones más recientes muestran que algunos modelos identifican con éxito el objeto correcto inspeccionando sus propiedades y posición en la jerarquía de instancias, en lugar de depender únicamente de las convenciones de nomenclatura.

Estas ganancias incrementales sugieren que los asistentes de IA están mejorando lentamente en el razonamiento estructural dentro de los entornos de videojuegos, incluso si la comprensión contextual más amplia sigue siendo inconsistente.

Lo que OpenGameEval significa para creadores e investigadores

OpenGameEval está diseñado para servir tanto a los creadores de Roblox como a la comunidad de investigación de IA en general. Una tabla de clasificación pública ofrece visibilidad sobre cómo se desempeñan los diferentes modelos en categorías como la generación de código y el uso de herramientas. Para los investigadores, el framework proporciona una forma estandarizada de ejecutar evaluaciones reproducibles dentro de un entorno de motor de videojuego real.

De cara al futuro, el equipo detrás de OpenGameEval planea expandir el conjunto de datos, refinar las herramientas de evaluación e incorporar los comentarios de la comunidad de creadores. El objetivo a largo plazo es establecer un punto de referencia compartido para medir el progreso en la IA agencial para el desarrollo de videojuegos, incluyendo futuras aplicaciones vinculadas a las economías de creadores de estilo web3.

Echa un vistazo a Tarjetas de regalo de Roblox en Amazon aquí.

Aprende sobre otras experiencias populares de Roblox aquí:

Grow a Garden

Plants vs Brainrots

Steal a Brainrot

99 Nights in the Forest

Endless Horde

Blade x Zombies

Preguntas Frecuentes (FAQs)

¿Qué es OpenGameEval?
OpenGameEval es un framework de evaluación y benchmark de código abierto diseñado para probar asistentes de IA directamente dentro de Roblox Studio. Mide qué tan bien se desempeñan los modelos en tareas de desarrollo reales en lugar de problemas de codificación aislados.

¿En qué se diferencia OpenGameEval de otros benchmarks de IA?
A diferencia de los benchmarks tradicionales, OpenGameEval ejecuta evaluaciones en un entorno simulado de Roblox Studio. Esto le permite probar el razonamiento contextual, el comportamiento multijugador y las interacciones con estado que son comunes en el desarrollo de videojuegos.

¿Qué tipo de tareas incluye OpenGameEval?
El benchmark incluye tareas relacionadas con la mecánica de videojuegos, scripting, construcción de entornos, animación, interfaces de usuario y sonido. Muchas tareas requieren razonamiento de varios pasos a través de múltiples scripts y objetos.

¿Quién puede usar OpenGameEval?
El framework es de código abierto y está destinado a investigadores de IA, desarrolladores de herramientas y equipos que construyen o evalúan asistentes de IA para Roblox Studio.

¿Por qué es importante OpenGameEval para los creadores de Roblox?
Al proporcionar datos de rendimiento transparentes y evaluaciones realistas, OpenGameEval ayuda a los creadores a comprender las fortalezas y limitaciones de los asistentes de IA y a seguir cómo estas herramientas mejoran con el tiempo.

Educativo, Informes

actualizado

December 18th 2025

publicado

December 18th 2025

Clasificación

Ver Todo

Transmisión