OpenGameEval Brings AI to Roblox

OpenGameEval, Roblox에 AI 도입

Roblox Studio 개발 작업에서 에이전트 AI 어시스턴트 및 LLM 성능을 평가하는 오픈 소스 프레임워크인 OpenGameEval에 대한 개요입니다.

Eliza Crichton-Stuart

Eliza Crichton-Stuart

업데이트됨 Feb 5, 2026

OpenGameEval Brings AI to Roblox

Roblox Studio는 크리에이터들이 겜을 더 빠르게 만들 수 있도록 돕는 에이전트 AI 어시스턴트의 테스트 장으로 점점 더 많이 활용되고 있습니다. 이러한 툴은 이미 스크립트를 작성하고, 에셋을 삽입하고, 환경을 수정할 수 있지만, 실제 개발 시나리오에서 얼마나 잘 작동하는지 측정하기는 어려웠습니다. OpenGameEval은 현실적인 조건에서 AI 어시스턴트를 평가하기 위한 Roblox Studio 기본 프레임워크를 도입하여 이 문제를 해결하는 것을 목표로 합니다.

Tiantian Zhang, Kartik Ayyar, Mengsha Sun, Lynn Gong이 개발한 OpenGameEval은 Roblox Studio의 워크플로우를 중심으로 구축된 최초의 평가 시스템으로 자리매김하고 있습니다. 코드 스니펫을 분리하거나 상태 비저장 프롬프트에 의존하는 대신, 크리에이터들이 실제로 작업하는 방식과 매우 유사한 시뮬레이션된 편집 및 플레이 세션 내에서 AI 모델을 실행합니다.

Roblox에 기존 벤치마크가 부족한 이유

대부분의 기존 AI 벤치마크는 명확하게 정의된 입력과 출력을 가진 좁은 코딩 문제에 중점을 둡니다. Roblox 개발은 거의 이러한 틀에 맞지 않습니다. 겜은 지속적인 3D 세계 내에서 구축되며, 스크립트는 객체 계층, 멀티플레이어 네트워킹 및 클라이언트-서버 경계와 상호 작용합니다. 경험의 한 부분에서 이루어진 변경 사항은 종종 여러 스크립트와 인스턴스에 흩어져 있는 컨텍스트에 따라 달라집니다.

OpenGameEval은 이러한 한계에 대응하여 만들어졌습니다. 그 목표는 AI 어시스턴트가 라이브 Roblox 환경을 통해 추론하고, 기존 로직을 이해하며, 겜이 실제로 실행될 때 유지되는 변경 사항을 만들 수 있는지 테스트하는 것입니다. 이 접근 방식은 평가를 이론적 정확성에서 크리에이터를 위한 실용적인 유용성으로 전환합니다.

OpenGameEval 프레임워크 자세히 살펴보기

본질적으로 OpenGameEval은 Roblox Studio 개발 환경을 재현 가능한 방식으로 재현합니다. 각 평가는 편집 시간 및 플레이 시간 동작을 모두 시뮬레이션하여 물리, 네트워킹 및 멀티플레이어 상호 작용이 실제 프로젝트에서와 똑같이 작동하도록 합니다. 이를 통해 평가자는 AI 어시스턴트의 변경 사항이 코드가 컴파일되는지 여부뿐만 아니라 실행 중인 경험에 어떤 영향을 미치는지 관찰할 수 있습니다.

이 프레임워크에는 입력 시뮬레이션도 포함되어 있어 테스트 중에 이동, 버튼 누르기, 카메라 변경과 같은 유저 동작을 트리거할 수 있습니다. 이는 상호 작용을 통해서만 문제를 드러내는 기능을 평가하는 데 특히 중요합니다. 이 모든 기능은 통합 API를 통해 노출되어 연구팀이 동일한 작업 세트에서 다른 대규모 언어 모델을 더 쉽게 비교할 수 있도록 합니다.

단순한 코드 스니펫이 아닌 실제 개발 시나리오 테스트

OpenGameEval 벤치마크 데이터셋에는 현재 47개의 수작업으로 제작된 테스트 케이스가 포함되어 있습니다. 각 테스트 케이스는 겜 메커니즘, 환경 설정, 애니메이션, 유저 인터페이스 및 사운드를 포함한 일반적인 Roblox 개발 작업을 기반으로 합니다. 이러한 시나리오는 실제 크리에이터 워크플로우를 반영하도록 도메인 전문가에 의해 구축 및 검토됩니다.

기존 코딩 챌린지와 달리 이러한 테스트는 엔드투엔드입니다. 성공적인 AI 어시스턴트는 관련 스크립트를 찾고, 기존 로직을 해석하고, 새 코드가 어디에 속하는지 결정하고, 클라이언트와 서버 모두에서 작동하는 변경 사항을 구현해야 합니다. 채점은 실행 가능한 단위 테스트와 pass@k와 같은 표준 메트릭을 통해 처리되어 모델 간에 결과를 재현하고 비교할 수 있습니다.

컨텍스트가 난이도를 어떻게 변화시키는가

OpenGameEval의 특징 중 하나는 컨텍스트 변형에 중점을 둔다는 것입니다. 동일한 프롬프트는 구조와 복잡성이 다른 여러 환경에서 평가될 수 있습니다. 예를 들어, 4방향 신호등과 관련된 작업은 빈 플레이스파일, 인구 밀집된 교외 장면 또는 교통 및 보행자 신호가 모두 포함된 설정에서 테스트될 수 있습니다. 각 변형은 AI 어시스턴트가 경험에 이미 존재하는 것을 기반으로 추론을 조정하도록 강제합니다.

체력 재생 시스템 구현과 같은 더 복잡한 작업은 모델이 스크립트 전반에 걸쳐 피해 로직을 추적하고, 변경 사항이 서버 또는 클라이언트에서 이루어져야 하는지 결정하고, 타이밍 및 복제가 올바르게 작동하는지 확인해야 합니다. 이러한 시나리오는 AI 어시스턴트가 표면적인 패턴 매칭에 의존하는 대신 여러 단계에 걸쳐 컨텍스트를 유지할 수 있는지 여부를 밝히도록 설계되었습니다.

초기 결과는 현재의 한계를 강조합니다

OpenGameEval의 초기 결과는 현재 AI 기능에 명확한 구분이 있음을 시사합니다. 모델은 단일 인스턴스 또는 속성의 직접적인 조작을 포함하는 원자적 작업에서 잘 수행되는 경향이 있습니다. 유저의 점프력을 조정하거나 파티클 효과를 구성하는 것과 같은 작업은 종종 높은 신뢰도로 성공합니다.

작업이 더 깊은 컨텍스트 추론을 요구할 때 성능이 급격히 떨어집니다. 스크립트 전반에 걸친 조정된 변경, 관련 객체의 신중한 필터링 또는 멀티플레이어 동작 이해를 포함하는 시나리오는 계속해서 낮은 성공률을 보입니다. 이러한 결과는 AI 어시스턴트가 복잡한 Roblox 개발 작업을 스스로 안정적으로 처리할 수 있기까지 얼마나 많은 개선의 여지가 있는지 강조합니다.

꾸준한 발전의 징후

이러한 어려움에도 불구하고 OpenGameEval은 모델이 발전함에 따라 개선의 징후를 이미 포착했습니다. Roblox 로고의 색상 변경과 관련된 한 작업에서 초기 모델은 객체 이름이 명시적으로 지정되지 않아 실패했습니다. 최근 평가는 일부 모델이 명명 규칙에만 의존하는 대신 인스턴스 계층 구조에서 속성과 위치를 검사하여 올바른 객체를 성공적으로 식별하는 것을 보여줍니다.

이러한 점진적인 발전은 AI 어시스턴트가 겜 환경 내에서 구조적 추론을 서서히 개선하고 있음을 시사하며, 더 넓은 컨텍스트 이해는 여전히 일관성이 없습니다.

OpenGameEval이 크리에이터와 연구원에게 의미하는 것

OpenGameEval은 Roblox 크리에이터와 더 넓은 AI 연구 커뮤니티 모두에게 봉사하도록 설계되었습니다. 공개 리더보드는 코드 생성 및 툴 사용과 같은 범주에서 다양한 모델이 어떻게 수행되는지에 대한 가시성을 제공합니다. 연구원에게 이 프레임워크는 실제 겜 엔진 환경 내에서 재현 가능한 평가를 실행하는 표준화된 방법을 제공합니다.

앞으로 OpenGameEval 팀은 데이터셋을 확장하고, 평가 툴을 개선하며, 크리에이터 커뮤니티의 피드백을 통합할 계획입니다. 장기적인 목표는 웹3 스타일 크리에이터 경제와 관련된 미래 애플리케이션을 포함하여 겜 개발을 위한 에이전트 AI의 진행 상황을 측정하기 위한 공유 참조 지점을 설정하는 것입니다.

여기 Amazon에서 Roblox 기프트 카드를 확인하세요.

다른 인기 있는 Roblox 경험에 대해 여기에서 알아보세요:

Grow a Garden

Plants vs Brainrots

Steal a Brainrot

99 Nights in the Forest

Endless Horde

Blade x Zombies

자주 묻는 질문 (FAQs)

OpenGameEval이란 무엇인가요?
OpenGameEval은 Roblox Studio 내에서 AI 어시스턴트를 직접 테스트하도록 설계된 오픈 소스 평가 프레임워크 및 벤치마크입니다. 이는 고립된 코딩 문제보다는 실제 개발 작업에서 모델이 얼마나 잘 수행되는지 측정합니다.

OpenGameEval은 다른 AI 벤치마크와 어떻게 다른가요?
기존 벤치마크와 달리 OpenGameEval은 시뮬레이션된 Roblox Studio 환경에서 평가를 실행합니다. 이를 통해 겜 개발에서 흔히 발생하는 컨텍스트 추론, 멀티플레이어 동작 및 상태 저장 상호 작용을 테스트할 수 있습니다.

OpenGameEval에는 어떤 종류의 작업이 포함되어 있나요?
벤치마크에는 겜 메커니즘, 스크립팅, 환경 구축, 애니메이션, 유저 인터페이스 및 사운드와 관련된 작업이 포함됩니다. 많은 작업은 여러 스크립트와 객체에 걸쳐 다단계 추론을 요구합니다.

누가 OpenGameEval을 사용할 수 있나요?
이 프레임워크는 오픈 소스이며 AI 연구원, 툴 개발자 및 Roblox Studio용 AI 어시스턴트를 구축하거나 평가하는 팀을 위한 것입니다.

OpenGameEval이 Roblox 크리에이터에게 중요한 이유는 무엇인가요?
투명한 성능 데이터와 현실적인 평가를 제공함으로써 OpenGameEval은 크리에이터가 AI 어시스턴트의 강점과 한계를 이해하고 이러한 툴이 시간이 지남에 따라 어떻게 개선되는지 추적하는 데 도움이 됩니다.

교육용, 보고서

업데이트됨

February 5th 2026

게시됨

February 5th 2026