Composer: RL을 통해 빠른 프런티어 모델 구축

https://cursor.com/blog/composer

Composer는 소프트웨어 엔지니어링 지능과 속도를 위해 설계된 우리의 새로운 에이전트 모델입니다. 우리 벤치마크에서 이 모델은 유사한 모델보다 네 배 빠른 생성 속도로 프런티어 수준의 코딩 결과를 달성합니다.

우리는 대규모 코드베이스에서 실제 소프트웨어 엔지니어링 과제를 완료하도록 모델을 학습시켜 이러한 결과를 얻었습니다. 훈련 동안 Composer는 프로덕션 검색 및 편집 도구 세트에 접근할 수 있으며, 다양한 어려운 문제를 효율적으로 해결하는 임무를 부여받습니다. 최종 결과는 Cursor에서 에이전트로 고속 사용에 최적화된 대규모 모델입니다.

우리의 동기는 커스텀 완성 모델인 Cursor Tab을 개발한 경험에서 비롯됩니다. 우리는 종종 개발자들이 상호작용적 사용을 지원하며 코딩 흐름을 유지해 줄 수 있는 가장 똑똑한 모델을 원한다는 것을 발견했습니다. 개발 과정에서 우리는 더 빠른 에이전트 모델의 영향을 더 잘 이해하기 위해 Cheetah라는 코드명의 프로토타입 에이전트 모델을 실험했습니다. Composer는 상호작용 경험에 충분히 빠르면서도 코딩을 즐겁게 유지하는 이 모델의 더 스마트한 버전입니다.

Composer는 장문 맥락 생성과 이해를 지원하는 전문가 혼합(MoE) 언어 모델입니다. 다양한 개발 환경에서의 강화학습(RL)을 통해 소프트웨어 엔지니어링에 특화되었습니다. 훈련의 각 반복에서, 모델은 문제 설명을 제공받고 코드 편집, 계획, 또는 유익한 답변 등 최선의 응답을 생성하도록 지시받습니다. 모델은 파일 읽기와 편집 같은 간단한 도구뿐 아니라 터미널 명령, 코드베이스 전반의 의미 검색과 같은 더 강력한 도구에도 접근합니다.

진행 상황을 측정하기 위해, 우리는 모델이 소프트웨어 개발자에게 얼마나 유용한지를 최대한 충실하게 측정하는 평가를 구성했습니다. 우리 벤치마크인 Cursor Bench는 Cursor의 엔지니어와 연구원들로부터 나온 실제 에이전트 요청과, 이러한 요청에 대한 수작업으로 선별된 최적 솔루션으로 이루어져 있습니다. 그 결과 평가 지표는 에이전트의 정확성뿐 아니라 코드베이스의 기존 추상화와 소프트웨어 엔지니어링 관행에 대한 준수도 함께 측정합니다.

강화학습은 효과적인 소프트웨어 엔지니어링을 위해 모델을 적극적으로 특화할 수 있게 해줍니다. 응답 속도가 상호작용적 개발의 핵심 요소이므로, 우리는 모델이 도구 사용에서 효율적인 선택을 하도록, 그리고 가능한 경우 최대한 병렬성을 높이도록 동기를 부여합니다. 또한, 근거 없는 주장과 불필요한 응답을 최소화하여 모델이 유용한 조수로 작동하도록 훈련합니다. 우리는 RL 동안 모델이 복잡한 검색 수행, 린터 오류 수정, 단위 테스트 작성 및 실행 같은 유용한 행동을 스스로 학습한다는 것도 발견했습니다.

대규모 MoE 모델의 효율적인 훈련에는 인프라 구축과 시스템 연구에 대한 상당한 투자가 필요합니다. 우리는 PyTorch와 Ray를 활용한 커스텀 훈련 인프라를 구축하여 규모 있는 비동기 강화학습을 구현했습니다. 우리는 MXFP8 MoE 커널(https://cursor.com/blog/kernels)을 전문가 병렬화 및 하이브리드 샤딩 데이터 병렬화와 결합해 저정밀로 네이티브 훈련을 수행하여, 최소한의 통신 비용으로 수천 대의 NVIDIA GPU로 훈련을 확장할 수 있게 했습니다. 추가로, MXFP8로 훈련하면 사후 양자화 없이 더 빠른 추론 속도를 제공할 수 있습니다.

RL 동안, 우리는 모델이 Cursor Agent 하네스의 어떤 도구든 호출할 수 있기를 원합니다. 이러한 도구들은 코드 편집, 의미 검색 사용, 문자열 grep, 터미널 명령 실행을 가능하게 합니다. 우리의 규모에서, 모델이 이러한 도구를 효과적으로 호출하도록 가르치려면 클라우드에서 수십만 개의 동시 샌드박스 코딩 환경을 실행해야 합니다. 이 워크로드를 지원하기 위해, 우리는 Background Agents를 위해 구축했던 기존 인프라를 적응시켜, 훈련 실행의 버스티한 특성과 규모를 지원하도록 가상 머신 스케줄러를 다시 작성했습니다. 이는 RL 환경과 프로덕션 환경의 매끄러운 통합을 가능하게 했습니다.

Cursor는 소프트웨어 엔지니어링을 위한 도구를 구축하고, 우리가 개발한 도구를 적극적으로 활용합니다. Composer 개발의 한 동기는 우리가 우리 작업에서 찾게 될 에이전트를 만드는 것이었습니다. 최근 몇 주 동안, 많은 동료들이 일상적인 소프트웨어 개발에 Composer를 사용하고 있음을 발견했습니다. 이번 릴리스를 통해 여러분도 이를 가치 있는 도구로 느끼시길 바랍니다.

—

¹ Cursor 도구 하네스에서 내부 벤치마크로 측정했습니다. 우리는 점수에 따라 모델을 클래스별로 그룹화하고 각 클래스에서 가장 좋은 모델을 보고합니다. “Fast Frontier”에는 Haiku 4.5와 Gemini Flash 2.5처럼 효율적 추론을 위해 설계된 모델이 포함됩니다. “Best Open”에는 Qwen Coder와 GLM 4.6 같은 최근 공개 가중치 모델 릴리스가 포함됩니다. “Frontier 7/2025”는 올해 7월에 사용 가능한 최고 모델입니다. “Best Frontier”에는 GPT-5와 Sonnet 4.5가 포함되며, 이 둘은 모두 Composer보다 더 뛰어납니다. Tokens per Second 계산의 경우, 토큰은 최신 Anthropic 토크나이저에 맞춰 표준화했습니다.

Composer: RL을 통해 빠른 프런티어 모델 구축

On this Page