GPT Realtime API - Voice Agents
TMT오늘 우리는 개발자와 기업이 신뢰할 수 있고, 실제 환경에서 사용할 수 있는 음성 에이전트를 구축할 수 있도록 하는 새로운 기능들과 함께 Realtime API의 일반 제공을 시작합니다. 이제 API는 원격 MCP 서버, 이미지 입력, 그리고 Session Initiation Protocol(SIP)을 통한 전화 통화 지원을 제공하여, 음성 에이전트가 추가적인 도구와 컨텍스트에 접근할 수 있도록 더욱 강력해졌습니다.
또한, 지금까지 가장 발전된 음성-음성 모델인 gpt-realtime을 출시합니다. 이 새로운 모델은 복잡한 지시를 따르는 능력, 도구를 정확하게 호출하는 능력, 그리고 더욱 자연스럽고 표현력 있는 음성을 생성하는 능력에서 향상된 모습을 보여줍니다. 시스템 메시지와 개발자 프롬프트를 해석하는 데에도 더 뛰어난 성능을 보이며, 이는 지원 통화에서 고지문을 단어 하나하나 정확히 읽거나, 영숫자 정보를 반복해서 말하거나, 문장 중간에 언어를 자유롭게 전환하는 등의 작업에 적용됩니다. 또한, 오늘부터 Realtime API에서만 사용할 수 있는 두 가지 새로운 음성, Cedar와 Marin을 출시합니다.
지난해 10월 Realtime API를 공개 베타로 처음 선보인 이후, 수천 명의 개발자들이 API를 활용해 오늘 발표하는 개선 사항을 함께 만들어왔습니다. 이번 업데이트는 신뢰성, 낮은 지연 시간, 높은 품질에 최적화되어 실제 환경에서 음성 에이전트를 성공적으로 배포할 수 있도록 설계되었습니다. 기존의 음성-텍스트 및 텍스트-음성 모델을 연쇄적으로 연결하는 방식과 달리, Realtime API는 단일 모델과 API를 통해 오디오를 직접 처리 및 생성합니다. 이로 인해 지연 시간이 줄어들고, 음성의 뉘앙스를 보존하며, 더욱 자연스럽고 표현력 있는 응답을 생성할 수 있습니다.
“OpenAI의 Realtime API에 새롭게 적용된 음성-음성 모델은 더 강력한 추론 능력과 자연스러운 음성을 보여줍니다. 이를 통해 라이프스타일에 맞는 매물 좁히기나 BuyAbility 점수와 같은 도구를 활용한 적정성 논의 등 복잡하고 다단계적인 요청을 처리할 수 있습니다. 앞으로 Zillow에서 집을 찾거나 금융 옵션을 탐색하는 과정이 친구와 대화하는 것처럼 자연스러워져, 집 구매, 판매, 임대와 같은 결정을 더욱 쉽게 할 수 있을 것입니다.”
– Josh Weisberg, Zillow AI 총괄
Introducing gpt-realtime
새로운 음성-음성 모델인 gpt-realtime은 지금까지 가장 발전된, 실제 환경에 바로 적용할 수 있는 음성 모델입니다. 우리는 고객과 긴밀히 협력하여 실제 환경에서 필요한 고객 지원, 개인 비서, 교육 등 다양한 작업에 최적화되도록 모델을 훈련했습니다. 이 모델은 오디오 품질, 지능, 지시 따르기, 함수 호출 등 여러 측면에서 향상된 성능을 보여줍니다.
오디오 품질
실제 환경에서 음성 에이전트를 배포하려면 자연스러운 대화가 필수적입니다. 모델은 인간과 같은 억양, 감정, 속도로 말해야 즐거운 경험을 제공하고 사용자가 지속적으로 대화하도록 유도할 수 있습니다. 우리는 gpt-realtime이 더 자연스러운 고품질 음성을 생성하고, “빠르고 전문적으로 말하기”나 “프랑스어 억양으로 공감하며 말하기” 등 세밀한 지시도 따를 수 있도록 훈련했습니다.
API에 Marin과 Cedar라는 두 가지 새로운 음성을 추가하며, 자연스러운 음성 생성에서 가장 큰 개선을 이루었습니다. 기존의 8가지 음성도 이러한 개선의 혜택을 받도록 업데이트했습니다.
지능 및 이해력
gpt-realtime은 더 높은 지능을 보여주며, 원음 오디오를 더 정확하게 이해할 수 있습니다. 모델은 웃음과 같은 비언어적 신호를 포착하고, 문장 중간에 언어를 전환하며, 톤을 조절할 수 있습니다(“빠르고 전문적으로” vs “친절하고 공감 있게”). 내부 평가에 따르면, 이 모델은 스페인어, 중국어, 일본어, 프랑스어 등 다양한 언어에서 전화번호, 차량 번호(VIN) 등 영숫자 정보를 더 정확하게 인식합니다. Big Bench Audio 평가에서 추론 능력을 측정한 결과, gpt-realtime은 82.8%의 정확도를 기록했으며, 2024년 12월에 출시된 이전 모델은 65.6%였습니다.
Big Bench Audio 벤치마크는 오디오 입력을 지원하는 언어 모델의 추론 능력을 평가하기 위한 평가 데이터셋입니다. 이 데이터셋은 Big Bench Hard에서 엄격한 고급 추론 테스트를 위해 선정된 질문들을 오디오 영역에 맞게 변형한 것입니다.
Instruction following
음성-음성 애플리케이션을 구축할 때, 개발자는 모델에게 어떻게 행동해야 하는지에 대한 일련의 지침을 제공합니다. 여기에는 어떻게 말해야 하는지, 특정 상황에서 무엇을 말해야 하는지, 무엇을 해야 하거나 하지 말아야 하는지가 포함됩니다. 우리는 이러한 지침 준수에 중점을 두어, 아주 작은 지시도 모델에 더 강한 신호로 전달될 수 있도록 개선했습니다. 지침 준수 정확도를 측정하는 MultiChallenge 오디오 벤치마크에서 gpt-realtime은 30.5%의 정확도를 기록했으며, 2024년 12월의 이전 모델은 20.6%였습니다.
MultiChallenge는 LLM이 인간과의 다중 턴 대화를 얼마나 잘 처리하는지 평가합니다. 여기에는 현재 최첨단 모델들이 어려워하는 네 가지 현실적인 도전 과제가 포함되어 있습니다. 이 과제들은 모델이 지침 준수, 컨텍스트 관리, 인컨텍스트 추론을 동시에 결합해야 해결할 수 있습니다. 우리는 평가 질문 중 오디오 친화적인 일부를 텍스트-음성으로 변환해 오디오 버전 평가를 만들었습니다.
함수 호출
음성-음성 모델로 강력한 음성 에이전트를 구축하려면, 모델이 적절한 시점에 올바른 도구를 호출할 수 있어야 실제 환경에서 유용하게 활용할 수 있습니다. 우리는 함수 호출 성능을 세 가지 축에서 개선했습니다: 관련 함수 호출, 적절한 시점에 함수 호출, 적절한 인수로 함수 호출(정확도 향상). ComplexFuncBench 오디오 평가에서 함수 호출 성능을 측정한 결과, gpt-realtime은 66.5%를 기록했으며, 2024년 12월의 이전 모델은 49.7%였습니다.
비동기 함수 호출에도 개선을 적용했습니다. 실행 시간이 긴 함수 호출이 세션의 흐름을 방해하지 않으며, 모델은 결과를 기다리는 동안에도 자연스럽게 대화를 이어갈 수 있습니다. 이 기능은 gpt-realtime에 기본적으로 제공되므로, 개발자가 코드를 수정할 필요가 없습니다.
ComplexFuncBench는 모델이 복잡한 함수 호출 작업을 얼마나 잘 처리하는지 측정합니다. 여기에는 다단계 호출, 제약 조건이나 암시적 인수에 대한 추론, 매우 긴 입력 처리 등 다양한 시나리오가 포함됩니다. 우리는 원래의 텍스트 프롬프트를 음성으로 변환해 이 평가를 진행했습니다.
New in the Realtime API
원격 MCP 서버 지원
Realtime API 세션에서 원격 MCP 서버의 URL을 세션 구성에 전달하면 MCP 지원을 활성화할 수 있습니다. 연결이 완료되면 API가 도구 호출을 자동으로 처리하므로, 별도의 통합 작업이 필요하지 않습니다.
이 설정을 통해 에이전트의 기능을 쉽게 확장할 수 있습니다. 세션을 다른 MCP 서버로 지정하기만 하면 해당 도구들이 즉시 사용 가능해집니다.
// POST /v1/realtime/client_secrets
{
"session": {
"type": "realtime",
"tools": [
{
"type": "mcp",
"server_label": "stripe",
"server_url": "https://mcp.stripe.com",
"authorization": "{access_token}",
"require_approval": "never"
}
]
}
}이미지 입력
이제 gpt-realtime에서 이미지 입력이 지원되어, 오디오나 텍스트와 함께 이미지, 사진, 스크린샷을 Realtime API 세션에 추가할 수 있습니다. 이제 모델이 사용자가 실제로 보고 있는 것에 기반해 대화를 진행할 수 있어, “무엇이 보이나요?” 또는 “이 스크린샷의 텍스트를 읽어주세요”와 같은 질문이 가능합니다.
이미지를 실시간 비디오 스트림처럼 처리하는 대신, 시스템은 이미지를 대화에 사진을 추가하는 것처럼 다룹니다. 앱에서 어떤 이미지를 언제 모델에 공유할지 직접 결정할 수 있습니다. 이를 통해 모델이 무엇을 보고 언제 응답할지 제어할 수 있습니다.
이미지 입력을 시작하려면 우리의 문서를 확인하세요.
{
"type": "conversation.item.create",
"previous_item_id": null,
"item": {
"type": "message",
"role": "user",
"content": [
{
"type": "input_image",
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
}
]
}
}추가 기능
Realtime API를 실제 환경에서 더 쉽게 통합하고 유연하게 사용할 수 있도록 여러 가지 기능을 추가했습니다.
- Session Initiation Protocol(SIP) 지원: Realtime API의 직접 지원을 통해 앱을 공중 전화망, PBX 시스템, 데스크폰, 기타 SIP 엔드포인트에 연결할 수 있습니다. 자세한 내용은 문서를 참고하세요.
- 재사용 가능한 프롬프트: 이제 개발자 메시지, 도구, 변수, 예시 사용자/어시스턴트 메시지로 구성된 프롬프트를 저장하고, Responses API처럼 Realtime API 세션 전반에 걸쳐 재사용할 수 있습니다. 자세한 내용은 문서를 참고하세요.
Safety & privacy
Realtime API는 오용을 방지하기 위해 여러 단계의 보호 장치와 완화책을 적용하고 있습니다. 우리의 안전 접근 방식과 시스템 카드에 대한 자세한 내용은 베타 발표 블로그에서 확인할 수 있습니다. 우리는 Realtime API 세션에 대해 활성 분류기를 사용하여, 유해한 콘텐츠 가이드라인을 위반하는 대화가 감지되면 중단될 수 있도록 했습니다. 개발자는 Agents SDK를 활용해 추가적인 안전 장치를 쉽게 추가할 수 있습니다.
우리의 사용 정책은 서비스의 출력물을 스팸, 사기, 기타 유해한 목적으로 재사용하거나 배포하는 것을 금지합니다. 또한, 개발자는 사용자가 AI와 상호작용하고 있음을 명확히 알릴 의무가 있으며, 상황상 이미 명확한 경우는 예외입니다. Realtime API는 사전 설정된 음성을 사용하여 악의적인 행위자가 타인을 사칭하는 것을 방지합니다.
가격 및 제공
일반 제공되는 Realtime API와 새로운 gpt-realtime 모델은 오늘부터 모든 개발자가 사용할 수 있습니다. 우리는 gpt-4o-realtime-preview에 비해 gpt-realtime의 가격을 20% 인하하여, 오디오 입력 토큰 100만 개당 $32(캐시된 입력 토큰은 $0.40), 오디오 출력 토큰 100만 개당 $64로 제공합니다(자세한 가격은 가격 안내에서 확인하세요). 또한, 대화 컨텍스트에 대한 세밀한 제어 기능을 추가하여 개발자가 지능형 토큰 한도를 설정하고 여러 턴을 한 번에 잘라낼 수 있어, 긴 세션의 비용을 크게 줄일 수 있습니다.
시작하려면 Realtime API 문서를 방문하고, Playground에서 새로운 모델을 테스트하며, Realtime API 프롬프트 안내서를 확인하세요.