vox.ai는 최신 음성 기술들을 자연스럽게 통합하여 전화 통화에 최적화된 자연스러운 상호작용을 구현하는 음성 오케스트레이션 시스템을 제공합니다.

1. 기본 구성 요소

기존의 음성 AI 시스템은 세 가지 핵심 요소로 구성됩니다:

  • 음성-텍스트 변환 (STT)
  • 대규모 언어 모델 (LLM)
  • 텍스트-음성 변환 (TTS)

하지만 이런 기술들을 단순히 연결하는 것만으로는 한계가 있습니다. 실제 통화에서는 스트리밍 지연 최소화, 주변 소음 처리 등 해결해야 할 과제들이 많기 때문입니다. 특히 실시간 통화에서 필요한 중요한 기능들이 빠져있어 실제 서비스에 바로 적용하기는 어려울 수 있습니다.

2. vox.ai의 솔루션

vox.ai는 이러한 기술적 한계를 극복하기 위한 시스템을 구축했습니다. 각각의 음성 AI 기술들을 최적의 상태로 조율하여 빠른 응답 속도, 안정적인 서비스 운영, 그리고 마치 실제 상담원과 대화하는 것처럼 자연스러운 대화 경험을 제공합니다.

2-1. 통합 음성 모델 관리

vox.ai는 다양한 음성 AI 기술을 하나의 시스템으로 통합 관리합니다. STT, LLM, TTS 등 핵심 구성 요소들에 대하여 개발자가 직접 신경 쓸 필요가 전혀 없습니다.

  • 여러 공급업체의 모델을 상황에 맞게 선택할 수 있습니다.
  • 문제가 발생하면 자동으로 대체 모델로 전환되어 서비스 중단을 방지합니다.
  • 모든 설정은 직관적인 인터페이스를 통해 간편하게 관리할 수 있습니다.

2-2. 지능형 대화 관리

실제 상담원처럼 자연스러운 대화 흐름을 구현하기 위해 여러 가지 고급 기능을 제공합니다:

  • 대화 중단 및 끼어들기: 실시간으로 사용자의 끼어들기를 감지하고 상황에 맞게 대응합니다. 끼어들기 감도를 조절하여 서비스 목적에 최적화된 대화 경험을 제공할 수 있습니다.
  • 발화 종료 감지: 사용자의 어조와 문맥을 함께 분석하여 발화 완료 시점을 파악합니다.
  • 감정 인식: 실시간 감정 분석을 통해 사용자의 감정 상태를 파악하고, 이에 맞춰 응답의 톤을 조절합니다.

2-3. 잡음 처리 시스템

  • 배경 소음 제거: 음악, 자동차 경적 등 다양한 배경 소음을 실시간으로 필터링하여 주 화자의 음성에만 집중할 수 있게 합니다.

2-4. 자연스러운 음성 생성

  • LLM의 형식적인 응답을 실제 대화체로 자연스럽게 변환합니다.
  • “음..”, “그러니까요”, “아, 네” 같은 일상적인 표현들을 적절히 추가하여 기계적인 느낌을 줄입니다.
  • 추가적인 지연 시간 없이 실시간으로 자연스러운 대화체를 구사할 수 있도록 설계되었습니다.