Skip to main content

음성 인식 & 발화

에이전트의 음성 인식과 발화를 설정합니다. 음성 인식(STT)은 사용자의 말을 텍스트로 변환하고, 음성 발화(TTS)는 에이전트의 응답을 음성으로 전달합니다.

음성 인식 (STT)

사용자 발화를 텍스트로 변환하는 음성 인식은 vox.ai가 적절한 모델을 자동으로 선택해 적용합니다. 별도 공급사 선택 없이 한국어를 포함한 주요 언어에서 안정적으로 동작하며, 전화 통화 환경에 맞춰 일반 STT 대비 인식률이 높습니다. 사용자가 직접 구성하는 항목은 인식할 언어인식 속도 두 가지입니다.

언어 설정

대시보드의 음성 및 언어 > 언어 및 인식에서 에이전트가 인식할 언어를 선택합니다.
  • 단일 언어: 하나의 언어만 선택합니다. 인식 정확도가 가장 높습니다.
  • 다중 언어: 여러 언어를 동시에 선택합니다. 사용자가 어떤 언어로 말하든 자동 감지합니다.
대화 대상의 언어가 명확하다면 단일 언어를 사용하세요. 정확도와 응답 속도가 모두 향상됩니다.

인식 속도

사용자 발화 후 텍스트 변환이 완료되기까지의 응답성을 제어합니다.
레벨정확도속도적합한 용도
Low높음느림긴 발화, 전문 용어가 많은 대화
Medium보통보통일반 대화 (기본값)
High낮음빠름짧은 응답 위주의 대화
다중 언어를 선택하면 인식 속도 설정이 비활성화됩니다. 시스템이 자동으로 최적 속도를 결정합니다.

인식 정확도 높이기

도메인 특화 용어(상품명, 의료·법률 용어, 고유명사 등)는 일반 STT 모델에서 오인식이 발생할 수 있습니다. 발화 설정키워드에 해당 단어를 등록하면 STT가 더 정확하게 인식합니다. 예: 아목시실린, 갤럭시 Z플립, ISA 계좌

인식 결과 확인

각 통화의 STT 결과는 통화 이력 페이지의 스크립트에서 확인할 수 있습니다. 오인식이 반복되는 단어를 찾아 키워드와 언어 설정을 점진적으로 보강하세요.
인식 언어와 응답 언어는 별개입니다. 인식 언어는 STT가, 응답 언어는 LLM 프롬프트가 결정합니다.

음성 발화 (TTS)

에이전트의 목소리를 결정합니다. 공급사별로 지원 언어, 지연 시간, 조절 가능한 파라미터가 다르며, 전화번호나 금액 등의 발음 제어는 발음 가이드를 참고하세요.

음성 공급사

대시보드의 음성 및 언어 > 음성 선택에서 공급사를 선택합니다. vox.ai는 세 가지 음성 공급사를 지원합니다.
공급사모델지연 시간지원 언어한국어 음성특징
GoogleChirp3-HD100~300ms한국어 외 9개 언어31개음성 라이브러리 300+, 언어 폭이 가장 넓음
Cartesiasonic-3-latest200~300ms한·영8개속도·볼륨을 함께 조절
ElevenLabseleven_flash_v2_5150~200ms한·영·일43개한국어 음성이 가장 많고 감정 표현이 풍부
실시간 전화 대화에서는 목적에 맞는 공급사 선택이 중요합니다.
  • 속도가 중요하면 Google을 선택하세요. 100~300ms로 가장 빠른 응답을 제공합니다.
  • 자연스러움이 중요하면 ElevenLabsCartesia를 선택하세요. 감정 표현이 풍부하고 인간적인 톤을 만들 수 있습니다.

음성 라이브러리

공급사를 선택한 뒤, 음성 라이브러리에서 원하는 목소리를 고릅니다.
  • 공개 음성: 공급사가 제공하는 기본 음성으로, 누구나 사용할 수 있습니다.
  • 비공개 음성: 직접 생성하거나 복제한 커스텀 음성으로, 해당 계정에서만 사용 가능합니다.
음성 라이브러리는 언어별로 필터링할 수 있습니다.

세부 조절

음성을 선택한 후 슬라이더로 파라미터를 조절할 수 있습니다. 지원 여부는 공급사에 따라 다릅니다.
파라미터설명지원 공급사
속도발화 속도. 값이 높을수록 빠르게 말합니다.Google, Cartesia, ElevenLabs
볼륨음성 출력 볼륨.Cartesia
Temperature발화의 변동성. 높을수록 같은 문장에서도 표현이 다양해집니다.ElevenLabs
공급사를 변경하면 속도, 볼륨 등 세부 설정이 기본값으로 초기화됩니다. 같은 공급사 내에서 음성만 바꾸면 기존 설정이 유지됩니다.

관련 문서


음성 선택, voice select, STT, TTS, 음성 공급사, Google, Cartesia, ElevenLabs, 음성 라이브러리, 언어 설정