Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.tryvox.co/llms.txt

Use this file to discover all available pages before exploring further.

음성 인식 & 발화

에이전트의 음성 인식과 발화를 설정합니다. 음성 인식(STT)은 사용자의 말을 텍스트로 변환하고, 음성 발화(TTS)는 에이전트의 응답을 음성으로 전달합니다.

음성 인식 (STT)

사용자 발화를 텍스트로 변환하는 음성 인식은 vox.ai가 적절한 모델을 자동으로 선택해 적용합니다. 별도 공급사 선택 없이 한국어를 포함한 주요 언어에서 안정적으로 동작하며, 전화 통화 환경에 맞춰 일반 STT 대비 인식률이 높습니다. 사용자가 직접 구성하는 항목은 인식할 언어인식 속도 두 가지입니다.

언어 설정

대시보드의 음성 및 언어 > 언어 및 인식에서 에이전트가 인식할 언어를 선택합니다.
  • 단일 언어: 하나의 언어만 선택합니다. 인식 정확도가 가장 높습니다.
  • 다중 언어: 여러 언어를 동시에 선택합니다. 사용자가 어떤 언어로 말하든 자동 감지합니다.
대화 대상의 언어가 명확하다면 단일 언어를 사용하세요. 정확도와 응답 속도가 모두 향상됩니다.

인식 속도

사용자 발화 후 텍스트 변환이 완료되기까지의 응답성을 제어합니다.
레벨정확도속도적합한 용도
Low높음느림긴 발화, 전문 용어가 많은 대화
Medium보통보통일반 대화 (기본값)
High낮음빠름짧은 응답 위주의 대화
다중 언어를 선택하면 인식 속도 설정이 비활성화됩니다. 시스템이 자동으로 최적 속도를 결정합니다.

인식 정확도 높이기

도메인 특화 용어(상품명, 의료·법률 용어, 고유명사 등)는 일반 STT 모델에서 오인식이 발생할 수 있습니다. 발화 설정키워드에 해당 단어를 등록하면 STT가 더 정확하게 인식합니다. 예: 아목시실린, 갤럭시 Z플립, ISA 계좌

인식 결과 확인

각 통화의 STT 결과는 통화 이력 페이지의 스크립트에서 확인할 수 있습니다. 오인식이 반복되는 단어를 찾아 키워드와 언어 설정을 점진적으로 보강하세요.
인식 언어와 응답 언어는 별개입니다. 인식 언어는 STT가, 응답 언어는 LLM 프롬프트가 결정합니다.

음성 발화 (TTS)

에이전트의 목소리를 결정합니다. 공급사별로 지원 언어, 지연 시간, 조절 가능한 파라미터가 다르며, 전화번호나 금액 등의 발음 제어는 발음 가이드를 참고하세요.

음성 공급사

대시보드의 음성 및 언어 > 음성 선택에서 현재 사용할 수 있는 공급사와 음성을 확인합니다. 음성 목록은 카탈로그 기반으로 제공되며, 공개 음성뿐 아니라 워크스페이스에 연결된 비공개 음성도 함께 표시될 수 있습니다.
확인 항목어디서 확인하나요설명
공급사대시보드 음성 선택, GET /v3/models/voicesGoogle, Cartesia, ElevenLabs, OpenAI 등 현재 활성화된 공급사가 표시됩니다.
지원 언어대시보드 필터, API 응답공급사와 음성마다 지원 언어가 다를 수 있습니다.
비공개 음성대시보드 음성 라이브러리, API 응답직접 생성하거나 연결한 음성은 해당 워크스페이스에서만 사용할 수 있습니다.
세부 파라미터음성 선택 후 설정 영역속도, 볼륨, Temperature 등은 공급사별로 지원 여부가 다릅니다.
실시간 전화 대화에서는 목적에 맞는 공급사 선택이 중요합니다.
  • 속도가 중요하면 Google을 선택하세요. 100~300ms로 가장 빠른 응답을 제공합니다.
  • 자연스러움이 중요하면 ElevenLabsCartesia를 선택하세요. 감정 표현이 풍부하고 인간적인 톤을 만들 수 있습니다.
공급사, 모델, 음성 수는 계속 바뀔 수 있습니다. 자동화나 내부 도구에서 음성 목록을 동기화해야 한다면 GET /v3/models/voices를 기준으로 삼으세요.

음성 라이브러리

공급사를 선택한 뒤, 음성 라이브러리에서 원하는 목소리를 고릅니다.
  • 공개 음성: 공급사가 제공하는 기본 음성으로, 누구나 사용할 수 있습니다.
  • 비공개 음성: 직접 생성하거나 복제한 커스텀 음성으로, 해당 계정에서만 사용 가능합니다.
음성 라이브러리는 언어별로 필터링할 수 있습니다.

세부 조절

음성을 선택한 후 슬라이더로 파라미터를 조절할 수 있습니다. 지원 여부는 공급사에 따라 다릅니다.
파라미터설명지원 공급사
속도발화 속도. 값이 높을수록 빠르게 말합니다.Google, Cartesia, ElevenLabs
볼륨음성 출력 볼륨.Cartesia
Temperature발화의 변동성. 높을수록 같은 문장에서도 표현이 다양해집니다.ElevenLabs
공급사를 변경하면 속도, 볼륨 등 세부 설정이 기본값으로 초기화됩니다. 같은 공급사 내에서 음성만 바꾸면 기존 설정이 유지됩니다.

관련 문서


음성 선택, voice select, STT, TTS, 음성 공급사, Google, Cartesia, ElevenLabs, 음성 라이브러리, 언어 설정