음성 인식 & 발화

에이전트의 음성 인식과 발화를 설정합니다. 음성 인식(STT)은 사용자의 말을 텍스트로 변환하고, 음성 발화(TTS)는 에이전트의 응답을 음성으로 전달합니다.

음성 인식 (STT)

사용자 발화를 텍스트로 변환하는 음성 인식은 vox.ai가 적절한 모델을 자동으로 선택해 적용합니다. 별도 프로바이더 선택 없이 한국어를 포함한 주요 언어에서 안정적으로 동작하며, 전화 통화 환경에 맞춰 일반 STT 대비 인식률이 높습니다. 사용자가 직접 구성하는 항목은 인식할 언어와 인식 속도 두 가지입니다.

언어 설정

에이전트 설정의 언어 및 인식에서 에이전트가 인식할 언어를 선택합니다.

단일 언어: 하나의 언어만 선택합니다. 인식 정확도가 가장 높습니다.
다중 언어: 여러 언어를 동시에 선택합니다. 사용자가 어떤 언어로 말하든 자동 감지합니다.

대화 대상의 언어가 명확하다면 단일 언어를 사용하세요. 정확도와 응답 속도가 모두 향상됩니다.

인식 속도

사용자 발화 후 텍스트 변환이 완료되기까지의 응답성을 제어합니다.

레벨	정확도	속도	적합한 용도
Low	높음	느림	긴 발화, 전문 용어가 많은 대화
Medium	보통	보통	일반 대화 (기본값)
High	낮음	빠름	짧은 응답 위주의 대화

다중 언어를 선택하면 인식 속도 설정이 비활성화됩니다. 시스템이 자동으로 최적 속도를 결정합니다.

인식 정확도 높이기

도메인 특화 용어(상품명, 의료·법률 용어, 고유명사 등)는 일반 STT 모델에서 오인식이 발생할 수 있습니다. 발화 설정의 키워드에 해당 단어를 등록하면 STT가 더 정확하게 인식합니다. 예: 아목시실린, 갤럭시 Z플립, ISA 계좌

인식 결과 확인

각 통화의 STT 결과는 통화 이력 페이지의 스크립트에서 확인할 수 있습니다. 오인식이 반복되는 단어를 찾아 키워드와 언어 설정을 점진적으로 보강하세요.

인식 언어와 응답 언어는 별개입니다. 인식 언어는 STT가, 응답 언어는 LLM 프롬프트가 결정합니다.

음성 발화 (TTS)

에이전트의 목소리를 결정합니다. 프로바이더별로 지원 언어, 지연 시간, 조절 가능한 파라미터가 다르며, 전화번호나 금액 등의 발음 제어는 발음 가이드를 참고하세요.

보이스 프로바이더

대시보드의 보이스에서 현재 사용할 수 있는 프로바이더와 보이스를 확인합니다. 보이스 목록은 카탈로그 기반으로 제공되며, 공개 보이스뿐 아니라 워크스페이스에 연결된 내 보이스(워크스페이스 전용 비공개 보이스)도 함께 표시될 수 있습니다.

확인 항목	어디서 확인하나요	설명
프로바이더	대시보드 보이스 라이브러리, `GET /v3/models/voices`	Google, Cartesia, ElevenLabs, OpenAI 등 현재 활성화된 프로바이더가 표시됩니다.
지원 언어	대시보드 필터, API 응답	프로바이더와 보이스마다 지원 언어가 다를 수 있습니다.
내 보이스	대시보드 보이스 라이브러리, API 응답	직접 생성하거나 연결한 보이스는 해당 워크스페이스에서만 사용할 수 있습니다.
세부 파라미터	보이스 선택 후 설정 영역	속도, 볼륨, Temperature 등은 프로바이더별로 지원 여부가 다릅니다.

실시간 전화 대화에서는 목적에 맞는 프로바이더 선택이 중요합니다.

속도가 중요하면 Google을 선택하세요. 100~300ms로 가장 빠른 응답을 제공합니다.
자연스러움이 중요하면 ElevenLabs나 Cartesia를 선택하세요. 감정 표현이 풍부하고 인간적인 톤을 만들 수 있습니다.

프로바이더, 모델, 보이스 수는 계속 바뀔 수 있습니다. 자동화나 내부 도구에서 보이스 목록을 동기화해야 한다면 GET /v3/models/voices를 기준으로 삼으세요.

보이스 라이브러리

프로바이더를 선택한 뒤, 보이스 라이브러리에서 원하는 목소리를 고릅니다.

공개 보이스: 프로바이더가 제공하는 기본 보이스로, 누구나 사용할 수 있습니다.
내 보이스: 직접 생성하거나 복제한 커스텀 보이스로, 해당 워크스페이스에서만 사용 가능합니다. 직접 만들려면 보이스 클론을 참고하세요.

보이스 라이브러리는 언어별로 필터링할 수 있습니다.

세부 조절

보이스를 선택한 후 슬라이더로 파라미터를 조절할 수 있습니다. 지원 여부는 프로바이더에 따라 다릅니다.

파라미터	설명	지원 프로바이더
속도	발화 속도. 값이 높을수록 빠르게 말합니다.	Google, Cartesia, ElevenLabs
볼륨	음성 출력 볼륨.	Cartesia
Temperature	발화의 변동성. 높을수록 같은 문장에서도 표현이 다양해집니다.	ElevenLabs

프로바이더를 변경하면 속도, 볼륨 등 세부 설정이 기본값으로 초기화됩니다. 같은 프로바이더 내에서 보이스만 바꾸면 기존 설정이 유지됩니다.

​음성 인식 & 발화

​음성 인식 (STT)

​언어 설정

​인식 속도

​인식 정확도 높이기

​인식 결과 확인

​음성 발화 (TTS)

​보이스 프로바이더

​보이스 라이브러리

​세부 조절

​관련 문서

음성 인식 & 발화

음성 인식 (STT)

언어 설정

인식 속도

인식 정확도 높이기

인식 결과 확인

음성 발화 (TTS)

보이스 프로바이더

보이스 라이브러리

세부 조절

관련 문서