음성 인식 & 발화
에이전트의 음성 인식과 발화를 설정합니다. 음성 인식(STT)은 사용자의 말을 텍스트로 변환하고, 음성 발화(TTS)는 에이전트의 응답을 음성으로 전달합니다.음성 인식 (STT)
사용자 발화를 텍스트로 변환하는 음성 인식은 vox.ai가 적절한 모델을 자동으로 선택해 적용합니다. 별도 공급사 선택 없이 한국어를 포함한 주요 언어에서 안정적으로 동작하며, 전화 통화 환경에 맞춰 일반 STT 대비 인식률이 높습니다. 사용자가 직접 구성하는 항목은 인식할 언어와 인식 속도 두 가지입니다.언어 설정
대시보드의 음성 및 언어 > 언어 및 인식에서 에이전트가 인식할 언어를 선택합니다.- 단일 언어: 하나의 언어만 선택합니다. 인식 정확도가 가장 높습니다.
- 다중 언어: 여러 언어를 동시에 선택합니다. 사용자가 어떤 언어로 말하든 자동 감지합니다.
인식 속도
사용자 발화 후 텍스트 변환이 완료되기까지의 응답성을 제어합니다.| 레벨 | 정확도 | 속도 | 적합한 용도 |
|---|---|---|---|
| Low | 높음 | 느림 | 긴 발화, 전문 용어가 많은 대화 |
| Medium | 보통 | 보통 | 일반 대화 (기본값) |
| High | 낮음 | 빠름 | 짧은 응답 위주의 대화 |
다중 언어를 선택하면 인식 속도 설정이 비활성화됩니다. 시스템이 자동으로 최적 속도를 결정합니다.
인식 정확도 높이기
도메인 특화 용어(상품명, 의료·법률 용어, 고유명사 등)는 일반 STT 모델에서 오인식이 발생할 수 있습니다. 발화 설정의 키워드에 해당 단어를 등록하면 STT가 더 정확하게 인식합니다. 예:아목시실린, 갤럭시 Z플립, ISA 계좌
인식 결과 확인
각 통화의 STT 결과는 통화 이력 페이지의 스크립트에서 확인할 수 있습니다. 오인식이 반복되는 단어를 찾아 키워드와 언어 설정을 점진적으로 보강하세요.인식 언어와 응답 언어는 별개입니다. 인식 언어는 STT가, 응답 언어는 LLM 프롬프트가 결정합니다.
음성 발화 (TTS)
에이전트의 목소리를 결정합니다. 공급사별로 지원 언어, 지연 시간, 조절 가능한 파라미터가 다르며, 전화번호나 금액 등의 발음 제어는 발음 가이드를 참고하세요.음성 공급사
대시보드의 음성 및 언어 > 음성 선택에서 공급사를 선택합니다. vox.ai는 세 가지 음성 공급사를 지원합니다.| 공급사 | 모델 | 지연 시간 | 지원 언어 | 한국어 음성 | 특징 |
|---|---|---|---|---|---|
| Chirp3-HD | 100~300ms | 한국어 외 9개 언어 | 31개 | 음성 라이브러리 300+, 언어 폭이 가장 넓음 | |
| Cartesia | sonic-3-latest | 200~300ms | 한·영 | 8개 | 속도·볼륨을 함께 조절 |
| ElevenLabs | eleven_flash_v2_5 | 150~200ms | 한·영·일 | 43개 | 한국어 음성이 가장 많고 감정 표현이 풍부 |
음성 라이브러리
공급사를 선택한 뒤, 음성 라이브러리에서 원하는 목소리를 고릅니다.- 공개 음성: 공급사가 제공하는 기본 음성으로, 누구나 사용할 수 있습니다.
- 비공개 음성: 직접 생성하거나 복제한 커스텀 음성으로, 해당 계정에서만 사용 가능합니다.
세부 조절
음성을 선택한 후 슬라이더로 파라미터를 조절할 수 있습니다. 지원 여부는 공급사에 따라 다릅니다.| 파라미터 | 설명 | 지원 공급사 |
|---|---|---|
| 속도 | 발화 속도. 값이 높을수록 빠르게 말합니다. | Google, Cartesia, ElevenLabs |
| 볼륨 | 음성 출력 볼륨. | Cartesia |
| Temperature | 발화의 변동성. 높을수록 같은 문장에서도 표현이 다양해집니다. | ElevenLabs |
관련 문서
연관 검색어
연관 검색어
음성 선택, voice select, STT, TTS, 음성 공급사, Google, Cartesia, ElevenLabs, 음성 라이브러리, 언어 설정