Documentation Index
Fetch the complete documentation index at: https://docs.tryvox.co/llms.txt
Use this file to discover all available pages before exploring further.
음성 인식 & 발화
에이전트의 음성 인식과 발화를 설정합니다. 음성 인식(STT)은 사용자의 말을 텍스트로 변환하고, 음성 발화(TTS)는 에이전트의 응답을 음성으로 전달합니다.음성 인식 (STT)
사용자 발화를 텍스트로 변환하는 음성 인식은 vox.ai가 적절한 모델을 자동으로 선택해 적용합니다. 별도 공급사 선택 없이 한국어를 포함한 주요 언어에서 안정적으로 동작하며, 전화 통화 환경에 맞춰 일반 STT 대비 인식률이 높습니다. 사용자가 직접 구성하는 항목은 인식할 언어와 인식 속도 두 가지입니다.언어 설정
대시보드의 음성 및 언어 > 언어 및 인식에서 에이전트가 인식할 언어를 선택합니다.- 단일 언어: 하나의 언어만 선택합니다. 인식 정확도가 가장 높습니다.
- 다중 언어: 여러 언어를 동시에 선택합니다. 사용자가 어떤 언어로 말하든 자동 감지합니다.
인식 속도
사용자 발화 후 텍스트 변환이 완료되기까지의 응답성을 제어합니다.| 레벨 | 정확도 | 속도 | 적합한 용도 |
|---|---|---|---|
| Low | 높음 | 느림 | 긴 발화, 전문 용어가 많은 대화 |
| Medium | 보통 | 보통 | 일반 대화 (기본값) |
| High | 낮음 | 빠름 | 짧은 응답 위주의 대화 |
다중 언어를 선택하면 인식 속도 설정이 비활성화됩니다. 시스템이 자동으로 최적 속도를 결정합니다.
인식 정확도 높이기
도메인 특화 용어(상품명, 의료·법률 용어, 고유명사 등)는 일반 STT 모델에서 오인식이 발생할 수 있습니다. 발화 설정의 키워드에 해당 단어를 등록하면 STT가 더 정확하게 인식합니다. 예:아목시실린, 갤럭시 Z플립, ISA 계좌
인식 결과 확인
각 통화의 STT 결과는 통화 이력 페이지의 스크립트에서 확인할 수 있습니다. 오인식이 반복되는 단어를 찾아 키워드와 언어 설정을 점진적으로 보강하세요.인식 언어와 응답 언어는 별개입니다. 인식 언어는 STT가, 응답 언어는 LLM 프롬프트가 결정합니다.
음성 발화 (TTS)
에이전트의 목소리를 결정합니다. 공급사별로 지원 언어, 지연 시간, 조절 가능한 파라미터가 다르며, 전화번호나 금액 등의 발음 제어는 발음 가이드를 참고하세요.음성 공급사
대시보드의 음성 및 언어 > 음성 선택에서 현재 사용할 수 있는 공급사와 음성을 확인합니다. 음성 목록은 카탈로그 기반으로 제공되며, 공개 음성뿐 아니라 워크스페이스에 연결된 비공개 음성도 함께 표시될 수 있습니다.| 확인 항목 | 어디서 확인하나요 | 설명 |
|---|---|---|
| 공급사 | 대시보드 음성 선택, GET /v3/models/voices | Google, Cartesia, ElevenLabs, OpenAI 등 현재 활성화된 공급사가 표시됩니다. |
| 지원 언어 | 대시보드 필터, API 응답 | 공급사와 음성마다 지원 언어가 다를 수 있습니다. |
| 비공개 음성 | 대시보드 음성 라이브러리, API 응답 | 직접 생성하거나 연결한 음성은 해당 워크스페이스에서만 사용할 수 있습니다. |
| 세부 파라미터 | 음성 선택 후 설정 영역 | 속도, 볼륨, Temperature 등은 공급사별로 지원 여부가 다릅니다. |
공급사, 모델, 음성 수는 계속 바뀔 수 있습니다. 자동화나 내부 도구에서 음성 목록을 동기화해야 한다면
GET /v3/models/voices를 기준으로 삼으세요.음성 라이브러리
공급사를 선택한 뒤, 음성 라이브러리에서 원하는 목소리를 고릅니다.- 공개 음성: 공급사가 제공하는 기본 음성으로, 누구나 사용할 수 있습니다.
- 비공개 음성: 직접 생성하거나 복제한 커스텀 음성으로, 해당 계정에서만 사용 가능합니다.
세부 조절
음성을 선택한 후 슬라이더로 파라미터를 조절할 수 있습니다. 지원 여부는 공급사에 따라 다릅니다.| 파라미터 | 설명 | 지원 공급사 |
|---|---|---|
| 속도 | 발화 속도. 값이 높을수록 빠르게 말합니다. | Google, Cartesia, ElevenLabs |
| 볼륨 | 음성 출력 볼륨. | Cartesia |
| Temperature | 발화의 변동성. 높을수록 같은 문장에서도 표현이 다양해집니다. | ElevenLabs |
관련 문서
연관 검색어
연관 검색어
음성 선택, voice select, STT, TTS, 음성 공급사, Google, Cartesia, ElevenLabs, 음성 라이브러리, 언어 설정