이런 상황에 쓰면 좋아요
쇼츠/릴스 내레이션, 교육 영상의 보이스오버, 사내 안내 음성 — 직접 녹음하면 30분 분량인데 ElevenLabs를 쓰면 5분이면 끝납니다. 한국어를 32개 이상의 지원 언어 중 하나로 다루며, 자연스러운 억양·발음 처리가 강점입니다(2026년 4월 기준).
준비물
- ElevenLabs 계정 (무료 플랜으로 시작 가능)
- 무료 플랜 기준: 월 10,000 크레딧 (Multilingual v2 모델로 약 10분 분량의 고품질 TTS). 단, 무료 플랜은 상업적 이용 불가이며 공개물에는 ElevenLabs 표기 의무가 있습니다.
- 상업적 이용·로고 표기 제거가 필요하면 Starter $6/월부터 (월 30,000 크레딧 ≈ 약 30분), 영상 제작자라면 Creator $22/월(공식 사이트 기준)부터 검토하세요.
- 입력 텍스트(맞춤법·문장부호를 정돈해 두면 자연스러움이 크게 올라갑니다)
단계별 사용법
- elevenlabs.io에 로그인 → “Speech Synthesis"로 들어갑니다.
- Voice Library에서 한국어가 잘 어울리는 보이스를 1~2개 골라 즐겨찾기에 추가합니다. 다국어 v2 모델 기반의 보이스가 한국어 발음·억양에서 가장 안정적입니다.
- 모델은 Multilingual v2(또는 최신 다국어 모델)로 선택합니다. 단일 영어 모델은 한국어 발음이 어색합니다.
- 텍스트를 문장 단위로 정리해 입력합니다. 한 줄 한 문장이 안정적이고, 마침표·쉼표·물음표를 정확하게 찍어두면 호흡이 자연스럽게 잡힙니다.
- “Stability"와 “Similarity” 슬라이더를 조정합니다. 정보 전달용 내레이션은 Stability 50
60, 감정이 필요한 스토리텔링은 3040 정도가 무난합니다. - 첫 30초만 미리 합성해 보고 톤을 결정합니다. 전체를 한 번에 돌리기 전에 짧게 들어보고 슬라이더·보이스를 조정하면 크레딧을 아낄 수 있습니다.
- MP3로 다운로드해 영상 편집툴에 올립니다. Premiere/CapCut/DaVinci 어디서든 그대로 쓸 수 있습니다.
결과 예시
자연스러움을 끌어올리는 입력 패턴입니다.
안녕하세요, AI 활용 노트입니다.
오늘은 ElevenLabs로 한국어 보이스오버를 만드는 방법을 다뤄볼게요.
먼저, 보이스를 고를 때는 — 너무 또랑또랑한 목소리보다는
약간 부드러운 톤이 화면에 잘 어울려요.
이렇게 입력하면 모델이 다음을 자동으로 처리합니다.
| 입력 요소 | 합성에 끼치는 효과 |
|---|---|
, 쉼표 | 짧은 호흡 |
. 마침표 | 문장 끝 톤 떨어뜨림 |
? 물음표 | 끝을 살짝 올림 |
— 줄표 | 미세한 머뭇거림 |
| 줄바꿈 두 번 | 단락 휴지 |
자주 발생하는 문제
- 외국어·숫자에서 발음이 어색해요. → “AI"는 “에이아이”, “2026년"은 “이천이십육년"처럼 한글로 풀어 적으면 발음이 안정됩니다. 영문 약어는 한글 음차 + 괄호로 보조해 보세요.
- 너무 빠르게 읽어요. → Stability를 올리고, 문장 사이에 마침표 + 줄바꿈 두 번을 넣으세요. 점 세 개(…)로 미세 호흡도 줄 수 있습니다.
- 억양이 평탄해요. → 같은 문장도 평서문이 아니라 “어떤가요?“처럼 끝을 살짝 비틀면 변화가 들어갑니다.
- 고유명사 발음이 이상해요. → 첫 등장 시에 한 번 한글로 명시(예: “지피티(GPT)”) 해두면 이후 발음 안정성이 올라갑니다.
- 무료 플랜인데 크레딧이 빨리 닳아요. → 한 번에 긴 텍스트를 합성하지 말고, 30초 단위로 미리 들어보고 본 합성에 들어가는 습관을 들이세요.
더 효율적으로 쓰는 팁
- 시리즈 영상은 같은 보이스를 고정하세요. 보이스 ID를 메모해 두면 다음 화에서도 톤이 일관되게 유지됩니다.
- 대본은 ChatGPT/Claude로 한 번 다듬으세요. “내레이션용 호흡으로 다시 써줘 — 한 문장 25자 내외"라고 시키면 합성 품질이 크게 올라갑니다.
- 숫자·단위는 한글로. “1,200원” → “천이백 원” 같은 변환만 해도 자연스러움이 한 단계 좋아집니다.
- 상업적 이용은 반드시 유료 플랜에서. 광고가 붙거나 수익이 발생하는 콘텐츠라면 Starter 이상에서 작업하는 것이 라이선스상 안전합니다.
- 음성+영상은 따로 보관하세요. 텍스트가 자주 바뀌는 영상이라면 보이스오버를 트랙별로 나눠 저장해 두면 한 줄 수정에 전체 재합성이 필요 없습니다.
마치며
다국어 모델 + 문장부호 정돈된 대본 + Stability 슬라이더. 이 셋만 갖춰도 외부 성우 없이 영상에 쓸 만한 한국어 보이스오버를 만들 수 있습니다. 영상의 자막·요약을 한 번에 정리하고 싶다면 Gemini로 1시간짜리 YouTube 영상 핵심만 뽑기와 결합하면 학습 콘텐츠 제작 흐름이 매끄러워지고, 대본을 빠르게 다듬는 작업은 회의록을 ChatGPT로 핵심만 뽑아 정리하는 법의 프롬프트 패턴을 그대로 응용해 보세요.