ElevenLabs로 자연스러운 한국어 보이스오버 만들기

쇼츠·교육 영상·팟캐스트용 한국어 내레이션을 ElevenLabs로 만드는 실전 가이드. 무료 플랜 한도와 자연스러움을 끌어올리는 SSML·문장부호 활용법까지 정리했습니다.

이런 상황에 쓰면 좋아요

쇼츠/릴스 내레이션, 교육 영상의 보이스오버, 사내 안내 음성 — 직접 녹음하면 30분 분량인데 ElevenLabs를 쓰면 5분이면 끝납니다. 한국어를 32개 이상의 지원 언어 중 하나로 다루며, 자연스러운 억양·발음 처리가 강점입니다(2026년 4월 기준).

준비물

  • ElevenLabs 계정 (무료 플랜으로 시작 가능)
  • 무료 플랜 기준: 월 10,000 크레딧 (Multilingual v2 모델로 약 10분 분량의 고품질 TTS). 단, 무료 플랜은 상업적 이용 불가이며 공개물에는 ElevenLabs 표기 의무가 있습니다.
  • 상업적 이용·로고 표기 제거가 필요하면 Starter $6/월부터 (월 30,000 크레딧 ≈ 약 30분), 영상 제작자라면 Creator $22/월(공식 사이트 기준)부터 검토하세요.
  • 입력 텍스트(맞춤법·문장부호를 정돈해 두면 자연스러움이 크게 올라갑니다)

단계별 사용법

  1. elevenlabs.io에 로그인 → “Speech Synthesis"로 들어갑니다.
  2. Voice Library에서 한국어가 잘 어울리는 보이스를 1~2개 골라 즐겨찾기에 추가합니다. 다국어 v2 모델 기반의 보이스가 한국어 발음·억양에서 가장 안정적입니다.
  3. 모델은 Multilingual v2(또는 최신 다국어 모델)로 선택합니다. 단일 영어 모델은 한국어 발음이 어색합니다.
  4. 텍스트를 문장 단위로 정리해 입력합니다. 한 줄 한 문장이 안정적이고, 마침표·쉼표·물음표를 정확하게 찍어두면 호흡이 자연스럽게 잡힙니다.
  5. “Stability"와 “Similarity” 슬라이더를 조정합니다. 정보 전달용 내레이션은 Stability 5060, 감정이 필요한 스토리텔링은 3040 정도가 무난합니다.
  6. 첫 30초만 미리 합성해 보고 톤을 결정합니다. 전체를 한 번에 돌리기 전에 짧게 들어보고 슬라이더·보이스를 조정하면 크레딧을 아낄 수 있습니다.
  7. MP3로 다운로드해 영상 편집툴에 올립니다. Premiere/CapCut/DaVinci 어디서든 그대로 쓸 수 있습니다.

결과 예시

자연스러움을 끌어올리는 입력 패턴입니다.

안녕하세요, AI 활용 노트입니다.
오늘은 ElevenLabs로 한국어 보이스오버를 만드는 방법을 다뤄볼게요.

먼저, 보이스를 고를 때는 — 너무 또랑또랑한 목소리보다는 
약간 부드러운 톤이 화면에 잘 어울려요.

이렇게 입력하면 모델이 다음을 자동으로 처리합니다.

입력 요소합성에 끼치는 효과
, 쉼표짧은 호흡
. 마침표문장 끝 톤 떨어뜨림
? 물음표끝을 살짝 올림
줄표미세한 머뭇거림
줄바꿈 두 번단락 휴지

자주 발생하는 문제

  • 외국어·숫자에서 발음이 어색해요. → “AI"는 “에이아이”, “2026년"은 “이천이십육년"처럼 한글로 풀어 적으면 발음이 안정됩니다. 영문 약어는 한글 음차 + 괄호로 보조해 보세요.
  • 너무 빠르게 읽어요. → Stability를 올리고, 문장 사이에 마침표 + 줄바꿈 두 번을 넣으세요. 점 세 개(…)로 미세 호흡도 줄 수 있습니다.
  • 억양이 평탄해요. → 같은 문장도 평서문이 아니라 “어떤가요?“처럼 끝을 살짝 비틀면 변화가 들어갑니다.
  • 고유명사 발음이 이상해요. → 첫 등장 시에 한 번 한글로 명시(예: “지피티(GPT)”) 해두면 이후 발음 안정성이 올라갑니다.
  • 무료 플랜인데 크레딧이 빨리 닳아요. → 한 번에 긴 텍스트를 합성하지 말고, 30초 단위로 미리 들어보고 본 합성에 들어가는 습관을 들이세요.

더 효율적으로 쓰는 팁

  1. 시리즈 영상은 같은 보이스를 고정하세요. 보이스 ID를 메모해 두면 다음 화에서도 톤이 일관되게 유지됩니다.
  2. 대본은 ChatGPT/Claude로 한 번 다듬으세요. “내레이션용 호흡으로 다시 써줘 — 한 문장 25자 내외"라고 시키면 합성 품질이 크게 올라갑니다.
  3. 숫자·단위는 한글로. “1,200원” → “천이백 원” 같은 변환만 해도 자연스러움이 한 단계 좋아집니다.
  4. 상업적 이용은 반드시 유료 플랜에서. 광고가 붙거나 수익이 발생하는 콘텐츠라면 Starter 이상에서 작업하는 것이 라이선스상 안전합니다.
  5. 음성+영상은 따로 보관하세요. 텍스트가 자주 바뀌는 영상이라면 보이스오버를 트랙별로 나눠 저장해 두면 한 줄 수정에 전체 재합성이 필요 없습니다.

마치며

다국어 모델 + 문장부호 정돈된 대본 + Stability 슬라이더. 이 셋만 갖춰도 외부 성우 없이 영상에 쓸 만한 한국어 보이스오버를 만들 수 있습니다. 영상의 자막·요약을 한 번에 정리하고 싶다면 Gemini로 1시간짜리 YouTube 영상 핵심만 뽑기와 결합하면 학습 콘텐츠 제작 흐름이 매끄러워지고, 대본을 빠르게 다듬는 작업은 회의록을 ChatGPT로 핵심만 뽑아 정리하는 법의 프롬프트 패턴을 그대로 응용해 보세요.

Hugo로 만듦
JimmyStack 테마 사용 중