ElevenLabs로 자연스러운 한국어 보이스오버 만들기

이런 상황에 쓰면 좋아요

쇼츠/릴스 내레이션, 교육 영상의 보이스오버, 사내 안내 음성 — 직접 녹음하면 30분 분량인데 ElevenLabs를 쓰면 5분이면 끝납니다. 한국어를 32개 이상의 지원 언어 중 하나로 다루며, 자연스러운 억양·발음 처리가 강점입니다(2026년 4월 기준).

준비물

ElevenLabs 계정 (무료 플랜으로 시작 가능)
무료 플랜 기준: 월 10,000 크레딧 (Multilingual v2 모델로 약 10분 분량의 고품질 TTS). 단, 무료 플랜은 상업적 이용 불가이며 공개물에는 ElevenLabs 표기 의무가 있습니다.
상업적 이용·로고 표기 제거가 필요하면 Starter $6/월부터 (월 30,000 크레딧 ≈ 약 30분), 영상 제작자라면 Creator $22/월(공식 사이트 기준)부터 검토하세요.
입력 텍스트(맞춤법·문장부호를 정돈해 두면 자연스러움이 크게 올라갑니다)

단계별 사용법

elevenlabs.io에 로그인 → “Speech Synthesis"로 들어갑니다.
Voice Library에서 한국어가 잘 어울리는 보이스를 1~2개 골라 즐겨찾기에 추가합니다. 다국어 v2 모델 기반의 보이스가 한국어 발음·억양에서 가장 안정적입니다.
모델은 Multilingual v2(또는 최신 다국어 모델)로 선택합니다. 단일 영어 모델은 한국어 발음이 어색합니다.
텍스트를 문장 단위로 정리해 입력합니다. 한 줄 한 문장이 안정적이고, 마침표·쉼표·물음표를 정확하게 찍어두면 호흡이 자연스럽게 잡힙니다.
“Stability"와 “Similarity” 슬라이더를 조정합니다. 정보 전달용 내레이션은 Stability 50~~60, 감정이 필요한 스토리텔링은 30~~40 정도가 무난합니다.
첫 30초만 미리 합성해 보고 톤을 결정합니다. 전체를 한 번에 돌리기 전에 짧게 들어보고 슬라이더·보이스를 조정하면 크레딧을 아낄 수 있습니다.
MP3로 다운로드해 영상 편집툴에 올립니다. Premiere/CapCut/DaVinci 어디서든 그대로 쓸 수 있습니다.

결과 예시

자연스러움을 끌어올리는 입력 패턴입니다.

안녕하세요, AI 활용 노트입니다.
오늘은 ElevenLabs로 한국어 보이스오버를 만드는 방법을 다뤄볼게요.

먼저, 보이스를 고를 때는 — 너무 또랑또랑한 목소리보다는 
약간 부드러운 톤이 화면에 잘 어울려요.

이렇게 입력하면 모델이 다음을 자동으로 처리합니다.

입력 요소	합성에 끼치는 효과
`,` 쉼표	짧은 호흡
`.` 마침표	문장 끝 톤 떨어뜨림
`?` 물음표	끝을 살짝 올림
`—` 줄표	미세한 머뭇거림
줄바꿈 두 번	단락 휴지

자주 발생하는 문제

외국어·숫자에서 발음이 어색해요. → “AI"는 “에이아이”, “2026년"은 “이천이십육년"처럼 한글로 풀어 적으면 발음이 안정됩니다. 영문 약어는 한글 음차 + 괄호로 보조해 보세요.
너무 빠르게 읽어요. → Stability를 올리고, 문장 사이에 마침표 + 줄바꿈 두 번을 넣으세요. 점 세 개(…)로 미세 호흡도 줄 수 있습니다.
억양이 평탄해요. → 같은 문장도 평서문이 아니라 “어떤가요?“처럼 끝을 살짝 비틀면 변화가 들어갑니다.
고유명사 발음이 이상해요. → 첫 등장 시에 한 번 한글로 명시(예: “지피티(GPT)”) 해두면 이후 발음 안정성이 올라갑니다.
무료 플랜인데 크레딧이 빨리 닳아요. → 한 번에 긴 텍스트를 합성하지 말고, 30초 단위로 미리 들어보고 본 합성에 들어가는 습관을 들이세요.

더 효율적으로 쓰는 팁

시리즈 영상은 같은 보이스를 고정하세요. 보이스 ID를 메모해 두면 다음 화에서도 톤이 일관되게 유지됩니다.
대본은 ChatGPT/Claude로 한 번 다듬으세요. “내레이션용 호흡으로 다시 써줘 — 한 문장 25자 내외"라고 시키면 합성 품질이 크게 올라갑니다.
숫자·단위는 한글로. “1,200원” → “천이백 원” 같은 변환만 해도 자연스러움이 한 단계 좋아집니다.
상업적 이용은 반드시 유료 플랜에서. 광고가 붙거나 수익이 발생하는 콘텐츠라면 Starter 이상에서 작업하는 것이 라이선스상 안전합니다.
음성+영상은 따로 보관하세요. 텍스트가 자주 바뀌는 영상이라면 보이스오버를 트랙별로 나눠 저장해 두면 한 줄 수정에 전체 재합성이 필요 없습니다.

마치며

다국어 모델 + 문장부호 정돈된 대본 + Stability 슬라이더. 이 셋만 갖춰도 외부 성우 없이 영상에 쓸 만한 한국어 보이스오버를 만들 수 있습니다. 영상의 자막·요약을 한 번에 정리하고 싶다면 Gemini로 1시간짜리 YouTube 영상 핵심만 뽑기와 결합하면 학습 콘텐츠 제작 흐름이 매끄러워지고, 대본을 빠르게 다듬는 작업은 회의록을 ChatGPT로 핵심만 뽑아 정리하는 법의 프롬프트 패턴을 그대로 응용해 보세요.