ElevenLabs Speech-to-Text Realtime Scribe v2와 DeepL 번역을 결합해 지연을 최소화하고 안정적으로 출력되는 자막 파이프라인을 제공합니다. 음성 구간을 세밀하게 분할하고 문장 단위를 정리해, 빠른 발화에서도 화면이 어지럽지 않도록 1~2줄 가독성을 유지합니다.
실시간 전사, 번역, 오버레이를 하나의 파이프라인으로 묶어 방송 환경에서도 안정적으로 동작하도록 설계했습니다.
음성 스트림에서 말하기 구간을 정교하게 감지해 문장 단위로 정리된 결과를 제공하고, 빠른 발화에서도 끊김을 최소화합니다.
원문 맥락을 유지한 번역 결과를 즉시 생성해, 해외 시청자에게도 동일한 톤과 의미를 전달합니다.
원어와 번역 오버레이를 분리해 레이아웃을 자유롭게 구성하고, OBS 브라우저 소스로 즉시 적용할 수 있습니다.
고정 세션으로 테스트/운영을 이어가며, 팀 단위 사용을 안전하게 관리합니다.
발화량이 많아도 화면을 채우지 않도록 자막을 일정 속도로 출력해 읽기 흐름을 유지합니다.
상태 표시와 세션 고정 흐름으로 실시간 운영 시 혼선을 줄이고 안정적으로 진행할 수 있습니다.
빠른 발화와 긴 호흡이 반복되는 현장에서도 읽기 쉬운 자막을 제공해 전달력을 높입니다.
긴 문장과 빠른 발화가 이어져도 자막 폭주 없이 안정적으로 출력되어 집중을 유지할 수 있습니다.
원어/번역을 동시 제공해 글로벌 시청자가 동일한 시간에 내용을 이해합니다.
스크린과 송출 화면에 맞춘 오버레이로 현장 안내와 방송 송출을 동시에 지원합니다.
통역 없이도 실시간 번역 자막으로 접근성을 높이고 운영 비용을 줄입니다.
학습자에게 정확한 전사와 번역을 제공해 이해도와 몰입도를 높입니다.
기술 발표나 타운홀에서도 명확한 텍스트 전달로 메시지 집중도를 높입니다.
기능 요청, 버그 제보 등을 남겨주시면 확인 후 답변드립니다.
Local에서 Whisper 모델을 실행하여 음성 인식을 처리하는 방식도 있으나 영어 이외의 언어에서는 정확도가 낮고, 빠른 발화나 긴 문장에서는 끊김이 발생하는 등 안정적인 자막 제공이 어렵습니다. ElevenLabs의 Scribe v2 Realtime은 한국어를 포함한 다국어에서 높은 정확도와 낮은 지연 시간을 제공하여 방송 환경에서도 안정적인 자막 파이프라인을 구축할 수 있습니다.
본인이 프로그래머이고 능력자이시면 ElevenLabs와 DeepL API를 직접 호출하여 실시간 자막 파이프라인을 구축하실수도 있습니다만, ELSTT는 이미 검증된 파이프라인과 편리한 오버레이 기능을 제공하여 빠르게 실시간 자막 환경을 구축할 수 있도록 돕습니다.
ElevenLabs와 DeepL에 각각 가입하시고 API Key를 발급받으신 후, 로그인 후 설정페이지에서 Key를 등록하시면 됩니다.
ElevenLabs: https://elevenlabs.io
DeepL: https://www.deepl.com/pro-api
미주한인교회 또는 2개국어가 동시에 필요한 소모임에서 사용하실수있습니다.
입력되는 언어는 ElevenLabs Scribe v2 Realtime이 자동으로 감지합니다. 또한 DeepL 번역언어는 30개국이상 설정페이지에서 선택하실수있습니다.
ELSTT는 ElevenLabs와 DeepL의 공식 파트너가 아니며, ElevenLabs는 무료플랜으로 3만자까지 사용할수 있으며 더 필요할경우 업그레이드하셔서 사용하실수있습니다. 또한 DeepL 무료 플랜에서는 50만자 까지 번역 API를 사용할 수 있으니 거의 무료입니다.