LEGACY 문서 — 이 문서는 2026-03-26 시점의 초기 설계안입니다. 현재 최종 합의 반영본은 final-plan.html 입니다.
YouTube 자동화 파이프라인 v1.0

롱폼 자동화 설계 문서

범용 콘텐츠 파이프라인 — 콘텐츠 유형·언어 무관, settings.json만 바꾸면 됨

6
최적 파이프라인 단계
~$0
최소 월 비용
30분
영상 1편 소요시간
1회
인간 개입 (선택)
🔄
최적 파이프라인: 6단계 구조
오케스트레이터 (Claude Code) → workflow.json 기반 상태 관리
Stage 1
RESEARCH
리서치 & 전략
strategist 에이전트
~2분
Stage 2
SCRIPT
대본 & QA
writer + reviewer
~5분
!
⚡ 병렬 실행 (Stage 3)
3-A: AUDIO
TTS + 자막 | ~4분
3-B: VISUAL
이미지 + 클립 | ~8분
Stage 4
ASSEMBLY
편집 & 합성
ffmpeg 조립
~8분
Stage 5
PACKAGING
썸네일 + 메타
SEO 최적화
~3분
Stage 6
PUBLISH
YouTube 업로드
스케줄 설정
~4분
병렬 처리 (30% 시간 단축)
선택적 인간 검토 게이트
Resume 지원 (실패 시 해당 단계 재시작)
왜 8단계가 아닌 6단계인가?
구분 rushindrasinha (Shorts) darkzOGx (에이전트) autoworker (레퍼런스) ✅ 우리 설계
단계 수 3단계 5 에이전트 8단계 6단계
병렬 처리 ✅ Stage 3
Resume 지원
핵심 약점 롱폼 구조 부족 미디어 제작 없음 느림, 비효율
📋
단계별 상세 명세
1
RESEARCH — 리서치 & 전략 수립
strategist 에이전트 | 자동화 100%
~2분
📥 INPUT
settings.json 채널 설정
topic 주제 또는 키워드
📤 OUTPUT
_refs/concept.md
_refs/research.json
경쟁 영상 분석 → 키워드 리서치 → 콘셉트 확정 → SEO 전략 수립 → 감정 전략 설계
concept.md 포함 항목: 앵글, 핵심약속, 타겟시청자, 서사유형, 감정전략, 제목후보 3개
2
SCRIPT — 대본 & QA 검토
writer + script-reviewer 에이전트 | 🔴 선택적 인간 검토
~5분
📥 INPUT
concept.md
style_guide (settings에서)
📤 OUTPUT
_script/outline.md
_script/script.txt (씬 마커 포함)
_script/storyboard_hints.json
_script/qa_report.md
인간 개입 게이트 — settings.json에서 "human_review_script": true이면 대본 승인 후 Stage 3 진행. false 시 end-to-end 완전 자동.
3
AUDIO + VISUAL — 병렬 미디어 제작
audio-pd + visual-pd | ⚡ 동시 실행
~8분 (병렬)
🎵 3-A AUDIO
ElevenLabs TTS → audio/scene_XX.mp3
Whisper 자막 → captions/full.srt
🖼️ 3-B VISUAL
이미지 생성 → images/scene_XX.png
Ken Burns 변환 → clips/scene_XX.mp4
Stage 3-A와 3-B는 동시에 실행. 가장 시간이 많이 걸리는 구간이므로 병렬화가 핵심. 이미지 생성은 씬별로도 내부 병렬화 가능.
4
ASSEMBLY — 편집 & 합성
assembler 에이전트 | ffmpeg 기반
~8분
📥 INPUT
audio/ 보이스오버 파일
clips/ 비디오 클립
captions/full.srt
_assets/music/bgm.mp3
📤 OUTPUT
output/video_draft.mp4
클립+오디오 싱크 → 자막 번인 → BGM 믹싱 (볼륨 12%) → 크로스페이드 트랜지션 → 최종 렌더링
5
PACKAGING
썸네일 + SEO 메타데이터
~3분
출력: thumbnail.png (2-3종) + youtube.md
youtube.md 포함: 제목 (60자↓), 설명글, 태그 15개, 챕터 마커, 고정댓글
6
PUBLISH
YouTube Data API v3 업로드
~4분
업로드 → 썸네일 설정 → SRT 자막 첨부 → 재생목록 추가 → 예약 공개
YouTube API: 무료 | 하루 최대 6편 업로드
💰
파이프라인 A/B/C 비용 비교
파이프라인 A
최소 비용형
$0~$10/월
TTSEdge-TTS (무료)
이미지Flux.1 로컬/HF
편집ffmpeg (무료)
LLMGemini Flash
영상당 비용~$0.10
소요 시간30-50분
✅ 시작 단계 검증용
파이프라인 C
고품질형
$130~$200/월
TTSElevenLabs Pro $99
이미지Flux Pro / Midjourney
비디오Kling AI (키 씬)
LLMClaude Sonnet
영상당 비용~$4-8
소요 시간25-45분
⚠️ ROI 검증 후 전환 권장
🔧
도구 스택 상세 비교
TTS (음성 합성)
도구무료 플랜유료 시작가다국어품질추천
ElevenLabs 10k 크레딧/월 $5/월 30+ 언어 ★★★★★ 메인
Edge-TTS (Microsoft) 완전 무료 다국어 ★★★★ 폴백
Google Cloud TTS 100만자/월 $4/100만자 40+ 언어 ★★★★
NAVER CLOVA Voice 유료만 종량제 한국어 특화 ★★★★★ 한국어 전용 시
이미지 생성 (B-roll + 썸네일)
도구무료API 단가품질상업적 사용
Gemini Imagen 3 제한적 무료 $0.03/장 ★★★★
Flux 1.1 Pro 유료 $0.04/장 ★★★★★
Flux Dev (로컬) 완전 무료 HW 비용만 ★★★★★ 비상업
DALL-E 3 유료 $0.04-0.08/장 ★★★★
Stable Diffusion 완전 무료 HW 비용만 ★★★★
AI 비디오 생성 (선택 모듈)
💡 롱폼 파이프라인 기본 구성에서 AI 비디오 생성은 선택 사항. Ken Burns(이미지 패닝)로 대체 가능하며 레퍼런스 영상도 실제로 이 방식 사용.
순위도구무료유료 시작가품질 (Elo)
1 Runway Gen-4.5 유료 $15/월 1,247
2 Google Veo 3 Gemini 내 $20/월 1,226
3 Kling 2.5 Turbo Pro 유료 $10/월 1,225
6 Hailuo 02 유료 $14.99/월 1,208
📦
참고 가능한 오픈소스 레포
⭐⭐⭐
rushindrasinha / youtube-shorts-pipeline
가장 완성도 높은 파이프라인. Draft→Produce→Upload 3단계, 78개 테스트, Resume 지원, Claude+ElevenLabs+ffmpeg
Claude
ElevenLabs
ffmpeg
Resume
Stage 상태관리
⭐⭐⭐
darkzOGx / youtube-automation-agent
에이전트 5개 분리 설계. 다중 LLM 지원(Gemini 무료 티어), No-code 지향, 영상당 $0~$0.30
멀티 LLM
에이전트 분리
Gemini 무료
No-code
⭐⭐
Flexonze / I-automated-a-YouTube-channel
MoviePy 실전 편집 자동화. ~5분/영상 달성한 소규모 채널 운영 사례
MoviePy
Python
실전검증
⭐⭐
Hritikraj8804 / Autotube
n8n 노코드 오케스트레이션. 빠른 프로토타이핑에 적합
n8n
No-code
프로토타입
🎯
핵심 설계 원칙 6가지
01
파이프라인 고정, 콘텐츠는 변수
settings.json이 유일한 콘텐츠 구성 지점. 경제/역사/ASMR 등 유형이 달라도 파이프라인 코드는 그대로.
02
Stage 3 병렬화가 핵심
TTS와 이미지 생성이 가장 시간 소모적. 동시 실행으로 직렬 45분 → 병렬 30분 (30% 단축).
03
Resume-first 설계
모든 단계 완료 상태를 workflow.json에 저장. 실패 시 해당 단계부터 재시작 — 비용 낭비 방지.
04
Provider 추상화
TTS/이미지/비디오 제공자를 settings로만 전환. ElevenLabs → Edge-TTS 교체 시 코드 수정 불필요.
05
인간 개입은 1회만 (선택)
Stage 2 대본 승인 게이트만 선택적으로 유지. 나머지 5단계는 완전 자동. false 시 end-to-end.
06
비용 점진적 확장
A($0) → B($25) → C($130) 단계적 전환. 채널 수익이 비용을 초과할 때 업그레이드.
🗓️
구현 로드맵
1
WEEK 1-2 · PHASE 1
파이프라인 B 뼈대 구축
settings.json 스키마 확정
workflow.json 상태 관리 모듈
Stage 1: Research 에이전트 (Claude + search.py)
Stage 2: Writer + script-reviewer 에이전트
2
WEEK 3-4 · PHASE 2
미디어 제작 + 병렬화
Stage 3-A: ElevenLabs TTS + Whisper 자막
Stage 3-B: Gemini Imagen + ffmpeg Ken Burns
asyncio.gather 병렬 실행 구현
Stage 4: ffmpeg Assembly 자동화
3
WEEK 5 · PHASE 3
패키징 + 업로드
Stage 5: 썸네일 생성 (Pillow) + youtube.md
Stage 6: YouTube Data API v3 업로드
에러 처리 + resume 로직
End-to-end 테스트 (영상 1편 완주)
4
WEEK 6-7 · PHASE 4
다채널 + 자동화
파이프라인 A 추가 (Edge-TTS, Flux 대안)
다채널 병렬 스케줄러 (cron 통합)
비용 트래킹 대시보드
성과 피드백 루프 구축
다음 단계: 2단계 — 각 에이전트 프롬프트 설계
파이프라인 구조가 확정됐습니다. 다음은 각 Stage의 에이전트 프롬프트를 설계합니다.
Stage 1 (strategist), Stage 2 (writer + reviewer), Stage 3-B (visual-pd), Stage 5 (packager) 순서로 우선순위.
1순위
Stage 1 strategist 프롬프트
(리서치 + 컨셉 생성)
2순위
Stage 2 writer 프롬프트
(대본 + QA reviewer)
3순위
Stage 5 packager 프롬프트
(SEO 메타데이터 + 썸네일)
YouTube 자동화 파이프라인 v1.0 — 2026-03-26 | 금비(GB) 분석