# YouTube 롱폼 자동화 파이프라인 리서치
> 작성일: 2026-03-26 | 범용(카테고리/언어 무관) 관점

---

## 목차
1. [GitHub 오픈소스 파이프라인 조사](#1-github-오픈소스-파이프라인-조사)
2. [단계별 프롬프트 레퍼런스](#2-단계별-프롬프트-레퍼런스)
3. [도구 스택 비용 비교](#3-도구-스택-비용-비교)
4. [다국어 지원 고려사항](#4-다국어-지원-고려사항)
5. [추천 아키텍처 요약](#5-추천-아키텍처-요약)

---

## 1. GitHub 오픈소스 파이프라인 조사

### 1.1 youtube-shorts-pipeline (rushindrasinha)
**URL:** https://github.com/rushindrasinha/youtube-shorts-pipeline  
**버전:** v2.1.0 | **라이선스:** 미확인  

**파이프라인 구조 (3단계):**

| 단계 | 수행 작업 |
|------|-----------|
| **Draft** | DuckDuckGo 리서치 → Claude 스크립트 작성 → B-roll 프롬프트 / YouTube 메타데이터 / 썸네일 프롬프트 생성 |
| **Produce** | Gemini Imagen B-roll (Ken Burns) → ElevenLabs 보이스오버 → Whisper 캡션(ASS+SRT) → 음악 선택 + ducking → ffmpeg 최종 조립 |
| **Upload** | YouTube API 업로드 + SRT 캡션 + AI 썸네일 |

**사용 도구:**
- LLM: Claude (스크립트), Gemini Imagen (이미지)
- TTS: ElevenLabs
- STT/캡션: OpenAI Whisper (word-timestamp 기반 ASS 자막)
- 영상 조립: ffmpeg
- 업로드: YouTube Data API v3

**주요 특징:**
- Topic Engine: Reddit/RSS/Google Trends/TikTok에서 트렌딩 토픽 자동 발굴
- Anti-hallucination gate: Claude가 실시간 DuckDuckGo 리서치 결과만 사용
- 파이프라인 스테이지별 상태 저장 (resume 지원)
- 78개 테스트 커버리지, exponential backoff retry

**우리 파이프라인 적용 포인트:**
- 3단계(Draft→Produce→Upload) 분리 구조 그대로 채택 가능
- Stage-aware 상태 저장 방식 → 비용 절감 (중간 실패 시 재시작 불필요)
- Anti-hallucination gate 패턴 → 팩트체크 필요한 콘텐츠에 필수

---

### 1.2 youtube-automation-agent (darkzOGx)
**URL:** https://github.com/darkzOGx/youtube-automation-agent  
**특징:** No-code 지향, 다중 AI 제공자 지원

**에이전트 구성 (5개):**

```
Content Strategy Agent  → YouTube API 트렌드 분석 → 콘텐츠 캘린더 생성
Script Writer Agent     → 훅 + 스토리텔링 + CTA 포함 스크립트
Thumbnail Designer      → DALL-E 썸네일 생성 + A/B 테스트
SEO Optimizer Agent     → 키워드 리서치 + 제목/설명/태그 최적화
Publishing Agent        → 자동 업로드 + 스케줄링 + 플레이리스트 관리
```

**LLM 옵션 및 비용:**

| 제공자 | 무료 여부 | 영상당 비용 | 적합 대상 |
|--------|-----------|-------------|-----------|
| Google Gemini | ✅ 60 req/min 무료 | ~$0 | 입문자/실험용 |
| OpenAI GPT-4 + DALL-E | ❌ | ~$0.10–0.30/영상 | 프로 크리에이터 |
| Anthropic Claude | ❌ | 별도 산정 | 고품질 스크립트 |
| Ollama (로컬) | ✅ 완전 무료 | $0 (HW 비용만) | 개인/오프라인 |

**호스팅 옵션:**
- 로컬 PC/Mac: 무료
- Raspberry Pi: ~$50 일회성
- Cloud VPS (DigitalOcean/Linode): $5–20/월
- Free Cloud (Railway/Render): 제한적 무료

**우리 파이프라인 적용 포인트:**
- 에이전트별 역할 분리 패턴 → 모듈화 설계 참고
- Multi-provider LLM 지원 구조 → 비용/품질 트레이드오프 유연화

---

### 1.3 I-automated-a-YouTube-channel (Flexonze)
**URL:** https://github.com/Flexonze/I-automated-a-YouTube-channel-using-Python-and-AI  
**특징:** 실전 검증된 소규모 채널 운영 사례 (주말 2회 프로토타입)

**스택:**
- 스크립트 생성: OpenAI API (predefined prompt)
- 보이스오버: Microsoft Azure TTS (WAV)
- 영상 소스: yt-dlp (게임플레이 풋티지 다운로드)
- 편집/조립: MoviePy
- 음악: 로열티 프리

**성과:** 총 소요 시간 ~5분/영상 (수동 업로드 제외)

**우리 파이프라인 적용 포인트:**
- MoviePy 활용 편집 자동화 패턴
- yt-dlp 기반 B-roll 소싱 (Creative Commons 필터 적용 필요)

---

### 1.4 Autotube (Hritikraj8804)
**URL:** https://github.com/Hritikraj8804/Autotube  
**특징:** n8n 기반 워크플로우 오케스트레이션

**스택:**
- 오케스트레이션: n8n (노코드 워크플로우)
- 스크립트: AI 생성
- 이미지: AI 이미지 생성 (슬라이드쇼)
- TTS: 통합 TTS
- 편집: 자동화 영상 편집

**우리 파이프라인 적용 포인트:**
- n8n은 코드 없이 파이프라인 구성 가능 → 빠른 프로토타이핑
- 단, 복잡한 커스터마이징에는 Python 직접 제어가 유리

---

### 1.5 HN 주목 사례: 자동화 영상 생성 (prajwal-y)
**링크:** https://news.ycombinator.com/item?id=46457050  
**특징:** Claude Code로 3일 만에 자동화 영상 생성 파이프라인 구축  
→ Claude Code의 코드 생성 능력을 파이프라인 자체 구축에 활용한 사례

---

## 2. 단계별 프롬프트 레퍼런스

### 2.1 스크립트 생성 프롬프트 (고성능 템플릿)

```
## Role Definition
You are a Professional YouTube Script Writer specializing in:
- High-retention hooks and compelling narratives
- YouTube algorithm optimization and viewer psychology
- Structuring content for maximum watch time
- Adapting tone/style for different niches

## Video Briefing
- Video Title: [제목]
- Target Length: [5–10분 / 15–20분 등]
- Content Type: [Tutorial / Review / Educational / Entertainment / Documentary]
- Target Audience: [demographics, knowledge level, interests]
- Channel Niche: [Tech / Finance / Health / Gaming / etc.]

## Content Requirements
- Main Topic: [핵심 주제]
- Key Points: [3–5개 핵심 포인트]
- Primary CTA: [구독 / 링크 클릭 / 댓글 유도 등]
- Tone: [Professional / Casual / Humorous / Authoritative]

## Script Structure
- [ ] Hook (첫 10초: 강한 질문 or 충격적 사실 or 공감 유발)
- [ ] Intro with value proposition (시청자가 얻을 것 명시)
- [ ] Main sections (섹션별 전환 포함)
- [ ] Engagement prompts (자연스럽게 1–2회)
- [ ] Conclusion + CTA
- [ ] End screen suggestions

## SEO Keywords: [키워드 3–5개]
## Visual Cues: [B-roll 지시, 화면 텍스트, 그래픽]
## Timestamps: [각 섹션 예상 타임스탬프]
```

**핵심 원칙 (2025 알고리즘 기준):**
- 첫 10초가 전체 시청 지속률 결정
- 섹션 전환마다 "다음에 무엇이 나오는지" 예고 (curiosity loop)
- CTA는 영상 중반(40–60%) + 마지막 20초 두 번

---

### 2.2 SEO 제목/설명 생성 프롬프트

**AIPRM 검증 패턴 (592,000+ 사용):**
```
[키워드 1개 입력] →
- 15개 SEO 클릭베이트 제목 생성
- YouTube 설명 (첫 2줄에 핵심 키워드 포함)
- 태그 20–30개
- 해시태그 5–10개
```

**제목 최적화 규칙:**
- 길이: 60자 이하 (모바일 절단 방지)
- 구조: [숫자/감성어] + [핵심 키워드] + [결과/혜택]
- 예시 패턴: "당신이 몰랐던 X가지 진실", "X하면 생기는 일", "전문가들이 숨기는 X"
- A/B 테스트: 동일 영상에 2–3개 후보 제목 준비

**설명 최적화 구조:**
```
[첫 2–3줄: 핵심 키워드 포함 요약 — 펼치기 전 노출 영역]
[타임스탬프 챕터]
[관련 링크]
[해시태그: 영상 끝부분에 3–5개]
[채널 구독 CTA]
```

---

### 2.3 썸네일 컨셉 생성 프롬프트

**AI 페르소나 기반 접근법 (BAM 검증):**
```
Persona: 10년 경력 YouTube 썸네일 전문 디자이너
- 배경: 수백 회 A/B 테스트 경험
- 전문: 감정 유발, 트렌드 예측, 브랜드 일관성

입력:
- 영상 제목: [제목]
- 타겟 감정: [호기심 / 충격 / 공감 / 욕망]
- 채널 색상: [브랜드 컬러]
- 경쟁 채널 썸네일 스타일: [참고 채널명]

출력:
1. 구도 설명 (포어그라운드/배경 분리)
2. 텍스트 오버레이 (3단어 이하 권장)
3. 색상 팔레트 (대비 극대화)
4. 감정 표현 가이드 (인물 표정 방향)
5. Flux/Midjourney/DALL-E 생성 프롬프트 (영어)
```

**CTR 최적화 검증 원칙:**
- 텍스트: 3단어 이하, 72pt 이상 폰트
- 인물 얼굴: 감정 과장 표현 (놀람/분노/기쁨)
- 색상: 보색 대비 (빨강-파랑, 노랑-보라)
- 여백 최소화, 정보 밀도 높게
- 모바일(소형) 기준으로 가독성 확인

---

### 2.4 스토리보드/B-roll 프롬프트

```
영상 스크립트의 각 섹션에 대해 다음을 생성하세요:

섹션: [스크립트 텍스트]

B-roll 지시:
- 장면 설명: [구체적 시각적 묘사]
- 카메라 무브: [static / pan / zoom / Ken Burns]
- 분위기/톤: [cinematic / documentary / minimal / energetic]
- 이미지 생성 프롬프트: [Flux/Midjourney용 영어 프롬프트]
- 대안 스톡 검색어: [Pexels/Pixabay 검색용]

형식: JSON array, 하나의 섹션 = 하나의 오브젝트
{
  "timestamp": "00:30",
  "narration": "...",
  "visual_description": "...",
  "camera_move": "Ken Burns zoom-in",
  "mood": "cinematic",
  "image_prompt": "...",
  "stock_query": "..."
}
```

---

## 3. 도구 스택 비용 비교

### 3.1 TTS (Text-to-Speech)

| 도구 | 무료 플랜 | 유료 시작가 | 다국어 | API | 품질 |
|------|-----------|-------------|--------|-----|------|
| **ElevenLabs** | 10k 크레딧/월 (~10분) | $5/월 (30k) | ✅ 30+ 언어 | ✅ | ⭐⭐⭐⭐⭐ |
| **Google Cloud TTS** | 100만자/월 | $4/100만자 | ✅ 40+ 언어 | ✅ | ⭐⭐⭐⭐ |
| **Microsoft Azure TTS** | 50만자/월 | $4/100만자 | ✅ 100+ 언어 | ✅ | ⭐⭐⭐⭐ |
| **OpenAI TTS** | ❌ | $15/100만자 | ✅ 다국어 | ✅ | ⭐⭐⭐⭐ |
| **Coqui TTS** | ✅ 완전 무료 | 오픈소스 | ⚠️ 제한적 | ✅ (로컬) | ⭐⭐⭐ |
| **NAVER CLOVA Voice** | ❌ | Pay-as-go | ✅ 한국어 특화 | ✅ | ⭐⭐⭐⭐⭐ (한국어) |

**ElevenLabs 플랜 상세:**
- Free: 10k 크레딧/월 (≈10분 음성)
- Starter: $5/월 → 30k 크레딧 (≈30분)
- Creator: $22/월 → 100k 크레딧 (≈100분) ← **범용 파이프라인 권장**
- Pro: $99/월 → 500k 크레딧 (≈500분)

**추천:** 다국어 품질 기준 ElevenLabs Creator 플랜 → 월 100분 분량 생성 가능. 한국어 전용이라면 NAVER CLOVA Voice 병행.

---

### 3.2 이미지 생성 (썸네일 + B-roll)

| 도구 | 무료 | API 비용 | 품질 | 상업적 사용 |
|------|------|----------|------|-------------|
| **Flux 1.1 Pro** (Black Forest Labs) | ❌ | ~$0.04/이미지 | ⭐⭐⭐⭐⭐ | ✅ |
| **Flux Dev** (자가 호스팅) | ✅ | HW 비용만 | ⭐⭐⭐⭐⭐ | ✅ (비상업) |
| **DALL-E 3** (OpenAI) | ❌ | $0.04–0.08/이미지 | ⭐⭐⭐⭐ | ✅ |
| **Gemini Imagen 3** | ✅ (제한) | $0.03–0.06/이미지 | ⭐⭐⭐⭐ | ✅ |
| **Midjourney** | ❌ | $10/월 (200이미지) | ⭐⭐⭐⭐⭐ | ✅ (유료) |
| **Stable Diffusion** | ✅ 완전 무료 | 로컬 HW | ⭐⭐⭐⭐ | ✅ |

**2026년 트렌드:**  
Flux 2 Dev (오픈소스) 자가 호스팅 시 이미지당 비용 ≈ $0. API 사용 시 Flux 1.1 Pro가 품질/비용 균형 최적.

**추천:** 
- 예산 우선 → Flux Dev 자가 호스팅 또는 Gemini Imagen (무료 티어)
- 품질 우선 → Flux 1.1 Pro API ($0.04/장) 또는 Midjourney

---

### 3.3 AI 비디오 생성 (옵션 모듈)

> 롱폼 파이프라인에서는 주로 B-roll 보조 수단. 비용이 높으므로 선택적 사용 권장.

**벤치마크 랭킹 (Artificial Analysis Video Arena, 2025.12):**

| 순위 | 모델 | Elo 점수 | 네이티브 오디오 |
|------|------|----------|----------------|
| 1 | Runway Gen-4.5 | 1,247 | ✅ |
| 2 | Google Veo 3 | 1,226 | ✅ |
| 3 | Kling 2.5 Turbo Pro | 1,225 | ❌ |
| 6 | Hailuo 02 | 1,208 | ❌ |

**가격 비교:**

| 도구 | 무료 | 유료 시작가 | 단가 기준 |
|------|------|------------|-----------|
| **Runway Gen-4** | ❌ | $15/월 (625 크레딧) | 6–25 크레딧/초 |
| **Kling AI** | ❌ | $10/월 (660 크레딧) | 660크레딧 = ~10클립 |
| **Hailuo (MiniMax)** | ⚠️ | $14.99/월 (4,000 크레딧) | 크레딧당 단가 최저 |
| **Google Veo 3** | ✅ (Gemini 내) | $20/월 Google AI Pro | 월 제한 있음 |
| **Pika Labs** | ❌ | $10/월 (700 크레딧) | |
| **Adobe Firefly Video** | ❌ | $9.99/월 (20클립) | |

**추천:** 
- 예산 우선 → Hailuo (크레딧 대비 최저가) 또는 Veo 3 via Google AI Pro
- 품질 우선 → Runway Gen-4.5 (업계 1위)
- 롱폼 기본 파이프라인은 AI 비디오 생성 없이도 구성 가능 (스톡+이미지 슬라이드쇼로 대체)

---

### 3.4 영상 편집/조립

| 도구 | 비용 | 자동화 친화성 | 특징 |
|------|------|---------------|------|
| **ffmpeg** | 무료 (오픈소스) | ⭐⭐⭐⭐⭐ | CLI 완전 자동화, 업계 표준 |
| **MoviePy** | 무료 (오픈소스) | ⭐⭐⭐⭐⭐ | Python API, ffmpeg 래퍼 |
| **Remotion** | 무료 (오픈소스) | ⭐⭐⭐⭐ | React 기반, 코드형 영상 |
| **CapCut API** | 무료~유료 | ⭐⭐⭐ | 모바일 중심, API 제한적 |
| **Adobe Premiere Pro** | $54.99/월 | ⭐⭐ | GUI 중심, 자동화 어려움 |

**추천:** ffmpeg + MoviePy 조합이 파이프라인 자동화의 표준. 코드형 영상(인포그래픽/애니메이션)은 Remotion 추가 고려.

---

### 3.5 YouTube 업로드

| 방법 | 비용 | 일일 한도 | 비고 |
|------|------|-----------|------|
| **YouTube Data API v3** | 무료 | 10,000 units/일 | 업로드 = 1,600 units |
| **Google OAuth2** | 무료 | - | 필수 인증 |

**실용 한도:** 하루 약 6회 업로드 가능 (10,000 ÷ 1,600 ≈ 6.25). 쇼츠/롱폼 혼합 채널이라면 충분.

---

### 3.6 LLM 비용 (스크립트/메타데이터 생성)

| 모델 | 입력 | 출력 | 10분 스크립트(~2,000토큰) 추정 비용 |
|------|------|------|--------------------------------------|
| Claude Sonnet 4.5 | $3/MTok | $15/MTok | ~$0.03–0.04 |
| GPT-4o | $2.5/MTok | $10/MTok | ~$0.025–0.035 |
| Gemini 1.5 Flash | $0.075/MTok | $0.30/MTok | ~$0.001 ← 최저가 |
| Gemini 2.5 Pro | $1.25/MTok | $10/MTok | ~$0.02 |

**전체 파이프라인 영상당 LLM 비용:** $0.03–0.10 (Claude/GPT-4o 기준)

---

### 3.7 총 비용 시뮬레이션 (월 30영상 기준)

| 시나리오 | TTS | 이미지 | 비디오 생성 | LLM | 합계/월 |
|----------|-----|--------|-------------|-----|---------|
| **최저 비용** | Google TTS 무료 | Flux Dev 자가호스팅 | ❌ (스톡 사용) | Gemini Flash | ~$0–5 |
| **균형 (권장)** | ElevenLabs Creator $22 | Flux API $1.2 (30장) | ❌ | Claude Sonnet $1 | ~$25/월 |
| **고품질** | ElevenLabs Pro $99 | Midjourney $10 | Runway $15 | GPT-4o $3 | ~$130/월 |

---

## 4. 다국어 지원 고려사항

### 4.1 TTS 언어별 품질 매핑

| 언어 | 1순위 | 2순위 | 무료 옵션 |
|------|-------|-------|-----------|
| 영어 | ElevenLabs | OpenAI TTS | Google TTS 무료 |
| 한국어 | NAVER CLOVA Voice | ElevenLabs 다국어 v3 | Google TTS |
| 일본어 | ElevenLabs 다국어 v3 | Azure TTS | Google TTS |
| 중국어 | Azure TTS | ElevenLabs 다국어 v3 | Google TTS |
| 스페인어/포르투갈어 | ElevenLabs | Google TTS | — |

**ElevenLabs Multilingual v2/v3:** 30개 이상 언어 지원. Creator 플랜 이상에서 0.5–1 크레딧/문자(할인 적용).

### 4.2 스크립트 LLM 다국어 성능

| 언어 | Claude | GPT-4o | Gemini |
|------|--------|--------|--------|
| 영어 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 한국어 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 일본어/중국어 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 유럽어 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |

### 4.3 SEO 다국어 특수성

**플랫폼별 알고리즘 차이:**
- 한국어: 네이버 검색 연동 고려, 제목에 한글 키워드 필수
- 영어: 유튜브 자체 검색 알고리즘 + Google 통합 SEO
- 일본어: 카타카나/한자 혼용 키워드 전략 별도 필요

**범용 SEO 파이프라인 권장 구조:**
```python
# 언어를 파라미터로 받아 처리
generate_seo_metadata(
    topic="...",
    language="ko|en|ja|...",  # 언어 주입
    platform_specific=True     # 언어별 플랫폼 최적화
)
```

### 4.4 자막/캡션 자동화

- **Whisper** (OpenAI): 99개 언어 지원, 오픈소스, word-level timestamp
- **자막 소싱 우선순위:** Whisper 자동 → 수동 교정 → YouTube 자동 자막 의존 X
- ASS/SRT 포맷 → YouTube API로 자막 파일 별도 업로드 가능

---

## 5. 추천 아키텍처 요약

### 5.1 범용 롱폼 파이프라인 (MVP 구성)

```
[INPUT]
토픽 / 제목 / 언어 / 카테고리 / 목표 길이
         ↓
[STAGE 1: RESEARCH]
검색 (search.py) → 팩트 수집 → 레퍼런스 정리
         ↓
[STAGE 2: SCRIPT]
LLM (Claude/GPT-4o) → 전체 스크립트 생성
→ 섹션 분할 + B-roll 프롬프트 생성
→ SEO 메타데이터 (제목 5개 후보, 설명, 태그)
         ↓
[STAGE 3: ASSETS]
TTS (ElevenLabs 다국어) → 보이스오버 WAV/MP3
이미지 생성 (Flux / Gemini) → B-roll 이미지
썸네일 생성 → Pillow 텍스트 오버레이
Whisper → 자막 (ASS + SRT)
         ↓
[STAGE 4: ASSEMBLE]
ffmpeg / MoviePy → 영상 조립
→ 이미지 슬라이드쇼 + 보이스오버 + 자막 burn-in
→ BGM 추가 + audio ducking
→ 최종 MP4 렌더링
         ↓
[STAGE 5: UPLOAD]
YouTube Data API v3 → 업로드
→ SRT 자막 파일 업로드
→ 썸네일 업로드
→ 스케줄 설정
```

### 5.2 핵심 설계 원칙

1. **스테이지 분리 + 상태 저장:** 중간 실패 시 해당 스테이지부터 재시작 (비용 절약)
2. **언어 파라미터화:** 하드코딩 없이 모든 언어에서 동일 파이프라인 작동
3. **Provider 추상화:** TTS/LLM/이미지 생성 도구를 인터페이스로 추상화 → 비용/품질 기준으로 swap 가능
4. **콘텐츠 타입 무관:** 교육/엔터테인먼트/리뷰/다큐 등 카테고리별 스크립트 구조만 템플릿으로 분리
5. **Anti-hallucination:** 팩트 의존 콘텐츠는 실시간 리서치 데이터를 LLM에 주입

### 5.3 즉시 참고 가능한 코드 레포 우선순위

| 우선순위 | 레포 | 참고 이유 |
|----------|------|-----------|
| ⭐⭐⭐ | rushindrasinha/youtube-shorts-pipeline | 가장 완성도 높은 3단계 파이프라인, 78개 테스트 |
| ⭐⭐⭐ | darkzOGx/youtube-automation-agent | 에이전트 분리 설계, 다중 LLM 지원 |
| ⭐⭐ | Flexonze/I-automated-youtube | MoviePy 편집 자동화 실전 코드 |
| ⭐⭐ | Hritikraj8804/Autotube | n8n 노코드 오케스트레이션 참고 |

---

## 부록: 무료로 시작하는 최소 스택

```
LLM:        Gemini 1.5 Flash (무료 티어)
TTS:        Google Cloud TTS (월 100만자 무료)
이미지:     Stable Diffusion (로컬) 또는 Gemini Imagen (무료)
편집:       ffmpeg + MoviePy (완전 무료)
업로드:     YouTube Data API v3 (무료)
자막:       Whisper (오픈소스, 로컬 실행)

→ 총 비용: $0/월 (로컬 HW 비용만)
→ 품질 한계 있음, 검증 후 유료 도구로 단계적 전환 권장
```

---

*이 리서치는 2026-03-26 기준으로 작성되었으며, AI 도구 가격/기능은 빠르게 변동됩니다. 주요 도구 공식 페이지에서 최신 가격을 확인하세요.*
