Explainable Video Summarization

긴 예배·강의 영상을 근거와 함께 5분 핵심으로

ASR(Whisper) · 핵심추출/LLM(JSON 스키마) · 2단 정렬(DTW+규칙) · ffmpeg Export

⏱ 제작시간 -83% /편 절감 🎯 컷오차 p95 2.1s
  • 입력: URL/구간
  • 처리: ffmpeg → Whisper → 발화 내용 요약(JSON) → 2단 정렬(DTW→규칙)
  • 출력: 근거 타임스탬프 포함 하이라이트 클립(Concat/재인코딩 폴백)

빠른 사실

인력 작업 대비 제작시간
-83% (3h→30m)
컷오차 p95
2.1s
편당 인건비 절감(기본)
월 절감액(시나리오)

* 표본 n=47(예배/강의 혼합), 데모/실측 혼합. Methodology는 아래 참조.

작동 방식 — 비디오 요약·편집 파이프라인

        flowchart LR
          A[입력
YouTube URL/시간범위] --> B[오디오 추출
ffmpeg] B --> C[ASR 전사
faster-whisper] C --> D[후처리
음악 제거/신뢰도/머지] D --> E[Prosody 추출
앵커 분류] E --> F[핵심 블록 선정
] F --> G[재세그먼트/스무딩
길이/겹침 보정] G --> H[요약 시간매핑] H -->|LLM 사용| I[로컬 LLM 요약
시간구간 생성] H -->|폴백| J[텍스트 압축/매핑
] I --> K[2-Stage 정렬
요약↔전사 정렬] J --> K K --> L[RAG 보강
Chroma + bge-m3 검색] L --> M[결과 출력
UI 미리보기/JSON 저장/DB 저장]
Swimlane Summary

파이프라인 핵심 단계

1) 수집

  • yt-dlp 다운로드
  • 초컷(시간대) 적용

2) 오디오/ASR

  • ffmpeg
  • VAD trim & Whisper

3) 후처리

  • 역할 분류/Prosody
  • 저신뢰 전사 필터

4) 요약+매핑

  • LLM(JSON 강제)
  • 스키마 검증/폴백

5) 2단 정렬

  • 문장→전사
  • 요약→전사

6) Export

  • ffmpeg concat(copy)
  • 실패 시 재인코딩
핵심 요점: Whisper 전사 → Prosody/스코어링으로 코어 구간 선별 → LLM 요약·시간매핑(폴백 내장) → 2-Stage 정렬의 안전장치 구조에, RAG 근거를 덧붙여 편집/요약 결과를 UI·DB로 일관되게 제공합니다.
ffmpegfaster-whisper librosaBAAI/bge-m3ChromaDB MySQL Local LLM

KPI & ROI

핵심 KPI (정의·표본·현재·목표)

구분 정의 / 산식 현재 1차 목표
제작시간 절감율 (기존−도입후)/기존 -83% (3h→30m) ≤ 25m/편
컷오차 p95 |예측컷−GT컷| 95퍼센타일(초) 2.1s ≤ 2.0s
오탈 보정률 후처리 전후 WER 감소율 +18% ≥ +20%
편당 인건비 절감(기본) (t0−t1)/60 × 시급 ≥ 지속 개선
월 비용 절감(시나리오) [(t0−t1)×N신규 + (t0−t1×(1−r))×N재편집] ÷ 60 × 시급 ≥ 확대 적용

ROI 계산기 — 월 절감 시간/비용

가정: 1회 제작시간 3h→30m(-83%), 재편집 시 프로세스 최적화로 시간 단축. 시급 기본값은 KOSA 평균임금에서 파생(조정 가능) [KOSA]

환율 입력 환율(선택): * 입력 시, 아래 레이트카드의 시급을 원화로 자동 환산해 ROI에 적용할 수 있어요.
월 절감 시간(합계)
-
월 절감 인건비
-

공식(분→시간 환산): 신규 (t0−t1)×N신규 + 재편집 (t0−t1×(1−r))×N재편집 → /60 → × 시급

시나리오(예시·보수적)

구성
월 8(신규) + 4(재편집)
월 절감 시간
-
월 절감액
-

입력값을 바꾸면 위 수치가 함께 갱신됩니다.

UX 의도: KPI/ROI를 상단 보드+계산기로 제공해, 비기술 채용자/CTO가 즉시 효익(시간·비용)을 추정·공유할 수 있게 했습니다.

Case Study

한 번의 클릭으로 요약·편집 자동화

제작시간 -83% (3h → 30m) 컷오차 p95 2.1s

Problem

  • 긴 영상 타임매핑 부정확(±12s) 및 핵심 추출 누락
  • 반복 작업에 따른 에디터 생산성 저하
  • ASR 오류·BGM/잡음 간섭

Key Actions

  • 임베딩-DTW 1차 + 규칙 2차 정렬
  • Prosody/역할 분류로 컷 경계 보정
  • LLM JSON 스키마 강제 및 규칙 폴백

Impact

  • 요약 길이 오차 p95 7.5s → 2.1s (데모)
  • 후처리로 WER 개선 +18%

* 일부는 데모 수치 — 실제 데이터로 교체 권장

Evidence Locker

증빙 자료

노조 최저 = 바닥선 통계(중위) = 시장 분포 한국은 항목·원칙 중심

※ 아래 표는 공식 원문을 근거로 정리했습니다. 통화는 원문 통화 그대로 표기(환산은 상단 환율 입력 후 각 행의 ‘시급 적용’을 눌러 ROI로 반영).

* IATSE·BECTU는 ‘최저/권고 단가’, BLS는 임금 ‘중위값’(전국)
지역/원천 구분 기준 단가 기간/비고 ROI 적용
🇺🇸 IATSE Local 700 (Majors) Picture Editor (On-call) $68.93/시간 · $551.44/일 · $3,897.38/주 2024-08-04 ~ 2025-08-02 · Studio Minimum Rates (원문)
🇺🇸 IATSE Local 700 (Majors) Assistant Editor (Z-6c) $48.38/시간 · $387.04/일 · $1,933.60/주 동일 기간 · Studio Minimum Rates (원문)
🇺🇸 미 노동부 BLS Film & Video Editors (전국) $34.12/시간(중위) · $70,980/년(중위) OEWS/OOH 2024 ($34.12 근거) · ($70,980 근거)
🇬🇧 BECTU (PPF Ratecard · Short Form) Editor (온라인/프로모) £435/일 (TV 광고: £565/일) · 8+1h 기준 2023–2024 권고 · Short Form PDF · 안내 페이지
🇰🇷 법령정보센터(문체부 부속서) 편집비 항목 정의 “편집감독·편집 조수 인건비, 편집실 대여비용” 등 (금액 기준 없음) 「영상콘텐츠 제작비용(제13조의9 관련)」 PDF 원문
🇰🇷 KOCCA 방송제작 노동환경 실태조사 직군별 노동시간·보수 통계(편집 포함) 2024 보고서 게시 페이지 확인
* 원문 통화·정의 그대로 복사됩니다.

근거/참조

레이트/노동 통계(오피셜)

  1. IATSE Local 700 — Majors Studio Minimum Rates (2024–27) PDF. production.ink
  2. BLS — OOH Film & Video Editors (Median $70,980, May 2024). bls.gov
  3. BLS — Occupational Employment and Wages, May 2024 (Median hourly $34.12). bls.gov
  4. BECTU — PPF Ratecard (Short Form 2023–24) PDF. bectu.org.uk / 안내: ratecards
  5. 법제처 국가법령정보센터 — 「영상콘텐츠 제작비용(제13조의9 관련)」(편집 항목 정의). law.go.kr
  6. KOCCA — 2024 방송제작 노동환경 실태조사 게시 페이지. kocca.kr

ROI 가정(시급)

  1. KOSA — 2025년 적용 SW기술자 평균임금 공표 (일평균·시간평균 산식 포함). sw.or.kr

기술/참고

  1. OpenAI Whisper(MIT) — GitHub
  2. FFmpeg(LGPL/GPL) — ffmpeg.org
  3. Dynamic Time Warping 개요 — Wikipedia

※ 데모 KPI는 포트폴리오 전시 목적의 예시값입니다.

※ 데이터 확인 일자: 2025-10-31 (KST).