본문 바로가기
리뷰/전자기기 사용기

노트북LM으로 대사 없이 조회수 20만 만든 AI 시대물 영상 제작 공식

by 코스티COSTI 2026. 4. 13.

시작하며

내가 처음 AI로 시대물 영상을 만들었을 때 가장 크게 부딪힌 건 화풍 붕괴였다. 분명 같은 인물인데 장면마다 얼굴이 달라지고, 색감이 오락가락했다. 스토리는 괜찮은데 영상이 불안해 보이니 끝까지 보기가 힘들었다.

그때 깨달았다. 조회수가 터지는 영상의 핵심은 화려함이 아니라 ‘일관성’이라는 걸. 오늘은 구글의 NotebookLM 하나로 50장 이상의 이미지를 마치 한 화가가 그린 것처럼 통일하는 과정을 정리해 본다.

 

1. 내가 먼저 한 일은 ‘기준’을 눈에 보이게 만드는 것이었다

AI는 추상적인 말보다 구체적인 기준에 더 잘 반응한다. “고급스럽게”, “빈티지하게” 같은 표현은 사람마다 다르게 받아들인다. 그래서 나는 글이 아니라 이미지 기준부터 고정했다.

(1) 말로 설명하다가 계속 어긋났던 경험

처음에는 “1920년대 저택 여성의 아침”이라고만 입력했다.

① 왜 자꾸 색감이 달라졌을까

  • 장면마다 채도가 달라졌다
  • 조명이 현대적으로 바뀌었다
  • 주인공의 눈, 머리색이 조금씩 달라졌다
  • 배경 소품이 시대와 안 맞았다

내가 원하는 분위기를 정확히 전달하지 못한 결과였다.

 

(2) 그래서 나는 이렇게 바꿨다

  • 원하는 분위기와 가장 유사한 유화 한 장을 찾았다
  • 색감과 질감 위주로 참고했다
  • 주제는 한 줄로만 입력했다
  • 예: “1920년대 저택에 사는 여성의 아침 일상”

글보다 이미지 한 장이 훨씬 강력한 기준이 된다. 이 단계에서 이미 결과의 50%가 결정된다.

 

2. 노트북LM에 ‘소스’로 박아두니 흔들림이 줄었다

여기서 핵심이 나온다. NotebookLM은 등록한 소스를 중심으로 출력한다. 그냥 채팅창에 입력하는 것과는 완전히 다르다.

나는 시대 설정 시트를 만들어 그대로 복사해 소스로 등록했다.

(1) 왜 소스 고정이 중요한가

① AI가 기준을 잊지 않는다

  • 채팅 내용은 흐름 속에 묻히지만
  • 소스는 계속 참조한다
  • 출력이 누적될수록 디테일이 살아난다

 

(2) 장면이 많을수록 차이가 난다

  • 5장 정도는 큰 차이가 없다
  • 30장 넘어가면 스타일이 흔들린다
  • 50장 이상이면 소스 유무 차이가 확실히 보인다

내가 여러 번 테스트해 본 결과, 소스를 안 넣은 경우 20장 이후부터 얼굴이 변했다. 소스를 고정하니 안정감이 유지됐다.

 

3. 50장 장면 프롬프트를 한 번에 뽑지 않은 이유

처음엔 욕심내서 50장을 한 번에 시각화했다. 결과는 중간부터 붕괴였다.

(1) 나는 왜 20장씩 끊었나

① 과부하를 피하기 위해

  • 50장 동시 요청 시 중간 스타일 변형 발생
  • 배경 디테일이 단순화됐다
  • 인물 묘사가 점점 흐려졌다

 

(2) 일정 구간마다 재고정했다

  • 1~20번 시각화
  • 그 결과물을 다시 소스로 업로드
  • 21~40번 요청 시 “기존 화풍 유지” 명시
  • 41~50번도 같은 방식 반복

이 과정을 거치니 거의 한 명이 그린 것 같은 흐름이 만들어졌다.

 

🖼️ 왜 굳이 PDF로 다시 올렸을까?

  • 앞선 결과물을 기준 이미지로 재학습시키기 위해
  • 색감, 인물 외형을 고정하기 위해
  • 다음 장면의 흔들림을 줄이기 위해

이건 직접 해보면 차이가 확실히 느껴진다.

 

4. 수정은 다시 생성하지 않고 그 자리에서 했다

다른 툴을 쓸 때는 마음에 안 들면 처음부터 다시 뽑았다. 시간 낭비였다.

NotebookLM에서는 수정 기능을 활용했다.

(1) 내가 고칠 때 이렇게 요청했다

① 색감이 튈 때

  • “기존 소스의 채도와 동일하게 조정해 줘”
  • “조명 톤을 앞 장면과 맞춰 줘”

 

(2) 인물 표정이 달라질 때

  • “소스에 등록된 인물 외형 유지”
  • “머리색, 눈매 동일하게”

이 방식이 시간을 확 줄여 준다. 새로 만들지 않고 조정하는 게 훨씬 효율적이다.

 

5. 결국 조회수 20만은 왜 나왔을까

나는 여러 장르를 테스트했다. 역사 분위기뿐 아니라 야담, 심리 이야기, 경제 콘텐츠까지 확장했다.

공통점은 하나였다.

끝까지 스타일이 무너지지 않는다.

사람은 의식하지 않아도 시각적 안정감을 느끼면 더 오래 본다. 반대로 장면마다 어색하면 집중이 깨진다. 대사가 없어도 영상이 이어지는 이유가 여기에 있다.

 

🎬 내가 느낀 차이점은 이거다

  • 일관성 없는 영상: 평균 시청 지속 시간 짧다
  • 스타일 유지 영상: 초반 이탈률 낮다
  • 대사 없이도 몰입이 이어진다

나는 40대가 되면서 콘텐츠를 볼 때 더 예민해졌다. 어색하면 바로 넘긴다. 시청자도 같다. 결국 조회수는 알고리즘 이전에 완성도 문제다.

 

마치며

AI로 이미지를 많이 뽑는 것보다 중요한 건 처음 기준을 어떻게 세우느냐다.

1. 분위기 이미지 한 장 고른다

2. 시대 설정 시트를 만든다

3. NotebookLM에 소스로 고정한다

4. 20장씩 나눠 시각화한다

5. 중간 결과를 다시 소스로 재등록한다

이 다섯 단계만 기억해도 장면 50장이든 100장이든 흐트러지지 않는다.

오늘 저녁, 컴퓨터를 켜고 10분만 테스트해 보길 권한다. 직접 한 번 만들어 보면 왜 조회수 20만이 가능한지 감이 올 것이다.

결국 차이를 만드는 건 툴이 아니라, 기준을 다루는 방식이다.

사업자 정보 표시
코스티(COSTI) | 김욱진 | 경기도 부천시 부흥로315번길 38, 루미아트 12층 1213호 (중동) | 사업자 등록번호 : 130-38-69303 | TEL : 010-4299-8999 | 통신판매신고번호 : 2018-경기부천-1290호 | 사이버몰의 이용약관 바로가기