구글이 내놓은 차세대 영상 모델을 코드팩토리가 직접 돌려 보면서, 프로모션에서 보인 결과와 실제 생성 결과 사이에 어떤 간극이 있는지 하나씩 확인한다. 핵심은 화려한 데모보다도, 배경 보존·인물 일관성·프롬프트 제어가 지금 어느 수준까지 되는지를 실제 샘플로 검증해 보는 데 있다.

flowchart LR
A[프로모션 영상처럼 한 줄 프롬프트로 원하는 영상이 나올까] --> B[실제 오피스·책장·운동·타이핑 영상을 직접 업로드]
B --> C[배경 변경과 참조 이미지 조합, 여러 테마 테스트]
C --> D[테마 반영은 되지만 원본 보존과 안정성은 아직 부족]

핵심 요약

  • 발표자는 Gemini 챗과 Flow에서 직접 영상을 넣어 보며 결과를 비교했고, 프로모션에서 본 수준과는 차이가 있다고 본다.
  • 손가락 스냅 순간 애니메이션 풍경으로 바꾸는 테스트에서는 배경뿐 아니라 오피스 배치와 손가락, 의상까지 함께 바뀌었다.
  • 책장 앞 인증샷 영상에서는 말과 장면을 대강 파악한 뒤 원본을 보존하기보다 새로 재구성하는 느낌이 강했다고 평가한다.
  • 배경 참조 이미지를 따로 넣거나 도서관·우주·귀멸의 칼날 느낌처럼 여러 테마를 줘도, 테마는 살지만 원래 요소를 유지하는 능력은 불안정했다.
  • 완성도는 아직 들쭉날쭉하지만, 몇 번 이터레이션하면 보완 가능성은 있고 브이로그의 특정 요소 삭제나 UGC 광고 같은 용도는 실험해 볼 만하다고 본다.

왜 지금 중요한가

이 영상은 새 모델 발표를 그대로 받아 적지 않고, 실제 촬영한 소스 영상을 기준으로 결과를 검수한다는 점이 중요하다. 개발팀이 새 생성형 도구를 도입할 때도 데모 품질보다 원본 유지, 반복 제어, 수정 비용이 먼저 확인돼야 하는데, 이 영상이 딱 그 검증 과정을 보여 준다.

주요 내용

1. 첫 테스트부터 드러난 문제는 ‘배경만 바꾸는’ 제어 실패다

첫 샘플은 오피스 영상이다. 발표자는 손가락 스냅 순간에 애니메이션 느낌 풍경으로 변경해 달라고 요청했고, 결과는 세로 영상으로 생성됐다. 그런데 실제 결과에서는 배경만 교체된 게 아니라 오피스 자체가 바뀌었고, 회사 배치도 원본과 달라졌으며 손가락과 옷차림까지 어색하게 변했다.

여기서 지적하는 포인트는 단순하다. 사용자가 바꿔 달라고 한 건 “스냅하는 순간의 풍경”이었는데, 모델은 장면 전체를 다시 구성해 버렸다는 것이다. 편집 도구가 아니라 장면 재생성 엔진처럼 동작하는 모습에 가깝다.

2. 인물과 소품을 보존하기보다 장면을 재조합하는 경향이 강하다

책들과 인증샷을 찍는 영상은 한국어 발화와 텍스트, 인물, 배경 보존을 함께 보기 위한 테스트로 쓰였다. 발표자는 책 제목이 잘 보이도록 직접 찍었고, 랜드스케이프 결과도 따로 생성했다. 하지만 결과물에서는 “앙기모링”이 하나 더 추가됐고, 책장 배경도 실제 책장이 아니었으며 향수 같은 소품도 임의로 재배치됐다.

발표자는 이 결과를 두고, 영상을 분석해 인물과 아이템의 대략적인 구성을 파악한 뒤 그걸 기반으로 장면을 다시 만드는 것 같다고 말한다. 나노바나가 얼굴을 넣어도 약간 바뀌어서 나오는 것과 비슷한 감각이라는 비교도 여기서 나온다. 원본을 픽셀 단위로 유지하는 편집보다, 의미를 해석한 뒤 프레임을 새로 만드는 쪽에 더 가깝다는 해석이다.

3. 참조 이미지를 추가해도 안정성은 아직 부족하다

프로모션과 실제 결과 차이가 크다고 느낀 발표자는 Flow로 가서 배경 참조 이미지까지 함께 넣어 다시 생성한다. 스냅 장면에서 특정 우주 배경으로 바꾸고, 아이템들은 그대로 두라고 명시적으로 적었지만, 결과에서는 스냅 전부터 장면이 변하고 배경이 통째로 우주로 바뀌었다.

비슷한 방식으로 같은 영상을 오리지널, 도서관, 우주 배경, 귀멸의 칼날 느낌으로 각각 2.5초씩 설정한 테스트도 진행한다. 이 경우 테마 느낌 자체는 어느 정도 살아나지만, 원래 있던 요소를 그대로 가져오지는 못했다고 정리한다. 즉 스타일 전환은 보이지만, 구조 보존은 약하다는 얘기다.

4. 액션 장면은 가능성이 보이지만, 실전 투입에는 반복 실험이 더 필요하다

운동 영상을 귀멸의 칼날 탄지로처럼 만들어 달라고 요청한 테스트에서는 첫 결과가 어색했고, 두 번째 결과가 조금 더 나았다고 말한다. 다만 배경이 위아래로 나뉘거나, 배경은 바뀌었는데 바닥은 제자리 시장 바닥으로 남는 등 합성이 완전히 닫히지는 않았다.

타이핑하는 10초 영상으로 “실제로 일하는 것처럼 키보드를 치게” 한 실험도 비슷하다. 첫 결과는 무슨 일이 일어난 건지 모르겠는 수준이었고, 두 번째 결과는 키보드가 들어가면서 조금 더 나아졌다. 발표자는 이런 결과를 바탕으로, 옴니가 어떤 변화를 잘 감지하고 어떤 일을 잘하는지 감을 잡으면 더 효율적으로 영상을 만들 수 있을 것 같다고 본다. 다만 지금은 서버가 느려 여러 번 이터레이션을 돌리지 못했고, 프로모션처럼 한 번에 딱 원하는 결과가 나오는 수준은 아니라고 선을 긋는다.

원문 발화 하이라이트

  • [01:56-02:02] “저는 이제 스냅는 순간에 애니메이션 느낌의 풍경으로 바꿔 달라 그랬는데 그냥 아예 오피스가 바뀌어 버렸습니다.”
  • [02:58-03:08] “이 영상을 분석하고 어떤 인물들이 있는지 어떤 대강적으로 어떤 아이템들이 있는지를 파악을 한 다음에 그걸 기반으로 그냥 아예 재구성해 버리는 거 아닌가라는 생각이 들어요.”
  • [03:47-03:55] “그냥 진짜 배경만 통째로 바뀌었어요. 아예 그냥 관련이 없죠. 이 테마 느낌은 잘 살렸는데 원래 있었던 요소들을 그대로 가져가지는 못했다.”
  • [04:33-04:38] “뭔가 이게 아직 제대로 그니까 오늘 나온 이 기능들이 조금 안정적이지는 않아요.”
  • [06:57-07:05] “우리가 이 프로모션에서 봤던 것처럼 진짜 딸각으로 그냥 우리가 원하는 대로 그냥 한 번에 나오는 느낌까지는 아니다라는 거를 여러분들이 인지를 해 주시면 될 거 같고요.”

바로 실행해 보기

  • 오피스처럼 원본 배치가 분명한 짧은 영상을 하나 골라, “손가락 스냅 순간에 애니메이션 풍경으로 바꿔 달라”처럼 변경 지점을 명확히 적은 프롬프트로 먼저 테스트해 본다. 결과를 볼 때는 배경만 바뀌는지, 손가락·의상·가구 배치까지 같이 무너지는지 체크한다.
  • 같은 소스 영상으로 두 가지 버전을 만든다. 하나는 배경 프롬프트만 넣고, 다른 하나는 Flow에서 배경 참조 이미지까지 함께 넣는다. 그다음 도서관·우주·귀멸의 칼날 느낌처럼 테마를 나눠 보고, 테마 반영은 잘되는데 원래 요소가 사라지는지 직접 비교한다.
  • 운동 영상이나 타이핑 영상처럼 동작이 분명한 클립으로 2~3회 이상 다시 생성해 보면서, 첫 결과와 두 번째 결과의 차이를 확인한다. 브이로그의 특정 요소 삭제나 UGC 광고처럼 짧은 작업에 먼저 써 보고, 이터레이션을 몇 번 돌려야 실사용 가능한지 감을 잡는다.

참고

영상 메타

수집 품질

  • 자막 세그먼트: 226개
  • 자막 문자수: 3943자
  • 챕터 추출: 0개
  • 콘텐츠 생성: Subagent 기반

AI 생성 도구를 활용해 초안을 구성했고, 원영상 발화와 공개 자료를 교차 확인해 정리했습니다.