이 영상은 GPT 5.5와 Claude Opus 4.7을 같은 프롬프트로 붙여 놓고, 결과물 품질과 토큰 효율을 같이 비교한 기록이다. 코드팩토리는 단순히 벤치마크 숫자를 읽는 대신, 반응형 웹, 3D 모델, 게임, 소설 창작, 스페이스 미션 앱 같은 실제 작업을 던진 뒤 비용, 실행 시간, 툴 호출 수까지 묶어서 본다. 결론은 한쪽이 압도적으로 이겼다기보다, 둘 다 이미 충분히 잘 만들고 있고 비용 효율 쪽에서는 GPT 5.5가 꽤 강하다는 쪽에 가깝다.

flowchart LR
A[GPT 5.5 출시와 전환 여론] --> B[Opus 4.7과 동일 프롬프트 비교]
B --> C[결과물 품질과 토큰 효율 측정]
C --> D[품질은 비슷, 비용 효율은 GPT 우세]

핵심 요약

  • GPT 5.5의 공개 강점으로 에이전틱 코딩, 컴퓨터 사용, 지식 작업, 과학 연구 쪽 향상이 소개된다
  • 가격은 GPT 5.5가 인풋 100만 토큰당 5달러, 아웃풋 100만 토큰당 30달러로 설명되며, 더 적은 토큰 사용으로 총비용이 줄 수 있다는 주장을 같이 한다
  • 비교 세트는 UI/UX와 CSS 애니메이션, 3D DNA 모델, 3D 게임, 2D 게임, 한국어 소설 창작, 스페이스 미션 앱까지 총 6개 프로젝트로 구성된다
  • 여섯 프로젝트 총비용은 GPT가 약 21달러, Opus 4.7이 약 123달러로 집계돼 GPT가 훨씬 저렴하게 나왔다
  • 둘 다 결과물 수준은 높았고, API 관점에서는 GPT 5.5 효율이 좋아 보이지만, 단순 작업은 Opus가 툴 호출도 적고 빠르게 끝내는 장면도 있었다고 정리한다

왜 지금 중요한가

이 비교가 흥미로운 이유는 “누가 더 똑똑하냐”를 넘어서, 실제 서비스에 붙였을 때 얼마가 드는지까지 같이 본다는 점이다. 프론티어 모델 둘 다 성능이 높아진 지금은 결과물만 보고 갈아타기보다, 어떤 작업에서 어느 모델이 더 빠르고 싼지를 보는 쪽이 훨씬 실전적이다. 특히 이미지 생성까지 GPT 쪽에 묶어 쓸 수 있다면 선택 기준이 더 달라질 수 있다는 얘기도 같이 나온다.

주요 내용

GPT 5.5가 내세운 포인트는 코딩, 지식 작업, 과학 연구다

영상 초반에는 GPT 5.5 발표 내용을 훑는다. 코드팩토리가 요약한 한 줄은 에이전틱 코딩, 컴퓨터 사용, 지식 기반 업무, 과학 연구에서 큰 향상이 있었다는 것이다. 여기에 바이오 영역 이야기도 끌어온다. 발표자는 Opus 4.7 때도 바이오케미컬 능력 강조가 있었는데, 이번 GPT 5.5에서도 비슷한 서사가 보인다고 말한다.

그 해석도 흥미롭다. AI가 더 복잡한 작업을 처리하기 시작하면 다음은 바이오로 갈 수밖에 없고, 원래부터 AI와 머신러닝을 잘 쓰던 분야였기 때문에 자연스러운 흐름이라는 설명이다. 즉 이 영상은 단순히 프롬프트 장난감 비교가 아니라, 모델 능력이 어느 영역으로 확장되는지도 같이 본다.

비교 세트는 6가지다, UI부터 게임, 소설, 스페이스 미션 앱까지

실제 비교는 제미나이를 심판 삼아 프롬프트를 만들고 진행했다고 설명한다. 테스트 항목은 명확하게 나열된다. 반응형 웹과 패럴랙스 효과가 들어간 UI/UX와 CSS 애니메이션, DNA를 3D로 구현하는 외관형 작업, 3D 게임, 2D 게임, 한국어 소설 창작 능력, 그리고 GPT 출시와 함께 공개된 스페이스 미션 앱 프롬프트까지다.

자막에서 중간 비교 장면 일부가 생략돼 있어 모든 결과를 세세하게 확인할 수는 없지만, 첫 번째 패럴랙스 웹 테스트에 대한 평가는 분명하다. 클로드와 GPT 모두 전반적으로 잘했고, 어느 한쪽이 요구사항을 못 맞춘 수준은 아니었다고 말한다. 발표자 개인 취향으로는 GPT 결과가 조금 더 마음에 들었다고 덧붙이지만, 이 정도 영역은 이제 어떤 프론티어 모델이든 다 잘한다고 보는 편이 맞다고 정리한다.

효율 비교는 꽤 극적으로 갈렸다

후반부의 핵심은 효율 분석이다. GPT 5.5와 Opus 4.7에 대해 비용, 아웃풋 토큰, 실행 시간, 툴 호출 횟수, 전체 입력 토큰, 달러당 아웃풋 토큰 효율을 계산했다. 여기서 가장 먼저 눈에 띄는 건 비용 차이다. 여섯 가지 프로젝트를 진행하는 데 GPT는 약 21달러 규모의 토큰을 썼고, Opus는 약 123달러가 들었다고 한다. 가장 비쌌던 프로젝트는 스페이스 미션이었다.

실행 시간도 흥미롭다. 3D 게임과 2D 게임은 Opus가 압도적으로 빨랐지만, 복잡한 웹사이트 쪽으로 분류되는 DNA 프로젝트와 스페이스 미션은 Opus가 압도적으로 느렸다고 설명한다. 그래서 복잡한 작업일수록 Opus가 더 불리해지는 것처럼 보였다고 말한다.

툴 호출 수는 오히려 GPT가 훨씬 많았다. 발표자도 처음엔 버그인 줄 알고 직접 확인했지만 실제로 Opus가 훨씬 적은 툴 콜로 끝냈다고 한다. 한 번에 더 많은 정보를 파일에 쓰거나, 내부적으로 더 많이 해결하려는 성향 때문일 수 있다고 추정하지만 정확한 이유는 단정하지 않는다. 다만 툴 호출은 적은데도 느린 프로젝트가 있었다는 점은 꽤 흥미로운 관찰로 남긴다.

입력 토큰은 GPT가 많이 먹지만, 캐시가 비용을 눌렀다

입력 토큰에서는 또 다른 그림이 나온다. 여섯 번째 프로젝트를 제외하면 GPT가 거의 배 이상 먹는 프로젝트가 많았다고 한다. 그런데도 왜 GPT가 더 저렴했느냐를 따져 보니, 캐시 레이트가 98% 정도로 매우 높게 나와서 입력 토큰이 많아도 실제 비용은 낮아졌다고 설명한다.

최종 판단은 이렇게 정리된다. 결과물만 보면 둘 다 비교 의미가 있을까 싶을 정도로 잘 만들었다. 그런데 API로 쓰는 상황이라면, Opus급 인텔리전스가 필요할 때 GPT 5.5 쪽 효율이 더 좋아 보인다. 반면 지금 시점 기준으로는 단순 작업에서 Opus가 툴 호출도 적고 한 번에 잘 끝내는 장면도 있어서, 두 모델을 모두 쓸 수 있다면 작업 성격에 따라 나눠 쓰는 게 가장 밸런스가 좋겠다고 본다.

원문 발화 하이라이트

“실제로 만들어지는 결과물뿐만 아니라 이번 GPT에서 주장하는 토큰 효율까지 우리가 한번 비교를 해 봤으니까 끝까지 한번 함께 해 주세요.”

“토큰 효율이 좋아서 코덱스나 이제 다른 부분에서 더 적은 토큰을 사용하게 되는 결과로 이어지게 될 거다.”

“오퍼스가 훨씬 더 적은 툴 호출을 하기는 합니다.”

“여섯 가지 프로젝트를 진행을 하기 위해서 저희가 GPT에서는 21달러 규모의 토큰을 사용을 했는데 오퍼스는 123달러가 들었습니다.”

“만약에 API로 사용을 한다라고 하면은 제 생각에는 GPT 5.5가 절대적으로 효율이 좋을 것 같아요.”

바로 실행해 보기

  1. 결과물만 보지 말고 비용 로그를 같이 남긴다. 같은 프롬프트를 두 모델에 던질 때 비용, 실행 시간, 툴 호출 수, 입력 토큰, 캐시율을 같이 기록해야 실제 운영 판단이 된다
  2. 단순 작업과 복잡한 작업을 분리해서 테스트한다. 영상에서도 2D, 3D 게임과 복잡한 웹 프로젝트에서 속도 양상이 달랐기 때문에 한 장면만 보고 모델을 고르면 왜곡되기 쉽다
  3. 이미지 생성까지 같이 쓸 계획이면 GPT 쪽 묶음 효율도 같이 계산한다. 발표자도 덕테잎의 한글 이미지 생성 성능이 좋기 때문에, 이미지가 필요한 서비스라면 GPT 쪽으로 묶는 판단이 나올 수 있다고 봤다

참고

  • 영상: GPT 5.5 vs 클로드 4.7! 같은 프롬프트로 싸움 붙이기! 앙

영상 메타

수집 품질

  • 자막 세그먼트: 459개
  • 자막 문자수: 8372자
  • 챕터 추출: 8개
  • 콘텐츠 생성: Subagent 기반

AI 생성 도구를 활용해 초안을 구성했고, 원영상 발화와 공개 자료를 교차 확인해 정리했습니다.