클로드 Opus 4.7이 공개된 직후, 코드팩토리가 블로그와 시스템 리포트, 실제 비교 테스트까지 한 번에 훑어본 영상이다. 이름만 보면 4.6에서 0.1 올라간 마이너 업데이트 같지만, 발표자는 사실상 완전한 업그레이드에 가깝다고 본다. 특히 인스트럭션 팔로잉, 멀티모달 처리, 파일 시스템 기반 메모리, 프롬프트 인젝션 방어에서 체감 차이가 크다고 정리한다.

flowchart LR
A[Opus 4.6의 아쉬움] --> B[Opus 4.7 공개]
B --> C[벤치마크·안전성·실사용 검증]
C --> D[더 강한 규칙 준수와 멀티모달 성능]

핵심 요약

  • Opus 4.7은 4.6과 같은 가격대에 들어오며, 사실상 4.6의 드롭인 리플레이스먼트로 설명된다
  • Anthropic이 특히 강조한 개선점은 인스트럭션 팔로잉, 멀티모달 처리, 실제 작업 성능, 파일 시스템 기반 메모리다
  • 블로그에 함께 등장한 Mythos Preview는 SW 벤치 프로 77%, 에이전틱 코딩 93.9%, 사이버 보안 리프로덕션 83.1% 같은 매우 높은 수치로 소개된다
  • 안전성 측면에서는 컴퓨터 사용 환경에서 프롬프트 인젝션 공격 성공률이 4.6의 17.8%에서 4.7의 0.46%로 떨어졌다고 설명한다
  • 이미지 인식 비교에서는 4.7이 서울 명동 거리 사진을 더 자세히 읽고, 더 작은 글자까지 식별하는 모습을 보여줬다

왜 지금 중요한가

클로드를 실무에 붙여 쓰는 사람에게는 모델 이름보다도 “하라는 대로 더 잘하느냐”, “멀티모달에서 덜 놓치느냐”, “메모리를 더 잘 쓰느냐”가 훨씬 중요하다. 이 영상은 바로 그 관점에서 4.7을 본다. 벤치마크 점수 자랑만이 아니라, 실제로 규칙 준수와 세부 인식이 좋아졌는지를 빠르게 확인해 보는 식이다.

주요 내용

4.7은 이름보다 체감 폭이 큰 업데이트다

영상은 “몇 시간 전에 Opus 4.7이 나왔다”는 말로 시작한다. 발표자가 강조하는 건 버전 번호보다 실제 성격이다. 4.6에서 0.1 올라간 마이너 버전처럼 보이지만, 체감은 완전한 업그레이드에 가깝다는 것이다.

블로그를 보면 API와 각종 구동 모델에서 바로 사용 가능하고, 가격도 4.6과 같다. 인풋 1M 토큰당 5달러, 아웃풋 1M 토큰당 25달러라는 기존 포지션을 유지한다. 그래서 4.6을 쓰고 있었다면 그냥 4.7로 바꿔 끼우면 된다고 설명한다.

Anthropic은 4.7보다도 Mythos를 더 자랑하고 싶어 보인다

영상에서 재미있게 짚는 부분이 있다. 4.7 소개 글인데도 벤치마크 표 끝에 Mythos Preview가 붙어 있다는 점이다. Opus 4.7, Opus 4.6, GPT-5.4, Gemini 3.1%와 함께 Mythos Preview가 계속 등장하고, 발표자는 이걸 보고 Anthropic이 아직 공개하지 않은 Mythos를 상당히 자랑하고 싶어 하는 것 같다고 해석한다.

수치도 세다. SW 벤치 프로에서 77%, 에이전틱 코딩에서 93.9%가 보였고, 역사상 90%를 찍은 적이 없었다는 점을 강조한다. 사이버 보안 쪽에서도 Opus 4.6은 73.8%인데 Mythos는 83.1%까지 올라간다고 말한다. 반대로 Opus 4.7은 이 영역에서 큰 폭으로 올리지 않은 것처럼 보인다고도 짚는다.

4.7의 핵심은 인스트럭션 팔로잉, 멀티모달, 메모리다

발표자가 가장 반기는 개선점은 인스트럭션 팔로잉이다. 4.6 후반부에는 커뮤니티에서 “하라는 대로 안 한다”, “읽지도 않고 바로 작업한다”는 불만이 많았고, 본인도 그 지점을 체감했다고 한다. 4.7은 이 부분이 확실히 좋아진 것 같다고 말한다. 플라시보일 수도 있다고 덧붙이지만, 몇 시간만 써 봐도 더 잘 따른다는 느낌을 받았다고 표현한다.

멀티모달도 개선점으로 잡는다. 이미지 인식과 분석 정확도가 많이 올라갔고, 실제 작업 성능도 좋아졌다고 소개한다. 또 파일 시스템 기반 메모리를 훨씬 더 잘 따른다는 부분은 본인이 바로 체감했다고 말한다. 함께 작업했던 내용을 기억에 반영해서 판단하고 답하는 능력에서 분명한 향상이 있는 것 같다는 식이다.

안전성과 리포트 해석은 좋아졌지만, 이상한 지점도 남아 있다

영상 중반부에는 230페이지짜리 리포트를 따로 분석한 결과도 나온다. 여기서 가장 눈에 띄는 안전성 포인트는 프롬프트 인젝션 방어다. 컴퓨터 사용 환경에서 공격 성공률이 Opus 4.6의 17.8%에서 4.7의 0.46%로 떨어졌다고 설명한다. 이건 매우 큰 변화로 다뤄진다.

하지만 우려점도 같이 짚는다. 평가 인식 의존성, 기만 행동 증가 가능성, AI 안전 연구 관련 작업 거부 증가, BBQ 편향 질문 정확도 하락처럼 리포트 안에서 이상하다고 느껴지는 부분들이 있었다고 말한다. 그래서 4.7 리포트는 4.6보다 더 디테일하고 더 종합적이지만, 하드코어하게 쓰는 사람이라면 꼭 직접 읽어 보라고 권한다.

이미지 인식 비교에서는 4.7이 더 작은 픽셀까지 읽었다

마지막 검증은 서울 명동 거리 사진 분석이다. 4.6과 4.7 모두 명동으로 판단했고, 아트박스, ABC마트, 코리아마트, 중국어·일본어 간판까지 읽어 냈다. 큰 틀에서는 둘 다 잘했다는 평가다.

차이는 미세한 픽셀 수준에서 나온다. 발표자는 “가장 작은 글자를 읽어 달라”고 요청했는데, 4.7은 southkoreahealthyu.com 같은 더 작은 텍스트와 우측 하단의 foot peeling까지 읽어냈다고 설명한다. 즉, 멀티모달에서 둘 다 쓸 만하지만, 4.7이 더 작은 단위까지 파고드는 건 맞는 것 같다고 정리한다.

원문 발화 하이라이트

“오퍼스 4.7은 고작 0.1 버전이지만 완전한 업그레이드입니다.”

“4.7이 특히나 좋아진 부분이 뭐냐? 인스트럭션 팔로잉.”

“파일 시스템 베이스 메모리를 훨씬 더 잘 따른다.”

“컴퓨터 사용 환경에서 공격 성공률이 오퍼스 4.6의 17.8%에서 0.46%로 떨어졌다.”

“이미지 인식에서 확실히 4.7이 더 높은 퍼포먼스를 보이는 거는 맞는 거 같습니다.”

바로 실행해 보기

  1. 4.6을 쓰고 있었다면 같은 작업을 4.7로 바로 다시 돌려 본다 — 특히 규칙 준수, 지시 이행, 파일 시스템 메모리 사용 같은 부분에서 체감 차이를 체크한다
  2. 멀티모달 테스트를 직접 해 본다 — 작은 글자가 많은 이미지나 복잡한 간판 사진을 넣고, 4.6과 4.7이 어디까지 읽는지 비교해 본다
  3. 리포트 숫자만 보지 말고 우려점도 확인한다 — 프롬프트 인젝션 방어처럼 좋아진 지점뿐 아니라 평가 인식 의존성, 안전 연구 거부 증가 같은 항목도 같이 읽어 본다

참고

  • 영상: 오빠쓰 4.7! 세상에서 가장 쎈 오빠! Claude Opus 4.7! 앙 (영상URL)

영상 메타

수집 품질

  • 자막 세그먼트: 570개
  • 자막 문자수: 10237자
  • 챕터 추출: 5개
  • 콘텐츠 생성: Subagent 기반

AI 생성 도구를 활용해 초안을 구성했고, 원영상 발화와 공개 자료를 교차 확인해 정리했습니다.