AI 코딩 에이전트가 점점 똑똑해지면서, 이제 문제는 “AI가 코드를 잘 짜느냐”가 아니라 “AI가 망가지기 전에 얼마나 잘 통제하느냐”로 옮겨가고 있다. 2026년 초, Claude Code 생태계에서 주목받는 4개 플러그인은 각각 다른 각도에서 이 통제 문제에 접근한다. 프로세스를 강제하거나, 관점을 분산시키거나, 환경을 깔끔하게 유지하거나, 외부 에이전트로 독립 검증하거나. 넷 다 Claude Code에 얹어 쓰는 플러그인이며, 어떤 제약을 어디에 거느냐가 핵심 차이다.

💡 3초 요약

  • 프로세스를 강제하고 싶다 → Superpowers (TDD 의무화)
  • 여러 관점으로 코드를 검토하고 싶다 → G-Stack (가상 팀 역할 분담)
  • 컨텍스트 오염을 막고 싶다 → GSD (작업마다 깨끗한 환경)
  • 다른 에이전트로 독립 리뷰받고 싶다 → Codex Plugin (Claude ↔ Codex 교차 검증)
flowchart TD
    A["문제가 무엇인가?"] --> B["AI가 테스트 없이 코드를 쓴다"]
    A --> C["단일 관점으로만 검토한다"]
    A --> D["긴 세션에서 품질이 떨어진다"]
    A --> E["자기 코드를 스스로 리뷰할 수 없다"]
    B --> F["Superpowers<br/>TDD 강제"]
    C --> G["G-Stack<br/>역할 분담"]
    D --> H["GSD<br/>컨텍스트 초기화"]
    E --> I["Codex Plugin<br/>외부 독립 리뷰"]

왜 지금 이 네 개인가

Claude Code는 2025년 5월 출시 이후 터미널 기반 AI 코딩 도구의 대세로 자리 잡았다. 2026 AI 코딩 도구 비교에서 다룬 것처럼, 대규모 리팩토링과 디버깅에서 가장 강력한 도구로 평가받는다.

하지만 Claude Code에도 한계가 있다. 세션이 길어지면 컨텍스트가 누적되어 품질이 떨어지고, AI가 자기가 쓴 코드를 객관적으로 리뷰하기 어렵고, 테스트를 건너뛰는 유혹에 빠지기 쉽다. 이 네 개의 플러그인은 각각 이 한계를 공격하는 서로 다른 접근법이다.

2026년 4월 현재 GitHub 스타 수만 봐도 폭발적이다:

플러그인GitHub⭐ 스타제약 방식
Superpowersobra/superpowers140K+프로세스
G-Stackgarrytan/gstack67K+관점
GSDgsd-build/get-shit-done49K+환경
Codex Pluginopenai/codex-plugin-cc13K+품질 검증

Superpowers — “시공 매뉴얼”이 되는 플러그인

건설 현장에 시공 매뉴얼이 있다. 아무리 숙련된 작업자라도 매뉴얼을 무시하면 안 된다. Superpowers는 AI 코딩 에이전트에 이 매뉴얼을 강제하는 프레임워크다.

Jesse Vincent(obra)이 만든 이 플러그인은 14만 스타를 돌파한 Claude Code 생태계 최대 플러그인이다. 핵심은 Brainstorm → Plan → Execute 3단계 워크플로우와 Red-Green-Refactor TDD 강제다.

AI가 무언가를 만들려고 하면, 곧바로 코드를 쓰는 게 아니라 먼저 “정확히 뭘 만들 건지”를 묻는다. 설계가 확정되면 구현 계획을 세우고, 승인 후에야 서브에이전트를 띄워 작업을 시작한다. 이때 가장 중요한 규칙이 하나 있다 — 테스트 없이 코드를 쓰면 삭제한다. Red-Green-Refactor 사이클을 벗어나는 코드는 즉시 되돌려진다.

GitHub: obra/superpowers ⭐ 140K+ 공식 마켓플레이스: claude.com/plugins/superpowers

G-Stack — “감리단”을 부르는 플러그인

건축 현장에는 설계자, 시공사, 감리사, 안전관리자가 따로 있다. 한 명이 모든 역할을 맡으면 문제가 생긴다. G-Stack은 AI 에이전트에게 이 역할 분담을 강제한다.

Y Combinator CEO Garry Tan이 만든 gstack은 23개의 전문 도구를 제공한다. 각 도구는 CEO, Eng Manager, Designer, Release Manager, QA Engineer, Security Officer 같은 역할을 맡는다. /plan-ceo-review로 제품 관점에서, /plan-eng-review로 엔지니어링 관점에서, /design-review로 디자인 관점에서 각각 따로 검토한다.

Garry Tan 본인이 “지난 60일간 60만 줄 이상의 프로덕션 코드를 작성했다”고 밝혔을 정도로, 실제 자신의 워크플로우를 그대로 공개한 것이다.Andrej Karpathy가 “작년 12월 이후 코딩을 직접 한 줄도 안 쳤다”고 말한 시대에, 한 명이 팀 20명 몫을 해내는 구체적 방법을 보여준다.

GitHub: garrytan/gstack ⭐ 67K+

GSD — “현장 정리”가 핵심인 플러그인

AI 코딩 세션이 길어지면 무슨 일이 생기는가. 컨텍스트 윈도우에 이전 대화, 실패한 시도, 중간 결과가 쌓이면서 품질이 점점 떨어진다. 마치 작업장에 쓰레기가 쌓여서 제대로 된 작업이 안 되는 것과 같다.

GSD(Get Shit Done)는 이 문제를 정면으로 공격한다. 매 테스크마다 새로운 서브에이전트를 띄워 200K 토큰 전체를 구현에만 쓰게 만든다. 컨텍스트 오염이 원천적으로 차단된다. 작업이 끝나면 결과를 Git 커밋으로 남기고, 다음 테스크는 또 깨끗한 환경에서 시작한다.

이 접근법의 배경은 단순하다. “하나의 채팅 스레드를 빌드 시스템으로 쓰지 마라”는 것. GSD는 작업을 작은 단위로 쪼개고, 각 단위를 격리된 환경에서 실행하며, Git 커밋으로 되돌릴 수 있게 만든다. 문제가 생기면 bisect로 정확히 어디서 망가졌는지 찾을 수 있다.

GitHub: gsd-build/get-shit-done ⭐ 49K+ npm: npx get-shit-done-cc

Codex Plugin — “외부 감사”를 부르는 플러그인

회계 감사를 생각해보자. 회사 내부팀이 자기 장부를 검사하면 객관성이 떨어진다. 외부 회계법인이 와야 신뢰할 수 있다. Codex Plugin은 Claude Code 안에서 OpenAI의 Codex를 불러와 독립 코드 리뷰를 수행하게 만든다.

OpenAI가 2026년 3월 30일 공개한 이 플러그인은 4일 만에 4천 스타를 받았고, 현재 1.3만 스타를 돌파했다. 세 가지 핵심 명령어가 있다.

  • /codex:review — 현재 변경사항에 대한 일반 코드 리뷰
  • /codex:adversarial-review — 설계 결정과 가정을 공격적으로 검증하는 대립 리뷰
  • /codex:rescue — 버그 조사, 수정, 백그라운드 작업 위임

Claude의 근본적 약점, 즉 “자기가 쓴 코드를 객관적으로 리뷰할 수 없다”는 문제를, 완전히 다른 AI 시스템(Codex)으로 보완하는 발상이다. 같은 프로젝트를 다른 관점에서 바라보는 것이다.

GitHub: openai/codex-plugin-cc ⭐ 13K+ OpenAI 커뮤니티: Introducing Codex Plugin for Claude Code

비교: 무엇을 어디에 제약하는가

네 플러그인의 본질적 차이는 “무엇을 제약하는가”에 있다.

flowchart LR
    subgraph 제약 대상
        direction TB
        P["프로세스<br/>(순서·방법론)"]
        V["관점<br/>(역할 분담)"]
        E["환경<br/>(컨텍스트)"]
        Q["품질<br/>(독립 검증)"]
    end
    P --> F["Superpowers"]
    V --> G["G-Stack"]
    E --> H["GSD"]
    Q --> I["Codex Plugin"]
상황추천이유
AI가 테스트를 습관적으로 건너뛴다SuperpowersTDD 없이 코드 쓰면 삭제
한 관점에서만 코드를 평가한다G-StackCEO/Eng/Designer/QA 다각 검토
긴 세션에서 점점 이상한 코드가 나온다GSD매 테스크마다 컨텍스트 초기화
Claude가 자기 코드를 리뷰하면 항상 “괜찮다”고 한다Codex Plugin외부 에이전트로 독립 검증
팀 전체에 일관된 워크플로우를 적용하고 싶다G-Stack + Superpowers역할 분담 + TDD 강제 조합

조합 실전 가이드 — 넷 중 몇 개를 같이 쓰나

실무에서는 단일 플러그인보다 조합이 흔하다. GitHub에서 이미 조합 플러그인도 등장했다.

가장 가벼운 조합: GSD + Codex Plugin. GSD로 컨텍스트를 깔끔하게 유지하고, Codex Plugin으로 최종 리뷰를 외부에 맡긴다. 설치는 각각 30초면 충분하다.

팀 워크플로우 조합: G-Stack + Superpowers. Garry Tan의 역할 분담 구조 안에서 Jesse Vincent의 TDD 강제 프로세스를 돌리면, 가상 팀이 체계적으로 움직인다.

전체 조합: 네 개 모두 설치도 가능하다. claude-flow 같은 메타 플러그인이 GSD + G-Stack + Superpowers를 한 번에 설치해준다. 하지만 처음부터 넷 다 켜면 복잡도가 급격히 올라가니, 하나씩 추가하며 체감해보는 편이 낫다.

칠판 치트시트 📋

Superpowers  = 프로세스 강제 (TDD 없이 코드 쓰면 삭제)
G-Stack      = 관점 분산 (CEO/Eng/Design/QA 각각 따로 리뷰)
GSD          = 환경 초기화 (매 테스크마다 깨끗한 컨텍스트)
Codex Plugin = 독립 검증 (Claude 코드를 Codex가 교차 리뷰)

선택 기준: "AI의 어떤 약점을 보완할 것인가?"
- 순서 문제 → Superpowers
- 시야 문제 → G-Stack
- 누적 문제 → GSD
- 자기객관성 문제 → Codex Plugin

적용 체크리스트

  • 현재 AI 코딩에서 가장 자주 겪는 품질 문제가 무엇인지 파악하기
  • 문제가 프로세스라면 Superpowers 설치 (/plugin install superpowers)
  • 문제가 단일 관점이라면 G-Stack 설치 (git clone./setup)
  • 문제가 컨텍스트 누적이라면 GSD 설치 (npx get-shit-done-cc)
  • 문제가 자기 리뷰 신뢰성이라면 Codex Plugin 설치 (/plugin install codex)
  • 하나만 선택하기 어려우면 GSD부터 시작 — 컨텍스트 관리가 가장 즉각적 효과

다음 읽기

이 글은 AI의 도움을 받아 작성되었습니다.