AI 코딩 에이전트가 점점 똑똑해지면서, 이제 문제는 “AI가 코드를 잘 짜느냐”가 아니라 “AI가 망가지기 전에 얼마나 잘 통제하느냐”로 옮겨가고 있다. 2026년 초, Claude Code 생태계에서 주목받는 4개 플러그인은 각각 다른 각도에서 이 통제 문제에 접근한다. 프로세스를 강제하거나, 관점을 분산시키거나, 환경을 깔끔하게 유지하거나, 외부 에이전트로 독립 검증하거나. 넷 다 Claude Code에 얹어 쓰는 플러그인이며, 어떤 제약을 어디에 거느냐가 핵심 차이다.
💡 3초 요약
- 프로세스를 강제하고 싶다 → Superpowers (TDD 의무화)
- 여러 관점으로 코드를 검토하고 싶다 → G-Stack (가상 팀 역할 분담)
- 컨텍스트 오염을 막고 싶다 → GSD (작업마다 깨끗한 환경)
- 다른 에이전트로 독립 리뷰받고 싶다 → Codex Plugin (Claude ↔ Codex 교차 검증)
flowchart TD A["문제가 무엇인가?"] --> B["AI가 테스트 없이 코드를 쓴다"] A --> C["단일 관점으로만 검토한다"] A --> D["긴 세션에서 품질이 떨어진다"] A --> E["자기 코드를 스스로 리뷰할 수 없다"] B --> F["Superpowers<br/>TDD 강제"] C --> G["G-Stack<br/>역할 분담"] D --> H["GSD<br/>컨텍스트 초기화"] E --> I["Codex Plugin<br/>외부 독립 리뷰"]
왜 지금 이 네 개인가
Claude Code는 2025년 5월 출시 이후 터미널 기반 AI 코딩 도구의 대세로 자리 잡았다. 11-AI코딩도구비교2026에서 다룬 것처럼, 대규모 리팩토링과 디버깅에서 가장 강력한 도구로 평가받는다.
하지만 Claude Code에도 한계가 있다. 세션이 길어지면 컨텍스트가 누적되어 품질이 떨어지고, AI가 자기가 쓴 코드를 객관적으로 리뷰하기 어렵고, 테스트를 건너뛰는 유혹에 빠지기 쉽다. 이 네 개의 플러그인은 각각 이 한계를 공격하는 서로 다른 접근법이다.
2026년 4월 현재 GitHub 스타 수만 봐도 폭발적이다:
| 플러그인 | GitHub | ⭐ 스타 | 제약 방식 |
|---|---|---|---|
| Superpowers | obra/superpowers | 140K+ | 프로세스 |
| G-Stack | garrytan/gstack | 67K+ | 관점 |
| GSD | gsd-build/get-shit-done | 49K+ | 환경 |
| Codex Plugin | openai/codex-plugin-cc | 13K+ | 품질 검증 |
Superpowers — “시공 매뉴얼”이 되는 플러그인
건설 현장에 시공 매뉴얼이 있다. 아무리 숙련된 작업자라도 매뉴얼을 무시하면 안 된다. Superpowers는 AI 코딩 에이전트에 이 매뉴얼을 강제하는 프레임워크다.
Jesse Vincent(obra)이 만든 이 플러그인은 14만 스타를 돌파한 Claude Code 생태계 최대 플러그인이다. 핵심은 Brainstorm → Plan → Execute 3단계 워크플로우와 Red-Green-Refactor TDD 강제다.
AI가 무언가를 만들려고 하면, 곧바로 코드를 쓰는 게 아니라 먼저 “정확히 뭘 만들 건지”를 묻는다. 설계가 확정되면 구현 계획을 세우고, 승인 후에야 서브에이전트를 띄워 작업을 시작한다. 이때 가장 중요한 규칙이 하나 있다 — 테스트 없이 코드를 쓰면 삭제한다. Red-Green-Refactor 사이클을 벗어나는 코드는 즉시 되돌려진다.
GitHub: obra/superpowers ⭐ 140K+ 공식 마켓플레이스: claude.com/plugins/superpowers
G-Stack — “감리단”을 부르는 플러그인
건축 현장에는 설계자, 시공사, 감리사, 안전관리자가 따로 있다. 한 명이 모든 역할을 맡으면 문제가 생긴다. G-Stack은 AI 에이전트에게 이 역할 분담을 강제한다.
Y Combinator CEO Garry Tan이 만든 gstack은 23개의 전문 도구를 제공한다. 각 도구는 CEO, Eng Manager, Designer, Release Manager, QA Engineer, Security Officer 같은 역할을 맡는다. /plan-ceo-review로 제품 관점에서, /plan-eng-review로 엔지니어링 관점에서, /design-review로 디자인 관점에서 각각 따로 검토한다.
Garry Tan 본인이 “지난 60일간 60만 줄 이상의 프로덕션 코드를 작성했다”고 밝혔을 정도로, 실제 자신의 워크플로우를 그대로 공개한 것이다.Andrej Karpathy가 “작년 12월 이후 코딩을 직접 한 줄도 안 쳤다”고 말한 시대에, 한 명이 팀 20명 몫을 해내는 구체적 방법을 보여준다.
GitHub: garrytan/gstack ⭐ 67K+
GSD — “현장 정리”가 핵심인 플러그인
AI 코딩 세션이 길어지면 무슨 일이 생기는가. 컨텍스트 윈도우에 이전 대화, 실패한 시도, 중간 결과가 쌓이면서 품질이 점점 떨어진다. 마치 작업장에 쓰레기가 쌓여서 제대로 된 작업이 안 되는 것과 같다.
GSD(Get Shit Done)는 이 문제를 정면으로 공격한다. 매 테스크마다 새로운 서브에이전트를 띄워 200K 토큰 전체를 구현에만 쓰게 만든다. 컨텍스트 오염이 원천적으로 차단된다. 작업이 끝나면 결과를 Git 커밋으로 남기고, 다음 테스크는 또 깨끗한 환경에서 시작한다.
이 접근법의 배경은 단순하다. “하나의 채팅 스레드를 빌드 시스템으로 쓰지 마라”는 것. GSD는 작업을 작은 단위로 쪼개고, 각 단위를 격리된 환경에서 실행하며, Git 커밋으로 되돌릴 수 있게 만든다. 문제가 생기면 bisect로 정확히 어디서 망가졌는지 찾을 수 있다.
GitHub: gsd-build/get-shit-done ⭐ 49K+ npm:
npx get-shit-done-cc
Codex Plugin — “외부 감사”를 부르는 플러그인
회계 감사를 생각해보자. 회사 내부팀이 자기 장부를 검사하면 객관성이 떨어진다. 외부 회계법인이 와야 신뢰할 수 있다. Codex Plugin은 Claude Code 안에서 OpenAI의 Codex를 불러와 독립 코드 리뷰를 수행하게 만든다.
OpenAI가 2026년 3월 30일 공개한 이 플러그인은 4일 만에 4천 스타를 받았고, 현재 1.3만 스타를 돌파했다. 세 가지 핵심 명령어가 있다.
/codex:review— 현재 변경사항에 대한 일반 코드 리뷰/codex:adversarial-review— 설계 결정과 가정을 공격적으로 검증하는 대립 리뷰/codex:rescue— 버그 조사, 수정, 백그라운드 작업 위임
Claude의 근본적 약점, 즉 “자기가 쓴 코드를 객관적으로 리뷰할 수 없다”는 문제를, 완전히 다른 AI 시스템(Codex)으로 보완하는 발상이다. 같은 프로젝트를 다른 관점에서 바라보는 것이다.
GitHub: openai/codex-plugin-cc ⭐ 13K+ OpenAI 커뮤니티: Introducing Codex Plugin for Claude Code
비교: 무엇을 어디에 제약하는가
네 플러그인의 본질적 차이는 “무엇을 제약하는가”에 있다.
flowchart LR subgraph 제약 대상 direction TB P["프로세스<br/>(순서·방법론)"] V["관점<br/>(역할 분담)"] E["환경<br/>(컨텍스트)"] Q["품질<br/>(독립 검증)"] end P --> F["Superpowers"] V --> G["G-Stack"] E --> H["GSD"] Q --> I["Codex Plugin"]
| 상황 | 추천 | 이유 |
|---|---|---|
| AI가 테스트를 습관적으로 건너뛴다 | Superpowers | TDD 없이 코드 쓰면 삭제 |
| 한 관점에서만 코드를 평가한다 | G-Stack | CEO/Eng/Designer/QA 다각 검토 |
| 긴 세션에서 점점 이상한 코드가 나온다 | GSD | 매 테스크마다 컨텍스트 초기화 |
| Claude가 자기 코드를 리뷰하면 항상 “괜찮다”고 한다 | Codex Plugin | 외부 에이전트로 독립 검증 |
| 팀 전체에 일관된 워크플로우를 적용하고 싶다 | G-Stack + Superpowers | 역할 분담 + TDD 강제 조합 |
조합 실전 가이드 — 넷 중 몇 개를 같이 쓰나
실무에서는 단일 플러그인보다 조합이 흔하다. GitHub에서 이미 조합 플러그인도 등장했다.
가장 가벼운 조합: GSD + Codex Plugin. GSD로 컨텍스트를 깔끔하게 유지하고, Codex Plugin으로 최종 리뷰를 외부에 맡긴다. 설치는 각각 30초면 충분하다.
팀 워크플로우 조합: G-Stack + Superpowers. Garry Tan의 역할 분담 구조 안에서 Jesse Vincent의 TDD 강제 프로세스를 돌리면, 가상 팀이 체계적으로 움직인다.
전체 조합: 네 개 모두 설치도 가능하다. claude-flow 같은 메타 플러그인이 GSD + G-Stack + Superpowers를 한 번에 설치해준다. 하지만 처음부터 넷 다 켜면 복잡도가 급격히 올라가니, 하나씩 추가하며 체감해보는 편이 낫다.
칠판 치트시트 📋
Superpowers = 프로세스 강제 (TDD 없이 코드 쓰면 삭제)
G-Stack = 관점 분산 (CEO/Eng/Design/QA 각각 따로 리뷰)
GSD = 환경 초기화 (매 테스크마다 깨끗한 컨텍스트)
Codex Plugin = 독립 검증 (Claude 코드를 Codex가 교차 리뷰)
선택 기준: "AI의 어떤 약점을 보완할 것인가?"
- 순서 문제 → Superpowers
- 시야 문제 → G-Stack
- 누적 문제 → GSD
- 자기객관성 문제 → Codex Plugin
적용 체크리스트
- 현재 AI 코딩에서 가장 자주 겪는 품질 문제가 무엇인지 파악하기
- 문제가 프로세스라면 Superpowers 설치 (
/plugin install superpowers) - 문제가 단일 관점이라면 G-Stack 설치 (
git clone후./setup) - 문제가 컨텍스트 누적이라면 GSD 설치 (
npx get-shit-done-cc) - 문제가 자기 리뷰 신뢰성이라면 Codex Plugin 설치 (
/plugin install codex) - 하나만 선택하기 어려우면 GSD부터 시작 — 컨텍스트 관리가 가장 즉각적 효과
다음 읽기
- 16-CodexPlugin-ClaudeCode리뷰 — 설치부터 adversarial review 실전까지
- 17-Superpowers-TDD강제 — Brainstorm→Plan→Execute 워크플로우 상세
- 18-GStack-역할분담 — 23개 전문 도구와 가상 팀 운영법
- 19-GSD-컨텍스트관리 — 컨텍스트 엔지니어링과 서브에이전트 격리
- 11-AI코딩도구비교2026 — Cursor vs Claude Code vs Copilot vs OpenCode 전체 비교
이 글은 AI의 도움을 받아 작성되었습니다.