오픈 클로우에서 에러가 자주 나고 워크플로 관리가 힘들었던 경험을 출발점으로, Hermes Agent를 클라우드 VPS에 올려 OpenAI와 텔레그램까지 연결하는 과정을 실제 파이프라인 중심으로 풀어낸다. 단순 설치 시연이 아니라 쇼츠 자막 자동화, 스킬 저장, 메신저 기반 반복 실행까지 이어지는 운영 구조가 핵심이다.

flowchart LR
A[오픈 클로우 운영 피로] --> B[Hostinger VPS에 Hermes Agent 배포]
B --> C[OpenAI Codex와 텔레그램 연동]
C --> D[쇼츠 자막 자동화와 스킬 재사용]

핵심 요약

  • 발표자는 오픈 클로우에서 에러가 많아 관리가 힘들었지만, 에이전트는 워크플로를 잘 기억하고 문제가 적어 만족도가 높다고 말한다.
  • 설치 환경으로 맥북이나 클라우드 모두 가능하다고 설명하면서, Hostinger의 KVM2 구성을 더 현실적인 선택지로 추천한다.
  • Hermes Agent UI에서는 채팅, 세션, 칸반을 중심으로 보면 되고, 모델 전환은 도커 컨테이너 터미널에서 진행한다.
  • OpenAI Codex 로그인과 GPT 5.5 선택까지 마치면 브라우저 UI에서 바로 응답을 확인할 수 있고, 이후 텔레그램 봇을 붙여 메신저에서 작업을 실행할 수 있다.
  • 쇼츠 영상에 위스퍼 로컬 모델로 SRT를 만들고, 중앙 흰색 자막과 검정 테두리, 발화 시점에 맞춰 빨간 글자가 따라가는 캡션 워크플로를 스킬로 저장해 반복 사용한다.

왜 지금 중요한가

발표자는 트렌드가 이미 에이전트로 넘어갔다고 말하면서, 로컬에서 매번 채팅창과 프로젝트를 선택하고 컨텍스트를 주입하는 방식보다 클라우드에서 기억을 유지하는 작업 흐름이 훨씬 만족도가 높다고 강조한다. 특히 텔레그램으로 파일을 보내고 결과만 받아오는 구조는 편집 같은 반복 작업에서 집중력과 생산성을 크게 바꾼다는 점을 계속 보여 준다.

주요 내용

1. 설치 비용과 인프라 선택을 먼저 정리한다

시작은 의외로 단순하다. 맥북을 써도 되고 클라우드를 써도 되지만, 발표자는 Hostinger VPS를 예시로 든다. KVM1은 CPU 1코어와 4GB 메모리라 조금 부족할 수 있다고 보고, 가격 차이가 크지 않으니 KVM2를 추천한다. Hermes Agent를 돌리기 위해 최소 900달러 수준의 맥북을 사는 대신 월 8.99달러 수준으로 테스트할 수 있다는 비교도 여기서 나온다. 결제 과정에서는 서버 정보와 로그인 정보를 꼭 저장해 두라고 짚는다.

2. UI는 가볍게 보고, 모델 전환은 터미널에서 처리한다

서버가 생성되면 도커 매니저의 프로젝트에서 Hermes Agent를 열고, 저장해 둔 아이디와 비밀번호로 로그인한다. UI에는 세션, 모델, 로그 같은 메뉴가 많지만 처음에는 채팅, 세션, 칸반 정도만 이해하면 된다고 정리한다. 세션은 대화 기록이 남는 곳이고, 칸반은 작업 진행 상황을 라이브로 보는 화면이다. OpenAI를 붙이려면 프로젝트의 터미널 버튼으로 컨테이너 안에 들어가 model 커맨드를 실행한 뒤, Codex CLI or OpenAI API를 고르고 구독 계정으로 로그인한다. 이어서 코드를 붙여 넣고 모델 목록에서 GPT 5.5를 선택한 다음 UI를 새로고침해 응답이 오는지 확인한다. 패스트 모드를 켜 두면 더 빠르게 답변을 받을 수 있다고 덧붙인다.

3. 텔레그램 연동은 봇 생성과 토큰 저장이 핵심이다

브라우저에서만 채팅하지 말고 자주 쓰는 메신저로 붙이는 흐름이 이어진다. 발표자는 먼저 에이전트에게 텔레그램 연동 방법을 직접 물어보는 장면을 보여 준다. 답변을 바탕으로 BotFather에서 /newbot을 입력해 봇을 만들고, 이름과 bot으로 끝나는 사용자명을 정한 뒤 HTTP API 토큰을 저장한다. 이어 user info bot에서 자신의 아이디도 확인해 저장한다. 토큰을 AI에게 넘기기 싫다면 터미널에서 환경 변수를 넣을 수 있다고 말하지만, 본인은 값을 직접 넣는 편이라고 설명한다. 설정이 끝나면 게이트웨이가 시작됐다는 메시지가 나오고, 텔레그램에서 “안녕”이라고 보내 바로 응답이 오는지 확인한다.

4. 쇼츠 자막 자동화는 SRT를 중심으로 설계한다

뒤쪽 데모가 가장 실전적이다. 아직 자막을 넣지 않은 쇼츠 영상을 대상으로, 위스퍼 로컬 모델을 사용해 SRT를 생성하고 그 SRT를 기준으로 자막을 입히라고 요청한다. 요구사항도 구체적이다. 쇼츠 중앙에 큰 흰색 글자를 두고, 검정 테두리를 넣고, 말하는 타이밍에 맞춰 빨간 글자가 따라가게 해 달라고 지정한다. 파일이 크면 텔레그램에서 인지하지 못할 수 있으니 구글 드라이브를 통해 전달하는 편을 추천한다. 결과물로는 영상뿐 아니라 실제 발화가 적힌 스크립트도 함께 오고, 발표자는 빨간 글자가 발화에 맞춰 거의 완벽하게 들어간다고 평가한다. 여기서 끝내지 않고, 이 과정을 사람이 이해할 수 있는 설명으로 남겨 두면 에이전트가 쇼츠레 word 캡션 워크플로 같은 스킬로 저장해 다음부터 같은 요청을 반복 실행할 수 있다고 보여 준다.

원문 발화 하이라이트

  • [00:23] “오픈 클로우를 쓸 때 정말 에러가 너무 많이 나 가지고 관리가 너무 힘들었는데 에이전트를 쓰기 시작한 뒤로는 정말 제 워크플로도 잘 기억하고 문제가 생기지 않아서 정말 만족하고 있습니다.”
  • [02:19] “어렵지 않아요. 커맨드 몇 개만 우리가 진행을 해 주면 됩니다.”
  • [09:11] “쇼치에너 자막을 입힐 건데 위스퍼 로컬 모델을 사용해서 SRT를 생성하고”
  • [10:08] “이 SRT 자체가 정확한 위치에 어디서 어떻게 작업이 일어나고 있는지를 알려 주기 때문에 우리가 캡션을 완벽하게 생성을 할 수가 있다라는 거죠.”
  • [11:53] “텔레그램에서 우리가 이렇게 자동화 워크플로가 만들어진 것들은 싹 다 보내 버려 가지고 생성시키면은 그 생성시키고서 생성된 다음에 우리가 가져오는 거랑 집중력이랑 워크플로 생산성이 진짜 다릅니다.”

바로 실행해 보기

  • Hostinger VPS를 열고 KVM1과 KVM2 사양을 비교한 뒤, 영상에서 설명한 것처럼 CPU 1코어·4GB인 KVM1 대신 KVM2로 Hermes Agent 실행 환경을 먼저 준비한다.
  • 도커 매니저에서 Hermes Agent 프로젝트를 연 다음 터미널 버튼으로 들어가 model 커맨드를 실행하고, Codex CLI or OpenAI API를 선택해 OpenAI 로그인과 모델 선택까지 끝낸다.
  • 텔레그램 봇을 만든 뒤 쇼츠 파일이나 구글 드라이브 링크를 보내고, 위스퍼 로컬 모델로 SRT를 생성한 다음 중앙 흰색 자막·검정 테두리·빨간 추적 글자 조건으로 캡션 작업을 요청해 본다.

참고

영상 메타

수집 품질

  • 자막 세그먼트: 421개
  • 자막 문자수: 7589자
  • 챕터 추출: 0개
  • 콘텐츠 생성: Subagent 기반

AI 생성 도구를 활용해 초안을 구성했고, 원영상 발화와 공개 자료를 교차 확인해 정리했습니다.