Gemma 4를 에뮬레이터에 직접 올려 2B와 4B를 비교한 영상이다. Gemma 3 때는 한국어도 어색하고 느렸는데, 이번에는 텍스트는 꽤 쓸 만해졌고 멀티모달은 아직 부족하다는 판단이 나온다.

flowchart LR
A[온디바이스 AI로 API 비용 절감] --> B[Gemma 4 2B와 4B 테스트]
B --> C[텍스트·이미지·오디오 성능 비교]
C --> D[텍스트는 실전 가능성, 멀티모달은 아직 한계]

핵심 요약

  • Gemma 4는 고성능 서버 모델보다 엣지 환경, 즉 핸드폰 같은 온디바이스 사용을 더 지향하는 모델로 소개된다
  • 영상에서 관심 있게 본 모델은 E2B와 E4B이며, 둘 다 128K 컨텍스트, 함수 호출, 코드 생성, 비전, 오디오 인식, 140개 이상 언어 지원을 내세운다
  • 2B 모델은 Gemma 3보다 훨씬 자연스럽고 빨라졌고, 단순 텍스트 생성 용도라면 탑재를 고민해 볼 수 있을 정도라고 평가된다
  • 4B 모델은 대화 톤이 더 사람 같고, 이미지 인식도 2B보다 구조를 더 정확히 짚어 낸다
  • 반면 이미지와 오디오 같은 멀티모달 기능은 아직 부족하며, 발표자는 텍스트는 쓸 만하지만 멀티모달은 아직 한계가 있다고 정리한다

왜 지금 중요한가

온디바이스 AI가 진짜 의미를 가지려면, 서버 비용을 아끼는 수준을 넘어서 사용자가 체감할 정도의 품질이 나와야 한다. 코드팩토리가 이 영상을 흥미롭게 보는 이유도 거기에 있다. Gemma 3 때는 한국어도 어색하고 속도도 느려서 사실상 쓰기 어려웠는데, Gemma 4는 적어도 텍스트 영역에서는 서비스에 일부 넣어 볼 만한 수준까지 올라왔다는 판단이 나온다.

주요 내용

Gemma 4의 초점은 고성능보다 엣지 사용성이다

영상 초반은 아주 직관적인 데모로 시작한다. 여자친구 톤으로 답하게 만드는 설정을 넣고, 한국어 대화를 바로 시켜 본다. 이 장면을 먼저 보여 준 이유는 분명하다. Gemma 4가 핸드폰 같은 기기에 올라가 무료로 AI를 돌릴 수 있다는 점이 이번 업데이트의 핵심이기 때문이다.

코드팩토리는 작년 말 Gemma 3로 로컬 여자친구 앱과 일정 관리 앱을 만들어 보려 했지만, 한국어 품질도 아쉽고 속도는 느리고 램은 너무 많이 먹어서 쓸 수 없다는 판단을 내렸다고 말한다. 그런데 이번 Gemma 4는 꽤 괜찮고, 이걸로 돈을 많이 아낄 수 있는 앱도 나올 것 같다고 평가한다.

모델군 설명도 같이 나온다. 31B와 26B는 고성능 지향이고, 실제 온디바이스 관점에서 보면 E2B와 E4B만 보면 된다고 말한다. 여기에 128K 컨텍스트, 함수 호출, 코드 생성, 비전, 오디오 인식, 140개 이상 언어 지원까지 들어갔다고 설명한다.

2B 모델은 생각보다 많이 좋아졌다

실제 테스트는 2B 모델부터 시작한다. 발표자는 에뮬레이터에 직접 올려 봤고, 메모리는 16GB를 줬다고 설명한다. 체감상 2B는 6GB나 8GB 정도에서도 돌아가는 것 같고, 4B는 에뮬레이터 기준 16GB 정도는 줘야 할 것 같다고 말한다.

첫 테스트는 텍스트 대화다. “너는 지금부터 내 여자친구야. 귀여운 톤으로 대답해 줘”라고 하자, Gemma 4 2B는 꽤 자연스럽게 반응한다. 이어서 인공지능에 대해 이야기해 보자고 하자, “컴퓨터가 사람처럼 생각하고 행동하게 만드는 기술” 같은 식으로 설명을 이어 간다. 코드팩토리는 Gemma 3를 많이 써 봤기 때문에 더 차이를 크게 느낀다고 말한다. 예전에는 훨씬 더 딱딱했고 문법이 어긋나는 경우도 있었는데, 지금은 속도도 빨라지고 문장감도 많이 좋아졌다는 것이다.

그래서 단순한 텍스트 생성이나 텍스트 아웃풋 중심 기능이라면, 이제는 쉽게 탑재를 고민해 볼 수도 있겠다는 판단을 내린다.

이미지와 오디오는 2B보다 4B가 낫지만, 아직 완성형은 아니다

2B 이미지 테스트에서는 캔 음료 사진을 넣고 인식을 시킨다. 모델은 KV를 정확히 읽지 못하고, 색감 위주로 해석하는 모습을 보인다. 발표자는 그래도 글자를 예전보다 훨씬 잘 읽었다고 말한다. Gemma 3 때는 이 정도도 못 했다고 한다. 다만 위스키 색깔처럼 노란색을 액체로 본다거나, 초록색 레이블을 읽는 식으로 아직 완벽하지는 않다고 평가한다. 체감으로는 ChatGPT 3과 4 사이, 대략 3.5 정도 느낌이라고 말한다.

오디오 전사도 시험한다. 영어 문장인 “Hello, can you transcribe the audio”는 잘 받아 적는다. 한국어로는 애국가를 읽어 본 샘플을 넣는데, “동해물과 백두산이 마르고 닳도록” 같은 구절은 어느 정도 맞히지만, “대한 사람 대한으로 길이 보전하세” 부분은 틀리게 적는다. 그래도 발표자는 대략 80% 정도는 맞추는 것 같다고 본다.

그 뒤 4B 모델로 넘어가면 차이가 더 분명하다. 먼저 로딩이 훨씬 오래 걸리고, 8GB 정도로는 로딩하다가 앱이 죽어 버렸다고 한다. 16GB 정도는 줘야 테스트가 가능했다고 말한다. 대신 대화 톤은 2B보다 확실히 자연스럽다. 같은 여자친구 설정에서도 4B는 질문을 던지고, 공감 표현도 조금 더 사람 같은 방향으로 나온다. 발표자는 2B가 사무적인 답변에 억지로 톤을 넣은 느낌이었다면, 4B는 그보다 훨씬 낫다고 평가한다.

이미지 인식도 더 좋아진다. 4B는 사진 속 음료가 네 개라는 사실을 먼저 정확히 짚고, 각 캔의 색상과 구성을 더 구조적으로 설명한다. 심지어 홍보용 사진처럼 보인다는 추정까지 붙인다. 하지만 오디오는 여전히 완벽하지 않다. 4B에서도 애국가 일부 구절은 잘못 전사한다. 그래서 코드팩토리는 텍스트 기반 작업은 거의 쓸 만한 수준까지 왔지만, 이미지와 오디오 같은 멀티모달 기능은 아직 부족하다고 정리한다.

결론은 백업 용도라도 지금 테스트해 볼 만하다는 것

영상 후반의 결론은 꽤 실전적이다. 4B보다 더 큰 모델을 온디바이스에 넣는 건 사실상 어렵기 때문에, 현재 시점에서는 멀티모달 한계가 남아 있다. 하지만 Gemma 3를 써 본 사람이라면 Gemma 4가 얼마나 많이 발전했는지 체감할 수 있을 거라고 말한다.

그리고 한두 세대만 더 지나면, 텍스트 인식은 훨씬 강해지고 멀티모달도 더 좋아질 가능성이 크기 때문에 온디바이스 AI 활용 방식이 크게 인기를 끌 것 같다고 본다. API 비용을 내지 않아도 되기 때문이다. 그래서 앱을 만드는 사람이라면, 적어도 백업용이나 약한 기능부터라도 Gemma 4를 꼭 테스트해 보라고 권한다.

원문 발화 하이라이트

  • [00:35] “우리가 핸드폰에다 탑재시켜 가지고 무료로 AI를 돌리도록 할 수가 있어요.”
  • [00:47] “제마 3 모델을 제가 로컬에서 돌려 본 적이 있는데 진짜 퍼포먼스로 너무 한국어도 잘 안 되고 속도가 일단 기본적으로 너무 느린데 램은 너무 많이 먹어 가지고 도저히 이건 쓸 수가 없다라는 판단을 내렸었거든요.”
  • [01:02] “제가 봤을 때 이걸로 돈을 많이 아낄 수 있는 앱들도 나올 것 같습니다.”
  • [03:37] “이 정도면은 여러분이 단순한 텍스트 생성이라든가 텍스트 아웃풋이 있으면 되는 요소들은 쉽게 한번 탑재를 해 볼 수도 있을 것 같다라는 생각이 듭니다.”
  • [07:36] “텍스트 기반으로 하는 작업은 거의 퍼포먼스가 쓸 만한 수준까지 올라온 거 같고요.”
  • [08:28] “앱 작업하시는 분들 특히나 꼭 한번 이 제마 4 테스트를 해 보고 여러분들이 활용할 수 있는 레벨이라고 판단이 되면 서비스에서 꼭 한번 뭐 백업으로라도 웹액 정도로라도 꼭 써 보면 진짜 좋을 거 같아요.”

바로 실행해 보기

  • 텍스트 응답만 필요한 기능을 따로 떼어 Gemma 4 2B로 먼저 붙여 본다. 영상 기준으로 2B도 귀여운 톤 대화와 기본 설명 생성은 꽤 빠르게 처리했다
  • 4B를 쓸 생각이면 에뮬레이터나 실제 기기에서 메모리부터 먼저 확인한다. 발표자는 8GB에서는 앱이 죽었고, 16GB 정도는 줘야 테스트가 가능했다고 말했다
  • 이미지 인식과 오디오 전사는 메인 기능으로 바로 넣지 말고, 백업 응답이나 보조 분석 흐름에서 먼저 검증한다. 영상에서도 4B까지 올려도 이 부분은 아직 오류가 남아 있었다

참고

영상 메타

수집 품질

  • 자막 세그먼트: 279개
  • 자막 문자수: 5065자
  • 챕터 추출: 0개
  • 콘텐츠 생성: Subagent 기반

AI 생성 도구를 활용해 초안을 구성했고, 원영상 발화와 공개 자료를 교차 확인해 정리했습니다.