본문 바로가기
리뷰/전자기기 사용기

맥북에서 Gemma 4 직접 돌려보니, 로컬 AI 어디까지 가능할까

by 코스티COSTI 2026. 4. 6.

시작하며

최근 공개된 Gemma 4를 맥북에서 바로 실행해봤다.

단순히 “실행된다”가 아니라, 일상적인 작업에 쓸 수 있는 수준인지를 확인해보고 싶었다.

이번 테스트는

  • M5 Pro 64GB 맥북프로
  • M4 Pro 48GB 맥 미니

이 두 기기를 나란히 두고 비교하는 방식으로 진행했다. 특히 Apple Silicon의 Unified Memory 구조와 메모리 대역폭 차이가 로컬 AI 추론에서 얼마나 영향을 주는지 직접 체감해보고 싶었다.

 

1. Gemma 4는 어떤 모델인가

내가 먼저 궁금했던 건 “이 모델을 왜 지금 써야 하나”였다.

(1) 네 가지 라인업이 주는 선택지의 폭

Gemma 4는 크게 네 가지 포지션으로 나뉜다.

  • 2B / 4B: 모바일이나 가벼운 온디바이스용
  • 26B MoE: 추론 효율을 강조한 구조
  • 31B Dense: 품질을 우선하는 대형 모델

특히 눈에 띈 건 MoE(Mixture of Experts) 모델과 Dense 모델을 동시에 제공한다는 점이다.

① MoE 구조는 왜 빠르게 느껴질까

  • 전체 파라미터는 26B지만
  • 실제 추론 시에는 일부(예: 4B 수준)만 활성화
  • 레이턴시가 상대적으로 유리
  • 긴 대화나 에이전트 작업에서 반응성이 좋다

내가 26B MoE를 돌려봤을 때 초당 약 70토큰 이상이 나왔다. 로컬에서 이 정도면 꽤 쓸 만하다.

② Dense 31B는 어떤 선택일까

  • 모든 파라미터가 활성화
  • 속도는 상대적으로 느림
  • 대신 복잡한 질문에서 안정감이 있다

실제로 31B Dense는 초당 약 15토큰 수준이었다. 체감상 “조금 기다려야 한다”는 느낌이 있지만, 품질은 확실히 올라간다.

 

(2) 컨텍스트 윈도우가 128K~256K까지 확장

이번 세대에서 가장 큰 변화는 컨텍스트 길이다.

  • 소형 모델: 128K
  • 26B/31B: 256K

나는 일부러 긴 문서 여러 개를 한 번에 넣어봤다. 단순 질문이 아니라, 문서 요약 + 비교 + 추가 분석까지 요청하는 식으로 테스트했다.

이게 왜 중요하냐면, 에이전트처럼 계속 이어지는 작업을 할 때 과거 맥락을 얼마나 유지하느냐가 핵심이기 때문이다.

 

2. M5 Pro와 M4 Pro를 같이 돌려보니 달라진 점

나는 40대 중반이고, 과거 간호사로 일한 경험이 있다. 그때 느꼈던 건 “이론과 현장은 다르다”는 점이었다. 이번 테스트도 마찬가지였다. 스펙표보다 체감이 더 중요했다.

(1) 단발 질문에서는 큰 차이가 없었다

짧은 프롬프트를 넣었을 때는

  • 2B 모델: 초당 약 125토큰
  • 26B MoE: 약 70토큰
  • 31B Dense: 약 15토큰

M4 Pro와 M5 Pro 사이에 아주 큰 차이는 느끼기 어려웠다.

짧은 질문만 한다면, 48GB도 충분히 괜찮다.

 

(2) 긴 문서를 넣기 시작하자 차이가 벌어졌다

여기서부터가 핵심이었다.

🤔 50K 토큰을 넣어보니

  • 총 소요 시간: 두 기기 모두 수십 초~1분 이상
  • 프리필 구간에서 M5 Pro가 조금 더 빠름
  • 출력 속도는 큰 차이 없음

🤔 100K 이상을 넣어보니

  • 전체 처리 시간: 거의 10분 가까이
  • 초반 프리필에서 차이 발생
  • 메모리 대역폭이 높은 쪽이 유리

🤔 230K 수준까지 밀어붙이니

  • M5 Pro가 점점 유리해짐
  • KV 캐시가 커질수록 차이 확대
  • 프리필 시간과 전체 응답 시간 모두 벌어짐

여기서 느낀 건 하나다.

짧게 쓰면 큰 차이 없고, 길게 쓸수록 메모리와 대역폭이 깡패다.

 

3. Unified Memory가 왜 체감 차이를 만드는가

이건 스펙표로만 보면 잘 안 보인다. 하지만 로컬 AI를 돌리다 보면 바로 느낀다.

(1) CPU와 GPU가 메모리를 같이 쓴다는 것

Apple Silicon은 CPU, GPU, Neural Engine이 하나의 메모리 풀을 공유한다.

① 데이터 이동이 줄어든다

  • 별도 VRAM 복사 과정 없음
  • 메모리 마이그레이션 비용 감소
  • KV 캐시 접근이 빠름

② 여러 작업을 동시에 돌릴 수 있다

  • 음성 인식
  • 브라우저 검색
  • 문서 편집
  • LLM 추론

을 동시에 실행해봤다.

이게 클라우드 기반이면 매번 API 호출 비용이 쌓인다. 로컬이면 메모리만 버텨주면 된다.

 

(2) MLX가 왜 더 빠르게 느껴질까

같은 모델이라도 MLX 기반으로 돌렸을 때 속도가 더 잘 나왔다.

이유는 단순하다.

  • Apple Silicon 구조에 맞게 최적화
  • 유니파이드 메모리 전제 설계
  • 불필요한 복사 최소화

기존 프레임워크 대비 체감 속도 차이가 분명했다.

 

4. 그래서 로컬 AI, 지금 현실적인가

이 질문에 대한 내 대답은 이렇다.

(1) 이런 사람에게는 충분히 현실적이다

  • API 비용을 줄이고 싶은 개발자
  • 에이전트 구조를 실험하는 사람
  • 긴 문서를 자주 다루는 사용자
  • 네트워크 의존도를 줄이고 싶은 경우

 

(2) 이런 경우엔 아직 클라우드가 낫다

  • 대규모 배치 처리
  • 최고 성능 모델이 필요한 상황
  • 수백 명이 동시에 쓰는 서비스

나는 요즘 작은 모델을 먼저 돌리고, 마지막 단계에서만 클라우드를 호출하는 방식을 선호한다. Gemma 4는 그 중간 단계를 꽤 잘 채워준다.

 

마치며

Gemma 4를 맥북에서 돌려보니, 이제 로컬 AI는 “실험용”을 넘어서고 있다고 느꼈다.

특히

  • 26B MoE는 속도와 품질의 균형이 좋고
  • 31B Dense는 안정적인 결과를 보여주고
  • 256K 컨텍스트는 에이전트 작업에 의미가 있다

M5 Pro 64GB는 긴 작업에서 확실히 여유가 있고, M4 Pro 48GB도 충분히 실사용이 가능하다.

만약 맥을 이미 가지고 있다면, 한 번쯤은 로컬 AI 환경을 직접 구축해보는 걸 권한다. 스펙표를 보는 것과, 직접 긴 문서를 넣어보는 건 완전히 다른 경험이다.

이제는 “돌아가느냐”가 아니라

“내 작업 흐름에 맞게 설계할 수 있느냐”의 문제라고 느낀다.

사업자 정보 표시
코스티(COSTI) | 김욱진 | 경기도 부천시 부흥로315번길 38, 루미아트 12층 1213호 (중동) | 사업자 등록번호 : 130-38-69303 | TEL : 010-4299-8999 | 통신판매신고번호 : 2018-경기부천-1290호 | 사이버몰의 이용약관 바로가기