맥북에서 Gemma 4 직접 돌려보니, 로컬 AI 어디까지 가능할까

시작하며

최근 공개된 Gemma 4를 맥북에서 바로 실행해봤다.

단순히 “실행된다”가 아니라, 일상적인 작업에 쓸 수 있는 수준인지를 확인해보고 싶었다.

이번 테스트는

M5 Pro 64GB 맥북프로
M4 Pro 48GB 맥 미니

이 두 기기를 나란히 두고 비교하는 방식으로 진행했다. 특히 Apple Silicon의 Unified Memory 구조와 메모리 대역폭 차이가 로컬 AI 추론에서 얼마나 영향을 주는지 직접 체감해보고 싶었다.

1. Gemma 4는 어떤 모델인가

내가 먼저 궁금했던 건 “이 모델을 왜 지금 써야 하나”였다.

(1) 네 가지 라인업이 주는 선택지의 폭

Gemma 4는 크게 네 가지 포지션으로 나뉜다.

2B / 4B: 모바일이나 가벼운 온디바이스용
26B MoE: 추론 효율을 강조한 구조
31B Dense: 품질을 우선하는 대형 모델

특히 눈에 띈 건 MoE(Mixture of Experts) 모델과 Dense 모델을 동시에 제공한다는 점이다.

① MoE 구조는 왜 빠르게 느껴질까

전체 파라미터는 26B지만
실제 추론 시에는 일부(예: 4B 수준)만 활성화
레이턴시가 상대적으로 유리
긴 대화나 에이전트 작업에서 반응성이 좋다

내가 26B MoE를 돌려봤을 때 초당 약 70토큰 이상이 나왔다. 로컬에서 이 정도면 꽤 쓸 만하다.

② Dense 31B는 어떤 선택일까

모든 파라미터가 활성화
속도는 상대적으로 느림
대신 복잡한 질문에서 안정감이 있다

실제로 31B Dense는 초당 약 15토큰 수준이었다. 체감상 “조금 기다려야 한다”는 느낌이 있지만, 품질은 확실히 올라간다.

(2) 컨텍스트 윈도우가 128K~256K까지 확장

이번 세대에서 가장 큰 변화는 컨텍스트 길이다.

소형 모델: 128K
26B/31B: 256K

나는 일부러 긴 문서 여러 개를 한 번에 넣어봤다. 단순 질문이 아니라, 문서 요약 + 비교 + 추가 분석까지 요청하는 식으로 테스트했다.

이게 왜 중요하냐면, 에이전트처럼 계속 이어지는 작업을 할 때 과거 맥락을 얼마나 유지하느냐가 핵심이기 때문이다.

2. M5 Pro와 M4 Pro를 같이 돌려보니 달라진 점

나는 40대 중반이고, 과거 간호사로 일한 경험이 있다. 그때 느꼈던 건 “이론과 현장은 다르다”는 점이었다. 이번 테스트도 마찬가지였다. 스펙표보다 체감이 더 중요했다.

(1) 단발 질문에서는 큰 차이가 없었다

짧은 프롬프트를 넣었을 때는

2B 모델: 초당 약 125토큰
26B MoE: 약 70토큰
31B Dense: 약 15토큰

M4 Pro와 M5 Pro 사이에 아주 큰 차이는 느끼기 어려웠다.

짧은 질문만 한다면, 48GB도 충분히 괜찮다.

(2) 긴 문서를 넣기 시작하자 차이가 벌어졌다

여기서부터가 핵심이었다.

🤔 50K 토큰을 넣어보니

총 소요 시간: 두 기기 모두 수십 초~1분 이상
프리필 구간에서 M5 Pro가 조금 더 빠름
출력 속도는 큰 차이 없음

🤔 100K 이상을 넣어보니

전체 처리 시간: 거의 10분 가까이
초반 프리필에서 차이 발생
메모리 대역폭이 높은 쪽이 유리

🤔 230K 수준까지 밀어붙이니

M5 Pro가 점점 유리해짐
KV 캐시가 커질수록 차이 확대
프리필 시간과 전체 응답 시간 모두 벌어짐

여기서 느낀 건 하나다.

짧게 쓰면 큰 차이 없고, 길게 쓸수록 메모리와 대역폭이 깡패다.

3. Unified Memory가 왜 체감 차이를 만드는가

이건 스펙표로만 보면 잘 안 보인다. 하지만 로컬 AI를 돌리다 보면 바로 느낀다.

(1) CPU와 GPU가 메모리를 같이 쓴다는 것

Apple Silicon은 CPU, GPU, Neural Engine이 하나의 메모리 풀을 공유한다.

① 데이터 이동이 줄어든다

별도 VRAM 복사 과정 없음
메모리 마이그레이션 비용 감소
KV 캐시 접근이 빠름

② 여러 작업을 동시에 돌릴 수 있다

음성 인식
브라우저 검색
문서 편집
LLM 추론

을 동시에 실행해봤다.

이게 클라우드 기반이면 매번 API 호출 비용이 쌓인다. 로컬이면 메모리만 버텨주면 된다.

(2) MLX가 왜 더 빠르게 느껴질까

같은 모델이라도 MLX 기반으로 돌렸을 때 속도가 더 잘 나왔다.

이유는 단순하다.

Apple Silicon 구조에 맞게 최적화
유니파이드 메모리 전제 설계
불필요한 복사 최소화

기존 프레임워크 대비 체감 속도 차이가 분명했다.

4. 그래서 로컬 AI, 지금 현실적인가

이 질문에 대한 내 대답은 이렇다.

(1) 이런 사람에게는 충분히 현실적이다

API 비용을 줄이고 싶은 개발자
에이전트 구조를 실험하는 사람
긴 문서를 자주 다루는 사용자
네트워크 의존도를 줄이고 싶은 경우

(2) 이런 경우엔 아직 클라우드가 낫다

대규모 배치 처리
최고 성능 모델이 필요한 상황
수백 명이 동시에 쓰는 서비스

나는 요즘 작은 모델을 먼저 돌리고, 마지막 단계에서만 클라우드를 호출하는 방식을 선호한다. Gemma 4는 그 중간 단계를 꽤 잘 채워준다.

마치며

Gemma 4를 맥북에서 돌려보니, 이제 로컬 AI는 “실험용”을 넘어서고 있다고 느꼈다.

특히

26B MoE는 속도와 품질의 균형이 좋고
31B Dense는 안정적인 결과를 보여주고
256K 컨텍스트는 에이전트 작업에 의미가 있다

M5 Pro 64GB는 긴 작업에서 확실히 여유가 있고, M4 Pro 48GB도 충분히 실사용이 가능하다.

만약 맥을 이미 가지고 있다면, 한 번쯤은 로컬 AI 환경을 직접 구축해보는 걸 권한다. 스펙표를 보는 것과, 직접 긴 문서를 넣어보는 건 완전히 다른 경험이다.

이제는 “돌아가느냐”가 아니라

“내 작업 흐름에 맞게 설계할 수 있느냐”의 문제라고 느낀다.

사업자 정보 표시

'리뷰 > 전자기기 사용기' 카테고리의 다른 글

오픈클로 설치 없이 쓰는 법, 젠스파크 클로로 업무 자동화 끝내기 (0)	2026.04.07
아이폰 18 Pro와 아이폰 폴드 먼저 공개, 일반 모델은 왜 봄으로 밀렸나 (0)	2026.04.07
Google Vids와 Veo 3.1 무료 공개, AI 영상 제작이 이렇게 쉬워졌다 (0)	2026.04.06
맥북에서 이모지 창 안 열릴 때 확인할 설정과 이모티콘 단축키 총정리 (0)	2026.04.05
샤오신패드 프로 GT 13 vs 프로 13, 12만원 차이의 가치 따져보기 (0)	2026.04.05