Post

로컬 LLM 도전기 (그리고 하면 안 되는 이유)

클로드 비용이 비싸다고 생각해서 맥미니에 로컬 LLM 올려봤다가 하루 만에 폐기한 후기(구독이 싸다!)

로컬 LLM 도전기 (그리고 하면 안 되는 이유)

클로드는 구독료가 1년에 거의 30만 원 이상입니다. 연간 결제를 했는데도요.

그래서 로컬 LLM을 시도했습니다.

결론부터 말하면 하루 만에 다 지웠습니다. (하.. 내 시간) 왜 그랬는지 기록으로 남겨봅니다. (누군가 저처럼 로망을 품고 있다면 이 글로 시간을 아끼시길…)

설치는 진짜 쉬움

일단 설치 자체는 허무할 정도로 쉽습니다.

1
2
3
brew install ollama
ollama pull qwen3:14b
ollama run qwen3:14b

이게 끝이에요. 16GB 램에서는 14B(140억 파라미터) 모델이 실용적인 최대치라고 해서, 한국어 잘한다는 Qwen을 올렸습니다. 터미널에 채팅창이 뜨고 한국어로 대답도 잘합니다. 여기까지는 “오 되네?” 하면서 채팅을 시작했습니다. (그래도 좋은 모델을 사용하고 싶어서 14b로 진행…)

그런데 뭔가 이상하다

1. “안녕” 한마디에 131초 걸림

요즘 모델들은 답하기 전에 속으로 생각(추론)을 하는데, 이게 눈에 안 보이는 토큰을 어마어마하게 씁니다. 실제로 측정해보니 “안녕”이라고 인사했는데 보이는 답은 40토큰, 실제 생성은 232토큰, 총 131초가 걸렸습니다.

2. 검색이 안 됨

“내일 날씨 알려줘” 했더니 자기는 2023년까지만 안다고 합니다. 제미나이가 날씨를 알려주는 건 모델이 똑똑해서가 아니라 뒤에 검색 도구(tool)가 붙어 있기 때문이더라고요. 로컬 모델은 그런 게 없으니 Open WebUI라는 걸 도커로 띄워서 검색 기능까지 연결해봤는데, 결국 검색 결과를 요약하는 것도 로컬 모델이라 품질이 영… (그리고 제대로 동작도 안 했습니다. 간단하게 테스트만 진행해서 다른 모델은 잘될 수도 있어요)

3. 홈서버와의 램 경쟁

맥미니에는 이미 NPM, Immich 같은 컨테이너들이 돌고 있는데, 여기에 10GB짜리 모델까지 올리니까 스왑을 3GB씩 쓰면서 전체가 버벅였습니다. 16GB로 홈서버 + LLM 겸용은 무리입니다.

4. M4로 바꿔도 똑같음

혹시 칩이 구려서 그런가 싶어서 M4 맥북에어에서도 돌려봤는데, 초당 10토큰으로 거의 차이가 없었습니다. 알고 보니 LLM 생성 속도는 CPU 성능이 아니라 메모리 대역폭이 결정하는데, M2(100GB/s)나 M4(120GB/s)나 거기서 거기더라고요. 속도를 진짜 올리려면 M4 Pro/Max급(273~546GB/s)을 사야 하는데… 그 돈이면 구독료 몇 년치입니다.

소넷이랑 비교하면

제가 평소에 Claude 소넷을 쓰는데, 하루 써보고 비교하면 이렇습니다.

 로컬 14B (Qwen)Claude Sonnet
속도초당 10토큰 (답답함)쭉쭉 나옴
품질일반론 + 가끔 헛소리맥락 파악하고 답함
검색/도구직접 구축해야 함그냥 됨
최신 정보2023년에 멈춤
비용공짜 (전기값 + 내 시간)구독료

“공짜”가 로컬의 유일한 장점인데, 세팅하고 튜닝하고 트러블슈팅하는 내 시간을 갈아 넣는 순간 공짜가 아니게 됩니다. 비교 자체가 체급이 안 맞는 싸움이에요. 14B 모델과 프론티어 모델은 애초에 다른 종목입니다. 또 이 정도 하드웨어로는 어림도 없더라고요.

그래서 로컬 LLM 하면 안 되는 이유 (16GB 기준)

  1. 클라우드 모델 대체가 안 됩니다 — 품질, 속도, 도구 전부 안 됨
  2. 하드웨어 한계는 설정으로 못 넘습니다 — 램에 안 들어가는 모델은 느린 게 아니라 아예 안 돌아감
  3. 부가 기능(검색, 웹UI)을 붙일수록 관리할 게 늘어납니다 — 어느 순간 AI를 쓰는 게 아니라 AI 인프라를 운영하고 있음
  4. 시간이 제일 비쌉니다 (구독료가 훨씬 싸요)

다만 공평하게 말하면, 로컬 LLM이 맞는 경우도 있긴 합니다. 외부로 절대 보내면 안 되는 문서 처리라든가, API 비용 없이 대량으로 돌리는 반복 작업이라든가. 근데 저처럼 “제미나이 대신 쓸 수 있나?”가 목적이라면 그냥 하지 마세요. 그건 안 됩니다.

마무리

그래도 하루 동안 Ollama, 양자화, 메모리 대역폭, MoE 같은 개념을 몸으로 배웠으니 완전히 버린 시간은 아니라고 정신승리 중입니다. 회사에서 AI 얘기 나올 때 “로컬은 안 됩니다”를 경험 기반으로 말할 수 있게 된 것도 수확이고요. (램 256에 RTX 5090 주세요)

설치했던 건 전부 깔끔하게 지웠습니다. 맥미니는 다시 평화로운 홈서버로 돌아갔습니다.

ad729bbc3f620a4cef462c206d9fd1e3

비싸게 이유가 있다! (이게 싼거일 수 도?)

This post is licensed under CC BY 4.0 by the author.