오픈클로(OpenClaw) 한달 후기 (feat. 로컬 LLM vs 상용 AI API)

(침몰한) 프로젝트 몰티저스

이번 글은 나의 오픈클로 한달 체험기가 되겠다

나는 한달 조금 넘는 시간동안 이것저것 실험해보았고 나만의 결론을 낼 수 있었다

그리고 누군가에게 도움이 되고자 이렇게 기록으로 남기고자 한다

아 본론에 들어가기 전에 결론부터 말하면 로컬 LLM으로 오픈클로(OpenClaw)를 돌리기 위해 맥미니를 사는 것은 비추천이다 ^^

ps. 프로젝트명이 몰티저스인 이유는 오픈클로 캐릭터가 동글동글 귀여워서...

ps. 혹시 제가 사용한 모델 외에 효율이 더 좋거나, 정말 실사용 가능한 정도의 성능을 보여주는 모델이 있다면, 추천해시면 정말 감사합니다! 혹은 세팅법을 알려주셔도.. 감동...

ps.

- 다른 후기들은 맨 밑의 태그를 눌러 확인하실 수 있습니다

26.03.30 업데이트

- 오픈클로 돌린 M1 맥미니 전기세 후기

https://ratatou2.tistory.com/362

M1 맥미니 소비 전력 측정 일지 (feat. 오픈클로 한달 전기세)

미친(Positive) 소비전력;;오픈클로(OpenClaw, 구 몰트봇) 돌린다고 M1 맥미니 한달동안 돌렸는데 이것밖에 안나온다;;;라즈베리파이 보다 적게 먹다니 전성비 하나만큼은 정말 끝내준다고 말할 수 있

ratatou2.tistory.com

0. 실험 환경

- 일체형 PC (Intel Celeron 3865U, 8GB)

- 맥미니 M1 (16GB, 1TB)

- GPU 서버 (A100 40GB * 2장)

- 일체형 PC는 Only OpenClaw 호스트 머신으로만 썼으며, CPU 병목 때문에 M1 맥미니로 변경하였다

- 한마디로 오픈클로만 돌리더라도 어느정도의 CPU 성능은 필요하다는 것이다 (셀러론이면 너무 할아버지긴해..)

- 또한 맥미니에서 7B와 같은 비교적 가벼운 모델을 돌려봤지만(내가 기대하던 성능에 비해), 너무 처참한 성능에 결국 맥미니에서 LLM을 돌리진 않았다

- 결국 별도의 GPU 서버에서 LLM 모델을 호스팅하고 M1에는 오픈클로만 돌아가는 구조로 구성했음

1. 시도해본 것들

- 모델을 대략 7가지 정도 써보았다

- Qwen2.5-Coder-14B
- Qwen2.5-Coder-32B
- Qwen2.5-72B (Base)
- Qwen2.5-72B-AWQ (instruct)
- Qwen3-32B-Instruct (awq)
- Qwen3.5-35B-A3B (MoE)
- GPT-OSS-20B

- 72B는 파라미터가 너무 커서 Batch Size를 줄이는 등 여러가지 시도를 하였다

- 내 최애는 GPT-OSS-20B랑 Qwen3-32B-Instruct (awq)이었음

- 일단 Qwen3.5는 성능이 좋대서 35B 출시되자마자 바로 다음날에 적용해봤는데 너무 최신이라 호환이 잘 안되고 자꾸 버그가 났다...

- GPT-OSS-20B는 꽤나 말도 잘 알아듣고 대화가 이어지는게 부드러웠다

- Qwen3-32B-Instruct는 Qwen2.5-72B-Intstruct랑 비슷한 수준이거나 좀 더 우수했다

ps. Qwen을 가장 많이 썼는데 그 이유는 오픈소스 LLM 중엔 저것보다 성능이 높은 것도 딱히 없었고, 레딧에서 가장 많이 추천되는 모델 중 하나였기 때문이다

2. 내가 하려고 했던 것들 (+ 실제 대화 내용)

- 그냥 일정 맞춰서 알림 잘 울리고, 프로젝트 분석하고, 아이디어로 프로젝트 혼자 사부작사부작 만드는 등 다른 사람들과 비슷한 생각을 갖고 시작했더랬다 (~~쇠 빠지게 불평없이 일만 오지게 할 AI 구합니다~~~)

- 그러나 LLM의 성능이 낮으니까 알림을 맞추는 것도 힘겨워하고 프로젝트 분석은 말할 것도 없이 처참했다

- Gemini API를 써보고 나서야 내가 원하는 수준이 어느정도인지 깨달을 수 있었다

- 그리고 그 수준은 최소한 상용 LLM API를 써야하며, 로컬 LLM 수준으로는 아직 채울 수 없다는 것도 여실히 체감했다

ps. 자기 이름 '몰티저스'라고 말 끝마다 초콜릿 아이콘 붙이는걸 스스로 판단함.. 졸귀..

- 그리고 진짜 간단한 프로젝트면 그냥 직접 만드는게 더 빠르고 효율적이었다...

https://github.com/Ratatou2/telegram-timer

GitHub - Ratatou2/telegram-timer: 텔레그램으로 일정을 잊지 않게 알림을 보내드립니다!

텔레그램으로 일정을 잊지 않게 알림을 보내드립니다! Contribute to Ratatou2/telegram-timer development by creating an account on GitHub.

github.com

3. 맥미니 추천 안하는 이유

- 솔직히 말하면 '아직' 로컬 LLM이 만족할만한 성능이 안나오기 때문이다

- 맥미니를 사는 이유가 RAM이 CPU & GPU가 공유하고 그 덕분에 LLM을 돌리기 수월해서 산다고 생각한다 (또는 그저 이뻐서)

- 근데 로컬 LLM 성능에 만족이 안된다? 그럼 그냥 N100 서버에 오픈클로 띄우고 상용 LLM API 붙이는게 훨 낫다

- 로컬 LLM을 오픈클로에게 쥐여주면 4살배기에게 비서를 맡기는 것과 다름 없다

- 우리는 그 애에게 밥 숟갈 쥐는 법부터 가르쳐줘야 하며(육아를 해보셨다면 알겠지만), 어차피 한눈파는 순간 숟갈은 내던지고 손으로 퍼먹게된다

- 현실 육아도 힘든데 굳이 AI에게까지 육아를 해야할까...?

- 그냥 적은 리소스로도 GPT5, Gemini Pro 성능을 내는 LLM이 개발되는 것을 기다리는게 더 빠를지도 모른다 (여러분의 인내심은 소중하니까요)

- 괜히 이렇게 세세히 적는게 아니다. 적어도 내가 쓰려고 했던 용도에서 로컬 LLM은 한참 부족했음을 다시한번 반복해서 말씀드린다

4. 맥미니 추천하는 상황

- 갖고 싶을 때...

- 아이패드 병이랑 비슷하다 결국엔 사야 낫는다

- 필자는 3년을 존버했으나 결국엔 사게 됐다..

- 또는 성능이 낮은 LLM이라도 전혀 상관없을 때... (인내심 테스트하고 싶으시다면..)

5. 모델에 붙어있는 영어의 의미

- 모델에 뭐 coder / instruct / base / MoE가 붙어있는데 대체 뭔가 싶어서 조사하게 되어서 정리해두었다

5-1) Base 모델 (Foundation / Pretrained)

- 순수 학습만 된 모델

- 사람 말투/지시에 대한 이해 능력이 낮지만 그만큼 지식 압축도 + 생성 자유도가 높다

- 그래서 주로 RAG, 파인튜닝, 연구, 구조적 생성에 사용함

- e.g. Qwen2.5-72B

5-2) Instruct 모델

- 사람의 명령을 따르도록 RLHF/SFT 된 모델

- 질문 이해 능력이 좋고, 그로인해 안정성/대화품질이 높다

- 주로 챗봇, 코딩질문, Agent에 사용됨

- e.g. Qwen3-32B-Instruct

5-3) Coder 모델

- 코드 데이터로 추가 학습된 특화 모델

- 코드 특화 모델로 일반 대화는 Instruct보단 좀 딱딱하지만 코딩엔 월등한 성능을 보여줌

- IDE AI, 코드 생성 등에 주로 사용됨

- Qwen2.5-Coder

5-4) MoE 모델 (Mixture of Experts)

- 여러 개 작은 모델이 역할을 분담하는 구조

- input → Router → 전문가 모델 10개 중 3개(일부)만 활성화

- 파라미터가 엄청 크지만 실제 연산량은 적어서 성능 대비 효율이 좋은 편이다

- 그도 그럴 것이 모델이 여러개이고 그중에 필요한 일부만 활성화 하기 때문이다

- e.g. Qwen3.5-35B-A3B

6. 오픈소스 LLM들의 간단한 성능 리뷰

미리 알면 좋은 KV란?

- KV는 KV cache (Key-Value cache)를 의미하며, 쉽게 말해 GPU의 기억력되시겠다

- 이게 많을수록 답변 속도가 빨라진다

Qwen2.5-Coder-14B

- 코드 밖에 모르는 바보

- 대화가 답답하다

Qwen2.5-Coder-32B

- (14B보다 조금 더 똑똑한) 코드밖에 모르는 바보

Qwen2.5-72B (Base)

- A100 2장으로도 온전히 올라가지만 KV가 모자라서 성능이 제대로 안나와서 양자화가 필요했다

- 성능은 준수했음 (But, GPU RAM 부족으로 안정성은 부족)

Qwen2.5-72B-AWQ (instruct)

- KV를 좀 더 확보하고자 양자화된 모델을 구함

- 확실히 GPU RAM의 여유분이 KV가 되어서 그런지 답변 속도가 눈에 띄게 빨라졌고 이즈음부터 '그래도 좀 쓸만한데?' 라고 생각했음

⭐️ Qwen3-32B-Instruct (awq)

- 32B라고 무시했는데 2.5의 72B와 비슷하거나 좀 더 우월한 성능을 보여줬다

- 가령 같은 대답을 좀 더 빠르게 했다거나, 어려운 질문도 72B는 못했다면 얘는 한다거나 등등

- GPT-OSS-20B랑 같이 가장 괜찮다고 생각한 모델이었다

Qwen3.5-35B-A3B (MoE)

- 너무 최신의 것을 쓰면 호환이 안된다는 것을 배웠다...

- 컨테이너를 띄울 때부터 말썽이 좀 있었으며 오픈클로와의 호환성이 별로 좋지 못했음

- 나는 Qwen 페이지 모니터링하다가 35B 올라온 바로 다음날 적용해서 그럴 수도 있다 (지금은 안정화 되었을 수도?)

⭐️ GPT-OSS-20B

- Qwen3-32B-Instruct와 함께 가장 괜찮다고 생각했던 모델

- 답변 성능도 준수했으며 GPT에 익숙한 내게 비슷한 결의 답변과 flow로 대화할 수 있었다

- Qwen이 중국 모델이라는 약간의 찝찝함을 해소해준 모델이기도 함

7. 로컬 LLM 사용할 때 미리 알면 좋은 것들

- 이 부분은 생각날 때마다 추가하도록 하겠다

7-1) 모델은 갈아끼우기 쉬운 구조로 구축하면 편함

- 로컬 LLM은 보통 컨테이너를 사용해서 띄우게 된다

- 이때 모델을 갈아끼우기 좋은 형태로 두는 것이 좋다

- 예를들면 모델을 서빙하는 docker-compose.yml을 아래와 같이 구성해두고 .env 파일에 port랑 모델명을 전부 통일해두는 것이다

- 이렇게 하는 이유는 오픈클로가 LLM을 매번 하나씩 등록해야하는 번거로움이 있기 때문이다

- 이렇게 구축해두면 모델을 빠르게 돌아가면서 테스트하기 좋다

- 물론 이 방식으론 모델을 한개밖에 서빙 못한다는 단점이 있지만, 워낙 모델들이 무겁기도 했고, 빠르게 돌아가며 테스트 하는 목적이었기에 내 환경에 굉장히 적합했다

- 오픈클로에 모델을 매번 새롭게 등록하는게 귀찮아서 이렇게 했지만, 나중에 메인 모델 정해지면 그 모델은 따로 빼서 추가 등록하면 편하다

번외

- 이 글을 통해 그간 내가 결국 오픈클로보단 맥미니가 사고 싶어서 맥미니를 샀음을 솔직하게 인정하는 바이다 (고해성사)

- 그나마 다행인 것은 중고로 16GB, 1TB의 맥미니를 구해서 그냥 미디어 서버나 서브로 두고 써도 될 것 같다는 것 (안팔겠다는 의지)

- 결과적으로 나에겐 무용지물이지만, AI의 눈부신 발전속도를 몸으로 체감했다

- 실제로 주변에서도 많은 사람들이 오픈클로를 사용하고 있음

- 그리고 동시에 맥미니가 슬슬 중고로 쏟아져 나오고 있음 ㅎㅎ

- 그래도 언제나 새로운 것을 시도해보는 것은 정말 재밌다

'Dev > AI' 카테고리의 다른 글

PII 모델 테스트, 성능 및 결과 (feat. Hugging Face) (0)	2026.02.28
오픈클로(OpenClaw)에 로컬 LLM 연결하기 (feat. 비싼 API...) (0)	2026.02.18
오픈클로(OpenClaw) 한방에 설치하기 (feat. 남는 PC에 설치하는 법) (0)	2026.02.17
LLM 토큰 아끼는 방법 (feat. GPT, Gemini, Claude) (0)	2025.12.29
GPT 모델 만들 때 반드시 체크 해제해야하는 것 (feat. 내 개인정보!!!) (0)	2025.11.09

(침몰한) 프로젝트 몰티저스

ps.

26.03.30 업데이트

0. 실험 환경

1. 시도해본 것들

2. 내가 하려고 했던 것들 (+ 실제 대화 내용)

3. 맥미니 추천 안하는 이유

4. 맥미니 추천하는 상황

5. 모델에 붙어있는 영어의 의미

5-1) Base 모델 (Foundation / Pretrained)

5-2) Instruct 모델

5-3) Coder 모델

5-4) MoE 모델 (Mixture of Experts)

6. 오픈소스 LLM들의 간단한 성능 리뷰

7. 로컬 LLM 사용할 때 미리 알면 좋은 것들

7-1) 모델은 갈아끼우기 쉬운 구조로 구축하면 편함

번외

'Dev > AI' 카테고리의 다른 글

티스토리툴바