LLM 토큰 아끼는 방법 (feat. GPT, Gemini, Claude)

토큰이가 비싸요...

CLI 버전의 AI를 쓰다보면 토큰을 호로롭 다 써버려서 문제가 생길 때가 있다

이게 정확히 뭐고 어떻게 하면 아껴쓸 수 있는지 궁금해져서 나 나름대로 조사하고 정리해보았다

토큰이란?

- 기본적으로 토큰은 텍스트를 처리하기 위한 단위다

- 쉽게 말해 AI 사용 비용을 계산하기 위한 기준이다

- 기업들은 요금별로 이 토큰량을 차등 제한을 두어 서비스를 제공하고 있다

- 좀 더 정확히는 요금제, 모델, API 정책에 따라 서비스가 제공되기는 한다

- 토큰 종류에는 크게 2가지가 있는데 '입력 토큰'과 '출력 토큰'이다

- 입력 토큰은 '우리가 AI에게 보내는 텍스트'

- 출력 토큰은 'AI가 우리에게 보내는 텍스트'

토큰을 아껴쓰는 방법

- 그렇다면 어떻게 하면 이 귀한 토큰을 아껴쓸 수 있는지 알아보도록하자

- 여러가지 방법이 있고 각자의 상황에 맞춰서 진행하면 된다

1) 질문은 짧고 명확하게 두괄식

- 비유하자면 두괄식에 가깝다

- 감정표현을 배제하고 논리적으로 내가 원하는 목적만을 정확히 전달하는 것이 토큰을 줄이는 가장 효율적인 방법이다

# 나쁜 예시
안녕 나는 지금 수행평가를 하는 중이야
기본적으로 Docker의 수행방법에 대해 조사해야하는데 나는 전혀 모르겠어
일단 Docker의 컨테이너가 뭔지도 모르겠고...
이 기술을 쿠버네티스로 확장까지 시킬 수 있다는데 대체 어떻게 하는거야?
아 이거 끝낼 수 있겠지..?
넘 어렵다 ㅠ
내가 이해하기 쉽게 설명해주면 좋을 것 같아

# 좋은 예시
Docker에 대한 설명과 Docker 핵심 기술을 확장하여 쿠버네티스에 적용하는 방법에 대해 기술
위 내용들을 수행평가 과제에 제출할 수 있도록 아래 <<템플릿>>에 맞춰 작성할 것

<<템플릿>>
- 기술 이름
- 내용 설명 (200자)
- 실제 적용 가능한 분야와 예시
- 정리 및 요약

2) 답변 토큰 제한두기

- 특히 '200자로 답변할 것' 등 길이에 제한을 두면 효과적으로 토큰량을 조절할 수 있다

- API를 쓴다면 아래처럼 요청을 보낼 때 토큰량을 제한할 수도 있다

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-4.1-mini",
    input="아주 길고 자세한 글을 요약해줘.",
    max_output_tokens=150
)

print(response.output_text)

3) 보내는 내용을 정제해서 보내기

- 참고할 문서를 보낼 때 필요한 부분만 전달하는 것이 효과적이다

- 예를들어 참고 문서 전체를 첨부하는 것보단 필요한 부분만 캡처해서 보내는 것이 토큰을 아낄 수 있는 방법 중 하나이다

- 유저에게 받은 데이터를 처리하는 것 또한 토큰이 소비되기 때문이다

번외

1) 네이버 클로바의 토큰 테스트

- 네이버 클로버에서 토큰에 대해 실험한 결과가 있는데, 꽤나 상세해서 관심 있으신 분들은 참고해보면 좋을 것 같다

https://www.ncloud-forums.com/topic/44/

한 토큰, 두 토큰 아껴쓰며 사용하는 토큰 절약의 기술

토큰(Tokenization) 이해하기 클로바 스튜디오를 잘 활용하려면 먼저 토큰이라는 개념에 대해서 이해하는 것이 좋습니다. 하이퍼클로바 언어 모델은 토큰들의 배열을 나타내는 확률 기반의 모형입

www.ncloud-forums.com

2) Serena MCP

- 일반적으로 MCP들은 코드를 '텍스트' 취급한다

(MCP(Model Context Protocol)란 AI 모델이 외부 도구/리소스와 표준화된 방식으로 상호작용하기 위한 프로토콜이다)

- 좀 더 자세히 말하면 코드를 함수나 변수 이런 개념으로 정의해서 구분하지 않고 전체를 하나의 '텍스트 뭉치'로 이해한다는 말이다

- 이런 상황에서 특정 함수(e.g. 'excelCount'라는 엑셀시트 갯수를 세는 함수)를 읽게 되면, 해당 함수가 들어있는 Controller 전부를 읽고 excelCount를 찾을 것이다

- 이는 토큰의 낭비로 이어진다

- 이런 때에 Serena MCP를 사용하게 되면, 함수를 이해하고 인덱싱하는 Serena MCP 덕분에 토큰을 아낄 수 있게 된다

- 사실 토큰을 아끼기 위해 쓴다기보단 코드 전반의 '맥락'과 코드를 이해하고 빠르게 찾으며 효율적인 코딩을 위한 보조 수단이지만, 이러한 부분이 토큰을 아끼는 장점까지 생긴 것이다

https://github.com/oraios/serena

GitHub - oraios/serena: A powerful coding agent toolkit providing semantic retrieval and editing capabilities (MCP server & othe

A powerful coding agent toolkit providing semantic retrieval and editing capabilities (MCP server & other integrations) - oraios/serena

github.com

'Dev > AI' 카테고리의 다른 글

GPT 모델 만들 때 반드시 체크 해제해야하는 것 (feat. 내 개인정보!!!) (0)	2025.11.09
Docker로 EEVE 모델 로컬에서 돌려보기 (feat. Ollama & Beelink S12 Pro) (2)	2025.06.11
Docker로 딥시크 R1 돌리기 (feat. Ollama) (1)	2025.06.11
리눅스에서 딥시크 R1 돌려보기 (feat. Ollama) (0)	2025.06.11
GPT4ALL 사용해보기 (feat. Llama3로 나만의 GPT 만들기) (0)	2025.03.18

토큰이가 비싸요...

토큰이란?

토큰을 아껴쓰는 방법

1) 질문은 짧고 명확하게 두괄식

2) 답변 토큰 제한두기

3) 보내는 내용을 정제해서 보내기

번외

1) 네이버 클로바의 토큰 테스트

2) Serena MCP

'Dev > AI' 카테고리의 다른 글

티스토리툴바