토큰이가 비싸요...

CLI 버전의 AI를 쓰다보면 토큰을 호로롭 다 써버려서 문제가 생길 때가 있다
이게 정확히 뭐고 어떻게 하면 아껴쓸 수 있는지 궁금해져서 나 나름대로 조사하고 정리해보았다
토큰이란?
- 기본적으로 토큰은 텍스트를 처리하기 위한 단위다
- 쉽게 말해 AI 사용 비용을 계산하기 위한 기준이다
- 기업들은 요금별로 이 토큰량을 차등 제한을 두어 서비스를 제공하고 있다
- 좀 더 정확히는 요금제, 모델, API 정책에 따라 서비스가 제공되기는 한다
- 토큰 종류에는 크게 2가지가 있는데 '입력 토큰'과 '출력 토큰'이다
- 입력 토큰은 '우리가 AI에게 보내는 텍스트'
- 출력 토큰은 'AI가 우리에게 보내는 텍스트'
토큰을 아껴쓰는 방법
- 그렇다면 어떻게 하면 이 귀한 토큰을 아껴쓸 수 있는지 알아보도록하자
- 여러가지 방법이 있고 각자의 상황에 맞춰서 진행하면 된다
1) 질문은 짧고 명확하게 두괄식
- 비유하자면 두괄식에 가깝다
- 감정표현을 배제하고 논리적으로 내가 원하는 목적만을 정확히 전달하는 것이 토큰을 줄이는 가장 효율적인 방법이다
# 나쁜 예시
안녕 나는 지금 수행평가를 하는 중이야
기본적으로 Docker의 수행방법에 대해 조사해야하는데 나는 전혀 모르겠어
일단 Docker의 컨테이너가 뭔지도 모르겠고...
이 기술을 쿠버네티스로 확장까지 시킬 수 있다는데 대체 어떻게 하는거야?
아 이거 끝낼 수 있겠지..?
넘 어렵다 ㅠ
내가 이해하기 쉽게 설명해주면 좋을 것 같아
# 좋은 예시
Docker에 대한 설명과 Docker 핵심 기술을 확장하여 쿠버네티스에 적용하는 방법에 대해 기술
위 내용들을 수행평가 과제에 제출할 수 있도록 아래 <<템플릿>>에 맞춰 작성할 것
<<템플릿>>
- 기술 이름
- 내용 설명 (200자)
- 실제 적용 가능한 분야와 예시
- 정리 및 요약
2) 답변 토큰 제한두기
- 특히 '200자로 답변할 것' 등 길이에 제한을 두면 효과적으로 토큰량을 조절할 수 있다
- API를 쓴다면 아래처럼 요청을 보낼 때 토큰량을 제한할 수도 있다
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-4.1-mini",
input="아주 길고 자세한 글을 요약해줘.",
max_output_tokens=150
)
print(response.output_text)
3) 보내는 내용을 정제해서 보내기
- 참고할 문서를 보낼 때 필요한 부분만 전달하는 것이 효과적이다
- 예를들어 참고 문서 전체를 첨부하는 것보단 필요한 부분만 캡처해서 보내는 것이 토큰을 아낄 수 있는 방법 중 하나이다
- 유저에게 받은 데이터를 처리하는 것 또한 토큰이 소비되기 때문이다


번외
1) 네이버 클로바의 토큰 테스트
- 네이버 클로버에서 토큰에 대해 실험한 결과가 있는데, 꽤나 상세해서 관심 있으신 분들은 참고해보면 좋을 것 같다
https://www.ncloud-forums.com/topic/44/
한 토큰, 두 토큰 아껴쓰며 사용하는 토큰 절약의 기술
토큰(Tokenization) 이해하기 클로바 스튜디오를 잘 활용하려면 먼저 토큰이라는 개념에 대해서 이해하는 것이 좋습니다. 하이퍼클로바 언어 모델은 토큰들의 배열을 나타내는 확률 기반의 모형입
www.ncloud-forums.com
2) Serena MCP
- 일반적으로 MCP들은 코드를 '텍스트' 취급한다
(MCP(Model Context Protocol)란 AI 모델이 외부 도구/리소스와 표준화된 방식으로 상호작용하기 위한 프로토콜이다)
- 좀 더 자세히 말하면 코드를 함수나 변수 이런 개념으로 정의해서 구분하지 않고 전체를 하나의 '텍스트 뭉치'로 이해한다는 말이다
- 이런 상황에서 특정 함수(e.g. 'excelCount'라는 엑셀시트 갯수를 세는 함수)를 읽게 되면, 해당 함수가 들어있는 Controller 전부를 읽고 excelCount를 찾을 것이다
- 이는 토큰의 낭비로 이어진다
- 이런 때에 Serena MCP를 사용하게 되면, 함수를 이해하고 인덱싱하는 Serena MCP 덕분에 토큰을 아낄 수 있게 된다
- 사실 토큰을 아끼기 위해 쓴다기보단 코드 전반의 '맥락'과 코드를 이해하고 빠르게 찾으며 효율적인 코딩을 위한 보조 수단이지만, 이러한 부분이 토큰을 아끼는 장점까지 생긴 것이다
https://github.com/oraios/serena
GitHub - oraios/serena: A powerful coding agent toolkit providing semantic retrieval and editing capabilities (MCP server & othe
A powerful coding agent toolkit providing semantic retrieval and editing capabilities (MCP server & other integrations) - oraios/serena
github.com
'Dev > AI' 카테고리의 다른 글
| GPT 모델 만들 때 반드시 체크 해제해야하는 것 (feat. 내 개인정보!!!) (0) | 2025.11.09 |
|---|---|
| Docker로 EEVE 모델 로컬에서 돌려보기 (feat. Ollama & Beelink S12 Pro) (2) | 2025.06.11 |
| Docker로 딥시크 R1 돌리기 (feat. Ollama) (1) | 2025.06.11 |
| 리눅스에서 딥시크 R1 돌려보기 (feat. Ollama) (0) | 2025.06.11 |
| GPT4ALL 사용해보기 (feat. Llama3로 나만의 GPT 만들기) (0) | 2025.03.18 |