토큰 (Token)

모델이 글을 처리할 때 쓰는 최소 단위예요. 사람이 글을 단어로 끊어 읽듯, AI는 텍스트를 토큰 단위로 끊어서 처리해요.

가격이 항상 1M tokens 단위로 표기되는 이유예요. 100만 토큰은 영어로는 책 1권 반, 한글로는 단편소설 한 편 정도 분량이에요.

입력 vs 출력 토큰

같은 토큰이라도 방향에 따라 가격이 달라요.

출력이 보통 입력의 3~8배 비싸요. 모델이 직접 "생성"하는 작업이 더 무거워서예요. Anthropic Claude는 모든 모델이 정확히 1:5 비율이라 예측이 쉬워요.

💡 예산 짤 때 팁: 일반적인 챗봇은 출력이 입력의 30% 정도. 코드 생성은 출력 비중이 더 커요.

컨텍스트 윈도우 (Context Window)

한 번의 API 요청에서 모델이 처리할 수 있는 최대 토큰 수예요. 메모리 같은 거라고 생각하면 돼요.

긴 컨텍스트가 항상 좋은 건 아니에요. 입력 토큰이 많아질수록 비용이 직선적으로 늘고, 일부 모델(Gemini 3.1 Pro 등)은 200K 초과 시 가격이 2배가 돼요.

프롬프트 캐싱 (Prompt Caching)

같은 시스템 프롬프트나 문서를 반복해서 보낼 때, 한 번 캐싱해두고 다음 요청부터는 캐시된 부분을 싸게 처리하는 기능이에요.

챗봇이나 RAG 파이프라인처럼 시스템 프롬프트가 반복되는 경우 효과가 엄청나요. 일회성 요청에는 도움이 안 돼요.

배치 API (Batch API)

실시간 응답이 필요 없는 작업을 비동기로 처리하면 50% 할인해주는 모드예요.

캐싱이랑 같이 쓰면 최대 95%까지 비용을 줄일 수 있어요.

추론 토큰 (Reasoning / Extended Thinking)

GPT-o3, Claude Opus, Gemini 3 Pro 같은 추론 특화 모델이 답을 내기 전에 "속으로 생각"하는 과정에서 쓰는 토큰이에요.

토크나이저 (Tokenizer)

"이 텍스트가 정확히 몇 토큰인지" 계산해주는 도구예요. 모델마다 토크나이저가 다르고, 같은 글이라도 모델에 따라 토큰 수가 달라져요.

⚠️ 주의: Claude Opus 4.7은 새 토크나이저를 써서 같은 글이 4.6보다 최대 35% 더 많은 토큰으로 카운트될 수 있어요.

한국어 vs 영어

한국어는 영어보다 2배 정도 토큰을 더 써요. 영어 1단어가 1 토큰이라면, 한글은 1글자가 1~2 토큰으로 쪼개지거든요.

같은 의미를 영어로 쓰면 비용이 절반 정도 줄어요. 단, 응답 품질도 모델별로 다르니 비용만 보고 결정하지는 마세요.

📚 더 읽어볼 거리