글 | Sleepy.md
그 당시 글자당 요금제 시대에는 글이 돈이었습니다. 사람들은 수많은 말을 한 마디로 압축하는 데 익숙했고, 「속편」이 긴 편지 한 통에 버금가고, 「평안」이 가장 중요한 경고였습니다.
나중에는 전화가 집 안으로 들어오게 되었지만, 장거리 통화는 초 단위로 과금되었습니다. 부모님의 장거리 통화는 항상 간결하고 요점을 파악할 수 있는데, 본론을 이야기하고 급히 전화를 끊는데, 이야기가 조금이라도 늘어지면 통화비에 대한 마음이 드리우며 얼마난 이야기도 끊을 수 있었습니다.
또 다른 시기에는 대역폭이 집에 들어왔고, 인터넷 사용시간에 비용이 부과되었습니다. 사람들은 화면 상의 타이머를 바라보며 웹 페이지를 한 번 열고는 즉시 닫았으며, 비디오는 다운로드만 시도했고, 스트리밍은 그당시 사치스러운 동사였습니다. 각 다운로드 진행 막대 끝에는 사람들의 「세계 연결」에 대한 열망과 「잔고 부족」에 대한 두려움이 감춰져 있었습니다.
과금의 단위는 계속 변경되었지만, 돈을 아끼는 본능은 시대를 초월합니다.
지금은 토큰이 AI 시대의 통화가 되었습니다. 그러나 대부분의 사람들은 이 시대에서 어떻게 절약해야 하는지 아직 배우지 못했으며, 보이지 않는 알고리즘에서 이익과 손실을 어떻게 계산해야 하는지 배우지 못했습니다.
2022년 ChatGPT가 나온 때는 거의 아무도 토큰이 무엇인지 신경 쓰지 않았습니다. 그것은 AI의 대형 솥밥 시대였으며, 매달 20달러를 내고 싶은 대로 말하는 시대였습니다.
그러나 최근 AI 에이전트가 인기를 얻은 이후, 토큰 소비는 AI 에이전트를 사용하는 모든 사람이 주의를 기울여야 하는 문제가 되었습니다.
간단한 질문과 대답과는 다르게, 작업 흐름의 뒤에는 수백, 수천 번의 API 호출이 있으며, 에이전트의 독립적인 사고는 비용이 발생합니다. 각 자기 수정, 각 도구 호출은 청구서의 숫자가 튀는 것과 대응합니다. 그러면 자신이 넣은 돈이 갑자기 부족하다는 것을 알게 되며, 아직도 에이전트가 무엇을 했는지 모릅니다.
실생활에서 모두가 돈을 아끼는 방법을 알고 있습니다. 시장에서 장을 보러 가면 질기고 다진 잎을 선별 후 저울에 올릴 때 알고 있습니다. 공항으로 택시를 타고 갈 때 베테랑 운전사는 축척시간을 피하려고 합니다.
디지털 세계에서의 비용 절감 논리는 실제로 동일하지만, 계량 단위는 「킬로그램」과 「킬로미터」에서 토큰으로 바뀌었습니다.

과거에는 부족으로 인한 절약이었지만, AI 시대에는 정확성을 위한 것입니다.
이 글을 통해 AI 시대에 비용 절감 방법론을 정리하여 당신이 각 펜스를 지출하는 데 전부 사용할 수 있게 도와드리고자 합니다.
AI 시대에는 정보의 가치가 더 이상 광범위성으로 결정되지 않고 순수성으로 결정된다.
AI의 요금 체계는 그가 읽은 단어 수에 따라 청구된다. 당신이 고영하여 주는 것이 진실한 통찰이건 무의미한 형식적인 헛소리이건, 그것을 읽었다면 돈을 낼 것이다.
그러므로 프로젝트 토큰의 첫 번째 이전 방법은 '신호 대 잡음 비율'을 무의식적으로 극강화시키는 것이다.
AI에 주는 모든 말씀, 모든 그림, 모든 코드 라인에 대해 돈을 내야 한다. 그러므로 무언가를 AI에 건네기 전에 자신에게 물어보는 것을 잊지 마라: 이 안에 있는 것 중에 AI가 진정으로 필요로 하는 것이 얼마나 되는가? 얼마나 맘에 안 드는 썩은 잎사귀가 있는가?
예를 들어 "안녕하세요, 도와주세요..."와 같은 장황한 오프닝 멘트, 반복되는 배경 소개, 깔끔하게 지워지지 않은 코드 주석은 모두 썩은 잎사귀이다.
이 밖에도 가장 흔한 낭비는 PDF나 웹페이지 스샷을 AI에 바로 주는 것이다. 이렇게 하면 편한 것은 맞지만 AI 시대의 '편함'은 종종 '비싼' 을 뜻한다.
완전한 형식의 PDF는 본문 내용 이외에도 헤드라인, 푸터, 차트 주석, 숨겨진 워터마크 및 레이아웃 포맷 코드가 포함돼 있다. 이런 것들은 AI가 당신의 질문을 이해하는 데 도움이 되지 않지만 모두 청구될 것이다.
다음에는 PDF를 깨끗한 마크다운 텍스트로 먼저 변환한 다음 AI에 건네기를 기억해라. 10MB의 PDF를 10KB의 깨끗한 텍스트로 변환하면 99%의 비용을 절약할 뿐만 아니라 AI의 두뇌 작동 속도를 훨씬 빠르게 만들어 줄 것이다.
이미지는 또 다른 돈 먹는 짐승이다.
시각적 모델의 논리에 따르면 AI는 당신이 사진을 어떻게 찍었는지 신경 쓰지 않으며 당신이 얼마나 많은 픽셀 영역을 차지했는지만을 중요시한다.
Claude의 공식적인 계산 논리를 예로 들면: 이미지 토큰 소모 = 너비 픽셀 × 높이 픽셀 ÷ 750이다.
1000×1000 픽셀 이미지는 약 1334개의 토큰을 소비하며, Claude Sonnet 4.6의 가격 적용 시 각 이미지는 약 0.004 달러가 소요된다.
그러나 동일한 이미지를 200×200 픽셀로 압축하면 54개의 토큰만 소비되어 0.00016 달러로 비용이 줄어드는데, 이는 전체 25배의 차이가 난다.
많은 사람들이 스마트폰으로 찍은 고화질 사진이나 4K 스크린샷을 AI에게 보내면, 이러한 이미지로 인해 소비되는 토큰은 AI가 대부분의 중편 소설을 읽는 데 충분할 수도 있습니다. 작업이 이미지 안의 텍스트를 인식하거나 간단한 시각적 판단을 하는 것이라면, 예를 들어 AI에게 영수증의 금액을 인식하거나 설명서의 텍스트를 읽도록 하거나 이미지에 신호등이 있는지 판단하도록 하는 것이라면, 4K 해상도는 순수한 낭비입니다. 이미지를 최소 해상도까지 압축하는 것으로 충분합니다.
그러나 토큰을 가장 많이 낭비하는 입력 방식은 파일 형식이 아니라 비효율적인 대화 방식입니다.
많은 사람들이 AI를 인간 이웃으로 여기고 사회적인 대화식으로 의사소통하는 습관을 가지고 있습니다. 먼저 "웹페이지를 작성해 주세요"라고 말한 다음 AI가 반제품을 내놓을 때까지 세부 정보를 보충하고 반복적으로 논의합니다. 이런 톱니바퀴 모양의 대화는 AI가 내용을 반복해서 생성하게 만들며 각 수정 라운드마다 토큰을 누적하여 소모합니다.
텐센트 클라우드의 엔지니어들은 실무에서 동일한 요구 사항이라도 톱니바퀴식 다중 대화를 진행할 경우 최종적으로 소비되는 토큰이 한 번에 말하는 것의 3배에서 5배까지일 수 있다고 발견했습니다.
진정한 절약의 비결은 이러한 비효율적인 사회적 탐구를 버리고 요구 사항, 경계 조건 및 참고 예제를 한꺼번에 명확하게 설명하는 것입니다. "무엇을 하지 말아야 하는지"를 설명하는 것을 최소화하십시오. 부정문은 긍정문보다 이해 비용이 더 많이 들기 때문입니다. 대신에 "어떻게 해야 하는지"를 직접 알려주고 명확한 올바른 예를 제시하십시오.
동시에 대상을 알고 있다면 AI에게 직접 명확하게 말하고 AI가 탐정 역할을 하도록 하지 마십시오.
AI에게 "사용자 관련 코드를 찾아보세요"라고 명령하면 대규모 검색, 분석 및 추측이 백그라운드에서 이루어져야 합니다. 그러나 AI에게 "src/services/user.ts 파일을 보세요"라고 직접 알려주면, 토큰 소비는 날과 밤 차이가 나며, 숫자 세계에서 정보는 대등한 것이 최상의 절약입니다.
대규모 모델 비용에는 많은 사람들이 인식하지 못하는 한 가지 암묵적인 규칙이 있습니다: 출력 토큰은 일반적으로 입력 토큰의 3배에서 5배의 비용이 듭니다.
즉, AI가 말하는 것은 당신이 그에게 하는 말보다 훨씬 비쌉니다. Claude Sonnet 4.6의 가격을 예로 들어보면, 입력 1백만 토큰당 단 3달러가 필요하며, 출력은 15달러로 가파르게 증가하여 5배의 가격 차이가 납니다.
그 "좋아요, 필요한 내용을 완전히 이해했고, 이제 답변을 시작하겠습니다..."와 같은 예의바른 인트로와 "위의 내용이 도움이 되었기를 바랍니다"와 같은 고리타린 마무리는 실제 대화에서는 예의로운 사회적 규범일 수 있지만, API 청구서에서는 이러한 정보 증가가 전혀 없는 인사말도 모두 귀하의 돈을 들게 합니다.
출력 단의 낭비를 해결하는 가장 효과적인 방법은 AI에게 규칙을 세우는 것입니다. 시스템 명령을 사용하여 명확하게 말해주십시오: 인사를 하지 말고, 설명을 하지 말고, 요구사항을 다시 말하지 말고, 직접 답변을 제공하십시오.
이러한 규칙은 한 번 설정하면 모든 대화에서 적용되며, 실제로 "한 번 투자, 영구 수익"인 재무 전략입니다. 그러나 규칙을 설정할 때 많은 사람들이 또 다른 오해에 빠지는데, 너무 많은 자연어로 명령을 쌓는 것입니다.
엔지니어의 실제 데이터에 따르면, 명령의 효율은 단어 수가 아니라 밀도에 있습니다. 500 단어로 이루어진 시스템 안내를 180 단어로 압축하여 의미없는 예의 표현을 삭제하고 반복된 명령을 통합하며 문단을 간결한 목록 형식으로 재구성함으로써, AI의 출력 품질은 거의 변함이 없지만 단일 호출 시 토큰 소비는 64% 급격히 감소합니다.
또 다른 더 적극적인 통제 방법은 출력 길이를 제한하는 것입니다. 많은 사람들은 출력 상한선을 결정하지 않고 AI가 자유롭게 작동하도록 두지만, 이렇게 표현의 권한을 방치하는 것은 종종 극심한 비용 증가로 이어집니다. 단 한 마디로 충분한데도 AI가 "지능의 진심"을 표현하려고 800 단어 글을 생성하는 등의 일이 발생할 수 있습니다.
만약 당신이 순수한 데이터를 추구한다면 AI에게 구조화된 형식을 반환하도록 강제해야 합니다. 자연어 설명보다 JSON 형식의 토큰 소비가 훨씬 낮습니다. 이는 구조화된 데이터가 모든 중복 연결어, 감정어 및 설명 수식을 제거하고 논리적 핵심만을 남기기 때문입니다. AI 시대에는 결과의 가치에 대해 지불해야 하며, 의미 없는 자기 설명은 아니라는 것을 분명히 알아야 합니다.
또한, AI의 "과도한 사고"도 당신의 계좌 잔고를 빼앗아갑니다.
일부 고급 모델은 "확장 사고" 모드를 가지고 있어 답변 전에 대량의 내부 추론을 수행합니다. 이 추론 과정도 청구되며, 출력 가격에 따라 청구됩니다. 이 모드는 본질적으로 "심층 논리 지원이 필요한 복잡한 작업"을 위해 설계되었습니다. 그러나 대부분의 사람들은 간단한 질문을 쉽게할 때도이 모드를 선택합니다. 깊은 추론이 필요하지 않은 작업의 경우 AI에게 "사고과정을 설명할 필요가 없고, 직접 답변을 제공하라"고 명시하거나 확장 사고를 수동으로 비활성화하는 것도 많은 비용을 절약할 수 있습니다.
대규모 모델에는 실제 메모리가 없으며, 그저 옛 이야기를 열심히 뒤집고 있습니다.
이것은 많은 사람들이 모르는 기본 메커니즘입니다. 대화창에서 새로운 메시지를 보낼 때마다, AI는 당신이 그 문장을 시작으로 이해하는 것이 아니라 이전에 대화한 모든 내용, 각 대화 라운드, 각 코드 조각, 각 인용 문서를 모두 다시 읽은 후에야 답변합니다.
토큰의 청구서 안에서 이러한 "과거를 되짚어 새로운 것을 알게 되는" 것은 결코 무료가 아닙니다. 대화 턴이 적재됨에 따라, 단순한 단어의 질문을 하더라도 AI가 전체 예전 청구서를 다시 읽는 비용은 기하급수적으로 증가합니다. 이러한 메커니즘은 대화의 역사가 더욱 무겁다면, 당신의 매 질문마다 비용이 더욱 비싸지게 됩니다.
어떤 사람은 20개 이상의 메시지를 포함하는 496개의 실제 대화를 추적했고, 첫 번째 메시지는 평균 14,000 토큰을 읽었으며, 각각의 비용은 약 3.6센트였습니다. 그러나 50번째 메시지에 이르러서는 평균 79,000 토큰을 읽었으며, 각각의 비용은 약 4.5센트로, 비용이 80%나 올랐습니다. 그리고 맥락이 계속 길어지면 계산할 맥락이 50번째 메시지에 이르러서는 1번째 메시지에 비해 5.6배나 더 많아집니다.
이 문제를 해결하는 가장 간단한 습관은: 하나의 작업, 하나의 대화 상자.
한 가지 주제를 다룬 후, 단호하게 새 대화를 시작하고 AI를 영원히 켜놓은 채팅 창으로 여기지 말아야 합니다. 이 습관은 간단해 보이지만, 많은 사람들이 실천하지 못하며 항상 "만약 이전 콘텐츨르 다시 사용해야 한다면"이라고 생각합니다. 사실, 당신이 걱정하는 "만약"은 대부분의 경우 발생하지 않으며, 이런 "만약" 때문에 매 새로운 메시지마다 몇 배의 돈을 더 지불하게 됩니다.
대화를 계속해야 하지만 맥락이 이미 긴 경우, 우리는 일부 도구의 압축 기능을 활용할 수 있습니다. 클로드 코드에는 대화의 역사를 간략히 요약하는 /compact 명령이 있으며, 사이버 브레이크업을 돕는 짧은 요약으로 긴 글을 압축할 수 있습니다.
prompt 캐싱이라는 비용 절감 논리도 있습니다. 동일한 시스템 프롬프트를 반복적으로 사용하거나 매번 대화에서 동일한 참조 문서를 인용한다면 AI는 해당 내용을 캐시에 저장하고, 다음 호출 시에는 캐시 읽기 비용을 매우 적게 청구하며 전액 요금을 부과하지 않습니다.
Anthropic의 공식 가격표에 따르면 캐시 히트 시 토큰 가격은 정상 가격의 1/10입니다. OpenAI의 프롬프트 캐싱도 입력 비용을 약 50% 절약할 수 있습니다. 2026년 1월 arXiv에 발표된 논문은 여러 AI 플랫폼에 대한 장기 작업을 테스트하여 프롬프트 캐싱이 API 비용을 45%에서 80% 절약할 수 있다고 발표했습니다.
즉, 동일한 콘텐츠인 경우, AI에 처음 공급할 때 전체 비용을 지불해야 하지만, 이후 각 호출은 1/10만 지불하면 됩니다. 매일 동일한 규격 문서나 시스템 프롬프트를 반복해서 사용해야 하는 사용자들에게는 이 기능이 상당량의 토큰을 절약해줍니다.
그러나 프롬프트 캐싱은 전제 조건이 있습니다. 시스템 프롬프트 및 참조 문서 내용 및 순서가 일관되어야하며 대화의 맨 앞에 위치해야합니다. 내용에 변경이 발생하면 캐시가 무효화되어 다시 완전가격으로 청구됩니다. 따라서 고정 규격이 있는 경우 그대로 유지하고 임의로 수정하지 마십시오.
마지막으로 맥락 관리 기술 중 하나는 필요에 따라로드하는 것입니다. 많은 사람들이 모든 규격, 문서, 주의 사항을 시스템 프롬프트에 그물포장 식으로 저장합니다. 그 이유는 여전히 '만약을 대비'하기 때문입니다.
그러나 이렇게하면 매우 간단한 작업을 수행하는 도중에 수천 단어의 규칙을 강제로로드하게되어 많은 토큰이 낭비됩니다. Claude Code의 공식 문서에서는 CLAUDE.md를 200 줄 이내로 유지하고 서로 다른 시나리오의 전용규칙을 개별 기술 파일로 분리하여 해당 시나리오에 필요할 때만 해당 시나리오의 규칙을로드하는 것을 권장합니다. 맥락을 절대적으로 순수하게 유지하는 것이 컴퓨팅 자원에 대한 최고급 존중입니다.
다른 AI 모델은 가격 차이가 매우 큽니다.
Claude Opus 4.6은 입력시 백만 토큰 당 5 달러, 출력시 25 달러가 필요하며, Claude Haiku 3.5는 입력시 0.8 달러, 출력시 4 달러만 필요하므로 약 6 배의 차이가 있습니다. 최고 수준의 모델이 자료 수집, 레이아웃 포맷팅과 같은 일상적인 일을 하게하는 것은 느리고 매우 비쌉니다.

지혜롭게 활용하는 방법은 우리의 인간 사회에서 흔히 볼 수있는 '분업' 사고를 AI 사회로 가져오는 것입니다. 서로 다른 난이도의 작업을 서로 다른 가격대의 모델에 맡기는 것입니다.
실제 세계에서 사람을 고용할 때와 마찬가지로 수행합니다. 당신은 수백만 달러의 연봉 전문가를 고용하여 건설현장에서 벽돌을 옮기게 때리 않습니다. AI도 마찬가지입니다. Claude Code의 공식 문서에서도 명확히 명시하며 Sonnet이 대부분의 프로그래밍 작업을 처리하도록하고 Opus는 복잡한 아키텍처 결정 및 여러 단계의 추리에 남겨두고 간단한 하위 작업에는 Haiku를 지정하도록 권장합니다.
보다 구체적인 실행 방법은 '이중 작업 흐름'을 구축하는 것입니다. 첫 번째 단계에서는 무료 또는 저렴한 기본 모델을 사용하여 초기 데이터 수집, 형식 정리, 초안 생성, 간단한 분류 및 요약과 같은 전단계를 수행하고 제련된 고품질 융합 물질을 최고 수준의 모델에 공급하여 핵심 결정 및 심층 정제를 진행합니다.
예를 들어, 100 페이지의 산업 보고서를 분석해야하는 경우 Gemini Flash를 사용하여 보고서에서 중요한 데이터 및 결론을 추출하고 10 페이지 요약으로 정리 한 다음이 요약을 Claude Opus에게 제공하여 깊이있는 분석 및 판단을 받을 수 있습니다. 이러한 이중 작업 흐름은 품질을 보장하면서 비용을 크게 절감할 수 있습니다.
단순한 단락 처리보다 더 진보된 것은 과제 분해를 기반으로 한 심층적인 분업입니다. 복잡한 엔지니어링 과제는 완전히 독립적인 여러 하위 과제로 분해될 수 있으며 가장 적합한 모델과 일치시킬 수 있습니다.
예를 들어 코드 작성이 필요한 과제는 저렴한 모델에게 먼저 프레임워크와 템플릿 코드를 작성하도록 하고, 그런 다음 핵심 로직 부분만 비싼 모델에게 구현하도록 할 수 있습니다. 각 하위 과제는 깔끔하고 집중된 문맥을 갖고 있어 결과가 더 정확하며 비용도 더 낮아집니다.
이전의 모든 논의는 본질적으로 "어떻게 돈을 절약할 것인가"라는 전술적 문제를 해결하는 데 중점을 두고 있습니다. 그러나 많은 사람들이 무시한 더 근본적인 논리 명제가 있습니다. 이 작업에 대해 토큰을 사용해야 할까요?
가장 극단적인 절약은 알고리즘의 최적화가 아니라 의사 결정의 버리기입니다. 우리는 AI에게 만능 해법을 요청하는 데 익숙해지지만 여러 시나리오에서 비용이 많이 드는 대규모 모델을 호출하는 것이 파리를 고속총으로 쏘는 것과 다를바 없음을 잊어버렸습니다.
예를 들어 AI에게 이메일을 자동으로 처리하게 하면, 각 이메일을 개별 과제로 이해, 분류, 응답하는 데 엄청난 양의 토큰이 필요합니다. 그러나 30초를 들여 수신함을 스캔한 다음 AI가 처리할 필요가 없는 명백한 이메일을 수동으로 걸러내고 나머지를 AI에게 전달하면 비용이 즉시 원래의 한 부분으로 감소합니다. 사람의 심사력이 이곳에서 장애물이 아니라 최고의 필터임을.
전보 시대의 사람들은 한 마디 더 말할 때마다 얼마나 많은 돈이 드는지 알고 있었으므로, 그들은 신중하게 생각했습니다. 이는 자원에 대한 직관적인 감각입니다. AI 시대도 마찬가지이며, AI에게 한 문장을 더 말하게 하는 데 얼마나 많은 돈이 필요한지 정확히 알 경우, 당신은 자연스럽게 그것이 AI에게 맡길 가치가 있는지, 이 작업을 할 때 최고의 모델이 필요한지 여부, 이 문맥이 여전히 유효한지 여부를 따져봅니다.
이러한 신중함이 절약하는 데 가장 좋은 능력입니다. 계산능력이 점점 비쌌던 시대에, 가장 현명한 사용법은 AI가 사람을 대체하는 대신, AI가 각자가 뛰어난 일을 하도록 하는 것입니다. 이러한 토큰에 대한 민감성이 반사 조건으로 내재화되면, 당신은 계산능력의 종속자에서 계산능력의 주인이 됩니다.
BlockBeats 공식 커뮤니티에 참여하세요:
Telegram 구독 그룹:https://t.me/theblockbeats
Telegram 토론 그룹:https://t.me/BlockBeats_App
Twitter 공식 계정:https://twitter.com/BlockBeatsAsia