OpenClaw를 돌리면서 Claude Sonnet API를 연결했다. 반응 속도도 괜찮고 답변 품질도 만족스러웠다.
그런데 3일 지나고 API 사용량을 확인하니 생각보다 많이 나왔다.
토큰을 너무 많이 먹고 있었다.
문제는 토큰 소모량
OpenClaw는 매 요청마다 시스템 프롬프트를 포함한다. Skills 설명, 설정, 메모리, 대화 히스토리까지
간단한 질문 하나에도 많은 토큰들이 사용된다.
Claude Sonnet 가격
- 입력: $3 per million tokens
- 출력: $15 per million tokens
계산해보니 하루에도 상당한 양의 토큰을 쓰고 있었다.
Groq를 알게 됐다

누가 "OpenClaw에 Groq 써봤냐"고 물었다.
검색해보니 AI 칩 회사였다. LPU(Language Processing Unit)라는 특수 칩으로 추론 속도가 빠르다고 한다.
중요한 건 API 가격이었다.
gpt-oss-120b
- 입력: $0.15 per million tokens
- 출력: $0.75 per million tokens
Claude Sonnet과 비교하면
- 입력: Claude $3 vs Groq $0.15 (20배 차이)
- 출력: Claude $15 vs Groq $0.75 (20배 차이)
게다가 속도도 빨랐다
- Claude Sonnet: 40-42 tokens/sec
- gpt-oss-120b: 500+ tokens/sec
바로 바꿨다
OpenClaw 설정 파일만 수정하면 됐다.
"env": {
"vars": {
"GROQ_API_KEY": "API-KEY"
}
},
...
"agents": {
"defaults": {
"model": {
"primary": "groq/openai/gpt-oss-120b",
"fallbacks": []
},
"workspace": "/Users/donghyunpark/.openclaw/workspace",
"compaction": {
"mode": "safeguard"
},
"maxConcurrent": 4,
"subagents": {
"maxConcurrent": 8
}
}
},
OpenAI API 호환이라 다른 코드 수정은 필요 없었다.
3일 써본 경험
속도
체감상 확실히 빠르다. Claude보다 응답이 빨리 온다. 특히 긴 답변을 생성할 때 차이가 크다.
스트리밍으로 보면 글자가 쏟아지는 느낌이다.
품질
gpt-oss-120b는 OpenAI의 오픈 모델이다. 120B 파라미터 MoE(Mixture of Experts) 구조다.
간단한 작업
- 날씨 확인, 일정 정리, 간단한 질문
- Claude와 차이 거의 없음
복잡한 작업
- 긴 문서 분석은 Claude가 나음
- 여러 단계 추론도 Claude가 안정적
한국어
영어는 문제없다. 한국어는 가끔 어색한 표현이 나온다. Claude보다는 자연스럽지 않다.
하지만 OpenClaw 자체가 영어로 작동하는 경우가 많아서 크게 문제되진 않았다.
비용
이게 제일 중요하다. 20배 저렴하니까 부담 없이 쓸 수 있다.
Claude 쓸 때는 "이거 시켜도 되나?" 생각했는데, Groq는 그냥 막 쓴다.
어떻게 쓰고 있나
지금은 Groq만 쓴다.
처음엔 "중요한 작업은 Claude 쓰자"고 생각했는데, 3일 써보니 대부분은 gpt-oss-120b로 충분했다.
잘 되는 것
- GitHub 알림 정리
- 일정 관리
- 파일 정리
- 웹 검색 요약
아쉬운 것
- 긴 문서 분석 (여러 페이지 PDF 등)
- 복잡한 리팩토링
- 한국어 장문 작성
나중에 정말 복잡한 작업이 생기면 Claude를 다시 켤 수도 있다. 근데 아직은 필요 없었다.
Groq의 특징
LPU 아키텍처
GPU가 아니라 LPU(Language Processing Unit)를 쓴다. AI 추론에 특화된 칩이다.
- 온칩 SRAM 사용
- 결정론적 처리
- 외부 메모리 의존도 낮음
그래서 빠르다. GPU는 범용 칩이라 AI 추론에는 오버헤드가 있는데, LPU는 그런 게 없다.
프롬프트 캐싱
gpt-oss 모델은 프롬프트 캐싱을 지원한다.
같은 시스템 프롬프트를 반복해서 쓰면:
- 캐시된 토큰은 50% 할인
- 레이턴시 감소
- Rate limit에 안 걸림
OpenClaw처럼 시스템 프롬프트가 고정된 경우에 유리하다.
제한사항
완벽하지 않다.
- 한국어 품질: Claude보다 낮음
- 복잡한 추론: Claude가 더 안정적
모델 선택

gpt-oss-120b (내가 쓰는 것)
- $0.15 / $0.75 per million tokens
- 500+ tokens/sec
- 131K 컨텍스트
- OpenAI의 오픈 모델
gpt-oss-20b
- $0.10 / $0.50 per million tokens
- 1000+ tokens/sec
- 더 빠르고 저렴하지만 품질은 낮음
llama-3.1-70b
- $0.59 / $0.79 per million tokens
- Meta 모델
- 오픈소스 생태계
mixtral-8x7b
- $0.24 / $0.27 per million tokens
- Mistral AI 모델
- 빠르고 저렴
나는 gpt-oss-120b가 품질과 가격 밸런스가 좋아서 쓴다.
주의할 점
Rate Limit
무료 티어는 제한이 있다. 많이 쓰면 유료로 전환해야 한다.
모델 변경
OpenAI 모델이라 이름에 "openai/"가 붙는다. 설정할 때 주의.
틀린 예: "model": "gpt-oss-120b" 맞는 예: "model": "openai/gpt-oss-120b"
Reasoning Effort
gpt-oss-120b는 reasoning effort 옵션이 있다:
- low: 빠름
- medium: 기본
- high: 느리지만 정확
OpenClaw는 기본값(medium)을 쓴다.
정리
Claude는 좋은 모델이다. 품질은 최고급이다.
하지만 OpenClaw 같은 에이전트는 토큰을 엄청 먹는다. 시스템 프롬프트가 길고 매 요청마다 포함되니까
Groq의 gpt-oss-120b는
- 20배 저렴하고
- 10배 이상 빠르고
- 대부분 작업에 충분하다
3일 써봤는데 만족스럽다. 비용 부담 없이 막 쓸 수 있다는 게 제일 좋다.
AI 에이전트 돌릴 거면 Groq 고려해볼 만하다.
참고:
- Groq: https://groq.com
- gpt-oss-120b 문서: https://console.groq.com/docs/model/openai/gpt-oss-120b
- 가격: https://groq.com/pricing
'IT' 카테고리의 다른 글
| Ralph Loop - AI 코딩 에이전트를 Bash 루프에 넣었더니 자고 일어나면 코드가 완성돼 있다 (0) | 2026.04.14 |
|---|---|
| Mac 청소, 터미널에서 한 번에 끝내기 (0) | 2026.02.24 |
| OpenClaw vs Nanobot 비교 (0) | 2026.02.09 |
| OpenClaw - 일하는 AI 에이전트 (1) | 2026.02.09 |
| Claude Skill - AI 에이전트에 Skill 추가하기 (0) | 2026.01.23 |
