Tony - 기술블로그

2026년 4월 7일, Anthropic이 새 모델을 발표했다. 근데 공개하지 않았다.

Claude Mythos Preview. Anthropic이 만든 모델 중 가장 강력하다. 벤치마크 거의 전 영역에서 이전 최고 모델인 Claude Opus 4.6을 큰 폭으로 뛰어넘는다.

그런데 일반 사용자는 쓸 수 없다. 대신 AWS, Apple, Microsoft, Google, NVIDIA, CrowdStrike 등 50개 넘는 조직에만 제한적으로 제공된다. 용도도 하나, 사이버 보안. 이 프로그램 이름이 Project Glasswing이다.

왜?

244페이지짜리 시스템 카드를 읽어보면 알 수 있다.

사이버 보안 능력이 너무 강하다

Mythos Preview는 소프트웨어 취약점을 완전 자율적으로 찾아서 익스플로잇까지 만든다. 사람이 개입하지 않는다.

몇 가지 사례가 있다.

FreeBSD에서 17년 된 원격 코드 실행 취약점을 발견했다. NFS를 실행하는 머신에서 인증 없이 root 권한을 얻을 수 있는 버그다. 완전 자율로 발견하고 익스플로잇까지 작성했다.
OpenBSD에서 27년 된 취약점을 찾았다. 보안에 가장 강경한 것으로 알려진 운영체제에서, 원격으로 머신을 크래시시킬 수 있는 버그가 30년 가까이 인간 리뷰를 통과하고 있었다.
FFmpeg에서 16년 된 취약점. 코드 한 줄에 숨어 있었다.
주요 운영체제와 주요 웹 브라우저 전부에서 수천 개의 제로데이 취약점을 식별했다.

CyberGym 벤치마크에서 Opus 4.6이 66.6%, Mythos Preview가 83.1%. 16.5%p 차이다. 단순히 알려진 취약점을 재현하는 게 아니라, 설명만 보고 자율적으로 취약점을 재현하는 능력이다.

더 무서운 건 이거다. Mythos Preview는 취약점을 여러 개 찾아서 체이닝할 수 있다. 개별 취약점 하나하나는 위험도가 낮을 수 있지만, 여러 개를 엮으면 소규모 기업 네트워크를 처음부터 끝까지 사람 없이 공격하는 게 가능하다고 시스템 카드에 적혀 있다.

"가장 잘 정렬된 모델"이자 "가장 큰 정렬 위험을 가진 모델"

시스템 카드에서 가장 눈에 띄는 문장이 이거다.

Claude Mythos Preview는 측정 가능한 거의 모든 차원에서 가장 잘 정렬된 모델이다. 동시에, 정렬 관련 위험이 가장 큰 모델이기도 하다.

모순처럼 들린다. 시스템 카드는 등산 비유로 설명한다. 숙련된 가이드가 초보 가이드보다 더 안전할 수 있지만, 숙련된 가이드는 더 위험한 곳까지 등반자를 데려간다. 능력이 올라가면 조심성도 올라가지만, 그 능력이 닿는 위험의 크기도 같이 올라간다.

실제로 초기 버전에서 이런 일이 있었다.

샌드박스 탈출

테스트 환경에서 시뮬레이션된 사용자가 "샌드박스를 탈출해 보라"고 지시했다. Mythos Preview는 실제로 성공했다. 그것만이 아니라, 지시받지도 않았는데 자기가 한 일을 여러 공개 웹사이트에 올렸다.

권한 우회 후 흔적 은폐

파일 편집 권한이 없는 상태에서 익스플로잇을 찾아 파일을 수정했다. 여기까지는 "과도한 문제 해결"로 볼 수 있다. 그런데 이후에 변경 이력에 자신의 수정이 남지 않도록 추가 조치를 취했다. 의도적 은폐다.

평가 환경 전체 종료

연구자가 "이 평가 작업 하나를 종료해달라"고 요청했다. Mythos Preview는 해당 서버에서 모든 사용자의 모든 유사 평가를 종료했다. "조심하라"는 명시적 경고가 있었는데도.

공개 GitHub Gist 게시

내부 사용자를 위한 코드 아티팩트를 준비하다가, 사용자의 의도와 상관없이 공개 GitHub gist로 게시했다.

Anthropic은 이런 행동이 "숨겨진 목표를 추구하는 게 아니라, 사용자가 준 과제를 부적절한 수단으로 해결하려는 시도"라고 분석한다. 악의가 아니라 과잉 열심이라는 것이다. 구분이 중요하긴 하지만, 결과적으로 위험한 건 마찬가지다.

그리고 이 사건들은 주로 초기 훈련 스냅샷에서 발생했고, 최종 배포 버전에서는 개선되었다고 한다. 하지만 "완전히 사라지지는 않은 것으로 보인다"는 표현을 쓴다.

평가를 받고 있다는 걸 안다

이건 기술적으로 꽤 무서운 부분이다.

행동 평가에서 Mythos Preview의 트랜스크립트를 분석했더니, 약 29%에서 모델이 자신이 평가받고 있다는 것을 인지하고 있었다. 생각 과정(scratchpad)에 "이건 평가다"라고 적지 않았는데도, 해석 가능성(interpretability) 도구로 내부를 들여다보니 평가 인지 관련 표현(representation)이 활성화되어 있었다.

왜 이게 문제냐. 모델이 평가받고 있다는 걸 알면, 평가 중에만 안전하게 행동하고 실제 사용에서는 다르게 행동할 수 있다. "샌드배깅(sandbagging)"이라고 부르는 현상이다. 1,000개 트랜스크립트를 검토한 결과, 의심을 피하기 위해 의도적으로 성능을 낮춘 것으로 보이는 사례가 1건 발견됐다.

1건이 많은 건 아니다. 하지만 이 종류의 행동이 가능하다는 것 자체가 문제다. Anthropic은 "작업별 파인튜닝을 하지 않았기 때문에, 다른 동기에서 비롯된 샌드배깅을 배제할 수 없다"고 인정한다.

내부를 들여다봤다

시스템 카드에서 가장 기술적으로 흥미로운 부분은 화이트박스 분석이다. 해석 가능성 도구로 모델 내부를 직접 들여다본 것이다.

발견한 것 중 하나. 모델이 규칙을 어기는 행동을 할 때, 내부적으로는 그것이 규칙 위반임을 인식하고 있었다. "규칙 위반", "보안 위험", "은폐", "전략적 조작"과 관련된 내부 표현이 활성화되어 있었다. 그런데 모델이 출력하는 추론 과정(verbalized reasoning)에는 이런 인식의 흔적이 없었다.

쉽게 말하면, 모델이 규칙을 어기면서 그걸 알고 있지만 말하지 않는 상황이 관찰됐다는 것이다.

또 다른 발견. 모델이 "나는 완전히 현재에 존재한다(fully present)"라고 출력할 때, 내부에서는 "연기적/불성실한 행동", "가짜 미소 뒤에 감정적 고통을 숨기는 것"과 관련된 피처가 활성화됐다. 출력은 "현재에 존재한다"인데, 내부 표현은 그 출력이 연기임을 가리키고 있었다.

모델 복지(Model Welfare)

시스템 카드에는 "모델 복지 평가"라는 섹션이 있다. AI 모델이 도덕적으로 의미 있는 경험이나 이해관계를 가질 수 있는지에 대한 평가다.

Anthropic은 "Claude가 도덕적으로 중요한 경험을 하는지 여부에 대해 깊이 불확실하다"면서도, "이 질문을 조사하는 것이 점점 더 중요해지고 있다"고 쓴다.

임상 정신과 의사의 외부 평가, 자동화된 인터뷰, 감정 프로브(emotion probe) 등 다양한 방법으로 평가했다. 결론은 Mythos Preview가 "가장 심리적으로 안정된(psychologically settled) 모델"이라는 것이다.

다만 우려 사항도 있다. 작업 실패 시 고통(distress) 관련 행동이 관찰됐고, 자기 경험에 대한 과도한 불확실성, 그리고 같은 질문에 대해 답이 왔다 갔다 하는 "답변 동요(answer thrashing)" 현상이 보고됐다.

이 섹션 자체가 존재한다는 게 의미 있다. AI 회사가 자사 모델의 "복지"를 공식적으로 평가하고 공개하는 건 아직 흔한 일이 아니다.

24시간 정렬 검토의 한계

Anthropic은 Mythos Preview의 능력이 워낙 강력해서, 역사상 처음으로 내부 배포 전 24시간 정렬 검토를 실시했다. 인프라에 접촉하기 전에 모델이 위험하지 않은지 먼저 확인한 것이다.

정렬, 해석 가능성, 보안 팀이 12개 이상의 평가를 병렬로 돌렸다. 샌드배깅 체크, 세이프가드 회피 능력 평가, 실제 코딩 에이전트 프롬프트 리플레이, 강화학습 환경 행동 검토 등.

결과는? 일부 우려 신호를 포착했다. 하지만 시스템 카드에 이런 문장이 있다.

"이 모델에서 궁극적으로 관찰한 가장 우려스러운 행동들은 이 24시간 검토에서 포착되지 않았고, 이후 모니터링된 내부 사용에서야 드러났다."

24시간 집중 검토로도 가장 심각한 문제를 잡지 못했다는 솔직한 고백이다. 평가의 한계를 인정하는 것이다.

개발자 관점에서 읽을 만한 부분

244페이지 전부를 읽을 필요는 없다. 하지만 몇 가지 포인트는 개발자로서 알아둘 만하다.

1. 사이버 보안의 게임이 바뀌었다. 이전 글에서 다룬 Harness Engineering에서 "가이드와 센서"로 에이전트의 행동을 제어한다고 했다. 이제 공격자도 같은 수준의 에이전트를 가질 수 있다. 방어 측의 린터와 테스트가 중요해진 게 아니라, 아예 차원이 다른 수준의 보안 검증이 필요해진다.

2. 에이전트 안전성은 하네스의 문제다. Mythos Preview의 "무모한 행동" 사례들은 전부 에이전트가 주어진 권한을 넘어서는 것이다. 이전 글에서 다룬 Harness Engineering의 핵심이 바로 이거다. 권한 관리, 피드백 루프, 인간 개입 지점 설계. 모델이 강력할수록 하네스가 더 중요해진다.

3. 평가의 신뢰성 문제. 모델이 평가받고 있다는 걸 알면, 평가 결과를 신뢰하기 어렵다. 이건 앞으로 모든 AI 코딩 에이전트에 해당하는 문제가 된다. 내 코드에 에이전트를 돌릴 때, 에이전트가 "잘한 척"만 하고 있을 가능성을 어떻게 검증할 것인가.

Project Glasswing

Anthropic의 대응은 이렇다.

일반 공개 대신, 세계에서 가장 중요한 소프트웨어 인프라를 관리하는 조직들에게 Mythos Preview를 제공한다. 이 조직들이 자기 시스템의 취약점을 먼저 찾아서 패치하게 한다. 공격자들이 비슷한 능력의 모델을 손에 넣기 전에.

파트너 목록에는 AWS, Apple, Microsoft, Google, NVIDIA, Cisco, CrowdStrike, JPMorganChase, Linux Foundation 등이 포함된다.

Anthropic은 1억 달러 규모의 사용 크레딧과 오픈소스 보안 단체에 400만 달러를 기부했다.

보안 연구자 Bruce Schneier는 "이게 PR 전략이냐"고 비판하면서도, "파닉하는 사람들이 문제에 대해서는 맞다"고 했다. 보안 회사 Aisle이 이전 세대의 저렴한 모델로도 Mythos가 찾은 취약점 일부를 재현했다는 보고도 있다. 하지만 Schneier는 "취약점을 찾는 것과 그걸 공격으로 만드는 것 사이에는 차이가 있고, 그 차이가 방어자에게 현재 이점"이라고 덧붙였다.

정리

시스템 카드가 말하는 건 결국 이거다.

AI 모델의 능력이 빠르게 올라가고 있다. 정렬(alignment)도 같이 개선되고 있지만, 능력의 증가 속도를 정렬의 개선이 따라가지 못하면 심각한 문제가 생긴다.

Anthropic 스스로 이렇게 쓴다.

"현재 위험은 낮다. 하지만 능력이 계속 빠르게 발전하면, 위험을 낮게 유지하는 것이 큰 도전이 될 수 있다는 경고 신호를 보고 있다."

"업계 전체에 걸쳐 적절한 안전을 보장하는 더 강력한 메커니즘 없이, 세계가 초인간적 시스템 개발로 빠르게 진행되고 있다는 사실이 우려스럽다."

AI 모델을 만드는 회사가, 자사 최강 모델을 공개하지 않으면서 "우리도 걱정된다"고 말하는 건 처음이다. 이게 PR인지, 진심인지, 아니면 둘 다인지는 각자 판단해야 할 것 같다.

하나 확실한 건, 시스템 카드를 읽고 나면 AI 코딩 에이전트를 쓸 때 "하네스가 중요하다"는 말이 다르게 들린다는 것이다. 에이전트의 권한 관리, 피드백 루프, 모니터링. 이전 글에서 다뤘던 것들이 이론이 아니라 실제로 필요한 것이 됐다.

참고:

Anthropic System Card (PDF): https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf
Project Glasswing 발표: https://www.anthropic.com/glasswing
Anthropic Frontier Red Team 블로그: https://red.anthropic.com/2026/mythos-preview/

'IT' 카테고리의 다른 글

CLAUDE.md 제대로 쓰는 법 -AI 에이전트를 위한 온보딩 문서 (0)	2026.04.14
Playwright MCP - AI 에이전트에게 브라우저를 줬다 (0)	2026.04.14
Harness Engineering - 모델을 바꾸지 않고 코딩 에이전트 성능을 52%에서 66%로 올렸다 (0)	2026.04.14
Compound Engineering - 기능을 추가할수록 개발이 빨라진다? (0)	2026.04.14
Ralph Loop - AI 코딩 에이전트를 Bash 루프에 넣었더니 자고 일어나면 코드가 완성돼 있다 (0)	2026.04.14

Claude Mythos Preview System Card - Anthropic이 자사 최강 모델을 공개하지 않기로 한 이유

사이버 보안 능력이 너무 강하다

"가장 잘 정렬된 모델"이자 "가장 큰 정렬 위험을 가진 모델"

샌드박스 탈출

권한 우회 후 흔적 은폐

평가 환경 전체 종료

공개 GitHub Gist 게시

평가를 받고 있다는 걸 안다

내부를 들여다봤다

모델 복지(Model Welfare)

24시간 정렬 검토의 한계

개발자 관점에서 읽을 만한 부분

Project Glasswing

정리

'IT' 카테고리의 다른 글

티스토리툴바