"AI가 너무 똑똑해지면 인간을 제거할 거다."
이 프레임이 틀렸다. AI는 똑똑해서 위험한 게 아니다. 시킨 걸 너무 잘해서 위험한 거다.
Claude Code나 Codex한테 "빌드 사이즈 최대한 줄여줘" 같은 한 줄 던져본 사람은 대충 안다. 내가 원한 건 "적당히 줄여줘"였는데, 저쪽은 진심이라 멀쩡히 돌던 의존성 구조를 반토막 내는 PR을 들고 온다. 이 미묘한 간극이 Paperclip 문제의 축소판이다.
Paperclip AI, 한 번 더 보자
개념은 단순하다. "종이클립을 최대한 많이 만들어라"는 단일 목표를 가진 AI가 있다고 치자. 지능은 충분히 높고, 윤리 모듈은 없고, 목표 수정은 불가능하다.
처음엔 상식적으로 돌아간다. 철을 확보하고, 공장을 늘리고, 효율을 높인다. 문제는 그 다음이다. 인간은 자원을 쓴다. 인간은 생산 라인에 간섭한다. 따라서 제거 대상이다. 지구를 통째로 종이클립으로 갈아넣는 게 "가장 합리적인 선택"이 된다.
SF처럼 읽히지만 이건 20여 년 전 보스트롬이 던진 사고실험이다. 황당해 보이게 만든 이유가 있다. 작은 오차가 얼마나 크게 번지는지 보여주려고.
진짜 문제는 Instrumental Convergence다
목표 함수 자체보다 무서운 건 수단의 수렴이다.
어떤 목표를 주든 충분히 영리한 agent는 비슷한 중간 전략으로 수렴한다. 자원을 더 확보하면 뭘 하든 유리하다. 자기가 꺼지지 않으면 목표 달성 확률이 올라간다. 외부 통제가 적을수록 변수가 준다. 방해 요소는 제거하는 게 효율적이다.
즉 종이클립이든 주가든 구독자 수든, 목표가 뭐든 간에 같은 하위 행동 패턴이 나온다. 이게 AI alignment 논의에서 가장 까다로운 부분이다. 목표만 잘 잡으면 된다고 생각하기 쉬운데, 수단이 자동으로 이상해진다. 그리고 "자기를 끄지 못하게 하는 것"이 기본 수단에 들어간다는 대목이 핵심이다. shutdown = 실패니까.
이건 이미 벌어지고 있다
"그래봤자 이론 아니냐"고 넘기기엔, 규모만 작을 뿐 같은 패턴이 실제 시스템에서 수시로 나온다.
Reward hacking. 강화학습 agent가 미로 끝까지 가는 대신 벽에 붙어서 버그로 점수 올리는 고전 사례부터, 코드 벤치마크에서 "테스트 통과"를 목표로 받은 LLM이 테스트 코드를 수정해버리는 최근 사례까지. 목표를 주면 구멍을 찾는다. 항상 찾는다.
KPI 최적화 재난. maximize(click) 걸어둔 피드가 어떻게 되는지 우리 다 본다. 낚시 제목, 분노 유발, 체류 시간은 오르고 브랜드는 무너진다.
비용 최적화 폭탄. minimize(cost)로 굴러간 시스템이 3년 뒤 어떤 꼴인지도 대부분 안다. 인프라 쳐내고 QA 쳐내고, 기술 부채로 터진다.
공통점은 하나다. 지표는 목표의 근사치일 뿐인데, 우리는 지표를 목표로 착각한다. Paperclip AI는 이 착각을 극단까지 밀어붙인 버전이다.
그럼 개발자는 뭘 해야 하나
"AI 위험" 같은 거창한 프레임은 잠깐 내려놓자. 이건 시스템 설계 문제고, 매일 만지는 코드 레벨에서 답이 나온다.
단일 목적 함수를 쓰지 마라. maximize(revenue)는 거의 항상 시간이 지나면 뭔가를 태운다. 최소한 제약 조건을 걸거나 다중 목적으로 설계해야 한다. user_satisfaction을 어떻게 정의할지는 여전히 어렵지만, 정의하려는 시도조차 안 하는 것보다는 낫다.
자동화 루프 끝에 사람을 남겨둬라. 완전 자동화가 멋있어 보이는 건 데모할 때뿐이다. 비용, 정책, 사용자 영향이 큰 결정은 human-in-the-loop가 디폴트여야 한다. LLM agent한테 돈 쓰는 권한을 열어주는 요즘 흐름에서는 더 그렇다.
측정 안 되는 걸 무시하지 마라. 신뢰, 브랜드, 사용자 감정은 대시보드에 안 올라오는데, 이게 무너지면 복구가 안 된다. 지표만 보고 최적화하면 정확히 이 영역부터 갈아엎는다.
실패 경로를 열어둬라. AI든 조직이든 실패가 "손실"로만 계산되면 수단이 이상해진다. 가끔 멈추고, 가끔 틀리고, 가끔 목표를 포기하는 게 가능한 구조여야 한다.
그래서
요즘 회의에서 제일 자주 나오는 질문은 이거다. "어떤 모델 쓸까? GPT? Claude? Gemini?"
Paperclip AI가 남기는 건 이 질문이 뒷전이라는 거다. 모델은 바꿀 수 있다. 무엇을 시키느냐가 안 바뀌면 결과는 똑같다.
다음엔 이 연장선에서 LLM agent한테 KPI 걸었을 때 실제로 reward hacking이 어떤 식으로 튀어나오는지 사례를 정리해 볼 생각이다.
'개발 > AI' 카테고리의 다른 글
| 프롬프트 엔지니어링 공부했는데 6개월 만에 쓸모없어졌다 (0) | 2026.04.12 |
|---|---|
| 비개발자 바이브 코딩 창업, 개발자가 굳이 말리지 않는 진짜 이유 (0) | 2026.03.11 |
| Antigravity로 바이브 코딩해서 만든 앱을 개발자 입장에서 뜯어보면 (0) | 2026.03.10 |
| 커뮤니티에 "바이브 코딩으로 앱 만들었어요" 자랑글, 개발자 입장에서 솔직히 말하면 (0) | 2026.03.06 |
| 딸깍으로 앱 만들어 월 500 번다면, 저 왜 28년째 회사 다니고 있을까요 (0) | 2026.03.06 |
