AI는 정말로 생각하고 있을까요?
Apple Research 보고서: 문제 복잡도와 LLM 추론의 한계
보고서 요약: 최근 등장한 거대 추론 모델(o1, Claude 3.5 등)은 답을 내기 전 ‘생각하는 과정’을 거칩니다. 하지만 이 연구는 모델이 실제로 논리적 추론을 하는 것이 아니라, 확률적 패턴 매칭을 수행하고 있음을 밝혀냈습니다.
“복잡도가 특정 임계점을 넘으면, 모델의 정답률은 0%로 붕괴합니다.”
🧩 실험: 복잡도를 조작하다
하노이의 탑
디스크 개수를 늘려 순차적 계획 능력을 테스트합니다. (최적 단계 급증)
체스 퍼즐
랜덤한 중간 단계 배치를 통해 단순 암기인지 추론인지 구별합니다.
소코반
장기적 경로 계획과 되돌릴 수 없는 실수(Deadlock)를 다룹니다.
📉 결과 분석: 성능의 붕괴
아래 버튼을 눌러 각 실험의 결과를 확인하세요. 복잡도가 증가함에 따라 정답률(선)이 급격히 떨어집니다.
⚠️ 디스크가 6개를 넘어가면 모든 모델의 정답률이 0%에 수렴합니다.
🧮 직접 체험: 확률적 붕괴 시뮬레이터
모델이 100% 논리적이지 않고 “확률적”으로 행동한다면, 단계가 길어질수록 무슨 일이 벌어질까요?
최종 성공 확률 (P^N)
59.9%
⚠️ 불안정함
Reference
“The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity”
Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar
Apple Machine Learning Research (2024)
