LLM의 한계를 체감하며 – 의료 적용 연구 중에 든 생각들

LLM을 의료 영역에 적용하는 연구를 진행하고 있다.
이 과정에서 자연스럽게 LLM의 한계와 개선 방법을 계속해서 마주치게 되었고, 나름의 해결책을 찾아 적용해왔다.

그런데 최근 뉴스와 보고서들을 보다 보니, 내가 현장에서 체감하던 문제의식과 매우 비슷한 이야기들이 여기저기서 등장하고 있다는 느낌을 받았다.
개발자 관점에서도, 문제 해결 관점에서도 말이다.




“사람이 잘하는 것, LLM이 잘하는 것, 알고리즘이 잘하는 것은 다르다”

개발 측면에서 특히 공감했던 이야기는 문라이트의 코멘트였다.

사람이 잘하는 것, LLM이 잘하는 것, 알고리즘이 잘하는 것이 다르다
https://news.hada.io/topic?id=25174

의료 태스크를 다루다 보면 이 문장이 굉장히 현실적으로 다가온다.
LLM은 분명 강력하지만, 모든 문제를 대신 생각해주는 존재는 아니다.
오히려 어떤 역할을 맡기고, 어떤 역할을 맡기지 말아야 하는지를 명확히 구분하지 않으면 성능은 쉽게 한계에 부딪힌다.




“LLM은 논리적 추론을 하는 것이 아니라 확률적 패턴 매칭을 한다”

문제 해결 관점에서는 애플의 논문
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
가 매우 인상적이었다.

이 논문은 LLM이 겉보기에는 논리적 추론을 하는 것처럼 보이지만, 실제로는 확률적 패턴 매칭에 기반해 동작한다는 점을 실험적으로 보여준다.

이 내용 역시, 연구를 진행하면서 반복적으로 체감하던 지점과 정확히 맞닿아 있었다.




버전이 올라가도 넘지 못하는 태스크의 벽

내가 진행하던 의료 태스크 중에도,
LLM의 버전이 아무리 향상되어도 계속해서 성능 한계에 부딪히는 태스크가 있었다.

특히 다음과 같은 특성을 가진 작업들이다.

  • 복잡도가 높아 단계적 접근(step-by-step) 이 필요한 작업
  • 이전 판단 결과를 기억하고 상태를 업데이트해야 하는 작업
  • 중간에 “판단 불가”나 보류가 필요한 작업

흥미로운 점은, 이런 작업들은 인간에게도 작업 기억(working memory)의 한계 때문에 구조화된 접근이 필요한 문제라는 것이다.
그리고 놀랍지 않게도, LLM 역시 이런 유형의 문제를 잘 못한다.




물론 해결책은 있다.

다행히도 이 한계를 그대로 두지는 않았다.
꽤 오래전부터 문제를 인식하고 있었고, 태스크를 재설계하는 방식으로 성과를 많이 끌어올릴 수 있었다.

  • 한 번에 “정답”을 요구하지 않기
  • 중간 상태를 명시적으로 드러내기
  • LLM이 잘하는 역할과 못하는 역할을 분리하기

결과는 꽤 만족스러웠지만, 논문 작성과 여러 현실적인 이슈들 때문에 작업이 계속 미뤄졌다.
이제서야 그 작업을 마무리해 가고 있다.




번외: Gemini 3는 꽤 인상적이다

번외로, 최근 Gemini 3는 꽤 일을 잘 한다는 인상을 받았다.
특히 Illusion of Thinking 논문을 해석하고, 이를 콘텐츠 형태로 정리하는 작업을 시도해봤는데 결과물이 꽤 만족스러웠다.

관심 있는 분들을 위해 링크를 남긴다.
👉 https://mir.so/illusion-of-thinking/




마치며

LLM은 생각하지 않는다.
하지만 사람이 생각할 수 있도록 돕는 도구로서는 매우 강력하다.

의료처럼 복잡하고 책임이 큰 영역에서는,
LLM의 능력을 과신하는 것도, 과소평가하는 것도 모두 위험하다.
중요한 것은 한계를 정확히 인식하고, 그 위에서 설계를 하는 것이라고 생각한다.

비슷한 문제를 겪어본 사람이라면, 아마 이 느낌이 낯설지 않을 것이다.

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

위로 스크롤