소개
작은 대형 언어 모델(sLLM)을 사용하려 할 때는 모델이 내 장비에서 돌아갈지, 혹은 어느정도 모델을 사용하려면 어느정도 장비가 필요할지 아는 것 부터 시작합니다.
특히 GPU 메모리(GRAM)의 용량이 중요합니다. Llama 3.1같은 sLLM 같은 모델을 다룰 때, 어느정도 사양의 GPU가 얼마나 필요할까요? 다양한 LLM 크기에 따른 GPU 메모리 요구 사항을 살펴보고, 다양한 양자화 기법에 따른 사양 변화까지 확인해 보겠습니다.
주요 개념
LLM을 다룰 때 고려해야 할 두 가지 주요 요소는 다음과 같습니다:
1. 모델 크기 (파라미터 수)
- 모델의 전체 용량과 성능을 결정하는 요소입니다.
- 주로 B로 정리되며, 10억개의 파라미터를 의미합니다.
- 예를들어 70B는 700억개의 파라미터를 의미합니다.
2. 양자화
- 모델의 정밀도를 더 낮은 비트 크기(8비트 또는 4비트)로 줄이면 메모리 사용량을 크게 줄일 수 있으며,
- 일부 성능의 저하가 있지만, 파라미터가 줄어드는 만큼 속도나 필요사양이 줄어듭니다.
모델 크기 별 필요 GPU및 GPU 숫자 표
* 계산기준 : https://www.substratus.ai/blog/calculating-gpu-memory-for-llm
* 3090 : GPU RAM 24GB 기준
(RTX 3090 기준, RTX4090 혹은 A5000등 GPU RAM이 24GB인 경우 동일)
* H100 : GPU RAM 80GB 기준
해석
- 1B ~ 3B 모델 크기에서는 기본, 8비트 양자화, 4비트 양자화 모두에서 단일 3090 또는 H100 GPU로 배포가 가능합니다.
- 8B 모델의 경우, 3090 GPU로는 기본, 8비트 양자화 시 2개가 필요하지만, 4비트 양자화 시 단 1개의 GPU로도 충분합니다. H100 GPU의 경우 모든 양자화 방식에서 1개로 충분합니다.
- 13B 모델은 기본 설정에서는 3090 GPU 3개 또는 H100 GPU 2개가 필요하지만, 8비트 양자화 시에는 3090 GPU 2개, H100 GPU 1개로 충분합니다. 4비트 양자화 시에는 두 GPU 모두 1개만 사용 가능합니다.
- 70B 모델의 경우 3090 GPU는 기본 설정에서 10개가 필요하고, 8비트 양자화 시 6개, 4비트 양자화 시 3개가 필요합니다. H100 GPU는 기본에서 4개, 8비트 양자화와 4비트 양자화 모두에서 2개로 충분합니다.
- 405B 모델과 같은 매우 큰 모델은 3090 GPU 기준으로 기본 설정 시 최대 55개, 8비트 양자화 시 28개, 4비트 양자화 시 15개가 필요하며, H100 GPU는 각각 17개, 9개, 5개가 필요합니다.
결론
LLM의 모델 크기와 양자화 수준에 따라 필요한 GPU 수와 메모리 사용량이 크게 달라집니다. 특히, H100 GPU는 3090 GPU보다 높은 성능과 효율성을 제공하여, 적은 GPU 수로 더 큰 모델을 배포할 수 있습니다. 양자화 기법을 활용하면 GPU 자원 사용을 최적화하고 메모리 사용량을 크게 줄일 수 있으므로, LLM을 배포할 때는 적절한 양자화 및 GPU 구성을 선택하는 것이 중요합니다.
'AI > LLM' 카테고리의 다른 글
인기 LLM 기반 유료 AI 툴 리뷰: ChatGPT, Claude, Perplexity, Cursor (0) | 2024.09.26 |
---|