본문 바로가기

AI4

RAG를 위한 HWP/PDF 문서 파싱 자동화(python) RAG(Retrieval-Augmented Generation)은 대규모 언어 모델(LLM)의 정확성과 신뢰성을 높이기 위해 외부 문서의 정보를 검색하고 결합해 응답을 생성하는 강력한 전략입니다. 하지만 RAG의 성능은 "좋은 텍스트 데이터"에 크게 의존합니다. 특히 한국어 환경에서는 .hwp 같은 한글 문서의 비중이 높아, 이를 효과적으로 파싱하는 작업이 중요합니다. 이번 포스트에서는 Python을 활용해 HWP 및 PDF 문서를 자동으로 텍스트로 변환하고 저장하는 실전 코드를 소개합니다. 이 코드는 이후 RAG 파이프라인에 쉽게 통합될 수 있도록 설계되었습니다. 기술 스택Python 3olefile: HWP의 OLE 구조를 분석zlib: HWP 내부 압축 해제fitz (PyMuPDF): PDF 텍스.. 2025. 6. 1.
LLM 모델 크기에 따른 GPU 세팅 가이드 ( RTX3090, H100 기준 ) 소개 작은 대형 언어 모델(sLLM)을 사용하려 할 때는 모델이 내 장비에서 돌아갈지, 혹은 어느정도 모델을 사용하려면 어느정도 장비가 필요할지 아는 것 부터 시작합니다. 특히 GPU 메모리(GRAM)의 용량이 중요합니다. Llama 3.1같은 sLLM 같은 모델을 다룰 때, 어느정도 사양의 GPU가 얼마나 필요할까요? 다양한 LLM 크기에 따른 GPU 메모리 요구 사항을 살펴보고, 다양한 양자화 기법에 따른 사양 변화까지 확인해 보겠습니다. 주요 개념LLM을 다룰 때 고려해야 할 두 가지 주요 요소는 다음과 같습니다:     1. 모델 크기 (파라미터 수)        - 모델의 전체 용량과 성능을 결정하는 요소입니다.        - 주로 B로 정리되며, 10억개의 파라미터를 의미합니다.       .. 2024. 9. 19.
[DallE3]Oriental Dragon Prompt : A cute dragon with dark blue, white, and black markings and white fins, depicted in a 3D art style with Art Nouveau elements. The dragon has delicate   A cute 3D dragon with white and black markings, white fins, and a supernova in the background. The dragon has a delicate, flowing design, inspired by Art Nouveau style with intricate, swirling patterns on its wings and body, emphasizing .. 2024. 9. 12.
[Stable Diffusion]유화 1. positive prompt : girl, airy, elegant, pin-up, sci-fi, steam punk, very deitaled, realistic, figurative painter, fineart, Oil painting on canvas, beautiful painting by Daniel F Gerhartz --ar 9:16 --beta --upbeta 2. negative prompt : cgi, Two bodies, Two heads, doll, extra nipples, bad anatomy, blurry, fuzzy, extra arms, extra fingers, poorly drawn hands, disfigured, tiling, deformed, mutated,.. 2024. 9. 12.