본문 바로가기

Rag2

다양한 문서 포맷(HWP, HWPX, PDF, DOC, DOCX) 텍스트 추출 자동화하기 이전 글에서는 .hwp와 .pdf 파일에서 텍스트를 추출해 .txt로 저장하는 간단한 자동화 코드를 소개했었습니다. 이번에는 그 범위를 확장해 HWPX, DOC, DOCX까지 다양한 문서 포맷을 아우르는 변환기를 만들어보았습니다. RAG를 위한 데이터 전처리에 고통받을 분들을 위해 공유해 둡니다. ✅ 지원 포맷.hwp (바이너리 형식의 한글 문서).hwpx (XML 기반 최신 한글 문서).pdf.doc (구 버전 MS 워드, catdoc 필요).docx (신형 MS 워드, python-docx) 📦 사전 준비필수 패키지 설치pip install olefile python-docx pymupdfsudo apt install catdoc # .doc 파일 지원용 🧠 각 포맷별 텍스트 추출 방식1. .. 2025. 6. 2.
RAG를 위한 HWP/PDF 문서 파싱 자동화(python) RAG(Retrieval-Augmented Generation)은 대규모 언어 모델(LLM)의 정확성과 신뢰성을 높이기 위해 외부 문서의 정보를 검색하고 결합해 응답을 생성하는 강력한 전략입니다. 하지만 RAG의 성능은 "좋은 텍스트 데이터"에 크게 의존합니다. 특히 한국어 환경에서는 .hwp 같은 한글 문서의 비중이 높아, 이를 효과적으로 파싱하는 작업이 중요합니다. 이번 포스트에서는 Python을 활용해 HWP 및 PDF 문서를 자동으로 텍스트로 변환하고 저장하는 실전 코드를 소개합니다. 이 코드는 이후 RAG 파이프라인에 쉽게 통합될 수 있도록 설계되었습니다. 기술 스택Python 3olefile: HWP의 OLE 구조를 분석zlib: HWP 내부 압축 해제fitz (PyMuPDF): PDF 텍스.. 2025. 6. 1.