convert1 다양한 문서 포맷(HWP, HWPX, PDF, DOC, DOCX) 텍스트 추출 자동화하기 이전 글에서는 .hwp와 .pdf 파일에서 텍스트를 추출해 .txt로 저장하는 간단한 자동화 코드를 소개했었습니다. 이번에는 그 범위를 확장해 HWPX, DOC, DOCX까지 다양한 문서 포맷을 아우르는 변환기를 만들어보았습니다. RAG를 위한 데이터 전처리에 고통받을 분들을 위해 공유해 둡니다. ✅ 지원 포맷.hwp (바이너리 형식의 한글 문서).hwpx (XML 기반 최신 한글 문서).pdf.doc (구 버전 MS 워드, catdoc 필요).docx (신형 MS 워드, python-docx) 📦 사전 준비필수 패키지 설치pip install olefile python-docx pymupdfsudo apt install catdoc # .doc 파일 지원용 🧠 각 포맷별 텍스트 추출 방식1. .. 2025. 6. 2. 이전 1 다음