본문 바로가기

언어모델2

RAG를 위한 HWP/PDF 문서 파싱 자동화(python) RAG(Retrieval-Augmented Generation)은 대규모 언어 모델(LLM)의 정확성과 신뢰성을 높이기 위해 외부 문서의 정보를 검색하고 결합해 응답을 생성하는 강력한 전략입니다. 하지만 RAG의 성능은 "좋은 텍스트 데이터"에 크게 의존합니다. 특히 한국어 환경에서는 .hwp 같은 한글 문서의 비중이 높아, 이를 효과적으로 파싱하는 작업이 중요합니다. 이번 포스트에서는 Python을 활용해 HWP 및 PDF 문서를 자동으로 텍스트로 변환하고 저장하는 실전 코드를 소개합니다. 이 코드는 이후 RAG 파이프라인에 쉽게 통합될 수 있도록 설계되었습니다. 기술 스택Python 3olefile: HWP의 OLE 구조를 분석zlib: HWP 내부 압축 해제fitz (PyMuPDF): PDF 텍스.. 2025. 6. 1.
인기 LLM 기반 유료 AI 툴 리뷰: ChatGPT, Claude, Perplexity, Cursor 1. ChatGPT - 강력한 대화형 AI의 표준장점:친숙한 UI와 범용성: 초보자부터 전문가까지 쉽게 접근 가능한 UI를 제공하며, 다양한 용도로 사용하기에 편리합니다.안정적인 답변 제공: 질문에 대한 일관되고 신뢰할 만한 답변을 제시해 신뢰도가 높습니다.이미지 생성 기능 지원: DALL-E를 이용해 이미지 생성이 가능하여 텍스트뿐만 아니라 시각적인 콘텐츠도 제작할 수 있습니다.데이터 분석: 간단한 데이터 집계, 연산, 도식화 등 데이터 분석에 매우 유용합니다.GPTs 도구 활용 가능: 다양한 사용자 맞춤형 도구들이 제공되어, 작업의 효율성을 크게 높여줍니다.2. Claude - 고성능 대화형 AI장점:뛰어난 성능: 다양한 지표에서 높은 성능을 보이지만, ChatGPT 대비 확실한 우위는 느끼기 어려웠.. 2024. 9. 26.