sLLM3 OpenAI의 공개모델 gpt-oss 에 대한 생각 gpt-oss 의 핵심 의의 OpenAI가 2025년 8월 공개한 gpt‑oss 시리즈는 두 가지 크기로 제공됩니다.20B 모델은 21 억 파라미터 중 3.6 억만 활성화되는 Mixture‑of‑Experts 구조로 설계되어, 16 GB 메모리 또는 RTX 3090과 같은 고급 소비자 GPU에서 실행될 수 있습니다.120B 모델은 117 억 파라미터(활성 파라미터 5.1 억)로, H100 같은 80 GB급 데이터센터 GPU가 필요합니다.두 모델 모두 오픈 웨이트 방식으로 제공돼 개발자가 자유롭게 수정·추론할 수 있습니다. 각각 개인용, 사업용 분야에서 왠만한 일은 할 수 있는 기준선이 gpt-oss로 그어진 것 같습니다. 모델별 상세 20B: RTX 3090급 하드웨어를 겨냥한 경량 모델사양: 24층.. 2025. 8. 13. RAG를 위한 HWP/PDF 문서 파싱 자동화(python) RAG(Retrieval-Augmented Generation)은 대규모 언어 모델(LLM)의 정확성과 신뢰성을 높이기 위해 외부 문서의 정보를 검색하고 결합해 응답을 생성하는 강력한 전략입니다. 하지만 RAG의 성능은 "좋은 텍스트 데이터"에 크게 의존합니다. 특히 한국어 환경에서는 .hwp 같은 한글 문서의 비중이 높아, 이를 효과적으로 파싱하는 작업이 중요합니다. 이번 포스트에서는 Python을 활용해 HWP 및 PDF 문서를 자동으로 텍스트로 변환하고 저장하는 실전 코드를 소개합니다. 이 코드는 이후 RAG 파이프라인에 쉽게 통합될 수 있도록 설계되었습니다. 기술 스택Python 3olefile: HWP의 OLE 구조를 분석zlib: HWP 내부 압축 해제fitz (PyMuPDF): PDF 텍스.. 2025. 6. 1. 윈도우에서 gemma3 로컬 활용하기(ollama활용, sLLM) 최근 microsoft에서 발표한 gemma3가 상당한 성능을 자랑 최근 microsoft에서 발표한 gemma3가 상당한 성능을 자랑하기에 간략한 사용법을 설명드리려 합니다. 먼저 장점을 간략하게 확인하자면, 압도적인 가성비와 유용성입니다. 1. 뛰어난 성능 가성비 - 27B 모델으로 o3-mini 보다 높은 성능. llama 405b보다 높은 성능 2. 다국어 지원 - 140개국어 지원 3. 오픈소스 - 무료입니다.4. 멀티모달 - 이미지도 분석 가능합니다. 5. 128K Context window - GPT4, Claude3 모델보다 더 긴 내용을 한번에 입력/출력 가능합니다. 6. 공식 양자화 모델 제공 - 별도 양자화 하거나, 양자화된 모델을 찾을 필요 없이 활용 가능합니다. 준비사.. 2025. 3. 19. 이전 1 다음