Pragmatic LLM Search — RAG 기반 SaaS
🎯 개요
Pragmatic LLM Search는
검색 증강 생성(RAG)을 기반으로 한 단순 챗봇이 아니라,
응답 품질 · 추론 비용 · 지연 시간의 균형을 목표로 설계된 LLM 검색 및 요약 SaaS 파이프라인입니다.
1차 개발을 완료하고
실제 사용자 흐름을 가정한 SaaS MVP 형태로 배포되었습니다.
✨ 주요 특징
- RAG 기반 검색·요약·응답 생성 파이프라인
- Planning 단계 도입으로 검색 API 호출을 동적으로 제어
- Reranker 기반 컨텍스트 품질 개선
- 추론·검색 결과·응답 로그를 활용한 운영 최적화 구조
- Hugging Face Spaces 기반 MVP 배포
🏗️ 시스템 아키텍처
Document Indexing
→ Retrieval
→ Reranking
→ Context Refinement
→ Generation
각 단계는 독립적으로 최적화 가능하도록 분리 설계되었습니다.
→ 설계 상세 문서
🔑 핵심 기능
🧭 Planning
- 질문 문맥을 분석하여 검색 쿼리 동적 생성
- 내부 DB / 캐시 / 외부 Search API 호출 여부 판단
- 불필요한 검색 및 LLM 호출 최소화
🧾 Summarize
- 긴 문맥을 요약하여 컨텍스트 길이 축소
- generation 단계의 history 필드 구성에 활용
- 추론 비용과 응답 품질 간 균형 조절
✍️ Generation
- 제공된 문맥을 종합·검증·요약하여 최종 응답 생성
- 파이프라인 단계별 결과를 반영한 prompt 구성
🔐 사용자 세션 관리
- Hugging Face OAuth 기반 로그인
- 대화 기록 영구 저장
- 다중 대화 세션 관리 가능
⚙️ 구현 세부 사항
- 지능형 검색·생성 파이프라인
- 내부 DB 검색 + 캐시 우선 조회
- 필요 시에만 외부 Search API 호출
- 비용 최적화 전략
- 단일 요청에서 수집한 데이터들을 캐시 및 로그로 재사용
- Planning 단계에서 LLM 추론 기반 검색 호출 횟수 제어
- 추론 모니터링 및 로깅
- 검색 결과, 컨텍스트, 응답, 비용 관련 메타데이터 기록
- 추후 모델 개선 및 파이프라인 튜닝에 활용 가능
🧩 기술적 과제와 해결 접근
- 검색 품질 저하 → Reranker 기반 결과 재정렬로 문맥 적합도 개선
- 긴 문맥 처리 문제 → Chunking + 임베딩 후 청크별 추론 및 결과 종합
- Prompt Engineering의 한계 → 파이프라인 단계별로 서로 다른 디코딩 전략 적용
📊 결과 및 평가
- SaaS 형태의 MVP 라이브 데모 배포
- 실제 사용 흐름을 기반으로 사용자 피드백 수집
- 확장 가능한 검색·생성 파이프라인 구조 검증 완료