Pragmatic LLM Search

Pragmatic LLM Search — RAG 기반 SaaS

🎯 개요

Pragmatic LLM Search

검색 증강 생성(RAG)을 기반으로 한 단순 챗봇이 아니라,

응답 품질 · 추론 비용 · 지연 시간의 균형을 목표로 설계된 LLM 검색 및 요약 SaaS 파이프라인입니다.

1차 개발을 완료하고

실제 사용자 흐름을 가정한 SaaS MVP 형태로 배포되었습니다.


✨ 주요 특징

  • RAG 기반 검색·요약·응답 생성 파이프라인
  • Planning 단계 도입으로 검색 API 호출을 동적으로 제어
  • Reranker 기반 컨텍스트 품질 개선
  • 추론·검색 결과·응답 로그를 활용한 운영 최적화 구조
  • Hugging Face Spaces 기반 MVP 배포

🏗️ 시스템 아키텍처

Document Indexing

→ Retrieval

→ Reranking

→ Context Refinement

→ Generation

각 단계는 독립적으로 최적화 가능하도록 분리 설계되었습니다.

설계 상세 문서


🔑 핵심 기능

🧭 Planning

  • 질문 문맥을 분석하여 검색 쿼리 동적 생성
  • 내부 DB / 캐시 / 외부 Search API 호출 여부 판단
  • 불필요한 검색 및 LLM 호출 최소화

🧾 Summarize

  • 긴 문맥을 요약하여 컨텍스트 길이 축소
  • generation 단계의 history 필드 구성에 활용
  • 추론 비용과 응답 품질 간 균형 조절

✍️ Generation

  • 제공된 문맥을 종합·검증·요약하여 최종 응답 생성
  • 파이프라인 단계별 결과를 반영한 prompt 구성

🔐 사용자 세션 관리

  • Hugging Face OAuth 기반 로그인
  • 대화 기록 영구 저장
  • 다중 대화 세션 관리 가능

⚙️ 구현 세부 사항

  • 지능형 검색·생성 파이프라인
    • 내부 DB 검색 + 캐시 우선 조회
    • 필요 시에만 외부 Search API 호출
  • 비용 최적화 전략
    • 단일 요청에서 수집한 데이터들을 캐시 및 로그로 재사용
    • Planning 단계에서 LLM 추론 기반 검색 호출 횟수 제어
  • 추론 모니터링 및 로깅
    • 검색 결과, 컨텍스트, 응답, 비용 관련 메타데이터 기록
    • 추후 모델 개선 및 파이프라인 튜닝에 활용 가능

🧩 기술적 과제와 해결 접근

  • 검색 품질 저하 → Reranker 기반 결과 재정렬로 문맥 적합도 개선
  • 긴 문맥 처리 문제 → Chunking + 임베딩 후 청크별 추론 및 결과 종합
  • Prompt Engineering의 한계 → 파이프라인 단계별로 서로 다른 디코딩 전략 적용

📊 결과 및 평가

  • SaaS 형태의 MVP 라이브 데모 배포
  • 실제 사용 흐름을 기반으로 사용자 피드백 수집
  • 확장 가능한 검색·생성 파이프라인 구조 검증 완료

🔗 링크