Pragmatic LLM Search

•

Pragmatic LLM Search — RAG 기반 SaaS

🎯 개요

Pragmatic LLM Search는

검색 증강 생성(RAG)을 기반으로 한 단순 챗봇이 아니라,

응답 품질 · 추론 비용 · 지연 시간의 균형을 목표로 설계된 LLM 검색 및 요약 SaaS 파이프라인입니다.

1차 개발을 완료하고

실제 사용자 흐름을 가정한 SaaS MVP 형태로 배포되었습니다.

✨ 주요 특징

RAG 기반 검색·요약·응답 생성 파이프라인
Planning 단계 도입으로 검색 API 호출을 동적으로 제어
Reranker 기반 컨텍스트 품질 개선
추론·검색 결과·응답 로그를 활용한 운영 최적화 구조
Hugging Face Spaces 기반 MVP 배포

🏗️ 시스템 아키텍처

Document Indexing

→ Retrieval

→ Reranking

→ Context Refinement

→ Generation

각 단계는 독립적으로 최적화 가능하도록 분리 설계되었습니다.

→ 설계 상세 문서

🔑 핵심 기능

🧭 Planning

질문 문맥을 분석하여 검색 쿼리 동적 생성
내부 DB / 캐시 / 외부 Search API 호출 여부 판단
불필요한 검색 및 LLM 호출 최소화

🧾 Summarize

긴 문맥을 요약하여 컨텍스트 길이 축소
generation 단계의 history 필드 구성에 활용
추론 비용과 응답 품질 간 균형 조절

✍️ Generation

제공된 문맥을 종합·검증·요약하여 최종 응답 생성
파이프라인 단계별 결과를 반영한 prompt 구성

🔐 사용자 세션 관리

Hugging Face OAuth 기반 로그인
대화 기록 영구 저장
다중 대화 세션 관리 가능

⚙️ 구현 세부 사항

지능형 검색·생성 파이프라인
- 내부 DB 검색 + 캐시 우선 조회
- 필요 시에만 외부 Search API 호출
비용 최적화 전략
- 단일 요청에서 수집한 데이터들을 캐시 및 로그로 재사용
- Planning 단계에서 LLM 추론 기반 검색 호출 횟수 제어
추론 모니터링 및 로깅
- 검색 결과, 컨텍스트, 응답, 비용 관련 메타데이터 기록
- 추후 모델 개선 및 파이프라인 튜닝에 활용 가능

🧩 기술적 과제와 해결 접근

검색 품질 저하 → Reranker 기반 결과 재정렬로 문맥 적합도 개선
긴 문맥 처리 문제 → Chunking + 임베딩 후 청크별 추론 및 결과 종합
Prompt Engineering의 한계 → 파이프라인 단계별로 서로 다른 디코딩 전략 적용

📊 결과 및 평가

SaaS 형태의 MVP 라이브 데모 배포
실제 사용 흐름을 기반으로 사용자 피드백 수집
확장 가능한 검색·생성 파이프라인 구조 검증 완료

🔗 링크