Evals

홈 /
태그 /
Evals

LLM Observability 오픈소스 스택: LangSmith 대안 5종 비교

LLM 앱이나 AI 에이전트를 운영하다 보면 “어떤 프롬프트가 실패했고, 어떤 도구 호출이 막혔고, 왜 에이전트가 루프에 빠졌는가"를 추적해야 하는 시점이 온다. LangSmith는 LangChain이 만든 상용 LLM 관측 플랫폼으로, trace 시각화, 프롬프트 버저닝, eval을 한 곳에서 제공한다. 이 공간의 사실상 기본 선택지였지만, 사용량 기반 과금과 클라우드 중심 호스팅이 제약으로 작용해 자체 호스팅과 오픈소스를 선호하는 팀들이 대안을 찾기 시작했다.

Future AGI: AI 에이전트 평가·관찰·개선을 한곳에서

AI 에이전트를 만들어 본 사람은 이 장면이 익숙합니다. 데모는 잘 돕니다. 그런데 프로덕션에 올리면 환각이 터지고, 뭐가 왜 틀렸는지 추적이 안 됩니다. 그래서 평가 도구 하나, 관측 도구 하나, 가드레일 하나를 따로 붙이죠. 진짜 문제는 이것들이 서로 말을 안 한다는 겁니다. 고치는 루프가 닫히지 않습니다.