AI

Harness-1: 상태 외부화 하네스로 학습한 검색 에이전트

검색 에이전트와 상태 관리 문제 검색 에이전트(search agent)는 질문 하나에 답하기 위해 여러 차례 검색을 반복하는 AI 에이전트다. 키워드 하나로 끝나는 단순 검색과 달리, 중간 결과를 보면서 다음 검색 전략을 조정하고, 문서를 비교하고, 주장의 근거가 실제로 있는지 확인하는 과정을 거친다. 금융 공시 분석, 복잡한 법령 해석, 멀티홉 사실 확인처럼 한 번의 검색으로 답이 나오지 않는 작업에 쓰인다.

LLM Observability 오픈소스 스택: LangSmith 대안 5종 비교

LLM 앱이나 AI 에이전트를 운영하다 보면 “어떤 프롬프트가 실패했고, 어떤 도구 호출이 막혔고, 왜 에이전트가 루프에 빠졌는가"를 추적해야 하는 시점이 온다. LangSmith는 LangChain이 만든 상용 LLM 관측 플랫폼으로, trace 시각화, 프롬프트 버저닝, eval을 한 곳에서 제공한다. 이 공간의 사실상 기본 선택지였지만, 사용량 기반 과금과 클라우드 중심 호스팅이 제약으로 작용해 자체 호스팅과 오픈소스를 선호하는 팀들이 대안을 찾기 시작했다.

DeepSWE: 코딩 에이전트를 장기 과제로 평가하는 벤치마크

코딩 에이전트를 평가할 때 SWE-bench가 오랫동안 기준이었습니다. 그런데 SWE-bench의 태스크 대부분은 단일 파일 버그 수정이고, 정답이 이미 공개 커밋에 있습니다. 에이전트가 모델 학습 데이터에서 본 답을 그대로 재현하는 건지, 진짜로 코드를 이해하고 고치는 건지 구분하기 어렵습니다.

Mixture of Agents(MoA): 여러 LLM을 쌓아 GPT-4 Omni를 넘은 방법

모델 한 개를 더 크게 만드는 대신, 여러 모델을 계층으로 쌓아 서로 출력을 다듬게 하는 방법이 있다. Together AI 연구진이 2024년 6월 발표한 논문 arXiv:2406.04692이 그 접근을 공개했다. 오픈소스 모델만 조합한 MoA(Mixture of Agents)가 AlpacaEval 2.0에서 GPT-4 Omni를 7.6%p 앞섰다.

Open Knowledge Format(OKF): 에이전트용 지식 표현 개방형 포맷

AI 에이전트가 실패하는 원인을 들여다보면 모델 성능보다 맥락의 부재가 먼저 나오는 경우가 많습니다. 테이블 스키마, 지표 계산법, 장애 대응 런북, 두 시스템 사이의 join path가 카탈로그 벤더, 사내 위키, 코드 주석, 개인 노트에 흩어져 있고, 에이전트 개발자마다 같은 context assembly 문제를 처음부터 다시 풉니다.

Qwen3.6-35B-A3B 커뮤니티 리뷰: uncensored 변종, MTP 가속, Hermes 호환

Alibaba가 2026년 4월 출시한 Qwen3.6-35B-A3B는 총 파라미터 35B에 토큰당 활성 파라미터 약 3B인 MoE 모델이다. 기본 컨텍스트 262K, 공식 SWE-bench 점수 73.4%. 출시 두 달 만에 로컬 LLM 커뮤니티에서 가장 많이 테스트된 35B급 모델이 됐다.

Robot Learning: A Tutorial (고전 로보틱스에서 VLA까지)

“Robot Learning: A Tutorial”(arXiv:2510.12403)은 Francesco Capuano, Caroline Pascal, Adil Zouitine, Thomas Wolf, Michel Aractingi가 작성한 논문 형식의 튜토리얼이다. University of Oxford와 Hugging Face 소속 저자들이 LeRobot 라이브러리를 기반으로 고전 로보틱스부터 강화학습, 모방 학습, Vision-Language-Action 모델까지 로봇 학습 전반을 한 편에 담았다.

VibeThinker-3B: 검증 가능한 추론을 3B 모델에 압축한 실험

“작은 모델이 큰 모델을 이겼다"는 주장은 논문마다 나옵니다. 보통은 특정 벤치마크 하나에서의 결과를 두고 하는 말입니다. Sina Weibo의 WeiboAI팀이 2026년 6월 15일 공개한 VibeThinker-3B 역시 비슷한 구조의 주장을 합니다. 다만 논문이 조심스럽게 선을 긋는 부분이 있습니다. “작은 모델이 모든 걸 대체한다"가 아니라, 검증 가능한 추론(verifiable reasoning) 영역만큼은 작은 모델로 압축될 수 있다는 겁니다.

Future AGI: AI 에이전트 평가·관찰·개선을 한곳에서

AI 에이전트를 만들어 본 사람은 이 장면이 익숙합니다. 데모는 잘 돕니다. 그런데 프로덕션에 올리면 환각이 터지고, 뭐가 왜 틀렸는지 추적이 안 됩니다. 그래서 평가 도구 하나, 관측 도구 하나, 가드레일 하나를 따로 붙이죠. 진짜 문제는 이것들이 서로 말을 안 한다는 겁니다. 고치는 루프가 닫히지 않습니다.