Blog Posts

홈 /
Blog Posts

DeepSWE: 코딩 에이전트를 장기 과제로 평가하는 벤치마크

코딩 에이전트를 평가할 때 SWE-bench가 오랫동안 기준이었습니다. 그런데 SWE-bench의 태스크 대부분은 단일 파일 버그 수정이고, 정답이 이미 공개 커밋에 있습니다. 에이전트가 모델 학습 데이터에서 본 답을 그대로 재현하는 건지, 진짜로 코드를 이해하고 고치는 건지 구분하기 어렵습니다.

FHE·SP1·Groth16로 보는 비밀 투표 아키텍처

비밀 투표를 온체인에서 구현하면 즉시 세 가지 긴장이 생깁니다. 표 내용을 숨겨야 하는데 집계는 해야 하고, 오프체인 연산을 신뢰할 수 없는데 결과는 온체인에 확정해야 하며, EVM이 무거운 암호 연산을 직접 실행하기 어려운데 검증은 해야 합니다. FHE(완전 동형 암호), SP1 zkVM, Groth16 SNARK는 각각 이 세 가지 긴장을 담당합니다.

Mixture of Agents(MoA): 여러 LLM을 쌓아 GPT-4 Omni를 넘은 방법

모델 한 개를 더 크게 만드는 대신, 여러 모델을 계층으로 쌓아 서로 출력을 다듬게 하는 방법이 있다. Together AI 연구진이 2024년 6월 발표한 논문 arXiv:2406.04692이 그 접근을 공개했다. 오픈소스 모델만 조합한 MoA(Mixture of Agents)가 AlpacaEval 2.0에서 GPT-4 Omni를 7.6%p 앞섰다.

Open Knowledge Format(OKF): 에이전트용 지식 표현 개방형 포맷

AI 에이전트가 실패하는 원인을 들여다보면 모델 성능보다 맥락의 부재가 먼저 나오는 경우가 많습니다. 테이블 스키마, 지표 계산법, 장애 대응 런북, 두 시스템 사이의 join path가 카탈로그 벤더, 사내 위키, 코드 주석, 개인 노트에 흩어져 있고, 에이전트 개발자마다 같은 context assembly 문제를 처음부터 다시 풉니다.

Qwen3.6-35B-A3B 커뮤니티 리뷰: uncensored 변종, MTP 가속, Hermes 호환

Alibaba가 2026년 4월 출시한 Qwen3.6-35B-A3B는 총 파라미터 35B에 토큰당 활성 파라미터 약 3B인 MoE 모델이다. 기본 컨텍스트 262K, 공식 SWE-bench 점수 73.4%. 출시 두 달 만에 로컬 LLM 커뮤니티에서 가장 많이 테스트된 35B급 모델이 됐다.

Robot Learning: A Tutorial (고전 로보틱스에서 VLA까지)

“Robot Learning: A Tutorial”(arXiv:2510.12403)은 Francesco Capuano, Caroline Pascal, Adil Zouitine, Thomas Wolf, Michel Aractingi가 작성한 논문 형식의 튜토리얼이다. University of Oxford와 Hugging Face 소속 저자들이 LeRobot 라이브러리를 기반으로 고전 로보틱스부터 강화학습, 모방 학습, Vision-Language-Action 모델까지 로봇 학습 전반을 한 편에 담았다.

VibeThinker-3B: 검증 가능한 추론을 3B 모델에 압축한 실험

“작은 모델이 큰 모델을 이겼다"는 주장은 논문마다 나옵니다. 보통은 특정 벤치마크 하나에서의 결과를 두고 하는 말입니다. Sina Weibo의 WeiboAI팀이 2026년 6월 15일 공개한 VibeThinker-3B 역시 비슷한 구조의 주장을 합니다. 다만 논문이 조심스럽게 선을 긋는 부분이 있습니다. “작은 모델이 모든 걸 대체한다"가 아니라, 검증 가능한 추론(verifiable reasoning) 영역만큼은 작은 모델로 압축될 수 있다는 겁니다.

Future AGI: AI 에이전트 평가·관찰·개선을 한곳에서

AI 에이전트를 만들어 본 사람은 이 장면이 익숙합니다. 데모는 잘 돕니다. 그런데 프로덕션에 올리면 환각이 터지고, 뭐가 왜 틀렸는지 추적이 안 됩니다. 그래서 평가 도구 하나, 관측 도구 하나, 가드레일 하나를 따로 붙이죠. 진짜 문제는 이것들이 서로 말을 안 한다는 겁니다. 고치는 루프가 닫히지 않습니다.

Blog Posts

DeepSWE: 코딩 에이전트를 장기 과제로 평가하는 벤치마크

FHE·SP1·Groth16로 보는 비밀 투표 아키텍처

Mixture of Agents(MoA): 여러 LLM을 쌓아 GPT-4 Omni를 넘은 방법

Open Knowledge Format(OKF): 에이전트용 지식 표현 개방형 포맷

Qwen3.6-35B-A3B 커뮤니티 리뷰: uncensored 변종, MTP 가속, Hermes 호환

Robot Learning: A Tutorial (고전 로보틱스에서 VLA까지)

VibeThinker-3B: 검증 가능한 추론을 3B 모델에 압축한 실험

Future AGI: AI 에이전트 평가·관찰·개선을 한곳에서

카테고리

태그