Qwen3.6-35B-A3B 커뮤니티 리뷰: uncensored 변종, MTP 가속, Hermes 호환

목차

Alibaba가 2026년 4월 출시한 Qwen3.6-35B-A3B는 총 파라미터 35B에 토큰당 활성 파라미터 약 3B인 MoE 모델이다. 기본 컨텍스트 262K, 공식 SWE-bench 점수 73.4%. 출시 두 달 만에 로컬 LLM 커뮤니티에서 가장 많이 테스트된 35B급 모델이 됐다.

이 글은 Reddit, HackerNews, 개인 블로그에서 공유된 커뮤니티 경험을 모은 것이다. 개인 사례가 많으므로 독립 재현이 필요하고, 환경(하드웨어, 드라이버, 설정)에 따라 결과가 달라진다.

기본 스펙

항목
아키텍처MoE (256 experts, 토큰당 8 routed + 1 shared)
파라미터35B total / ~3B active
컨텍스트262K (YaRN으로 1M까지 확장)
멀티모달텍스트, 이미지, 비디오
라이선스Apache 2.0

공식 벤치마크(Alibaba 발표 기준): SWE-bench 73.4%, GPQA 86.0, LiveCodeBench v6 80.7, MMLU-Pro 85.2, AIME 2026 92.7.

uncensored 변종 비교

베이스 모델은 특정 주제에 대해 거절 응답이 많다. 커뮤니티에서는 refusal을 제거하거나 줄인 변종을 여럿 만들었다.

HauhauCS Aggressive

r/hermesagent 커뮤니티 변종 종합 가이드에 따르면 2026년 6월 기준 다운로드 122만 건, 좋아요 761개로 uncensored 변종 중 가장 많이 검증됐다. 제작자는 465회 테스트에서 refusal 0회, 베이스 모델과 동일한 품질을 주장했다. VRAM은 Q4_K_P 기준 약 22GB, IQ4_XS 기준 약 20GB다. 긴 agentic loop에서 topic drift가 간헐적으로 발생한다고 제작자 본인도 인정했다.

커뮤니티 평가를 한 마디로 요약하면, 질문한 것만 답하고 사용자가 이상한 질문을 해야만 이상한 답이 나온다는 평이 많다(r/hermesagent 가이드 참고).

다른 uncensored 변종

변종기법다운로드비고
Wasserstein (LuffyTheFox)임베딩 공간 Wasserstein distance 기반455K다른 uncensoring 경로라 edge case 행동이 다를 수 있음
heretic (llmfan46)abliteration + decensor hybrid53KKL divergence 0.0015, 거절 88% 감소
huihui-ai Abliterated순수 abliteration19K제작자가 “개념 증명 수준"이라 평가

Hermes Agent 사용 후기

장점

r/hermesagent 가이드r/LocalLLM tool calling 테스트에서 나온 긍정적 평가:

  • Tool calling: Qwen3.5 대비 안정성 개선. MCPMark 점수 37.0 (개인 측정).
  • 코딩: 코드베이스 전체 분석, 수정 능력이 좋다는 평이 많음.
  • 추론: 추론 깊이가 길고 복잡한 문제에 강하다.
  • 가성비: 약 21GB VRAM에서 frontier급 성능을 기대할 수 있다는 평가.

Simon Willison은 자신의 블로그에서 “노트북에서 Qwen3.6이 Claude Opus 4.7보다 나은 펠리컨을 그렸다”고 적었다. HN 코멘트에는 “Power Ranking 태스크 98개 중 11개 해결"이라는 사례도 올라왔다. 두 사례 모두 개별 데이터 포인트다.

문제점

HackerNoon 분석 및 커뮤니티 스레드에서 공통으로 지적된 문제:

  • Tool call loop: 같은 tool을 반복 호출하는 버그가 가장 흔하다.
  • Topic drift: 긴 agentic loop에서 주제 이탈이 발생한다.
  • Temperature 민감도: temp=1.0이 repetition과 looping을 줄이는 데 효과적이다. 기본값 0.6~0.8에서는 루프가 더 잦다.
  • 코드 재현: distilled 변종에서 코드 재현 시 실수 가능성이 있다.

권장 설정

temp=1.0, top_k=20, presence_penalty=1.5, top_p=0.95
--jinja --reasoning-budget 4096 --spec-type draft-mtp  # MTP 활성화 시
enable_thinking: false  # tool call parsing 방해 시

MTP 가속 실측치

MTP(Multi-Token Prediction)는 여러 토큰을 한 번에 예측해 생성 속도를 높이는 기법이다. llama.cpp에서 --spec-type draft-mtp로 활성화한다. VRAM 용량별 결과가 크게 다르다.

12GB VRAM (RTX 4070 Super)

r/LocalLLaMA K_P quants 스레드에서 공유된 실측치. 설정: -fitt 1536, --spec-draft-n-max 2, -ctk/-ctv q8_0.

  • 결과: 70~82 tok/s, 128K 컨텍스트 기준
  • acceptance rate: 0.69~0.95 (작업마다 편차가 크다)
  • 12GB VRAM에서 35B급 모델을 128K 컨텍스트로 실행할 수 있다.

16GB VRAM (RTX 5080)

설정속도
Q4_K_XL + MTP74 tok/s (acceptance ~79.5%)
Q4_K_XL, MTP 없음, 짧은 컨텍스트97 tok/s
Q4_K_XL, MTP 없음, 128K 컨텍스트56 tok/s

128K 컨텍스트에서 prompt processing은 약 1,584 tok/s (처리 시간 약 81초). MTP가 효과를 내려면 모델 전체가 VRAM에 올라가야 한다. MTP compute buffer 때문에 VRAM 여유가 줄어들면, MoE expert layer가 CPU로 밀리고 그 병목 때문에 MTP 없을 때보다 느려질 수 있다.

주요 변종 요약

변종타입다운로드VRAMMTP비고
Qwopus v1Reasoning Distilled299K~22GB미출시temp=1.0 권장
lordx64 Opus 4.7Reasoning Distilled158K~22GBAPEX 경유가장 깔끔한 reasoning trace
hesamation Opus 4.6Reasoning Distilled206K~22GBAPEX 경유MMLU-Pro 75.71% (70문항)
HauhauCS AggressiveUncensored1.22M~22GB미출시다운로드 최다, 가장 많이 검증
hereticAbliterated54K~22GB내장KL divergence 0.0015
unsloth MTPVanilla+MTP548K~23GB내장MTP 참조 구현
mudler APEX MTPAPEX+MTP33K~18GB내장품질/용량 비율 우수

한계와 미해결 항목

  • 커뮤니티 데이터이므로 독립 재현이 필요하다.
  • llama.cpp에서 MTP와 Vision(--mmproj)을 병렬 사용하지 못한다.
  • Qwopus + MTP 조합, HauhauCS Balanced/Moderate 변종은 요청이 많지만 아직 미출시다.
  • 24GB 이상 GPU에서 MTP 성능 데이터는 아직 부족하다.

함께 보면 좋을 자료

참고 자료

공유 :