Qwen3.6-35B-A3B 커뮤니티 리뷰: uncensored 변종, MTP 가속, Hermes 호환
목차
Alibaba가 2026년 4월 출시한 Qwen3.6-35B-A3B는 총 파라미터 35B에 토큰당 활성 파라미터 약 3B인 MoE 모델이다. 기본 컨텍스트 262K, 공식 SWE-bench 점수 73.4%. 출시 두 달 만에 로컬 LLM 커뮤니티에서 가장 많이 테스트된 35B급 모델이 됐다.
이 글은 Reddit, HackerNews, 개인 블로그에서 공유된 커뮤니티 경험을 모은 것이다. 개인 사례가 많으므로 독립 재현이 필요하고, 환경(하드웨어, 드라이버, 설정)에 따라 결과가 달라진다.
기본 스펙
| 항목 | 값 |
|---|---|
| 아키텍처 | MoE (256 experts, 토큰당 8 routed + 1 shared) |
| 파라미터 | 35B total / ~3B active |
| 컨텍스트 | 262K (YaRN으로 1M까지 확장) |
| 멀티모달 | 텍스트, 이미지, 비디오 |
| 라이선스 | Apache 2.0 |
공식 벤치마크(Alibaba 발표 기준): SWE-bench 73.4%, GPQA 86.0, LiveCodeBench v6 80.7, MMLU-Pro 85.2, AIME 2026 92.7.
uncensored 변종 비교
베이스 모델은 특정 주제에 대해 거절 응답이 많다. 커뮤니티에서는 refusal을 제거하거나 줄인 변종을 여럿 만들었다.
HauhauCS Aggressive
r/hermesagent 커뮤니티 변종 종합 가이드에 따르면 2026년 6월 기준 다운로드 122만 건, 좋아요 761개로 uncensored 변종 중 가장 많이 검증됐다. 제작자는 465회 테스트에서 refusal 0회, 베이스 모델과 동일한 품질을 주장했다. VRAM은 Q4_K_P 기준 약 22GB, IQ4_XS 기준 약 20GB다. 긴 agentic loop에서 topic drift가 간헐적으로 발생한다고 제작자 본인도 인정했다.
커뮤니티 평가를 한 마디로 요약하면, 질문한 것만 답하고 사용자가 이상한 질문을 해야만 이상한 답이 나온다는 평이 많다(r/hermesagent 가이드 참고).
다른 uncensored 변종
| 변종 | 기법 | 다운로드 | 비고 |
|---|---|---|---|
| Wasserstein (LuffyTheFox) | 임베딩 공간 Wasserstein distance 기반 | 455K | 다른 uncensoring 경로라 edge case 행동이 다를 수 있음 |
| heretic (llmfan46) | abliteration + decensor hybrid | 53K | KL divergence 0.0015, 거절 88% 감소 |
| huihui-ai Abliterated | 순수 abliteration | 19K | 제작자가 “개념 증명 수준"이라 평가 |
Hermes Agent 사용 후기
장점
r/hermesagent 가이드와 r/LocalLLM tool calling 테스트에서 나온 긍정적 평가:
- Tool calling: Qwen3.5 대비 안정성 개선. MCPMark 점수 37.0 (개인 측정).
- 코딩: 코드베이스 전체 분석, 수정 능력이 좋다는 평이 많음.
- 추론: 추론 깊이가 길고 복잡한 문제에 강하다.
- 가성비: 약 21GB VRAM에서 frontier급 성능을 기대할 수 있다는 평가.
Simon Willison은 자신의 블로그에서 “노트북에서 Qwen3.6이 Claude Opus 4.7보다 나은 펠리컨을 그렸다”고 적었다. HN 코멘트에는 “Power Ranking 태스크 98개 중 11개 해결"이라는 사례도 올라왔다. 두 사례 모두 개별 데이터 포인트다.
문제점
HackerNoon 분석 및 커뮤니티 스레드에서 공통으로 지적된 문제:
- Tool call loop: 같은 tool을 반복 호출하는 버그가 가장 흔하다.
- Topic drift: 긴 agentic loop에서 주제 이탈이 발생한다.
- Temperature 민감도: temp=1.0이 repetition과 looping을 줄이는 데 효과적이다. 기본값 0.6~0.8에서는 루프가 더 잦다.
- 코드 재현: distilled 변종에서 코드 재현 시 실수 가능성이 있다.
권장 설정
temp=1.0, top_k=20, presence_penalty=1.5, top_p=0.95
--jinja --reasoning-budget 4096 --spec-type draft-mtp # MTP 활성화 시
enable_thinking: false # tool call parsing 방해 시
MTP 가속 실측치
MTP(Multi-Token Prediction)는 여러 토큰을 한 번에 예측해 생성 속도를 높이는 기법이다. llama.cpp에서 --spec-type draft-mtp로 활성화한다. VRAM 용량별 결과가 크게 다르다.
12GB VRAM (RTX 4070 Super)
r/LocalLLaMA K_P quants 스레드에서 공유된 실측치. 설정: -fitt 1536, --spec-draft-n-max 2, -ctk/-ctv q8_0.
- 결과: 70~82 tok/s, 128K 컨텍스트 기준
- acceptance rate: 0.69~0.95 (작업마다 편차가 크다)
- 12GB VRAM에서 35B급 모델을 128K 컨텍스트로 실행할 수 있다.
16GB VRAM (RTX 5080)
| 설정 | 속도 |
|---|---|
| Q4_K_XL + MTP | 74 tok/s (acceptance ~79.5%) |
| Q4_K_XL, MTP 없음, 짧은 컨텍스트 | 97 tok/s |
| Q4_K_XL, MTP 없음, 128K 컨텍스트 | 56 tok/s |
128K 컨텍스트에서 prompt processing은 약 1,584 tok/s (처리 시간 약 81초). MTP가 효과를 내려면 모델 전체가 VRAM에 올라가야 한다. MTP compute buffer 때문에 VRAM 여유가 줄어들면, MoE expert layer가 CPU로 밀리고 그 병목 때문에 MTP 없을 때보다 느려질 수 있다.
주요 변종 요약
| 변종 | 타입 | 다운로드 | VRAM | MTP | 비고 |
|---|---|---|---|---|---|
| Qwopus v1 | Reasoning Distilled | 299K | ~22GB | 미출시 | temp=1.0 권장 |
| lordx64 Opus 4.7 | Reasoning Distilled | 158K | ~22GB | APEX 경유 | 가장 깔끔한 reasoning trace |
| hesamation Opus 4.6 | Reasoning Distilled | 206K | ~22GB | APEX 경유 | MMLU-Pro 75.71% (70문항) |
| HauhauCS Aggressive | Uncensored | 1.22M | ~22GB | 미출시 | 다운로드 최다, 가장 많이 검증 |
| heretic | Abliterated | 54K | ~22GB | 내장 | KL divergence 0.0015 |
| unsloth MTP | Vanilla+MTP | 548K | ~23GB | 내장 | MTP 참조 구현 |
| mudler APEX MTP | APEX+MTP | 33K | ~18GB | 내장 | 품질/용량 비율 우수 |
한계와 미해결 항목
- 커뮤니티 데이터이므로 독립 재현이 필요하다.
- llama.cpp에서 MTP와 Vision(
--mmproj)을 병렬 사용하지 못한다. - Qwopus + MTP 조합, HauhauCS Balanced/Moderate 변종은 요청이 많지만 아직 미출시다.
- 24GB 이상 GPU에서 MTP 성능 데이터는 아직 부족하다.
함께 보면 좋을 자료
- r/hermesagent 커뮤니티 변종 가이드: 변종 비교 상세 정리
- Simon Willison’s Weblog: 노트북 실행 후기
- LushBinary: Hermes Agent + Qwen 3.6 셋업 가이드: 통합 실행 방법
- HackerNoon: Qwen3.6-35B-A3B Uncensored 소개: 모델 개요 및 262K 컨텍스트
참고 자료
- r/hermesagent: Qwen3.6-35B-A3B 커뮤니티 변종 종합 가이드: 조회일 2026-06-30
- r/LocalLLaMA: K_P quants 및 MTP 실측: 조회일 2026-06-30
- HackerNoon: Qwen3.6-35B-A3B Uncensored: 조회일 2026-06-30
- Simon Willison: Qwen3.6 vs Claude Opus 4.7: 조회일 2026-06-30
- HN: Qwen 3.6 35B A3B coding benchmarks: 조회일 2026-06-30
- r/LocalLLM: tool calling 테스트: 조회일 2026-06-30
- LushBinary: Hermes Agent Qwen 3.6 셋업: 조회일 2026-06-30