Tags
2 페이지
Mtp
DGX Spark에서 Qwen3.5-122B를 28.3에서 51 tok/s로 끌어올린 추론 최적화 레시피
LiteRT-LM v0.11.0 — Gemma 4 MTP로 모바일 GPU 디코드 2배, Windows 네이티브 지원