Tags

3 페이지

Inference

로컬·온프레미스 추론 스택의 첫 관찰성 도구 — gpum v1.1.0과 TokenSpeed

로컬·온프레미스 추론 스택의 첫 관찰성 도구 — gpum v1.1.0과 TokenSpeed

DGX Spark에서 Qwen3.5-122B를 28.3에서 51 tok/s로 끌어올린 추론 최적화 레시피

DGX Spark에서 Qwen3.5-122B를 28.3에서 51 tok/s로 끌어올린 추론 최적화 레시피

LLMLingua 시리즈 — 프롬프트를 20배까지 압축하는 Microsoft의 저평가 도구

LLMLingua 시리즈 — 프롬프트를 20배까지 압축하는 Microsoft의 저평가 도구