Ivan Nikulin

Unweight: 품질을 희생하지 않고 LLM을 22% 압축한 방법

2026-04-17

Cloudflare의 네트워크에서 LLM을 실행하려면 GPU 메모리 대역폭에 대해 더 현명하고 더 효율적이어야 합니다. 그래서 당사에서는 최대 22%의 모델 공간 축소를 달성하는 무손실 추론 시간 압축 시스템인 Unweight를 개발하여 그 어느 때보다 더 빠르고 저렴하게 추론을 제공할 수 있습니다....

Mari Galicer
Ivan Nikulin
Chris Branch