Cloudflare ブログ

新規投稿のお知らせを受信されたい方は、サブスクリプションをご登録ください：

Ivan Nikulin

軽量化：品質を犠牲にせずにLLMを22%圧縮した方法

2026-04-17

Cloudflareのネットワーク全体でLLMを実行するには、GPUメモリ帯域幅についてよりスマートで効率的になる必要があります。そこで当社は、最高22%のモデルフットプリント削減を実現するロスレスな推論時間圧縮システムUnweightを開発しました。これにより、かつてないほど高速かつ安価な推論を提供できるようになりました。...

Mari Galicer
Ivan Nikulin
Chris Branch