軽量化:品質を犠牲にせずにLLMを22%圧縮した方法
2026-04-17
Cloudflareのネットワーク全体でLLMを実行するには、GPUメモリ帯域幅についてよりスマートで効率的になる必要があります。そこで当社は、最高22%のモデルフットプリント削減を実現するロスレスな推論時間圧縮システムUnweightを開発しました。これにより、かつてないほど高速かつ安価な推論を提供できるようになりました。...

2026-04-17
Cloudflareのネットワーク全体でLLMを実行するには、GPUメモリ帯域幅についてよりスマートで効率的になる必要があります。そこで当社は、最高22%のモデルフットプリント削減を実現するロスレスな推論時間圧縮システムUnweightを開発しました。これにより、かつてないほど高速かつ安価な推論を提供できるようになりました。...