LLM KV Cache GPU Calculator

Model Parameters

Hugging Face Model ID

Model Weights (GB)

Layers (L)

KV Heads (H)

Head Dimension (d)

Bytes per Element (B)

Max Context Length (T)

Total Users (U)

GPU Type

Peak Concurrency 30%

Safety Buffer (%)