VRAM Calculation Guide for LLM Deployment

Template provided by VORLUX AI | vorluxai.com

The Fundamental Formula

Every large language model stores its intelligence as numerical parameters (weights). The amount of memory you need is determined by a simple equation:

VRAM (GB) = (Parameters in billions) x (Bytes per parameter) x 1.2 overhead factor

The 1.2 overhead factor accounts for KV cache, activation memory, and framework overhead during inference. For training or fine-tuning, multiply by 2-4x instead.

Quantization Factor Table

Quantization reduces the precision of each parameter to lower memory requirements. Here is the complete reference:

Quantization	Bytes per Param	7B Model	13B Model	34B Model	70B Model
FP32	4.00	33.6 GB	62.4 GB	163.2 GB	336.0 GB
FP16 / BF16	2.00	16.8 GB	31.2 GB	81.6 GB	168.0 GB
Q8_0 (8-bit)	1.00	8.4 GB	15.6 GB	40.8 GB	84.0 GB
Q5_K_M	0.63	5.3 GB	9.8 GB	25.7 GB	52.9 GB
Q4_K_M	0.50	4.2 GB	7.8 GB	20.4 GB	42.0 GB
Q3_K_M	0.38	3.2 GB	5.9 GB	15.5 GB	31.9 GB
Q2_K	0.25	2.1 GB	3.9 GB	10.2 GB	21.0 GB

Recommended sweet spot: Q4_K_M delivers 95%+ of full-precision quality at 25% of the memory cost. For production deployments, this is the default starting point.

Hardware Compatibility Matrix

Hardware	Available VRAM/RAM	Max Model (Q4_K_M)	Max Model (FP16)
NVIDIA RTX 3060 12GB	12 GB	13B	7B
NVIDIA RTX 4090 24GB	24 GB	34B	13B
NVIDIA A100 80GB	80 GB	120B	34B
NVIDIA H100 80GB	80 GB	120B	34B
Mac Mini M4 16GB	16 GB (unified)	22B	7B
Mac Mini M4 Pro 24GB	24 GB (unified)	34B	13B
MacBook Pro M3 Max 64GB	64 GB (unified)	100B	34B
NVIDIA Jetson Orin Nano 8GB	8 GB (unified)	7B	3B

Apple Silicon note: Macs use unified memory, meaning the full system RAM is available to the GPU. An M4 Pro with 24 GB can run models that would require a dedicated 24 GB GPU on x86 systems.

Context Length Impact

Longer context windows require additional KV cache memory. Add approximately:

4K context: +0.5 GB for 7B models
8K context: +1.0 GB for 7B models
32K context: +4.0 GB for 7B models
128K context: +16.0 GB for 7B models

Scale linearly with model size. A 70B model at 32K context needs roughly +40 GB for KV cache alone.

Decision Checklist

Identify your model — How many billion parameters?
Choose quantization — Q4_K_M for most use cases, FP16 for maximum quality
Calculate base VRAM — Use the formula above
Add context overhead — Based on your required context length
Add 20% buffer — For concurrent users or batch processing
Match to hardware — Select the cheapest device that fits

For sovereign edge deployments where VORLUX AI specialises, we typically recommend Mac Mini M4 Pro (24 GB) or NVIDIA Jetson Orin Nano (8 GB) as starting points for SME use cases.

Need help sizing hardware for your specific deployment? Contact VORLUX AI for a free consultation.

Versión Española

Guía de Cálculo de VRAM para Despliegue de LLMs

Plantilla proporcionada por VORLUX AI | vorluxai.com

La Fórmula Fundamental

Cada modelo de lenguaje grande almacena su inteligencia como parámetros numéricos (pesos). La cantidad de memoria necesaria se determina con una ecuación simple:

VRAM (GB) = (Parámetros en miles de millones) x (Bytes por parámetro) x 1.2 factor de overhead

El factor de overhead de 1.2 tiene en cuenta la caché KV, la memoria de activación y el overhead del framework durante la inferencia. Para entrenamiento o fine-tuning, multiplique por 2-4x en su lugar.

Tabla de Factores de Cuantización

La cuantización reduce la precisión de cada parámetro para disminuir los requisitos de memoria. Aquí está la referencia completa:

Cuantización	Bytes/Param	Modelo 7B	Modelo 13B	Modelo 34B	Modelo 70B
FP32	4,00	33,6 GB	62,4 GB	163,2 GB	336,0 GB
FP16 / BF16	2,00	16,8 GB	31,2 GB	81,6 GB	168,0 GB
Q8_0 (8-bit)	1,00	8,4 GB	15,6 GB	40,8 GB	84,0 GB
Q5_K_M	0,63	5,3 GB	9,8 GB	25,7 GB	52,9 GB
Q4_K_M	0,50	4,2 GB	7,8 GB	20,4 GB	42,0 GB
Q3_K_M	0,38	3,2 GB	5,9 GB	15,5 GB	31,9 GB
Q2_K	0,25	2,1 GB	3,9 GB	10,2 GB	21,0 GB

Punto óptimo recomendado: Q4_K_M ofrece el 95%+ de la calidad de precisión completa al 25% del coste de memoria. Para despliegues en producción, este es el punto de partida predeterminado.

Matriz de Compatibilidad de Hardware

Hardware	VRAM/RAM Disponible	Modelo Máx. (Q4_K_M)	Modelo Máx. (FP16)
NVIDIA RTX 3060 12GB	12 GB	13B	7B
NVIDIA RTX 4090 24GB	24 GB	34B	13B
NVIDIA A100 80GB	80 GB	120B	34B
NVIDIA H100 80GB	80 GB	120B	34B
Mac Mini M4 16GB	16 GB (unificada)	22B	7B
Mac Mini M4 Pro 24GB	24 GB (unificada)	34B	13B
MacBook Pro M3 Max 64GB	64 GB (unificada)	100B	34B
NVIDIA Jetson Orin Nano 8GB	8 GB (unificada)	7B	3B

Nota Apple Silicon: Los Mac utilizan memoria unificada, lo que significa que toda la RAM del sistema está disponible para la GPU. Un M4 Pro con 24 GB puede ejecutar modelos que requerirían una GPU dedicada de 24 GB en sistemas x86.

Impacto de la Longitud de Contexto

Las ventanas de contexto más largas requieren memoria adicional para la caché KV. Añada aproximadamente:

Contexto 4K: +0,5 GB para modelos 7B
Contexto 8K: +1,0 GB para modelos 7B
Contexto 32K: +4,0 GB para modelos 7B
Contexto 128K: +16,0 GB para modelos 7B

Escale linealmente con el tamaño del modelo. Un modelo 70B con contexto 32K necesita aproximadamente +40 GB solo para la caché KV.

Checklist de Decisión

Identifique su modelo — ¿Cuántos miles de millones de parámetros?
Elija cuantización — Q4_K_M para la mayoría de casos, FP16 para máxima calidad
Calcule la VRAM base — Use la fórmula anterior
Añada overhead de contexto — Según la longitud de contexto requerida
Añada un 20% de margen — Para usuarios concurrentes o procesamiento por lotes
Seleccione hardware — Elija el dispositivo más económico que se ajuste

Para despliegues soberanos de edge donde VORLUX AI se especializa, normalmente recomendamos Mac Mini M4 Pro (24 GB) o NVIDIA Jetson Orin Nano (8 GB) como puntos de partida para casos de uso de PYMEs.

¿Necesita ayuda para dimensionar hardware para su despliegue? Contacte con VORLUX AI para una consulta gratuita.