VRAM Calculation Guide for LLM Deployment
Know exactly how much VRAM/RAM you need for any AI model. Complete quantization factor table and hardware compatibility matrix.
This template includes both English and Spanish versions. Scroll down to find "Versión Española".
VRAM Calculation Guide for LLM Deployment
Template provided by VORLUX AI | vorluxai.com
The Fundamental Formula
Every large language model stores its intelligence as numerical parameters (weights). The amount of memory you need is determined by a simple equation:
VRAM (GB) = (Parameters in billions) x (Bytes per parameter) x 1.2 overhead factor
The 1.2 overhead factor accounts for KV cache, activation memory, and framework overhead during inference. For training or fine-tuning, multiply by 2-4x instead.
Quantization Factor Table
Quantization reduces the precision of each parameter to lower memory requirements. Here is the complete reference:
| Quantization | Bytes per Param | 7B Model | 13B Model | 34B Model | 70B Model |
|---|---|---|---|---|---|
| FP32 | 4.00 | 33.6 GB | 62.4 GB | 163.2 GB | 336.0 GB |
| FP16 / BF16 | 2.00 | 16.8 GB | 31.2 GB | 81.6 GB | 168.0 GB |
| Q8_0 (8-bit) | 1.00 | 8.4 GB | 15.6 GB | 40.8 GB | 84.0 GB |
| Q5_K_M | 0.63 | 5.3 GB | 9.8 GB | 25.7 GB | 52.9 GB |
| Q4_K_M | 0.50 | 4.2 GB | 7.8 GB | 20.4 GB | 42.0 GB |
| Q3_K_M | 0.38 | 3.2 GB | 5.9 GB | 15.5 GB | 31.9 GB |
| Q2_K | 0.25 | 2.1 GB | 3.9 GB | 10.2 GB | 21.0 GB |
Recommended sweet spot: Q4_K_M delivers 95%+ of full-precision quality at 25% of the memory cost. For production deployments, this is the default starting point.
Hardware Compatibility Matrix
| Hardware | Available VRAM/RAM | Max Model (Q4_K_M) | Max Model (FP16) |
|---|---|---|---|
| NVIDIA RTX 3060 12GB | 12 GB | 13B | 7B |
| NVIDIA RTX 4090 24GB | 24 GB | 34B | 13B |
| NVIDIA A100 80GB | 80 GB | 120B | 34B |
| NVIDIA H100 80GB | 80 GB | 120B | 34B |
| Mac Mini M4 16GB | 16 GB (unified) | 22B | 7B |
| Mac Mini M4 Pro 24GB | 24 GB (unified) | 34B | 13B |
| MacBook Pro M3 Max 64GB | 64 GB (unified) | 100B | 34B |
| NVIDIA Jetson Orin Nano 8GB | 8 GB (unified) | 7B | 3B |
Apple Silicon note: Macs use unified memory, meaning the full system RAM is available to the GPU. An M4 Pro with 24 GB can run models that would require a dedicated 24 GB GPU on x86 systems.
Context Length Impact
Longer context windows require additional KV cache memory. Add approximately:
- 4K context: +0.5 GB for 7B models
- 8K context: +1.0 GB for 7B models
- 32K context: +4.0 GB for 7B models
- 128K context: +16.0 GB for 7B models
Scale linearly with model size. A 70B model at 32K context needs roughly +40 GB for KV cache alone.
Decision Checklist
- Identify your model — How many billion parameters?
- Choose quantization — Q4_K_M for most use cases, FP16 for maximum quality
- Calculate base VRAM — Use the formula above
- Add context overhead — Based on your required context length
- Add 20% buffer — For concurrent users or batch processing
- Match to hardware — Select the cheapest device that fits
For sovereign edge deployments where VORLUX AI specialises, we typically recommend Mac Mini M4 Pro (24 GB) or NVIDIA Jetson Orin Nano (8 GB) as starting points for SME use cases.
Need help sizing hardware for your specific deployment? Contact VORLUX AI for a free consultation.
Versión Española
Guía de Cálculo de VRAM para Despliegue de LLMs
Plantilla proporcionada por VORLUX AI | vorluxai.com
La Fórmula Fundamental
Cada modelo de lenguaje grande almacena su inteligencia como parámetros numéricos (pesos). La cantidad de memoria necesaria se determina con una ecuación simple:
VRAM (GB) = (Parámetros en miles de millones) x (Bytes por parámetro) x 1.2 factor de overhead
El factor de overhead de 1.2 tiene en cuenta la caché KV, la memoria de activación y el overhead del framework durante la inferencia. Para entrenamiento o fine-tuning, multiplique por 2-4x en su lugar.
Tabla de Factores de Cuantización
La cuantización reduce la precisión de cada parámetro para disminuir los requisitos de memoria. Aquí está la referencia completa:
| Cuantización | Bytes/Param | Modelo 7B | Modelo 13B | Modelo 34B | Modelo 70B |
|---|---|---|---|---|---|
| FP32 | 4,00 | 33,6 GB | 62,4 GB | 163,2 GB | 336,0 GB |
| FP16 / BF16 | 2,00 | 16,8 GB | 31,2 GB | 81,6 GB | 168,0 GB |
| Q8_0 (8-bit) | 1,00 | 8,4 GB | 15,6 GB | 40,8 GB | 84,0 GB |
| Q5_K_M | 0,63 | 5,3 GB | 9,8 GB | 25,7 GB | 52,9 GB |
| Q4_K_M | 0,50 | 4,2 GB | 7,8 GB | 20,4 GB | 42,0 GB |
| Q3_K_M | 0,38 | 3,2 GB | 5,9 GB | 15,5 GB | 31,9 GB |
| Q2_K | 0,25 | 2,1 GB | 3,9 GB | 10,2 GB | 21,0 GB |
Punto óptimo recomendado: Q4_K_M ofrece el 95%+ de la calidad de precisión completa al 25% del coste de memoria. Para despliegues en producción, este es el punto de partida predeterminado.
Matriz de Compatibilidad de Hardware
| Hardware | VRAM/RAM Disponible | Modelo Máx. (Q4_K_M) | Modelo Máx. (FP16) |
|---|---|---|---|
| NVIDIA RTX 3060 12GB | 12 GB | 13B | 7B |
| NVIDIA RTX 4090 24GB | 24 GB | 34B | 13B |
| NVIDIA A100 80GB | 80 GB | 120B | 34B |
| NVIDIA H100 80GB | 80 GB | 120B | 34B |
| Mac Mini M4 16GB | 16 GB (unificada) | 22B | 7B |
| Mac Mini M4 Pro 24GB | 24 GB (unificada) | 34B | 13B |
| MacBook Pro M3 Max 64GB | 64 GB (unificada) | 100B | 34B |
| NVIDIA Jetson Orin Nano 8GB | 8 GB (unificada) | 7B | 3B |
Nota Apple Silicon: Los Mac utilizan memoria unificada, lo que significa que toda la RAM del sistema está disponible para la GPU. Un M4 Pro con 24 GB puede ejecutar modelos que requerirían una GPU dedicada de 24 GB en sistemas x86.
Impacto de la Longitud de Contexto
Las ventanas de contexto más largas requieren memoria adicional para la caché KV. Añada aproximadamente:
- Contexto 4K: +0,5 GB para modelos 7B
- Contexto 8K: +1,0 GB para modelos 7B
- Contexto 32K: +4,0 GB para modelos 7B
- Contexto 128K: +16,0 GB para modelos 7B
Escale linealmente con el tamaño del modelo. Un modelo 70B con contexto 32K necesita aproximadamente +40 GB solo para la caché KV.
Checklist de Decisión
- Identifique su modelo — ¿Cuántos miles de millones de parámetros?
- Elija cuantización — Q4_K_M para la mayoría de casos, FP16 para máxima calidad
- Calcule la VRAM base — Use la fórmula anterior
- Añada overhead de contexto — Según la longitud de contexto requerida
- Añada un 20% de margen — Para usuarios concurrentes o procesamiento por lotes
- Seleccione hardware — Elija el dispositivo más económico que se ajuste
Para despliegues soberanos de edge donde VORLUX AI se especializa, normalmente recomendamos Mac Mini M4 Pro (24 GB) o NVIDIA Jetson Orin Nano (8 GB) como puntos de partida para casos de uso de PYMEs.
¿Necesita ayuda para dimensionar hardware para su despliegue? Contacte con VORLUX AI para una consulta gratuita.