← Volver al glosario
Cuantización (Quantization)
Reducción de la precisión numérica de los pesos del modelo (de 32-bit a 8-bit o 4-bit) para que ocupe menos memoria y sea más rápido.
Avanzado optimizacion hardware eficiencia
Definición completa
Reducción de la precisión numérica de los pesos del modelo (de 32-bit a 8-bit o 4-bit) para que ocupe menos memoria y sea más rápido.
Ejemplo en contexto empresarial
Ejecutar modelos de 70B parámetros en una sola GPU gracias a cuantización 4-bit.