← Volver al glosario
RLAIF (Reinforcement Learning from AI Feedback)
Variante de RLHF donde el feedback para entrenar el modelo proviene de otro sistema de IA en lugar de humanos, escalando el proceso de alineación.
Avanzado rlhf feedback_ia alineacion
Definición completa
Variante de RLHF donde el feedback para entrenar el modelo proviene de otro sistema de IA en lugar de humanos, escalando el proceso de alineación.
Ejemplo en contexto empresarial
Usar GPT-4 para evaluar y puntuar las respuestas de un modelo más pequeño durante su entrenamiento.