GlossarIA
Glosario abierto de IA para empresas
← Volver al glosario

RLAIF (Reinforcement Learning from AI Feedback)

Variante de RLHF donde el feedback para entrenar el modelo proviene de otro sistema de IA en lugar de humanos, escalando el proceso de alineación.

Avanzado rlhf feedback_ia alineacion

Definición completa

Variante de RLHF donde el feedback para entrenar el modelo proviene de otro sistema de IA en lugar de humanos, escalando el proceso de alineación.

Ejemplo en contexto empresarial

Usar GPT-4 para evaluar y puntuar las respuestas de un modelo más pequeño durante su entrenamiento.