RLAIF (Reinforcement Learning from AI Feedback)

Variante de RLHF donde el feedback para entrenar el modelo proviene de otro sistema de IA en lugar de humanos, escalando el proceso de alineación.

Avanzado rlhf feedback_ia alineacion

Definición completa

Variante de RLHF donde el feedback para entrenar el modelo proviene de otro sistema de IA en lugar de humanos, escalando el proceso de alineación.

Usar GPT-4 para evaluar y puntuar las respuestas de un modelo más pequeño durante su entrenamiento.