ai_explainer4 de junio de 2026Edición #23

¿Por qué los chatbots aprenden de personas reales?

Los chatbots no nacen sabiendo conversar. Primero, los programadores les dan instrucciones básicas de lógica. Luego, los bots se 'entrenan' con miles de conversaciones de personas reales. Esto se llama 'RLHF' (Reinforcement Learning from Human Feedback). El proceso: el bot crea una respuesta, una persona humana la califica (bueno/malo), y el bot ajusta sus pesos internos para que su respuesta sea más humana la próxima vez. Analogía de cocina: igual que cuando tu mamá te dice 'No hablas así, hablas así' — el bot aprende de la misma retroalimentación directa. Por qué nos importa: los chatbots que se entrenan solo con código son secos y robotizados; los que se entrenan con RLHF son más naturales y comprensibles para la comunidad de habla no técnica. Si estás en un chat con un agente, pregunta: '¿Cómo me dabas esta respuesta?' para entender su lógica.

#explainer#rlhf

← Volver a la edición

¿Por qué los chatbots aprenden de personas reales?

Recibe el diario en tu puerta