El mismo día
Cuando la ciencia alcanza a la intuición
Andrej Karpathy publica un tweet el 7 de diciembre. “No piensen en los LLMs como entidades sino como simuladores.”
No preguntes “¿qué piensas sobre X?”
Pregunta “¿qué diría un grupo diverso de personas explorando X?”
Ese mismo día sale el paper. Seis modelos. Dos benchmarks. Miles de preguntas nivel PhD. La conclusión: pedirle a la IA que actúe como experto no mejora nada. A veces empeora las cosas.
El mismo día.
Alguien te dice: “Pon ‘actúa como un experto en física’ antes de tu pregunta y la IA dará mejores respuestas.” Lo compartes. Lo guardas. Lo repites.
Y no funciona.
El prompt más dañino fue pedirle que actuara como un niño de cuatro años. Pero incluso los “expertos mundiales en física” no movieron la aguja hacia arriba. Cuando le pides a la IA que actúe como experto en un campo y le haces preguntas de otro, a veces se niega a responder. Gemini 2.5 se negó más de 10 de cada 25 intentos cuando tenía un rol equivocado asignado.
Karpathy tuvo que aclarar al día siguiente. La gente malinterpretó. Pensaron que estaba promoviendo el viejo “eres un programador Swift experto.” No. Estaba diciendo lo opuesto.
Hay una diferencia enorme entre “actúa como experto en física” y “simula qué dirían cinco físicos diferentes sobre este problema.” El primero es un disfraz. El segundo es un método.
El paper confirma lo del disfraz. No sirve.
Pero lo interesante no es el paper. Lo interesante es que algunos ya lo sabíamos. Lo enseñábamos. Lo practicábamos. Sin el paper, sin los benchmarks, sin las cinco mil réplicas. Porque cuando usas la herramienta todos los días, eventualmente notas que el teatro no cambia los resultados.
La ciencia alcanzó a la práctica el mismo día. No por coincidencia. Porque ambos estaban mirando la misma realidad.
Creamos un teatro. Le ponemos disfraces a la herramienta. Y la herramienta, obediente, se pone el disfraz y actúa peor.
La pregunta no es si funciona. Los datos ya respondieron eso.
La pregunta es: ¿cuánto tiempo más vamos a compartir consejos que nunca probamos?


