Decirle a una IA que es 'experto programador' la hace PEOR — Estudio revela lo contrario de lo que creíamos

El hack de prompts que todo el mundo usa… no funciona

“Actúa como un experto programador senior con 20 años de experiencia.”

“Eres un científico de datos PhD de MIT.”

“Responde como si fueras el mejor abogado del mundo.”

¿Te suena familiar?

Investigadores acaban de descubrir que estos prompts de persona hacen que los modelos de IA sean PEORES en tareas factuales.

Lo que encontró el estudio

El equipo probó múltiples modelos (GPT-4, Claude, Gemini) con y sin prompts de persona.

Resultados:

Métrica	Sin persona	Con persona “experto”
Precisión factual	78%	71%
Código funcional	82%	74%
Seguridad (toxicidad)	65%	89%

La IA con rol de “experto” fue más segura pero menos precisa.

Por qué pasa esto

Los investigadores tienen una teoría:

Cuando le dices a un modelo que es “experto”, activa patrones de lenguaje más confiados. Más asertivos.

Problema: La confianza y la precisión no están correlacionadas en LLMs.

El modelo no sabe más por decirle que es experto. Solo habla con más seguridad. Y la seguridad en la respuesta puede enmascarar errores.

El tradeoff inesperado

Aquí está lo interesante: los prompts de persona SÍ funcionan para una cosa.

Seguridad.

Cuando le dices a un modelo “eres un asistente respetuoso y cuidadoso”, produce respuestas menos tóxicas, menos sesgadas, más moderadas.

Eso explica por qué todos los chatbots comerciales usan system prompts con roles definidos. No es para mejorar la calidad — es para reducir el riesgo.

Qué hacer con esta información

Para código y datos factuales:

Sé específico sobre la TAREA, no sobre la persona
“Escribe una función en Python que ordene esta lista” > “Actúa como senior Python developer”
Verifica siempre los outputs

Para contenido creativo:

Los prompts de persona pueden ayudar con tono y estilo
La precisión factual importa menos aquí

Para seguridad:

Sigue usando system prompts con roles definidos
Son efectivos para reducir respuestas problemáticas

La lección más grande

Hemos construido una industria entera de “prompt engineering” basada en intuiciones, no en evidencia.

Resulta que algunas de las técnicas más populares hacen exactamente lo contrario de lo que creíamos.

La IA no es magia. Es software. Y como todo software, responde a inputs de formas que podemos medir y entender.

Si algo, este estudio es un recordatorio: prueba, mide, no asumas.

¿Has notado diferencias en calidad usando prompts de persona? La evidencia dice que podrías estar perjudicándote.

Jorge Razo Director @ KÖD

Decirle a una IA que es 'experto programador' la hace PEOR — Estudio revela lo contrario de lo que creíamos

El hack de prompts que todo el mundo usa… no funciona

Lo que encontró el estudio

Por qué pasa esto

El tradeoff inesperado

Qué hacer con esta información

La lección más grande

¿Te gustó este artículo?

Sigue leyendo

Anthropic lanza Claude Mythos Preview: el modelo de IA 'demasiado peligroso para el público'

Florida lanza investigación contra OpenAI días antes de su IPO de $1 trillion

Meta lanza Muse Spark: primer modelo del laboratorio de superinteligencia de $14 mil millones