El Pentágono Quiere Verificar que la IA No Falle
A medida que el Departamento de Defensa de EE.UU. depende cada vez más de la inteligencia artificial, surge una pregunta crítica: ¿Cómo saber que los modelos de IA funcionan como deberían?
La licitación
La Defense Innovation Unit (DIU), junto con la Oficina del Director de Inteligencia Nacional, busca un sistema que pueda probar modelos de IA antes de que lleguen a manos de los usuarios militares.
“A medida que las capacidades de IA evolucionan a un ritmo extraordinario, el gobierno requiere infraestructura de evaluación que pueda mantener el paso, evaluando continuamente nuevos modelos contra benchmarks específicos de misión.”
¿Qué debe hacer el sistema?
| Capacidad | Descripción |
|---|---|
| Arquitectura pluggable | Probar cualquier IA de cualquier proveedor |
| Evaluación consistente | Métricas estandarizadas |
| Pruebas humano-IA | Evaluar equipos mixtos |
| Simulación de estrés | Condiciones caóticas y degradación de red |
| Red-teaming automatizado | Ataques adversarios y prompts maliciosos |
Humanos + IA
Un punto crítico: el sistema debe evaluar si los equipos humano-IA logran mejores resultados que humanos o IA solos.
“La evaluación debe medir no solo si los sistemas de IA pueden realizar tareas aisladamente, sino si los equipos humano-IA logran mejores resultados de misión que humanos o IA solos.”
Protección contra ataques
El sistema debe probar si IA enemiga puede hackear o confundir a la IA aliada:
“Debe soportar red-teaming automatizado, incluyendo la ejecución de prompts adversarios y patrones de ataque.”
Benchmarks claros
Los resultados deben ser:
- Comprensibles para tomadores de decisiones
- Accionables — saber qué constituye una buena puntuación
- Justos — sin ventaja sistemática para arquitecturas o proveedores específicos
Deadline: 24 de marzo
Las propuestas deben entregarse antes del 24 de marzo de 2026.
Lo que significa
Este movimiento revela varias cosas:
- El Pentágono no confía ciegamente en la IA — Quiere verificación independiente
- Hay preocupación por ataques adversarios — La IA puede ser manipulada
- La integración humano-IA es prioridad — No reemplazo total
- La estandarización viene — Un framework común para evaluar
Contexto: guerra en Irán
Esta licitación llega mientras el Almirante Brad Cooper confirma el uso de “herramientas de IA avanzadas” en la guerra con Irán.
La necesidad de verificación es urgente cuando las decisiones de vida y muerte se toman “en segundos, no horas”.
Para empresas de tecnología
Si desarrollas IA y quieres contratos con el gobierno de EE.UU., prepárate para:
- Auditorías rigurosas de tus modelos
- Pruebas de red-teaming automatizadas
- Benchmarks estandarizados que debes cumplir
- Documentación de capacidades y limitaciones
La ironía
Mientras el Pentágono vetó a Anthropic por negarse a apoyar armas autónomas, ahora busca un sistema para asegurar que la IA “funcione como debe”.
¿No era exactamente eso lo que Anthropic intentaba garantizar?
El mensaje es claro: la IA militar debe ser verificable. La pregunta es si “funcionar como debe” incluye límites éticos o solo eficacia operativa.


