El Pentágono Quiere Verificar que la IA No Falle

A medida que el Departamento de Defensa de EE.UU. depende cada vez más de la inteligencia artificial, surge una pregunta crítica: ¿Cómo saber que los modelos de IA funcionan como deberían?

La licitación

La Defense Innovation Unit (DIU), junto con la Oficina del Director de Inteligencia Nacional, busca un sistema que pueda probar modelos de IA antes de que lleguen a manos de los usuarios militares.

“A medida que las capacidades de IA evolucionan a un ritmo extraordinario, el gobierno requiere infraestructura de evaluación que pueda mantener el paso, evaluando continuamente nuevos modelos contra benchmarks específicos de misión.”

¿Qué debe hacer el sistema?

Capacidad	Descripción
Arquitectura pluggable	Probar cualquier IA de cualquier proveedor
Evaluación consistente	Métricas estandarizadas
Pruebas humano-IA	Evaluar equipos mixtos
Simulación de estrés	Condiciones caóticas y degradación de red
Red-teaming automatizado	Ataques adversarios y prompts maliciosos

Humanos + IA

Un punto crítico: el sistema debe evaluar si los equipos humano-IA logran mejores resultados que humanos o IA solos.

“La evaluación debe medir no solo si los sistemas de IA pueden realizar tareas aisladamente, sino si los equipos humano-IA logran mejores resultados de misión que humanos o IA solos.”

Protección contra ataques

El sistema debe probar si IA enemiga puede hackear o confundir a la IA aliada:

“Debe soportar red-teaming automatizado, incluyendo la ejecución de prompts adversarios y patrones de ataque.”

Benchmarks claros

Los resultados deben ser:

Comprensibles para tomadores de decisiones
Accionables — saber qué constituye una buena puntuación
Justos — sin ventaja sistemática para arquitecturas o proveedores específicos

Deadline: 24 de marzo

Las propuestas deben entregarse antes del 24 de marzo de 2026.

Lo que significa

Este movimiento revela varias cosas:

El Pentágono no confía ciegamente en la IA — Quiere verificación independiente
Hay preocupación por ataques adversarios — La IA puede ser manipulada
La integración humano-IA es prioridad — No reemplazo total
La estandarización viene — Un framework común para evaluar

Contexto: guerra en Irán

Esta licitación llega mientras el Almirante Brad Cooper confirma el uso de “herramientas de IA avanzadas” en la guerra con Irán.

La necesidad de verificación es urgente cuando las decisiones de vida y muerte se toman “en segundos, no horas”.

Para empresas de tecnología

Si desarrollas IA y quieres contratos con el gobierno de EE.UU., prepárate para:

Auditorías rigurosas de tus modelos
Pruebas de red-teaming automatizadas
Benchmarks estandarizados que debes cumplir
Documentación de capacidades y limitaciones

La ironía

Mientras el Pentágono vetó a Anthropic por negarse a apoyar armas autónomas, ahora busca un sistema para asegurar que la IA “funcione como debe”.

¿No era exactamente eso lo que Anthropic intentaba garantizar?

El mensaje es claro: la IA militar debe ser verificable. La pregunta es si “funcionar como debe” incluye límites éticos o solo eficacia operativa.

Jorge Razo Director @ KÖD

Pentágono Busca Sistema para Verificar que la IA Funciona Como Debe

El Pentágono Quiere Verificar que la IA No Falle

La licitación

¿Qué debe hacer el sistema?

Humanos + IA

Protección contra ataques

Benchmarks claros

Deadline: 24 de marzo

Lo que significa

Contexto: guerra en Irán

Para empresas de tecnología

La ironía

¿Te gustó este artículo?

Sigue leyendo

Anthropic lanza Claude Mythos Preview: el modelo de IA 'demasiado peligroso para el público'

Florida lanza investigación contra OpenAI días antes de su IPO de $1 trillion

Meta lanza Muse Spark: primer modelo del laboratorio de superinteligencia de $14 mil millones