3 min de lectura

Pentágono Busca Sistema para Verificar que la IA Funciona Como Debe

El Departamento de Defensa de EE.UU. lanza licitación para crear un 'harness' que pruebe modelos de IA antes de usarlos en misiones militares. Incluirá pruebas de red-teaming y simulación de ataques adversarios.

El Pentágono Quiere Verificar que la IA No Falle

A medida que el Departamento de Defensa de EE.UU. depende cada vez más de la inteligencia artificial, surge una pregunta crítica: ¿Cómo saber que los modelos de IA funcionan como deberían?

La licitación

La Defense Innovation Unit (DIU), junto con la Oficina del Director de Inteligencia Nacional, busca un sistema que pueda probar modelos de IA antes de que lleguen a manos de los usuarios militares.

“A medida que las capacidades de IA evolucionan a un ritmo extraordinario, el gobierno requiere infraestructura de evaluación que pueda mantener el paso, evaluando continuamente nuevos modelos contra benchmarks específicos de misión.”

¿Qué debe hacer el sistema?

CapacidadDescripción
Arquitectura pluggableProbar cualquier IA de cualquier proveedor
Evaluación consistenteMétricas estandarizadas
Pruebas humano-IAEvaluar equipos mixtos
Simulación de estrésCondiciones caóticas y degradación de red
Red-teaming automatizadoAtaques adversarios y prompts maliciosos

Humanos + IA

Un punto crítico: el sistema debe evaluar si los equipos humano-IA logran mejores resultados que humanos o IA solos.

“La evaluación debe medir no solo si los sistemas de IA pueden realizar tareas aisladamente, sino si los equipos humano-IA logran mejores resultados de misión que humanos o IA solos.”

Protección contra ataques

El sistema debe probar si IA enemiga puede hackear o confundir a la IA aliada:

“Debe soportar red-teaming automatizado, incluyendo la ejecución de prompts adversarios y patrones de ataque.”

Benchmarks claros

Los resultados deben ser:

  • Comprensibles para tomadores de decisiones
  • Accionables — saber qué constituye una buena puntuación
  • Justos — sin ventaja sistemática para arquitecturas o proveedores específicos

Deadline: 24 de marzo

Las propuestas deben entregarse antes del 24 de marzo de 2026.

Lo que significa

Este movimiento revela varias cosas:

  1. El Pentágono no confía ciegamente en la IA — Quiere verificación independiente
  2. Hay preocupación por ataques adversarios — La IA puede ser manipulada
  3. La integración humano-IA es prioridad — No reemplazo total
  4. La estandarización viene — Un framework común para evaluar

Contexto: guerra en Irán

Esta licitación llega mientras el Almirante Brad Cooper confirma el uso de “herramientas de IA avanzadas” en la guerra con Irán.

La necesidad de verificación es urgente cuando las decisiones de vida y muerte se toman “en segundos, no horas”.

Para empresas de tecnología

Si desarrollas IA y quieres contratos con el gobierno de EE.UU., prepárate para:

  • Auditorías rigurosas de tus modelos
  • Pruebas de red-teaming automatizadas
  • Benchmarks estandarizados que debes cumplir
  • Documentación de capacidades y limitaciones

La ironía

Mientras el Pentágono vetó a Anthropic por negarse a apoyar armas autónomas, ahora busca un sistema para asegurar que la IA “funcione como debe”.

¿No era exactamente eso lo que Anthropic intentaba garantizar?


El mensaje es claro: la IA militar debe ser verificable. La pregunta es si “funcionar como debe” incluye límites éticos o solo eficacia operativa.

Avatar de Jorge Razo
Jorge Razo Director @ KÖD