Qué es un agent harness (scaffold): el loop que convierte un modelo en agente
Contenido
Un agent harness (o scaffold) es el sistema que permite a un modelo actuar como agente: procesa inputs, orquesta tool calls y devuelve resultados. Sin él, un LLM es solo un predictor de texto. Con él, se convierte en un sistema que decide, ejecuta acciones y persigue objetivos en un bucle. Formalmente, es un loop virtualizado de tres piezas: session, harness y sandbox.
Si construyes con IA, esta distinción no es académica: determina la fiabilidad, la trazabilidad y la seguridad de todo lo que pongas en producción. Vamos a desarmarlo pieza por pieza.
¿Qué es exactamente un agent harness y por qué un modelo no basta?
Un modelo de lenguaje (LLM) hace una sola cosa: recibe tokens y predice los siguientes. No tiene memoria entre llamadas, no ejecuta código y no decide cuándo parar. El agent harness es la capa que rodea ese modelo y lo pone a trabajar en bucle.
La definición operativa es directa: el harness procesa inputs, orquesta tool calls (las acciones que el modelo solicita) y devuelve resultados. Es el “scaffold” —el andamio— sobre el que un modelo estático se vuelve un agente que actúa.
Esto importa porque, según el reporte AI Index 2024 de Stanford HAI, el costo de entrenar modelos frontera supera los 78 millones de dólares; sin embargo, la mayor parte del valor aplicado en empresa no está en el modelo, sino en cómo lo orquestas. El harness es donde vive ese valor: es la lógica que convierte capacidad bruta en utilidad de negocio.
¿Cuáles son las 3 piezas del loop y qué hace cada una?
El harness se entiende mejor como un loop con tres componentes que cooperan. Cada uno tiene una responsabilidad única.
| Pieza | Qué es | Responsabilidad |
|---|---|---|
| Session | Log append-only de eventos | Guardar el historial completo de inputs, decisiones del modelo, tool calls y resultados. Es la memoria y la fuente de verdad. |
| Harness | El loop que llama al modelo y enruta sus tool calls | Leer la session, llamar al modelo, interpretar qué herramienta pidió, ejecutarla y escribir el resultado de vuelta. Es el orquestador. |
| Sandbox | El entorno de ejecución | Ejecutar las acciones (código, llamadas a API, lectura de archivos) dentro de límites controlados de permisos y recursos. |
Definámoslos en una frase cada uno:
- Session: registro inmutable donde solo se agregan eventos, nunca se borran ni editan.
- Harness: el bucle de control que conecta modelo, herramientas y estado.
- Sandbox: el espacio aislado donde las acciones ocurren sin tocar lo que no deben.
La elegancia del diseño está en la separación: el modelo decide, el harness enruta, el sandbox ejecuta y la session recuerda. Cambiar el modelo no rompe el loop; cambiar el sandbox no altera la memoria.
¿Cómo funciona el loop paso a paso?
El loop virtualizado opera en ciclos repetidos hasta que el agente alcanza su objetivo o agota un límite. Así se ve cada iteración:
- Leer la session → el harness toma todo el historial de eventos acumulados.
- Llamar al modelo → envía ese contexto al LLM y recibe su respuesta (texto o una tool call).
- ¿Pidió una herramienta?
- Sí → el harness enruta la tool call al sandbox, que la ejecuta.
- No → el agente devuelve el resultado final y el loop termina.
- Escribir el resultado en la session → el output del sandbox se agrega como nuevo evento (append-only).
- Volver al paso 1 → el ciclo se repite con el contexto enriquecido.
Este patrón es lo que la literatura describe como ciclo “razonar-actuar” (popularizado por el paper ReAct: Synergizing Reasoning and Acting in Language Models, Yao et al., 2023). La virtud del loop es que el agente refina su estado en cada vuelta: cada acción produce evidencia que alimenta la siguiente decisión.
El punto crítico para producción: si la session no es íntegra y append-only, pierdes trazabilidad; si el sandbox no tiene límites, abres la puerta a costos y riesgos sin control.
¿Por qué entender el harness importa al construir o comprar agentes en tu empresa?
Porque las decisiones de arquitectura de tu agente viven en el harness, no en el modelo. Según una encuesta de McKinsey (The state of AI, 2024), el 65% de las organizaciones ya usa IA generativa regularmente, pero la diferencia entre un piloto que se queda atascado y uno que escala está en la ingeniería que rodea al modelo.
Tres preguntas que el harness responde y que ningún modelo por sí solo puede:
- ¿Puedo auditar qué hizo el agente? Sí, si la session es un log inmutable.
- ¿Puedo cambiar de modelo sin reescribir todo? Sí, si el harness está bien desacoplado.
- ¿Controlo qué puede tocar el agente? Sí, si el sandbox define permisos claros.
En Varela Insights construimos agentes con MCP (Model Context Protocol) en producción precisamente sobre esta arquitectura: separamos session, harness y sandbox para que nuestros clientes tengan trazabilidad real, seguridad por diseño y libertad de cambiar de modelo sin rehacer el sistema. No es teoría: es el patrón que sostiene agentes que operan a diario, desde automatizaciones de WhatsApp para PYMEs hasta agentes de voz.
¿Estás evaluando si construir tu propio harness o adoptar uno? Cuéntanos tu caso y te decimos qué arquitectura conviene. Escríbenos por WhatsApp: wa.me/528126446504.
Autor: Irving Varela — Ph.D, PMP, PMI-CPMAI, PSM I. Fundador de Varela Insights, consultoría de IA en Monterrey, México.
Preguntas frecuentes
¿Cuál es la diferencia entre un modelo y un agente?
Un modelo (LLM) solo predice texto: recibe un input y devuelve un output. Un agente es un modelo envuelto en un harness que le permite actuar en bucle: leer el estado, decidir, ejecutar herramientas y volver a evaluar hasta cumplir un objetivo.
¿Es lo mismo un harness que un framework como LangChain o un agente MCP?
No exactamente. Frameworks como LangChain o protocolos como MCP (Model Context Protocol) ofrecen piezas para construir un harness, pero el harness en sí es el loop concreto que orquesta llamadas al modelo y tool calls. Puedes construir un harness con o sin framework.
¿Por qué la session debe ser append-only?
Un log append-only (solo se agregan eventos, nunca se modifican ni borran) garantiza trazabilidad y reproducibilidad. Permite auditar exactamente qué decidió el agente, depurar fallas y reconstruir el estado en cualquier punto del bucle.
¿Necesito un sandbox si mi agente solo consulta una API?
Sí. Aunque el agente no ejecute código arbitrario, el sandbox define los límites de lo que puede tocar: qué APIs, con qué permisos y con qué cuotas. Sin él, un tool call mal orquestado puede generar costos o efectos no deseados en producción.
¿Construir un harness propio o usar uno existente?
Depende del control que necesites. Soluciones llave en mano aceleran prototipos, pero un harness propio te da control fino sobre el loop, la trazabilidad y la seguridad, algo crítico en entornos empresariales regulados o de alto volumen.