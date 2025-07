Una guía para ingenieros y constructores de IA

Normalmente comienza con unas pocas líneas de Python y una clave de API ChatGPT.





Añade unas pocas líneas de contexto, golpee y se maravilla de que responda en absoluto. Entonces, quieres que haga algo útil. Entonces, de forma fiable. Entonces, sin ti. Eso es cuando te das cuenta de que ya no estás llamando a un LLM. Estás construyendo un agente.





Pasé el último año componiendo scripts y envases, jugando con cadenas de LangChain que se sentían más como una casa de tarjetas que de sistemas, y constantemente preguntándose, "¿Cómo es que las personas realmente envían estas cosas?”





Perseguí patrones que parecían elegantes en teoría pero colapsaron en el momento en que aparecieron los usuarios reales. Construí agentes que funcionaban perfectamente en un notebook y fracasaron espectacularmente en la producción.





No lo hizo.





Lo que me ayudó fue desacelerar, quitar las cosas y prestar atención a lo que realmente funcionaba bajo la carga, no a lo que parecía inteligente en LinkedIn.Esta guía es una destilación de esa claridad duramente ganadaSi has pasado por desafíos similares, está escrito para ti.





Piense en ello como una guía pragmática para pasar de los envases de API y cadenas a sistemas de IA estables, controlables y escalables.

Parte 1 - Obtener la fundación correcta

Los primeros prototipos de agentes a menudo se unen rápidamente: unas pocas funciones, algunas indicaciones, y así es, funciona.





Usted puede preguntar: “Si funciona, ¿por qué complicar las cosas?”





Al principio, todo se siente estable: el agente responde, ejecuta el código y se comporta como se esperaba. Pero en el momento en que intercambia el modelo, reinicia el sistema o añade una nueva interfaz, las cosas se rompen.





Normalmente, el problema no es la lógica o las promesas; es más profundoGestión de memoria deficiente, valores de código duro, no persistencia de sesión, o un punto de entrada rígido.





Esta sección cubre cuatro principios clave para ayudarle a crear una base sólida, una base donde su agente puede crecer y escalar de manera confiable.





1 – Externalización del Estado

The Problem:

No se puede retomar si el agente se interrumpe, se colisionan, se terminan los tiempos, lo que sea.

Reproducibilidad: desea reproducir lo que sucedió para la prueba y el borrado.

Desafío de bonos: tarde o temprano, querrá ejecutar partes del agente en paralelo, como comparar opciones en medio de la conversación o la lógica de ramificación (la gestión de la memoria es un tema separado que cubriremos pronto).





The SolutionMover todo el estado fuera del agente, en una base de datos, caché, capa de almacenamiento, o incluso un simple archivo JSON.





Your Checklist:

El agente comienza desde cualquier paso usando sólo un session_id y estado externo (por ejemplo, guardado en un DB o JSON).

Puede interrumpir y reiniciar el agente en cualquier momento (incluso después de cambios de código) sin perder el progreso o romper el comportamiento.

El estado es totalmente serializable sin perder funcionalidad.

El mismo estado puede ser alimentado a varias instancias de agentes que se ejecutan en paralelo durante una conversación.

2 – Externalizar el conocimiento

The ProblemLos LLM no recuerdan realmente. Incluso en una sesión, pueden olvidar lo que les dijiste, mezclar las etapas de conversación, perder el hilo o comenzar a "encher" los detalles que no estaban allí.

El modelo se centra en el comienzo y el final, perdiendo detalles intermedios importantes.

Más tokens cuestan más dinero.

El límite todavía existe: los transformadores trabajan con autoatención a la complejidad O(n2), por lo que el contexto infinito es imposible.





Esto es lo más difícil cuando:

Las conversaciones son largas

Los documentos son amplios

Las instrucciones son complejas





The Solution: Separe la “memoria de trabajo” de la “almacenamiento”, como en las computadoras clásicas. su agente debe manejar la memoria externa: almacenar, recuperar, resumir y actualizar el conocimiento fuera del modelo mismo.





Common approaches:

Buffer de memoria: almacena los últimos k mensajes. rápido para prototipar, pero pierde la información antigua y no se escala.

Memoria de resumen: comprime la historia para encajar más en el contexto. ahorra tokens pero corre el riesgo de distorsión y pérdida de matices.

RAG (Retrieval-Augmented Generation): recoge conocimiento de bases de datos externas. Escalable, fresco y verificable, pero más complejo y sensible a la latencia.

Gráficos del conocimiento: conexiones estructuradas entre hechos y entidades.Elegante y explicable, pero compleja y alta barrera para la entrada.





Your Checklist:

Todo el historial de conversación se almacena fuera del prompt y es accesible.

Las fuentes de conocimiento son registradas y reutilizables.

La historia puede crecer indefinidamente sin golpear los límites de la ventana de contexto.

3 – Hacer que el modelo sea intercambiable

ProblemLos LLM evolucionan rápidamente: OpenAI, Google, Anthropic y otros actualizan constantemente sus modelos. Como ingenieros, queremos aprovechar estas mejoras rápidamente.





Solution:

Utilice un parámetro model_id en configuraciones o variables de entorno para especificar qué modelo utilizar.

Construye interfaces abstractas o clases de envoltorios que hablen con modelos a través de una API unificada.

Opcionalmente, aplique capas de middleware con cuidado (frameworks vienen con compromisos).





Checklist:

Cambiar el modelo no rompe el código ni afecta a otros componentes como la memoria, la orquestación o las herramientas.

Añadir un nuevo modelo significa simplemente actualizar la configuración y, si es necesario, agregar una capa de adaptador simple.

El intercambio de modelos es rápido y sin problemas, lo ideal es soportar cualquier modelo, o al menos cambiar fácilmente dentro de una familia de modelos.

4 - Un agente, muchos canales

Problem: Incluso si su agente comienza con una única interfaz (por ejemplo, una interfaz de usuario), los usuarios pronto querrán más formas de interactuar: Slack, WhatsApp, SMS, tal vez incluso un CLI para el depósito.





SolutionCree un contrato de entrada unificado, una API o una interfaz universal en la que se alimentan todos los canales.





Checklist:

El agente funciona a través de CLI, API, UI o cualquier otra interfaz

Todas las entradas funcionan a través de un único punto final, parser o esquema

Cada interfaz utiliza el mismo formato de entrada

Ninguna lógica de negocio vive dentro de ningún adaptador de canal

Añadir nuevos canales significa simplemente escribir un adaptador, sin cambios en el código del agente principal.

Parte 2 – Move Beyond Chatbot Mode

Aunque solo hay una tarea, todo es simple, como en los mensajes de los influenciadores de IA. Pero tan pronto como añadas herramientas, lógica de toma de decisiones y múltiples etapas, el agente se convierte en un desorden.





Se pierde la pista, no sabe qué hacer con los errores, olvida llamar la herramienta correcta, y te queda solo de nuevo con los registros, donde “bien, todo parece estar escrito allí”.





Para evitar esto, el agente necesita un modelo de comportamiento claro: qué hace, qué herramientas tiene, quién toma decisiones, cómo intervienen los humanos y qué hacer cuando algo va mal.





Esta sección cubre cinco principios clave para ayudarle a mover a su agente más allá de un simple chatbot, construyendo un modelo de comportamiento coherente que pueda usar herramientas de manera confiable, gestionar errores y ejecutar tareas complejas.





5 – Diseño para el uso de herramientas

Problem: Puede sonar obvio, pero muchos agentes siguen confiando en “Plain Prompting + Raw LLM output parsing.” Es como tratar de arreglar un motor de automóvil girando los tornillos aleatoriamente.

Fragilidad: Un pequeño cambio en el orden de la formulación o la frase puede romper su análisis, creando una constante carrera de armas entre su código y la impredecibilidad del modelo.

El lenguaje natural es vago: “Call John Smith” ¿Qué número?

Complejidad de mantenimiento: El código de análisis se vuelve confuso y difícil de borrar.Cada nuevo agente "habilidad" significa escribir más reglas de análisis.

Capacidades limitadas: es difícil llamar de forma fiable a varias herramientas o transmitir estructuras de datos complejas a través de texto simple.





Solution: Deje que el modelo devuelva JSON (o otro formato estructurado), y deje que su sistema maneje la ejecución. Esto significa que los LLM interpretan la intención del usuario y decidenQuéhacer, y su código se encarga deCómoEsto sucede, ejecutando la función correcta a través de una interfaz bien definida.





La mayoría de los proveedores (OpenAI, Google, Anthropic, etc.) ahora soportanfunction callingostructured output:

Define sus herramientas como esquemas JSON con un nombre, descripción y parámetros. Las descripciones son clave porque el modelo se basa en ellas.

Cada vez que llamas al modelo, le proporcionas estos esquemas de herramientas junto al prompt.

El modelo devuelve JSON especificando: (1) la función a llamar, (2) Parámetros según el esquema

Su código valida el JSON y invoca la función correcta con esos parámetros.

Opcionalmente, la salida de la función puede ser devuelta al modelo para la generación de respuesta final.





Important: Las descripciones de herramientas forman parte de la prompt. Si no están claras, el modelo puede elegir la herramienta equivocada. ¿Y si su modelo no admite la llamada de la función, o desea evitarla?





Pídele al modelo que produzca la salida JSON a través de la ingeniería prompt y valide con bibliotecas como Pydantic. Esto funciona bien, pero requiere una formatación cuidadosa y el manejo de errores.





Checklist:

Las respuestas están estrictamente estructuradas (por ejemplo, JSON)

Las interfaces de herramientas se definen con esquemas (JSON Schema o Pydantic)

La salida se valida antes de la ejecución

Errores en el formato no colisionan con el sistema (tratamiento de errores graciosos)

LLM decide qué función llamar, el código maneja la ejecución

6 – Poner la lógica de control en el código

Problem:La mayoría de los agentes hoy en día se comportan como chatbots: el usuario dice algo, el agente responde.Es un patrón de ping-pong; simple y familiar, pero profundamente limitante.





Con esta configuración, su agente no puede:

Actuar por sí solo sin una solicitud de usuario

ejecutar tareas en paralelo

Plan y secuencia de múltiples pasos

Retry fracasó los pasos de manera inteligente

Trabajo en el fondo





Se vuelve reactivo en lugar de proactivo.What you really want is an agent that thinks like a schedulerUno que mira el trabajo por delante, se da cuenta de qué hacer a continuación, y se mueve hacia adelante sin esperar a ser golpeado.





Esto significa que su agente debe ser capaz de:

Tome la iniciativa

Cadenas múltiples pasos juntos

Recuperarse del fracaso

Intercambio entre tareas

Sigue trabajando, incluso cuando nadie está viendo





Solution:El modelo todavía puede ayudar (por ejemplo, decidir qué paso viene después), pero la secuenciación real, las retrias y la lógica de ejecución deben vivir en código.





This flips your job from Ingeniería rápida to Diseño del sistemaEl modelo se convierte en una pieza de una arquitectura más amplia, no en el maestro de muñecas.





Let’s break down three ways teams are approaching this shift.





1. Finite State Machine (FSM)

What it is: Break the task into discrete states with defined transitions.

LLM rol: Actúa dentro de un estado o ayuda a elegir el siguiente.

Best for: Linear, predictable flows.

Pros: Simple, stable, easy to debug.

Tools: StateFlow, YAML configs, classic state pattern in code.





2. Directed Acyclic Graph (DAG)

Representa las tareas como un gráfico: los nodos son acciones, los bordes son dependencias.

LLM papel: Actúa como un nodo o ayuda a generar el gráfico.

Mejor para: Flujos de ramificación, pasos paralelos.

Pros: Flexible, visual, good for partial recomputation.

Tools: LangGraph, Trellis, LLMCompiler, or DIY with a graph lib.





3. Planner + Executor

What it is: One agent (or model) builds the plan; others execute it step by step.

LLM rol: Grandes planes de modelos, pequeños (o código) ejecutar.

Mejor para: Sistemas modulares, cadenas largas de razonamiento.

Pros: Separación de preocupaciones, escalable, rentable.

Herramientas: Plan-and-Execute de LangChain, o su propia arquitectura de planificador/executor.





Why This Matters

Controla el comportamiento del agente

You can retry, debug, and test individual steps

You can scale parts independently or swap models

Hacer las cosas visibles y rastreables en lugar de opacas y mágicas





Checklist

El agente sigue la estructura de FSM, DAG o Planner.

LLM sugiere acciones pero no impulsa el flujo

Puedes visualizar el progreso de la tarea

El manejo de errores se encierra en la lógica del flujo

7 — Keep a Human in the Loop

Problem:Incluso con herramientas, flujo de control y salidas estructuradas, la plena autonomía sigue siendo un mito.Comprender what they’re doing. They can’t be held accountable. And in the real world, they will make the wrong call (sooner or later).





When agents act alone, you risk:

Irreversible mistakes: deleting records, messaging the wrong person, sending money to a dead wallet.

deleting records, messaging the wrong person, sending money to a dead wallet. Problemas de cumplimiento: violación de la política, la ley o las normas sociales básicas.

Weird behavior: skipping steps, hallucinating actions, or just doing something no human ever would.

skipping steps, hallucinating actions, or just doing something no human ever would. Confianza quebrada: los usuarios no confían en algo que parece fuera de control.

No hay responsabilidad: cuando se rompe, no está claro qué pasó mal o quién es el dueño del desorden.





Solution: Bring Humans Into the Loop (HITL)

Tratar al ser humano como un co-piloto, no como un retroceso.pausa, deask, oRutaNo todo debe ser totalmente automático.A veces, “¿Estás seguro?” es la característica más valiosa que puedes construir.





Ways to Include Humans

Approval gates: Critical or irreversible actions (e.g., sending, deleting, publishing) require explicit human confirmation.

Critical or irreversible actions (e.g., sending, deleting, publishing) require explicit human confirmation. Pautas de escalada: Cuando la confianza del modelo es baja o la situación es ambigua, diríjase a un humano para su revisión.

Interactive correction: Allow users to review and edit model responses before they’re sent.

Allow users to review and edit model responses before they’re sent. Feedback loops: Capture human feedback to improve agent behavior and train models over time (Reinforcement Learning from Human Feedback).

Capture human feedback to improve agent behavior and train models over time (Reinforcement Learning from Human Feedback). Opciones de Override: Permite a los seres humanos interrumpir, suprimir o redirigir el flujo de trabajo del agente.





Checklist

Sensitive actions are confirmed by a human before execution

Hay un camino claro para escalar decisiones complejas o arriesgadas

Los usuarios pueden editar o rechazar las salidas de agentes antes de que sean definitivas

Logs and decisions are reviewable for audit and debugging

El agente explica por qué tomó una decisión (en la medida de lo posible)

8 - Los errores de alimentación vuelven al contexto

Problem:La mayoría de los sistemas se colapsan o se detienen cuando ocurre un error.Para un agente autónomo, eso es un final muerto.Pero ignorar ciegamente los errores o alucinarse alrededor de ellos es tan malo.





What can go wrong:

Fragilidad: cualquier fallo, ya sea un error de herramienta externa o una salida LLM inesperada, puede romper todo el proceso.

Ineficiencia: reinicios frecuentes y correcciones manuales de tiempo y recursos desperdiciados.

Sin aprendizaje: Sin conciencia de sus propios errores, el agente no puede mejorar o adaptarse.

Hallucinations: Errors unaddressed can lead to misleading or fabricated responses.





Solution:Incluirlos en las promesas o en la memoria para que el agente pueda intentar auto-corrección y adaptar su comportamiento.





How it works:

Comprender el error: Capture los mensajes de error o las razones del fracaso claramente. Auto-corrección: El agente reflexiona sobre el error y intenta corregirlo: (1) detectando y diagnosticando el problema, (2) ajustando los parámetros, reformulando las solicitudes o cambiando las herramientas, (3) retomando la acción con cambios. El contexto de errores es importante: la información detallada sobre errores (como instrucciones o explicaciones) ayuda al agente a corregirse mejor. Entrenamiento para la auto-corrección: Incorporar ejemplos de corrección de errores en el entrenamiento de modelos para mejorar la resiliencia. Human escalation: If self-correction repeatedly fails, escalate to a human (see Principle 7).





Checklist:

Los errores de los pasos anteriores se guardan y se alimentan en el contexto

La lógica de Retry se implementa con cambios adaptativos

Repeated failures trigger a fallback to human review or intervention

9 — Split Work into Micro-Agents

Problem:Cuanto mayor y más confusa sea la tarea, más larga sea la ventana de contexto, y más probable es que un LLM pierda la trama. flujos de trabajo complejos con docenas de pasos empujan el modelo más allá de su punto dulce, lo que conduce a la confusión, los tokens desperdiciados y la menor precisión.





Solution: Divide and conquer. Use small, purpose-built agents, each responsible for one clearly defined job. A top-level orchestrator strings them together.





Why small, focused agents work

Manageable context : shorter windows keep the model sharp.

: shorter windows keep the model sharp. Propiedad clara: un agente, una tarea, cero ambigüedad.

Más fiabilidad: flujos más simples significan menos lugares para perderse.

Easier testing: you can unit-test each agent in isolation.

you can unit-test each agent in isolation. Debugging más rápido: cuando algo se rompe, sabes exactamente dónde mirar.





No hay una fórmula mágica para cuándo dividir la lógica; es parte del arte, parte de la experiencia, y el límite seguirá cambiando a medida que los modelos mejoren.





Checklist

El flujo de trabajo global es una serie de llamadas de micro-agentes.

Cada agente se puede reiniciar y probar por sí mismo.

Puedes explicar la definición de Agente en 1-2 frases.

Parte 3 - Estabilizar el comportamiento

Most agent bugs don’t show up as red errors; they show up as weird outputs. A missed instruction. A half-followed format. Something that almost works… until it doesn’t.





Eso es porque los LLM no leen las mentes.





La forma en que encuentras las solicitudes, lo que pasas al contexto y cómo escribes las promesas, todo esto forma directamente el resultado.Y cualquier error en esa configuración se convierte en un bug invisible que espera que surja más adelante.si no estás atento, cada interacción desvíase lentamente del curso.





Esta sección trata de apertar esa loop de retroalimentación.Los prompts no son cuerdas arrojadas, son código.El contexto no es magia, es un estado que gestionas explícitamente.Y la claridad no es opcional, es la diferencia entre el comportamiento repetible y las tonterías creativas.





10 - Tratar Prompts como código

Problem:Demasiados proyectos tratan las prompts como cuerdas descartables: codificadas en archivos de Python, dispersas por toda la base de código, o vagamente desechadas en Notion.

Es difícil encontrar, actualizar o incluso entender lo que hace cada prompt

There’s no version control — no way to track what changed, when, or why

Optimization becomes guesswork: no feedback loops, no A/B testing

Y deshabilitar un problema relacionado con prompt se siente como tratar de corregir un bug en un comentario





Solution: Prompts are code. They define behavior. So manage them like you would real code:

Sepáralos de su lógica: almacenarlos en txt, .md, .yaml, .json o usar motores de plantillas como Jinja2 o BAML

Version them with your repo (just like functions)

with your repo (just like functions) Testarlos: (1) Respuestas de prueba de unidad para formato, palabras clave, validez JSON, (2) Evaluar evaluaciones sobre variaciones prompt, (3) Usar LLM-as-a-judge o puntuación heurística para medir el rendimiento





Bonus:Trate las revisiones rápidas como revisiones de código.Si un cambio podría afectar el comportamiento de la salida, merece un segundo conjunto de ojos.





Checklist:

Prompts live outside your code (and are clearly named)

Son versiones y difables

Están probados o evaluados

Están revisando cuando importa

11 — Engineer the Context Stack

Problem:Ya hemos abordado el olvido de LLM descargando la memoria y dividiendo a los agentes por tareas.howFormatar y entregar información al modelo.





Most setups just throw a pile of role: content messages into the prompt and call it a day. That works… until it doesn’t. These standard formats often:

Burn tokens en metadatos redundantes

Lucha para representar cadenas de herramientas, estados o múltiples tipos de conocimiento

No guiar correctamente el modelo en flujos complejos





Y sin embargo, todavía esperamos que el modelo “sólo lo descubra”. eso no es ingeniería.





Solution: Engineer the context.

Treat the whole input package like a carefully designed interface, because that’s exactly what it is.









Here’s how:

Propiedad de la pila completa: Controla lo que entra, cómo se ordena y dónde aparece.Todo, desde las instrucciones del sistema hasta los documentos recuperados hasta las entradas de memoria, debe ser intencional.

Ir más allá del formato de chat: Construye formatos más ricos y densos. bloques de estilo XML, esquemas compactos, pistas de herramientas comprimidas, incluso secciones de Markdown para la claridad.

Pensar holísticamente: Contexto = todo lo que el modelo ve: prompt, estado de tareas, decisiones previas, registros de herramientas, instrucciones, incluso salidas previas.





Esto es especialmente importante si estás optimizando para:

Densidad de información: empacar más significado en menos tokens

Eficiencia en el coste: alto rendimiento con un bajo tamaño de contexto

Seguridad: controlar y etiquetar lo que ve el modelo

Resiliencia a errores: señalización explícita de casos de borde, problemas conocidos o instrucciones de retroceso





Bottom line: Prompting is only half the battle. Ingeniería de ContextoY si aún no lo estás haciendo, lo serás una vez que tu agente crezca.

12 — Add Safety Layers

Even with solid prompts, memory, and control flow, an agent can still go off the rails. Think of this principle as an insurance policy against the worst-case scenarios:

Injeción rápida: los usuarios (o otros sistemas) se deslizan en las instrucciones que secuestran al agente.

Fugas de datos sensibles: el modelo desvía PII o secretos corporativos.

Contenido tóxico o malicioso: discurso de odio no deseado, spam o material prohibido.

Alucinaciones: respuestas confiadas pero falsas.

Acciones fuera del alcance: el agente “se hace creativo” y hace algo que nunca debería hacer.





No hay una sola solución que cubra todo eso.defense-in-depthMúltiples salvaguardas que capturan problemas en cada etapa del ciclo de solicitud/respuesta.





Quick Checklist

La validación de la entrada del usuario está en lugar (frases de jailbreak, comprobación de la intención).

Para las tareas factuales, las respuestas deben referirse al contexto RAG.

El prompt dice explícitamente al modelo que se adhiera a los hechos recuperados.

El filtro de salida bloquea el contenido PII o no permitido.

Las respuestas incluyen una cita/enlace a la fuente.

El agente y las herramientas siguen el menor privilegio.

Las acciones críticas se dirigen a través de la aprobación o seguimiento de HITL.





Tratar estas capas como DevOps estándar: iniciar sesión en ellas, probarlas y fallar de forma segura.Así es como evitar que un agente “autónomo” se convierta en una responsabilidad descontrolada.

Parte 4 - Mantenga el trabajo bajo carga

En la producción, los fracasos rara vez ocurren de una vez, y a menudo no se notan de inmediato, a veces no en absoluto.





Esta sección se centra en la construcción de la disciplina de ingeniería para monitorear continuamente a su agente, asegurando que todo funcione sin problemas.Desde los registros y el seguimiento hasta las pruebas automatizadas, estas prácticas hacen que el comportamiento de tu agente sea claro y confiable, ya sea que estés observando activamente o enfocado en construir el próximo avance..





13 - Trace el camino de la ejecución completa

Problem: Los agentes inevitablemente se comportarán mal durante el desarrollo, las actualizaciones o incluso el funcionamiento normal. Debuggar estos problemas puede consumir innumerables horas tratando de reproducir errores y identificar fallos. Si ya ha implementado principios clave como mantener el estado fuera y comprimir errores en el contexto, está por delante.





Solution: Logue todo el viaje desde la solicitud del usuario a través de cada paso del proceso de decisión y acción del agente. los registros de componentes individuales no son suficientes; necesita un seguimiento de extremo a extremo que cubra cada detalle.





Why this matters:

Debugging : Quickly identify where and why things went wrong.

: Quickly identify where and why things went wrong. Análisis: detecta las barreras y las oportunidades de mejora.

Evaluación de la calidad: Medir cómo los cambios afectan al comportamiento.

Reproducibilidad: Recrear con precisión cualquier sesión.

Auditoría: Mantener un registro completo de las decisiones y acciones de los agentes.





Minimum data to capture

Ingreso: Solicitud de usuario y parámetros de los pasos anteriores.

Estado del agente: Variables clave antes de cada paso.

Prompt: Prompt completo enviado al LLM (instrucciones del sistema, historia, contexto).

Resultado LLM: Respuesta cruda antes del procesamiento.

Tool call : Tool name and parameters invoked.

: Tool name and parameters invoked. Resultado de la herramienta: salida de herramienta o error.

Agent decision : Next steps or responses chosen.

: Next steps or responses chosen. Metadata: Timing, model info, costs, code, and prompt versions.





Utilice herramientas de seguimiento existentes donde sea posible: LangSmith, Arize, Peso y prejuicios, OpenTelemetry, etc. Pero primero asegúrese de cubrir los conceptos básicos (véase el Principio 15).





Checklist:

Todos los pasos se registran con detalle.

Logs linked by session_id and a step_id .

and a . Interfaz para revisar cadenas de llamadas completas.

Capacidad de reproducir completamente cualquier prompt en cualquier momento.

14 — Test Every Change

Problem: Por ahora, su agente puede sentirse listo para lanzar: funciona, tal vez incluso exactamente como quería. Pero ¿cómo puede estar seguro de que seguirá funcionando después de las actualizaciones? Cambios en el código, conjuntos de datos, modelos de base o prompts pueden romper silenciosamente la lógica existente o degradar el rendimiento.

Drift de modelo: el rendimiento disminuye con el tiempo sin cambios de código debido a cambios de modelo o de datos

Prompt fragilidad: pequeños ajustes prompt pueden causar grandes cambios de salida

Non-determinism : LLMs often give different answers to the same input, complicating exact-match tests

: LLMs often give different answers to the same input, complicating exact-match tests Errores difíciles de reproducir: incluso con entradas fijas, los errores pueden ser difíciles de rastrear

El efecto mariposa: cambios en la cascada impredeciblemente en los sistemas

Alucinaciones y otros riesgos específicos de LLM





SolutionAdoptar una estrategia de pruebas exhaustiva y multicapa que combine las pruebas de software clásicas con los controles de calidad centrados en LLM:

Pruebas de varios niveles: pruebas de unidades para funciones/prompts, pruebas de integración y escenarios completos de fin a fin

Enfoque en la calidad de la salida LLM: relevancia, coherencia, precisión, estilo y seguridad

Utilice conjuntos de datos dorados con resultados esperados o intervalos de resultados aceptables para comprobar la regresión

Automatizar las pruebas e integrarlas en las tuberías CI/CD

Involucrar a los seres humanos para evaluaciones críticas o complejas (human-in-the-loop)

Iterativamente probar y refinar los prompts antes de la implementación

Prueba en diferentes niveles: componentes, prompts, cadenas/agentes y flujos de trabajo completos





Checklist:

La lógica es modular y minuciosamente probada individualmente y en combinación

La calidad de la producción se evalúa en base a los datos de referencia

Tests cover common cases, edge cases, failures, and malicious inputs

Se garantiza la robustez contra entradas ruidosas o adversarias

Todos los cambios pasan por pruebas automatizadas y se monitorean en la producción para detectar regresiones no detectadas.

15 - Own The Whole Stack

Este principio lo une todo, es una meta-regla que pasa a través de todos los demás.





Hoy en día, hay innumerables herramientas y marcos para manejar casi cualquier tarea, lo que es excelente para la velocidad y la facilidad de prototipos, pero también es una trampa.





Esto es especialmente importante en el desarrollo de agentes, donde necesita gestionar:

La impredecibilidad inherente de los LLM

Lógica compleja en torno a las transiciones y la auto-corrección

La necesidad de que su sistema se adapte y evolucione sin reescribir tareas básicas





Frameworks often invert controlEsto puede acelerar el prototipo pero hacer que el desarrollo a largo plazo sea más difícil de gestionar y personalizar.





Muchos de los principios que has visto se pueden implementar con herramientas fuera de la estantería, pero a veces, construir la lógica del núcleo explícitamente requiere un esfuerzo similar y te da mucho mejor transparencia, control y adaptabilidad.





Por otro lado, ir totalmente personalizado y reescribir todo desde cero es sobre-ingeniería, y igualmente arriesgado.





La clave esEl equilibrioComo ingeniero, usted decide conscientemente cuándo apoyarse en los marcos y cuándo tomar el control total, comprendiendo plenamente los compromisos involucrados.





Remember: el paisaje de herramientas de IA sigue evolucionando rápidamente.Muchas herramientas actuales se construyeron antes de que los estándares se solidificaran.

Conclusión

La construcción de un agente LLM ya no se trata sólo de llamar APIs. Se trata de diseñar un sistema que pueda manejar el caos del mundo real: errores, estado, límites de contexto, entradas inesperadas y requisitos en evolución.





Los 15 principios que cubrimos no son teoría, son lecciones de batalla probadas de los trenches.Le ayudarán a convertir los scripts frágiles en agentes estables, escalables y mantenibles que no rompen el momento en que aparezcan los usuarios reales.





Cada principio merece consideración para ver si se ajusta a su proyecto. al final, es su proyecto, sus objetivos y su creación. Pero recuerde: el LLM es poderoso, pero es sólo una parte de un sistema complejo. Su trabajo como ingeniero es poseer el proceso, gestionar la complejidad y mantener todo funcionando sin problemas.





Si te quitas una cosa, que sea esta:slow down, build solid foundations, and plan for the long hauPorque esa es la única manera de pasar de “¡Wow, respondió!” a “sí, sigue funcionando”.





Sigue iterando, probando y aprendiendo.Y no olvide, los humanos en el ciclo no son un retroceso, mantienen a su agente en tierra y eficaz.





Este no es el final, es sólo el comienzo de los agentes de construcción que realmente ofrecen.

¿Luchando para aumentar su audiencia como un profesional de la tecnología?

The Tech Audience Accelerator is the go-to newsletter for tech creators serious about growing their audience. You’ll get the proven frameworks, templates, and tactics behind my 30M+ impressions (and counting).