Por qué la observabilidad no es opcional.
Las automatizaciones que más daño hacen no son las que se rompen ruidosamente, sino las que fallan silenciosamente durante semanas. Un workflow que dejó de procesar el 5% de las facturas, una integración que descartaba leads de WhatsApp con un emoji raro, una conciliación que silenciosamente saltaba operaciones por encima de cierto importe. Cuando lo descubres, es ya un agujero en tu operación. Por eso, en cada flujo que entregamos en producción, montamos observabilidad desde el día uno.
Dashboards de negocio + técnicos
Dos vistas, no una. La técnica (ejecuciones, latencia, error rate, throughput) para tu equipo IT y la de negocio (facturas procesadas, leads cualificados, tickets resueltos vs. SLA) para el responsable de operaciones. Ambos miran el mismo sistema, pero ven lo que les importa.
Alertas con escalado, no spam
Slack/Teams para warnings, email para errores recurrentes, llamada/SMS para incidentes críticos con escalado en 15 minutos si no hay ack. Categorización por severidad real, no por umbral arbitrario. Si una alerta no es accionable, no se manda.
Retries inteligentes con backoff y dead letter
Errores transitorios (502, timeout, rate limit) reintentan con backoff exponencial. Errores permanentes (validación, autenticación) van a una cola de revisión humana. Nada se pierde, nada se reintenta infinito. Cada ejecución termina en éxito, error revisable o dead letter, nunca en limbo.
Audit log inmutable
Cada ejecución registra: qué entró, qué salió, qué decisión se tomó, qué LLM respondió qué, qué validación pasó/falló, quién aprobó manualmente. Cumplimiento RGPD y trazabilidad para auditorías financieras, especialmente útil para procesos contables.
El día que mi proveedor de OCR cambió un endpoint sin avisar, el sistema me alertó a las 9:03 con la excepción exacta y la línea del workflow. Lo arreglamos en 40 minutos. Sin observabilidad, lo habríamos descubierto en cierre mensual.
Qué no hacemos
- No vendemos dashboards bonitos sin alertas. Si nadie reacciona a un dato, es decoración.
- No usamos APM SaaS pesados (Datadog, New Relic) salvo que ya los tengas. Stack ligero por defecto.
- No instrumentamos a posteriori si el flujo no estaba pensado para observarse. En ese caso, refactor primero.