«You Build It, You Run It» de Werner Vogels, explicado

Q: ¿De qué se hace responsable exactamente un equipo cuando “opera” un servicio?

“Run it” normalmente incluye: - dashboards para la salud orientada al usuario (latencia, errores, tráfico) - alertas accionables relacionadas con el impacto (no síntomas ruidosos) - un flujo de incidentes (triage, mitigación, comunicación, seguimientos) - runbooks para fallos comunes y pasos de los “primeros 15 minutos” - responsabilidad sobre capacidad y coste (escalado, límites, presupuestación)

Q: ¿Cómo se establece on-call sin agotar a la gente?

Empieza con valores humanos: - rotaciones de on-call adecuadas y escalado claro (primario/secundario/expertos de dominio) - paginación solo por impacto real (definición de severidades) - runbooks para que los respondedores no improvisen bajo presión - tiempo de recuperación tras noches pesadas Un buen sistema de on-call pretende reducir los avisos el mes siguiente , no normalizar los héroes.

Q: ¿Qué debería desencadenar una página vs. un ticket?

Usa una regla simple: si despertar a alguien no cambia el desenlace, que sea un ticket . En la práctica: - pagea por caídas, riesgo de pérdida de datos, incidentes de seguridad o violaciones severas de SLO - los problemas degradados pero estables se atienden en horario laboral salvo que persistan - convierte alertas intermitentes en trabajo de seguimiento (ajuste, mejores señales, automatización)

Q: ¿Cómo apoyan los SLOs y los presupuestos de error a “Tú lo construyes, tú lo operas”?

Crean objetivos medibles y compartidos: - SLI : qué mides (ej., tasa de éxito de peticiones) - SLO : el objetivo para esa métrica (ej., 99.9%) - Presupuesto de errores : cuánto fallo puedes “gastar” y seguir cumpliendo el SLO Cuando el presupuesto se consume rápido, prioriza fiabilidad; cuando sobra, puedes asumir más riesgo en entrega.

Q: ¿Cómo deben manejar las equipos los incidentes y los postmortems?

Opera incidentes con un flujo repetible: - detectar → triage → mitigar → comunicar → aprender Luego escribe postmortems sin buscar culpables, centrados en huecos del sistema y del proceso, con seguimientos que sean: - concretos - asignados a una persona/equipo - con plazo Una checklist ligera como /blog/incident-response-checklist ayuda a estandarizar el flujo.

Q: ¿Cuál es el papel correcto de los equipos de plataforma sin quitar la propiedad del servicio?

Un equipo de plataforma debe ofrecer caminos pavimentados (plantillas, CI/CD, guardrails, servicios compartidos) mientras los equipos de producto mantienen la propiedad de los resultados de sus servicios. Un límite práctico: - el equipo de plataforma es responsable del uptime y soporte de la plataforma - los equipos de producto son responsables de la fiabilidad/rendimiento/coste de sus servicios sobre esa plataforma

Iniciar sesión Comenzar

«You Build It, You Run It» de Werner Vogels, explicado | Koder.ai

Qué significa realmente “Tú lo construyes, tú lo operas"

“Tú lo construyes, tú lo operas” es una de esas frases que se quedan porque es directa. No se trata de pósters motivacionales ni de “ser más DevOps”. Es una afirmación clara sobre la responsabilidad: el equipo que entrega un servicio también sigue siendo responsable de cómo se comporta ese servicio en producción.

La idea central: entregar y operar es un mismo trabajo

En la práctica, esto significa que el mismo equipo de producto que diseña funcionalidades y escribe código también:

monitoriza el servicio en producción
responde cuando se rompe
mejora la fiabilidad con el tiempo
compone prioridades entre trabajo nuevo y trabajo operativo

No quiere decir que todo el mundo se convierta en un experto en infraestructura de la noche a la mañana. Significa que el ciclo de retroalimentación es real: si publicas algo que aumenta las caídas, el ruido de pagers o el dolor del cliente, tu equipo lo nota directamente y aprende rápido.

Un modelo operativo práctico, no un eslogan

Esta filosofía es fácil de repetir y difícil de implementar a menos que la trates como un modelo operativo con expectativas explícitas. “Operarlo” suele incluir estar on-call (de alguna forma), poseer la respuesta a incidentes, escribir runbooks, mantener dashboards y mejorar continuamente el servicio.

También implica restricciones: no puedes pedir a los equipos que “operenen” sin darles las herramientas, el acceso y la autoridad para arreglar problemas, además del tiempo en su hoja de ruta para hacer ese trabajo.

Para quién es

Equipos de producto/servicio: para crear verdadera propiedad de extremo a extremo y aprendizaje más rápido.
Managers de ingeniería: para fijar límites claros (“este equipo posee este servicio”) y planificar capacidad para trabajo operativo.
Equipos de plataforma: para facilitar la propiedad proporcionando caminos pavimentados, sin quitar silenciosamente la responsabilidad de producción a los equipos que construyen los servicios.

Por qué esta filosofía cambió la forma en que los equipos entregan software

Antes de “Tú lo construyes, tú lo operas”, muchas empresas organizaban el trabajo de software como una carrera de relevos: los desarrolladores escribían código y luego lo “lanzaban por encima del muro” a un equipo de operaciones que lo desplegaba y mantenía.

Ese traspaso resolvía un problema a corto plazo—tenías a alguien con experiencia vigilando producción—pero creaba problemas más grandes.

El problema del traspaso: retroalimentación lenta y responsabilidad difusa

Cuando un equipo de ops separado posee producción, los desarrolladores suelen enterarse de los problemas tarde (o nunca). Un bug puede aparecer como un ticket vago días después: “el servicio está lento” o “CPU alta”. Para entonces falta contexto, los logs se han rotado y la gente que hizo el cambio ya pasó a otra cosa.

Los traspasos también difuminan la propiedad. Si ocurre una caída, dev puede asumir “ops lo atrapará” y ops asume “dev lanzó algo arriesgado”. El resultado es predecible: resolución de incidentes más larga, modos de fallo repetidos y una cultura donde los equipos optimizan localmente en vez de por la experiencia del cliente.

Por qué la propiedad acelera la entrega y reduce incidentes repetidos

“Tú lo construyes, tú lo operas” estrecha el ciclo. El mismo equipo que lanza un cambio es responsable de su comportamiento en producción. Eso empuja mejoras prácticas aguas arriba: alertas más claras, despliegues más seguros, mejores dashboards y código más fácil de operar.

Paradójicamente, a menudo conduce a entregas más rápidas. Cuando los equipos confían en su proceso de release y entienden el comportamiento en producción, pueden publicar cambios más pequeños con más frecuencia—reduciendo el radio de impacto de errores y facilitando el diagnóstico.

No es una talla única

No todas las organizaciones empiezan con el mismo personal, requisitos de cumplimiento o sistemas heredados. La filosofía es una dirección, no un interruptor. Muchos equipos la adoptan gradualmente—comenzando con on-call compartido, mejor observabilidad y límites de servicio más claros—antes de asumir la propiedad de extremo a extremo.

De dónde viene: Werner Vogels y la mentalidad de servicio

Werner Vogels, CTO de Amazon, popularizó la frase “You build it, you run it” al describir cómo Amazon (y después AWS) quería que los equipos pensaran sobre el software: no como un proyecto que se entrega, sino como un servicio que se opera.

El cambio clave fue tanto psicológico como técnico. Cuando un equipo sabe que le van a avisar por fallos, las decisiones de diseño cambian. Te importa tener valores por defecto sensatos, alertas claras, degradación elegante y caminos de despliegue que puedas revertir. En otras palabras, construir incluye planear para las partes desordenadas de la vida real.

Por qué la era cloud elevó el listón

La mentalidad de servicios en la era AWS hizo que la fiabilidad y la velocidad sean no negociables. Los clientes de la nube esperan APIs disponibles las 24 horas y mejoras continuas—no oleadas de “grandes releases” cada trimestre.

Esa presión alentó:

servicios pequeños y duraderos con dueños claros
bucles de retroalimentación rápidos entre cambios de código y comportamiento en producción
hábitos operativos tratados como características de producto (monitorización, planificación de capacidad, runbooks)

Ideas relacionadas (sin reescribir la historia)

Esta filosofía se solapa con el movimiento DevOps: cerrar la brecha entre “dev” y “ops”, reducir traspasos y hacer que los resultados (disponibilidad, latencia, carga de soporte) sean parte del bucle de desarrollo. También encaja con la idea de equipos pequeños y autónomos que pueden entregar de forma independiente.

Inspiración, no plantilla para copiar y pegar

Es tentador tratar el enfoque de Amazon como un template a copiar. Pero “Tú lo construyes, tú lo operas” es más una dirección que un organigrama estricto. El tamaño de tu equipo, las restricciones regulatorias, la madurez del producto y los requisitos de disponibilidad pueden requerir adaptaciones—rotaciones on-call compartidas, soporte de plataforma o adopción por fases.

Si quieres una forma práctica de traducir la mentalidad a la acción, ve a /blog/how-to-adopt-you-build-it-you-run-it-step-by-step.

Propiedad: lo que asumen los equipos cuando “lo operan”

“Tú lo construyes, tú lo operas” es, en esencia, una declaración sobre propiedad. Si tu equipo entrega un servicio, tu equipo es responsable de cómo se comporta en el mundo real—no solo de si pasa pruebas el día del release.

Qué cubre realmente la “propiedad”

Operar un servicio significa preocuparse por resultados de extremo a extremo:

Fiabilidad: los usuarios pueden depender y los fallos se manejan rápido.
Rendimiento: se mantiene lo bastante rápido en uso normal y pico.
Coste: no se convierte silenciosamente en el ítem más caro del presupuesto.
Seguridad y cumplimiento: los riesgos se abordan como parte de la entrega, no después.
Soporte: clientes y usuarios internos reciben ayuda clara y oportuna.

Qué incluye “operarlo” en la práctica

En una semana normal, “operarlo” tiene menos que ver con heroísmos y más con operaciones rutinarias:

Configurar monitorización y dashboards para ver la salud de un vistazo.
Definir alertas accionables (no ruidosas) y ligadas al impacto del usuario.
Manejar incidentes: triage, mitigación, comunicación y trabajo de seguimiento.
Gestionar capacidad: planes de escalado, pruebas de carga y límites de recursos.
Mantener runbooks actualizados para que cualquiera on-call responda de forma consistente.

La responsabilidad no es culpa

Este modelo solo funciona cuando responsabilidad significa “nosotros arreglamos esto”, no “buscamos a alguien a quien castigar”. Cuando algo falla, el objetivo es entender qué en el sistema lo permitió—alertas faltantes, límites poco claros, despliegues arriesgados—y mejorar esas condiciones.

Límites claros y un equipo propietario nombrado

La propiedad se complica cuando los servicios son difusos. Define límites de servicio (qué hace, de qué depende, qué promete) y asigna un equipo propietario nombrado. Esa claridad reduce traspasos, acelera la respuesta a incidentes y hace obvias las prioridades cuando compiten fiabilidad y nuevas funcionalidades.

On-call bien hecho (y sin quemar a la gente)

El on-call es central para “Tú lo construyes, tú lo operas” porque cierra el ciclo de retroalimentación. Cuando el mismo equipo que publica un cambio también siente el impacto operacional (picos de latencia, despliegues fallidos, quejas de clientes), las prioridades se aclaran: el trabajo de fiabilidad deja de ser “problema de otro” y la forma más rápida de entregar más a menudo suele ser calmar el sistema.

Haz el on-call humano por diseño

Un on-call sano se basa en predictibilidad y apoyo.

Rotaciones ajustadas al tamaño del equipo: evita horarios heroicos. Si la cobertura es escasa, reduce el alcance (menos servicios por rotación) o añade un secundario compartido.
Rutas de escalado: primario, secundario y un experto de dominio—para que nadie quede solo a las 3 a.m.
Tiempo de recuperación tras noches duras: compensación de tiempo o empezar tarde tras largas noches, y tiempo libre luego de incidentes mayores. El descanso es parte de la fiabilidad.
Runbooks y checklists de los “primeros 15 minutos”: los respondedores deben tener un playbook claro, no adivinanzas.

Niveles de severidad: pagina solo cuando importa

Define niveles de severidad para que el sistema no alerte por cada imperfección.

Sev 1 (page): caída que afecta a clientes, riesgo de pérdida de datos, incidente de seguridad o violación fuerte de SLO.
Sev 2 (page en horario laboral o si es sostenido): servicio degradado con impacto real de usuario.
Sev 3 (ticket): bugs no urgentes, alertas inestables, pequeños aumentos de tasa de error, tendencias de capacidad.

Una regla simple: si despertar a alguien no cambia el desenlace, que sea un ticket, no una página.

El objetivo real: menos páginas el próximo mes

On-call no es castigo; es una señal. Cada alerta ruidosa, fallo repetido o arreglo manual debe retroalimentar trabajo de ingeniería: mejores alertas, automatización, despliegues más seguros y cambios del sistema que eliminen la necesidad de alertar.

SLOs, SLIs y presupuestos de error: guardarraíles prácticos

Lanza un servicio móvil

Prototipa una app móvil en Flutter y mantén al mismo equipo responsable tras el lanzamiento.

Crear app móvil

Si “lo operas” es real, los equipos necesitan una forma compartida de hablar de fiabilidad sin que cada discusión se vuelva una opinión. Eso es lo que ofrecen SLIs, SLOs y presupuestos de error: objetivos claros y un comercio justo entre moverse rápido y mantener la estabilidad.

SLI vs SLO vs SLA (en lenguaje llano)

SLI (Service Level Indicator): una medición de cómo se comporta el servicio. Piensa: “¿Qué estamos viendo realmente en producción?”
SLO (Service Level Objective): una meta para un SLI. Piensa: “¿Qué nivel de fiabilidad buscamos?”
SLA (Service Level Agreement): una promesa a clientes, a menudo con penalizaciones o créditos. Piensa: “¿Qué garantizamos contractualmente?”

Una forma útil de recordarlo: SLI = métrica, SLO = objetivo, SLA = compromiso externo.

Ejemplos de SLIs que puedes medir

Buenos SLIs son específicos y están ligados a la experiencia de usuario, como:

Latencia: “el 95% de las solicitudes terminan en menos de 300 ms.”
Disponibilidad: “las solicitudes tienen éxito (no-5xx) el 99.9% del tiempo.”
Tasa de éxito de jobs (para sistemas asíncronos): “el 99.5% de las exportaciones nocturnas terminan con éxito antes de las 6 a.m.”

Presupuestos de error: cómo se equilibran velocidad y estabilidad

Un presupuesto de error es la cantidad de “malo” que puedes permitirte mientras sigues cumpliendo el SLO (por ejemplo, si tu SLO es 99.9% de disponibilidad, tu presupuesto mensual es 0.1% de tiempo de inactividad).

Cuando el servicio está sano y estás dentro del presupuesto, los equipos pueden asumir más riesgo de entrega (lanzar features, experimentar). Cuando estás quemando el presupuesto demasiado rápido, el trabajo de fiabilidad pasa a primer plano.

Cómo los SLOs guían la planificación

Los SLOs convierten la fiabilidad en un insumo de planificación. Si tu presupuesto es bajo, el siguiente sprint podría priorizar limitación de tasa, despliegues más seguros o arreglar dependencias inestables—porque fallar el SLO tiene un coste claro. Si el presupuesto es amplio, puedes priorizar trabajo de producto con confianza.

Entregar de forma segura: preparación para producción y prácticas de release

“Tú lo construyes, tú lo operas” solo funciona si desplegar a producción es rutinario, no un evento de alto riesgo. El objetivo es reducir la incertidumbre antes del lanzamiento y limitar el radio de impacto después.

Requisitos mínimos antes de lanzar

Antes de considerar un servicio “listo”, los equipos suelen necesitar unos básicos operativos:

Dashboards que muestren la salud orientada al usuario (latencia, tasa de error, tráfico) y dependencias clave.
Alertas accionables (umbrales claros, propietario claro, sin páginas “FYI” ruidosas).
Runbooks para fallos comunes: qué comprobar primero, cómo mitigar y cuándo escalar.
Backups y simulacros de restauración (el simulacro importa tanto como la copia) y una política documentada de retención.

Entrega progresiva: publicar en pasos más pequeños y seguros

En lugar de lanzar todo a todos a la vez, la entrega progresiva limita el impacto:

Feature flags te permiten publicar código controlando la exposición, con un plan claro para limpiar las banderas.
Canary releases envían un pequeño porcentaje del tráfico a la nueva versión y comparan métricas con la línea base.
Rollbacks rápidos (o roll-forwards) practicados y automatizados para que la recuperación no sea improvisada bajo presión.

Si tu equipo estandariza el rollback, trátalo como una capacidad de primera clase: cuanto más rápido puedas revertir con seguridad, más realista es “tú lo operas”.

Genera confianza con pruebas de carga y de fallo

Dos pruebas reducen las "incógnitas desconocidas":

Pruebas de carga validan supuestos de capacidad y revelan cuellos de botella antes que los clientes lo hagan.
Pruebas de fallo (por ejemplo, timeouts de dependencias, instancias terminadas, conexiones perdidas) verifican que el servicio degrade con elegancia y que las alertas se disparen cuando deben.

Checklist simple de preparación para producción

Mantenlo ligero: una página en tu repo o template de ticket (por ejemplo, “Observabilidad,” “Preparación on-call,” “Protección de datos,” “Plan de rollback,” “Capacidad probada,” “Runbooks vinculados”). Considera “no listo” como un estado normal—mucho mejor que aprender en producción.

Incidentes y postmortems: convertir caídas en aprendizaje

Crea un servicio rápidamente

Crea un backend en Go y PostgreSQL que tu equipo pueda gestionar de extremo a extremo.

Crear backend

Los incidentes son donde “tú lo operas” se vuelve real: un servicio se degrada, los clientes lo notan y el equipo debe responder rápida y claramente. El objetivo no es el heroísmo sino un flujo repetible que reduzca el impacto y genere mejoras.

Un flujo de incidentes simple

La mayoría de equipos convergen en las mismas fases:

Detectar: alertas de monitorización, reportes de clientes o detección automática de anomalías.
Triage: confirmar qué falla, estimar severidad, asignar un líder de incidente e iniciar una línea temporal.
Mitigar: detener la hemorragia (rollback, apagar flag, escalar, bloquear tráfico malo) y luego restaurar el servicio completo.
Comunicar: mantener actualizaciones consistentes—qué está impactado, estado actual y hora de la próxima actualización. Comunicar es parte de mitigar.
Aprender: tras estabilizar, analizar factores contribuyentes y prevenir repeticiones.

Si quieres una plantilla práctica para este flujo, mantén una checklist ligera a mano (ver /blog/incident-response-checklist).

Postmortems sin culpas (y qué documentar)

Un postmortem sin culpas no significa “nadie cometió errores”. Significa que te centras en cómo el sistema y el proceso permitieron que el error llegara a producción, no en avergonzar a individuos. Eso hace que la gente comparta detalles pronto, esencial para aprender.

Documenta:

Impacto al cliente: quién se vio afectado, durante cuánto tiempo y con qué gravedad.
Línea temporal: eventos clave, decisiones y cuándo aparecieron las señales.
Causas raíz y contribuyentes: factores técnicos y de proceso (p. ej., propiedad poco clara, alertas faltantes).
Qué salió bien / qué no: incluida la comunicación.

Acciones que realmente evitan repeticiones

Los buenos postmortems terminan con seguimientos concretos y asignados, típicamente en cuatro áreas: mejoras de herramientas (alertas/dashboard), pruebas (regresiones y casos límite), automatización (deploy/rollback más seguros, guardrails) y documentación (runbooks, pasos operativos claros). Asigna un responsable y una fecha límite—si no, el aprendizaje queda teórico.

Herramientas que facilitan la propiedad del servicio

Las herramientas son la palanca que hace sostenible “Tú lo construyes, tú lo operas”—pero no pueden sustituir la verdadera propiedad. Si un equipo trata las operaciones como “problema de otro”, el dashboard más sofisticado solo documentará el caos. Buenas herramientas reducen fricción: hacen que lo correcto (observar, responder, aprender) sea más fácil que lo incorrecto (adivinar, culpar, ignorar).

Esenciales que todo equipo necesita

Como mínimo, los propietarios de servicio necesitan una forma consistente de ver qué hace su software en producción y actuar rápido cuando no lo hace.

Logs centralizados: buscables, retenidos el tiempo suficiente para investigar incidentes y estructurados cuando sea posible.
Métricas: las señales doradas (latencia, tráfico, errores, saturación) más métricas críticas de negocio.
Trazas distribuidas: para seguir una petición a través de servicios y detectar cuellos de botella.
Alertas: alertas accionables ligadas al impacto del cliente, no a síntomas ruidosos.
Ticketing / flujo de incidentes: un lugar para rastrear trabajo, enlazar incidentes con seguimientos y asegurar que las correcciones se publiquen.

Si tu historia de monitorización está fragmentada, los equipos pasan más tiempo buscando que arreglando. Un enfoque unificado de observabilidad ayuda; ver /product/observability.

Hacer visible la propiedad a escala

A medida que la organización crece, “¿quién es el dueño de esto?” se vuelve un riesgo de fiabilidad. Un catálogo de servicios (o portal interno de desarrolladores) resuelve esto manteniendo la propiedad y el contexto operacional en un solo lugar: nombre del equipo, rotación on-call, ruta de escalado, runbooks, dependencias y enlaces a dashboards.

La clave es metadatos de propiedad que se mantengan actualizados. Hazlo parte del flujo: los nuevos servicios no pueden ir a producción sin un propietario y los cambios de propiedad se tratan como cambios de código (revisados, rastreados).

Las herramientas deben reforzar hábitos

Los mejores montajes empujan a los equipos hacia conductas saludables: plantillas para runbooks, alertas automatizadas ligadas a SLOs y dashboards que respondan en segundos “¿están los usuarios afectados?”. Pero el sistema humano sigue importando—los equipos necesitan tiempo para mantener estas herramientas, podar alertas y mejorar continuamente cómo operan el servicio.

El papel de los equipos de plataforma: apoyar sin quitar la propiedad

Los equipos de plataforma facilitan que “Tú lo construyes, tú lo operas” sea viable. Su trabajo no es ejecutar producción para todos: es proporcionar un camino bien iluminado (a veces llamado “paved roads”) para que los equipos de producto posean servicios sin reinventar operaciones cada sprint.

Caminos pavimentados, plantillas, guardrails

Una buena plataforma ofrece valores por defecto que son difíciles de estropear y fáciles de adoptar:

Plantillas golden-path para nuevos servicios (estructura de repo, logging, alertas, dashboards)
Pipelines CI/CD estándar con opciones de despliegue seguras (canary, blue/green, rollback automático)
Bases de ejecución listas para producción (health checks, límites de tasa, convenciones de configuración)

Los guardrails deben prevenir conductas riesgosas sin bloquear el despliegue. Piensa en “seguro por defecto” en lugar de “abre un ticket y espera”.

Servicios compartidos vs propiedad compartida

Los equipos de plataforma pueden ejecutar servicios compartidos—sin asumir la propiedad de los servicios de producto.

Servicios compartidos: autenticación/autorización, gestión de secretos, plataforma de contenedores, registro de artefactos, pila de observabilidad.
Propiedad de producto: cada equipo sigue siendo responsable de la fiabilidad, rendimiento e integridad de datos de su servicio.

El límite es simple: el equipo de plataforma posee el uptime y soporte de la plataforma; los equipos de producto poseen cómo su servicio la utiliza.

Cómo las plataformas reducen la carga cognitiva

Cuando los equipos no tienen que dominar CI/CD, auth o secretos desde el día uno, pueden centrarse en el comportamiento del servicio y el impacto en el usuario.

Ejemplos que eliminan trabajo repetitivo:

Configuración de pipeline con un clic y gates de prueba consistentes
Auth central que soporta identidad servicio-a-servicio
Gestión de secretos con políticas de rotación
Monitoring base que se auto-instrumenta con métricas comunes

El resultado es entrega más rápida con menos “operaciones-custom” mientras se mantiene la promesa central: el equipo que construye el servicio sigue corriendo con él.

Trampas comunes y cuándo adaptar el modelo

Controla todo el ciclo de vida

Crea una app en React que tu equipo pueda operar, mejorar e iterar sin largos traspasos.

Crear app web

“Tú lo construyes, tú lo operas” puede mejorar fiabilidad y velocidad—pero solo si la organización cambia las condiciones alrededor del equipo. Muchos fracasos parecen adoptar el eslogan, pero no las prácticas de soporte.

Modos de fallo a vigilar

Unos cuantos patrones aparecen una y otra vez:

Los desarrolladores están on-call, pero nunca tienen tiempo para arreglar causas raíz. El pager se convierte en una tarea nocturna mientras el backlog sigue empujando trabajo de fiabilidad hacia atrás. Esto crea indefensión aprendida: la gente deja de creer que los incidentes llevarán a mejoras reales.
Propiedad vaga (“todo el mundo lo posee”). Si un incidente involucra cinco equipos y nadie puede tomar una decisión de extremo a extremo, no tienes propiedad—tienes una reunión.
Demasiadas dependencias compartidas. Cuando cada servicio depende de un esquema de base de datos central, una librería compartida o un equipo “core” para cambios, los equipos no pueden realmente operar lo que construyen. Heredan fallos sin tener palancas para reducirlos.
On-call como castigo o heroísmo. Si la cultura premia más apagar incendios que la prevención, el sistema tenderá a emergencias frecuentes.

Cuándo el modelo puede no encajar (y cómo adaptarlo)

Algunos entornos requieren un enfoque a medida:

Alto cumplimiento o entornos regulados. Puede que necesites separación de funciones, control formal de cambios o acceso limitado a producción. Adapta manteniendo a los equipos responsables de resultados de fiabilidad, usando flujos aprobados (runbooks auditados, cambios preaprobados, acceso break-glass).
Monolitos heredados. Una base de código única con propiedad enredada hace difícil “operarlo”. Empieza por asignar propiedad operativa clara para módulos, jobs o viajes de usuario específicos e invierte en observabilidad y seguridad de despliegue antes de reorganizarlo todo.
Plataformas compartidas críticas. Si una plataforma soporta muchos equipos, este equipo de plataforma puede ejecutarla—pero los equipos de producto deben seguir teniendo objetivos de fiabilidad y propiedad sobre su comportamiento.

Trabajo de liderazgo: proteger la capacidad para la fiabilidad

Esta filosofía fracasa más rápido cuando el trabajo de fiabilidad se trata como “extra”. El liderazgo debe reservar explícitamente capacidad para:

Pagar deuda operacional (alertas, runbooks, automatización)
Arreglar causas de incidentes recurrentes
Reducir dependencias riesgosas

Sin esa protección, el on-call se convierte en un impuesto—en lugar de un ciclo de retroalimentación que mejora el sistema.

Cómo adoptar “Tú lo construyes, tú lo operas” paso a paso

Desplegar esto funciona mejor como un cambio por fases, no como un anuncio a toda la compañía. Empieza pequeño, haz visible la propiedad y luego expande.

1) Piloto con un servicio

Elige un servicio único y bien acotado (idealmente con usuarios claros y riesgo manejable).

Define:

Un SLO que refleje la experiencia del usuario (p. ej., “99.9% de solicitudes con éxito”)
Cobertura on-call para ese servicio (aunque inicialmente sea en horario laboral + escalado)
Runbooks para los modos de fallo principales: “qué comprobar”, “cómo hacer rollback”, “a quién paginar”

La clave: el equipo que publica cambios también es dueño de los resultados operativos de ese servicio.

2) Añadir guardrails antes de escalar

Antes de expandir a más servicios, asegúrate de que el equipo piloto puede operar sin heroísmos:

Alertas básicas que pagean por problemas que impactan al usuario (no por cada pico de métrica)
Una checklist ligera de preparación para producción (logging, dashboards, ruta de rollback)
Revisión regular de páginas e incidentes para eliminar alertas ruidosas y corregir problemas repetidos

3) Medir la adopción adecuada

Usa un pequeño set de indicadores que muestren si la propiedad está mejorando la entrega y la estabilidad:

Tasa de fallo de cambios (con qué frecuencia un deploy causa incidente/rollback)
MTTR (tiempo medio de restauración)
Volumen de páginas (páginas por semana, y páginas fuera de horario)
Frecuencia de despliegues (con qué frecuencia puedes publicar de forma segura)

Plan de 30/60/90 días de ejemplo

Días 1–30: Elige el servicio piloto, define SLO, establece política de paging, escribe primeros runbooks, crea dashboards.
Días 31–60: Ajusta alertas (reduce ruido), practica respuesta a incidentes, añade seguridad en releases (pasos de rollback, canary donde sea posible).
Días 61–90: Expande a 1–2 servicios más, estandariza plantillas (runbooks/docs de SLO), revisa métricas y equidad de carga de trabajo.

Dónde encaja Koder.ai (si modernizas cómo entregas)

Si adoptas “tú lo construyes, tú lo operas” mientras intentas acelerar la entrega, el cuello de botella suele ser el mismo: pasar de idea → servicio listo para producción con propiedad clara y una historia de rollback segura.

Koder.ai es una plataforma vibe-coding que ayuda a los equipos a construir apps web, backend y móviles mediante una interfaz de chat (React en web, Go + PostgreSQL en backend, Flutter en móvil). Para equipos que abrazan la propiedad del servicio, algunas características encajan bien con el modelo operativo:

Modo planning para definir límites de servicio, dependencias y expectativas de runbook/SLO antes de codificar.
Snapshots y rollback para convertir el “revertir rápido” en un movimiento estándar durante incidentes.
Exportación de código fuente para que la propiedad siga con el equipo (y el repo), no con la herramienta.

Próximo paso

Elige tu servicio piloto esta semana y agenda una reunión de kickoff de 60 minutos para fijar el primer SLO, rotación on-call y responsables de runbook. Si evalúas herramientas para apoyar esto (despliegue, rollback y flujos alrededor de la propiedad), consulta /pricing para las opciones gratuitas, pro, business y enterprise de Koder.ai—más opciones como hosting, despliegue y dominios personalizados.

Preguntas frecuentes

¿Qué significa en la práctica “Tú lo construyes, tú lo operas”?

Significa que el equipo que diseña, construye y despliega un servicio también es responsable de lo que ocurre después de que esté en producción: monitorización, respuesta on-call, seguimientos tras incidentes y mejoras de fiabilidad.

Es un modelo de responsabilidad (propiedad clara), no una elección de herramienta ni un cambio de título laboral.

¿Significa que todos los desarrolladores deben ser expertos en operaciones?

No implica que cada ingeniero deba convertirse en un especialista en operaciones a tiempo completo.

Significa:

que el equipo tiene el acceso y la autoridad para diagnosticar y solucionar problemas en producción
que el trabajo operacional forma parte de la planificación normal del equipo
que las herramientas de plataforma deben reducir la complejidad (caminos pavimentados) sin arrebatar la propiedad

¿Por qué es mejor que el modelo tradicional de traspaso entre dev y ops?

Con un equipo de operaciones separado, la retroalimentación llega tarde y la responsabilidad se difumina: los desarrolladores pueden no notar el impacto en producción y ops puede no tener contexto sobre cambios recientes.

La propiedad de extremo a extremo suele mejorar:

la velocidad de respuesta ante incidentes (menos traspasos)
la calidad de las releases (los equipos invierten en despliegues más seguros)
la estabilidad a largo plazo (se corrigen causas raíz, no solo parches)

¿De qué se hace responsable exactamente un equipo cuando “opera” un servicio?

“Run it” normalmente incluye:

dashboards para la salud orientada al usuario (latencia, errores, tráfico)
alertas accionables relacionadas con el impacto (no síntomas ruidosos)
un flujo de incidentes (triage, mitigación, comunicación, seguimientos)
runbooks para fallos comunes y pasos de los “primeros 15 minutos”
responsabilidad sobre capacidad y coste (escalado, límites, presupuestación)

¿Cómo se establece on-call sin agotar a la gente?

Empieza con valores humanos:

rotaciones de on-call adecuadas y escalado claro (primario/secundario/expertos de dominio)
paginación solo por impacto real (definición de severidades)
runbooks para que los respondedores no improvisen bajo presión
tiempo de recuperación tras noches pesadas

Un buen sistema de on-call pretende reducir los avisos el mes siguiente, no normalizar los héroes.

¿Qué debería desencadenar una página vs. un ticket?

Usa una regla simple: si despertar a alguien no cambia el desenlace, que sea un ticket.

En la práctica:

pagea por caídas, riesgo de pérdida de datos, incidentes de seguridad o violaciones severas de SLO
los problemas degradados pero estables se atienden en horario laboral salvo que persistan
convierte alertas intermitentes en trabajo de seguimiento (ajuste, mejores señales, automatización)

¿Cómo apoyan los SLOs y los presupuestos de error a “Tú lo construyes, tú lo operas”?

Crean objetivos medibles y compartidos:

SLI: qué mides (ej., tasa de éxito de peticiones)
SLO: el objetivo para esa métrica (ej., 99.9%)
Presupuesto de errores: cuánto fallo puedes “gastar” y seguir cumpliendo el SLO

Cuando el presupuesto se consume rápido, prioriza fiabilidad; cuando sobra, puedes asumir más riesgo en entrega.

¿Qué prácticas de lanzamiento hacen sostenible este modelo?

Adopta prácticas de release que reduzcan la incertidumbre y el blast radius:

básicos de preparación para producción (dashboards, alertas, runbooks, plan de rollback)
entrega progresiva (feature flags, canaries, releases pequeñas)
pasos de rollback/roll-forward ensayados
pruebas de carga y de fallo para atrapar los “unknown unknowns” temprano

¿Cómo deben manejar las equipos los incidentes y los postmortems?

Opera incidentes con un flujo repetible:

detectar → triage → mitigar → comunicar → aprender

Luego escribe postmortems sin buscar culpables, centrados en huecos del sistema y del proceso, con seguimientos que sean:

concretos
asignados a una persona/equipo
con plazo

Una checklist ligera como /blog/incident-response-checklist ayuda a estandarizar el flujo.

¿Cuál es el papel correcto de los equipos de plataforma sin quitar la propiedad del servicio?

Un equipo de plataforma debe ofrecer caminos pavimentados (plantillas, CI/CD, guardrails, servicios compartidos) mientras los equipos de producto mantienen la propiedad de los resultados de sus servicios.

Un límite práctico:

el equipo de plataforma es responsable del uptime y soporte de la plataforma
los equipos de producto son responsables de la fiabilidad/rendimiento/coste de sus servicios sobre esa plataforma