Hoe je een webapp bouwt die SLA-naleving nauwkeurig bijhoudt

Q: What does “SLA compliance” mean in an SLA tracking web app?

Een SLA-tracker beantwoordt één vraag met bewijs: heb je de contractuele verplichtingen voor een specifieke klant en periode gehaald ? In de praktijk betekent het het binnenhalen van ruwe signalen (monitoring, tickets, handmatige updates), het toepassen van de regels van de klant (werkuren, uitsluitingen) en het produceren van een auditvriendelijke pass/fail met ondersteunende details.

Q: How are SLI, SLO, and SLA different—and why should the app model them separately?

Gebruik: - SLI voor de ruwe meting (bijv. percentage succesvolle checks, tijd-naar-eerste-reactie). - SLO voor je interne doelstelling (vaak strenger dan het contract). - SLA voor de externe verplichting (vaak gekoppeld aan credits of boetes). Modelleer ze apart zodat je betrouwbaarheid (SLO) kunt verbeteren zonder per ongeluk de contractuele rapportage (SLA) te wijzigen.

Q: Which SLA metrics should I implement first for an MVP?

Een sterk MVP volgt meestal 1–3 metrics end-to-end: - Beschikbaarheid % per service per maand - Tijd tot eerste menselijke reactie (TTFR) (vaak alleen binnen werkuren) - Tijd tot oplossing (TTR) voor hoog-severity incidenten Deze mappen goed naar echte databronnen en dwingen je om vroege implementatie van lastige onderdelen (perioden, kalenders, uitsluitingen) te doen.

Q: What’s the minimal data model for a trustworthy SLA tracker?

Begin met saaie, expliciete entiteiten: - Klant (tenant) - Service (wat gemeten wordt) - Plan (commercieel omhulsel) - SLA-beleid (doelen + vensters + uitsluitingen) - Incident (mensvriendelijke container) - Event (immuteerbare feiten gebruikt voor berekeningen) Streef naar traceerbaarheid: elk gerapporteerd getal moet linken naar specifieke event IDs en een specifieke beleidsversie .

Q: How should I store timestamps and handle time zones (including DST)?

Sla tijd correct en consistent op: - Bewaar in UTC met timezone-semantiek - Bewaar ook (wanneer je het binnenkreeg) - Houd de IANA-tijdzone van de klant voor weergave en werkurenlogica , niet voor het herschrijven van gebeurtenissen Maak perioden expliciet (start/eind timestamps) zodat je rapporten later kunt reproduceren—ook over DST-wisselingen heen.

Q: How do I calculate TTFR/TTR correctly when business hours, pauses, and exclusions apply?

Bereken duur door intervals op te tellen op een tijdlijn, niet simpelweg twee timestamps van elkaar af te trekken. Definieer “chargeable time” expliciet door intervallen te verwijderen die niet meetellen, zoals: - buiten de werkuren - “wachtend op klant”-pauzes - gepland onderhoud (als dat is uitgesloten door beleid) Bewaar de afgeleide intervallen en redencodes zodat je precies kunt uitleggen wat er is meegeteld.

Q: How should availability be calculated (eligible minutes vs total minutes)?

Houd twee noemers expliciet bij: - Eligible minutes (minuten die meetellen voor de SLA) - Downtime minutes (eligible minuten waarop de service down is) Bereken dan: Bepaal ook wat er gebeurt als eligible minutes nul is (bijv. toon N/A ). Documenteer die regel en pas hem consequent toe.

Inloggen Aan de slag

Hoe je een webapp bouwt die SLA-naleving nauwkeurig bijhoudt | Koder.ai

Definieer SLA-naleving en wat je bouwt

SLA-naleving betekent het halen van de meetbare beloften in een Service Level Agreement (SLA)—een contract tussen een aanbieder en een klant. De taak van je app is om een eenvoudige vraag met bewijs te beantwoorden: Hebben we gedaan wat we beloofden, voor deze klant, in deze periode?

Het helpt om drie gerelateerde termen te scheiden:

SLI (Service Level Indicator): de ruwe meting (bijvoorbeeld “percentage succesvolle checks”, “tijd tot eerste reactie” of “tijd tot herstel van de dienst”).
SLO (Service Level Objective): een intern doel voor een SLI (vaak strikter dan de SLA). Voorbeeld: “99,95% uptime doel.”
SLA: de extern overeengekomen verplichting, vaak gekoppeld aan credits of boetes. Voorbeeld: “99,9% maandelijkse uptime.”

Veelvoorkomende SLA-metrics die je bijhoudt

De meeste SLA-tracking webapps beginnen met een kleine set metrics die aansluiten op echte operationele data:

Uptime / beschikbaarheid: percentage tijd dat de service “up” is tijdens de rapportageperiode.
Reactietijd (support): tijd vanaf het aanmaken van een klantticket tot de eerste menselijke reactie.
Oplostijd: tijd vanaf incident/ticket creatie tot sluiting of herstel.
Beschikbaarheidsvensters: regels zoals “tel alleen werkuren mee”, “sluit gepland onderhoud uit” of “meet alleen van 08:00–18:00 in de tijdzone van de klant.”

Wie gebruikt de app—en waarom

Verschillende gebruikers willen dezelfde waarheid, gepresenteerd op verschillende manieren:

Ops/SRE: detecteren breaches vroeg en valideren incident-tijdlijnen.
Supportteams: volgen reactietijd- en oplossingsafspraken per klant.
Managers: zien trends, risico en of teams consequent doelen halen.
Klanten: bekijken transparante rapporten (en soms een statuspagina) die laten zien wat er gebeurde.

Wat je bouwt (en wat niet)

Dit product draait om bijhouden, bewijs en rapportage: signalen verzamelen, overeengekomen regels toepassen en auditvriendelijke resultaten genereren. Het garandeert niet de performance; het meet die—nauwkeurig, consistent en op een manier die je later kunt verdedigen.

Vereisten: metrics, regels en wie wat nodig heeft

Voordat je tabellen ontwerpt of code schrijft, wees messcherp over wat “naleving” voor jouw bedrijf betekent. De meeste SLA-tracking problemen zijn geen technische problemen—het zijn requirements-problemen.

Verzamel de inputs (en vertrouw niet op geheugen)

Begin met het verzamelen van de bronnen van waarheid:

Klantcontracten en MSA's (inclusief bijlagen en ticketing-addenda)
Servicetiers (bijv. Basic vs. Premium) en welke klanten aan welke tier zijn gekoppeld
Werkuren en tijdzones per klant (of per service)
Uitsluitingen en speciale regels: geplande onderhoudsvensters, overmacht, door klant veroorzaakte vertragingen, afhankelijkheden van derden, respijtperiodes

Schrijf deze als expliciete regels op. Als een regel niet duidelijk geformuleerd kan worden, kan hij niet betrouwbaar worden berekend.

Bepaal wat er moet worden bijgehouden

Maak een lijst van de echte “dingen” die een SLA-cijfer kunnen beïnvloeden:

Incidenten/storingen (start, einde, severity, getroffen services)
Requests/tickets (aangemaakt, eerste reactie, oplossing, in afwachting van klant)
Onderhoud (gepland vs. noodonderhoud; of het meetelt tegen beschikbaarheid)
Gedeeltelijke storingen (degraded performance) en of die überhaupt meetellen

Identificeer ook wie wat nodig heeft: support wil realtime risico op breach, managers willen wekelijkse samenvattingen, klanten willen eenvoudige overzichten (vaak voor een statuspagina).

Kies 1–3 metrics voor de eerste release

Houd de scope klein. Kies de minimale set die het systeem end-to-end bewijst, zoals:

Beschikbaarheid % per service per maand
Incident reactietijd (eerste menselijke reactie) binnen werkuren
Tijd tot oplossing voor severity-1 incidenten

Checklist met vereisten en succescriteria

Maak een eendelige checklist die je later kunt testen:

Duidelijke metricdefinities (start/stop timestamps, tijdzone, afronding)
Inclusie-/uitsluitregels (onderhoud, klant-wachttijd)
Doelthresholds per tier (bijv. 99,9%, 1-uur response)
Outputvereisten (klantrapport, intern dashboard, export)

Succes ziet er zo uit: twee personen berekenen dezelfde voorbeeldmaand handmatig en je app komt exact overeen.

Datamodel voor SLA's, services, incidenten en events

Een correcte SLA-tracker begint met een datamodel dat kan uitleggen waarom een cijfer is wat het is. Als je een maandelijkse beschikbaarheid niet kunt terugleiden naar de exacte events en regels die zijn gebruikt, krijg je ruzie met klanten en interne onduidelijkheid.

Kernentiteiten (houd ze saai en expliciet)

Model minimaal:

Customer (tenant/account): bezit services, kalenders, contacten en rapportagevoorkeuren.
Service: het gemeten object (API, webapp, regiogebonden component). Voeg een optionele parent/child-relatie toe als je meerdere componenten wilt roll-uppen.
Plan: een commerciële laag (bijv. “Gold”), vooral gebruikt om een default SLA-beleenset te koppelen.
SLA policy: de meetbare regels: uptime-doel, reactietijddoel, meetvenster en wat als “uitgesloten” geldt.
Incident: een mensvriendelijke groepering (titel, severity, tijdlijn) die verwijst naar onderliggende events.
Event: de immuteerbare feiten (staatwijzigingen, monitoring-signalen, acknowledgements) die berekeningen aansturen.

Een nuttige relatie is: customer → service → SLA policy (mogelijk via plan). Incidenten en events verwijzen dan naar service en klant.

Minimal schema voor tijdgebaseerde tracking

Tijdbugs zijn de nummer één oorzaak van verkeerde SLA-wiskunde. Sla op:

occurred_at als UTC (timestamp met timezone-semantiek)
received_at (wanneer je systeem het zag)
source (monitornaam, integratie, manueel)
external_id (om retries te dedupliceren)
payload (raw JSON voor toekomstige debugging)

Sla ook customer.timezone op (IANA-string zoals America/New_York) voor weergave en werkurenlogica, maar gebruik die niet om eventtijd te herschrijven.

Werkuren en feestdagen

Als reactietijd-SLA's buiten werkuren pauzeren, modelleer kalenders expliciet:

working_hours per klant (of per regio/service): dag-van-de-week + start/eindtijden
holiday_calendar gekoppeld aan een regio of klant, met datumbereiken en labels

Houd de regels data-gedreven zodat ops een feestdag kan bijwerken zonder te deployen.

Auditability: raw vs calculated

Bewaar raw events in een append-only tabel en sla berekende resultaten apart op (bijv. sla_period_result). Elke resultatenrij moet bevatten: periodeboundaries, inputsversie (policyversie + engineversie) en referenties naar de gebruikte event IDs. Dit maakt recomputatie veilig en geeft je een auditspoor wanneer klanten vragen: “Welke outage-minuten hebben jullie meegeteld?”

Event-ingestie: hoe data je app binnenkomt

Je SLA-cijfers zijn alleen zo betrouwbaar als de events die je binnenhaalt. Het doel is simpel: leg elke verandering vast die ertoe doet (een outage gestart, incident acknowledged, service hersteld) met consistente timestamps en genoeg context om later compliance te berekenen.

Veelvoorkomende event-bronnen

De meeste teams halen data uit een mix van systemen:

Ticketing / incident tools (Jira Service Management, ServiceNow, Zendesk): aangemaakt/acknowledged/resolved timestamps, prioriteitswijzigingen, assignee-wijzigingen.
Monitoring tools (Pingdom, Datadog, CloudWatch, Prometheus Alertmanager): up/down-signalen, alert fired/cleared, synthetische check-resultaten.
Infrastructuur- en applicatielogs: deploy-events, error spikes, health check-fouten (nuttig als monitoring noisy of afwezig is).
Handmatige invoer: een kleine UI voor “business-verified outage start/einde” of “onderhoudsvenster gestart” als automatisering de waarheid niet kan weten.

Ingestie-opties (en wanneer te gebruiken)

Webhooks zijn meestal het beste voor realtime nauwkeurigheid en lagere load: het bronsysteem pusht events naar jouw endpoint.

Polling is een goede fallback als webhooks niet beschikbaar zijn: je app haalt periodiek wijzigingen op sinds de laatste cursor. Je hebt rate-limit handling en zorgvuldige “since”-logica nodig.

CSV-import helpt bij backfills en migraties. Behandel het als een volwaardige ingestie-route zodat je historische perioden zonder hacks kunt herprocessen.

Een aanbevolen event-formaat (met idempotentie)

Normaliseer alles naar één interne “event”-vorm, zelfs als upstream payloads verschillen:

event_id (verplicht): uniek en stabiel bij retries. Geef bij voorkeur het GUID van de bron; anders genereer een deterministische hash.
source (verplicht): bijv. datadog, servicenow, manual.
event_type (verplicht): bijv. incident_opened, incident_acknowledged, service_down, service_up.
occurred_at (verplicht): de tijd waarop het event plaatsvond (niet wanneer je het ontving), met timezone.
received_at (systeem): wanneer je app het inging.
service_id (verplicht): de SLA-relevante service die het event raakt.
incident_id (optioneel maar aanbevolen): koppelt meerdere events aan één incident.
attributes (optioneel): priority, regio, klantsegment, enz.

Sla event_id op met een unieke constraint om ingestie idempotent te maken: retries creëren geen duplicaten.

Validatieregels die slechte data voorkomen

Weiger of quarantineer events die:

Ontbrekende/ongeldige timestamps hebben, of occurred_at ver in de toekomst liggen.
Niet naar een bekende service_id mappen (of eis een expliciete “unmapped” workflow).
Een bestaand event_id dupliceren.
Out-of-order arriveren op een manier die je regels breekt (houd ze, maar markeer als “needs review” in plaats van stilletjes te overschrijven).

Deze discipline voorkomt discussies over SLA-rapporten later—want je kunt wijzen op schone, traceerbare inputs.

SLA-berekeningsengine: van events naar compliance

Je berekeningsengine is waar “ruwe events” SLA-uitkomsten worden die je kunt verdedigen. Het belangrijkste is om het als boekhouding te behandelen: deterministische regels, duidelijke inputs en een replaybaar spoor.

Begin met een genormaliseerde tijdlijn

Zet alles om in één geordende stroom per incident (of per service-impact):

timestamps (UTC) voor: incident gestart, acknowledged/eerste reactie, gemitigeerd, opgelost, heropend
staatwijzigingen: gepauzeerd/ontpauzeerd, wachtend-op-klant, onderhoudsvenster actief
scope: welke service(s) en klant(en) zijn getroffen, en met welke severity

Bereken duur vervolgens door intervallen op te tellen, niet door twee timestamps klakkeloos van elkaar af te trekken.

Time-to-first-response (TTFR) en time-to-resolution (TTR)

Definieer TTFR als de verstreken “chargeable” tijd tussen incident_start en first_agent_response (of acknowledged, afhankelijk van de SLA-tekst). Definieer TTR als de verstreken “chargeable” tijd tussen incident_start en resolved.

“Chargeable” betekent dat je intervallen verwijdert die niet meetellen:

buiten werkuren (voor werkuren-SLA's)
expliciete pauzes (bijv. “wachtend op klant”)
uitsluitingen zoals gepland onderhoud of door klant veroorzaakte vertragingen

Implementatiedetail: bewaar een kalenderfunctie (werkuren, feestdagen) en een regel-functie die een tijdlijn neemt en chargeable intervallen teruggeeft.

Gedeeltelijke storingen en multi-service incidenten

Bepaal vooraf of je berekent:

per-service SLA's (aanbevolen): één incident kan meerdere service-impactrecords opleveren, elk met eigen TTFR/TTR
per-klant SLA's: dezelfde storing kan slechts een subset van tenants treffen

Voor gedeeltelijke storingen, weeg op impact alleen als je SLA-contract dat vereist; behandel anders “degraded” als een aparte breach-categorie.

Traceerbaarheid: inputs, outputs en replays opslaan

Elke berekening moet reproduceerbaar zijn. Persist:

de exacte events die gebruikt zijn (met ids, timestamps en source)
de afgeleide intervallen (wat is uitgesloten en waarom)
de eindresultaten (TTFR, TTR, breach-flags en regelversie)

Als regels veranderen, kun je berekeningen opnieuw draaien op basis van versies zonder historie te herschrijven—cruciaal voor audits en klantdisputen.

Rapportagelogica: perioden, beschikbaarheid en randgevallen

React-dashboard inbegrepen

Krijg een React-dashboard met een Go + PostgreSQL-backend in één build.

Genereer App

Rapportage is waar SLA-tracking vertrouwen verdient—of verliest. Je app moet duidelijk maken welk tijdsbereik wordt gemeten, welke minuten meetellen en hoe de eindcijfers zijn afgeleid.

Perioden: kalender, facturering en rolling windows

Ondersteun de gangbare rapportageperioden die klanten daadwerkelijk gebruiken:

Kalendermaand/kwartaal (bijv. 1–31 maart)
Factureringscycli (bijv. 15e–14e, afgestemd op facturen)
Rollende vensters (bijv. “laatste 30 dagen” dagelijks geüpdatet)

Bewaar perioden als expliciete start/eind timestamps (niet “maand = 3”) zodat je later berekeningen kunt replayen en resultaten kunt uitleggen.

Beschikbaarheid: totale minuten vs in aanmerking komende minuten

Een veelvoorkomende verwarring is of de noemer de hele periode is of alleen de “in aanmerking komende” tijd.

Definieer twee waarden per periode:

Eligible minutes: minuten die meetellen voor de SLA (vaak uitgesloten: gepland onderhoud, door klant veroorzaakte storingen, of tijden buiten supporturen)
Downtime minutes: eligible minuten waarin de service als down wordt beschouwd

Bereken dan:

availability_percent = 100 * (eligible_minutes - downtime_minutes) / eligible_minutes

Als eligible minutes nul kan zijn (bijvoorbeeld een service die alleen tijdens werkuren wordt gemonitord en de periode bevat er geen), definieer de regel vooraf: ofwel “N/A” of behandel als 100%—maar wees consistent en documenteer het.

Cijfers omzetten naar een duidelijke pass/fail

De meeste SLA's hebben zowel een percentage als een binaire uitkomst nodig.

Percentage: bijv. 99,95% voor de periode
Pass/Fail: vergelijk met het SLA-doel (bijv. pass als ≥ 99,9%)

Houd ook de “afstand tot breach” bij (overgebleven downtime-budget) zodat dashboards kunnen waarschuwen voordat de drempel wordt overschreden.

Randgevallen die je bewust moet afhandelen

Tijdzones: kies een rapportagetijdzone per klant/contract (vaak die van de klant) en converteer events consistent.
Zomertijd (DST): ga er nooit van uit dat een dag 1440 minuten heeft. Gebruik timezone-aware timestamps zodat de periodelengte correct is bij DST-transities.
Ontbrekende eindtijden: incidenten missen soms een resolved-timestamp. Behandel ze als “open” en cap ze op het rapport-einde, en markeer de record voor opschoning.

Bewaar tenslotte de ruwe inputs (inbegrepen/uitgesloten events en aanpassingen) zodat elk rapport kan beantwoorden “waarom is dit cijfer wat het is?” zonder vaagheden.

UI en dashboards die SLA-status direct duidelijk maken

Je berekeningsengine kan perfect zijn en nog steeds falen als de UI de basisvraag niet meteen beantwoordt: “Halen we het SLA nu, en waarom?” Ontwerp de app zo dat elk scherm begint met een duidelijke status en laat mensen vervolgens inzoomen op de cijfers en de ruwe events die ze hebben opgeleverd.

Belangrijkste views om te bouwen

Overview-dashboard (voor operators en managers). Begin met een klein aantal tegels: compliance huidige periode, beschikbaarheid, reactietijd-compliance en “overgebleven tijd voor breach” waar van toepassing. Gebruik expliciete labels (bijv. “Availability (this month)” in plaats van alleen “Uptime”). Als je meerdere SLA's per klant ondersteunt, toon dan eerst de slechtst presterende en laat gebruikers uitklappen.

Klantdetail (voor accountteams en klantgerichte rapportage). Een klantpagina moet alle services en SLA-tiers voor die klant samenvatten, met een eenvoudige pass/warn/fail status en een korte uitleg (“2 incidenten meegeteld; 18m downtime meegeteld”). Voeg verwijzingen toe naar /status (als je een klantgerichte statuspagina aanbiedt) en naar een export van het rapport.

Servicedetail (voor diepgaand onderzoek). Hier toon je de exacte SLA-regels, het berekeningsvenster en een uitsplitsing van hoe het compliance-cijfer is gevormd. Voeg een grafiek van beschikbaarheid in de tijd toe en een lijst met incidenten die meetelden voor de SLA.

Incidenttijdlijn (voor audits). Een enkele incidentweergave moet een tijdlijn van events tonen (gedetecteerd, acknowledged, gemitigeerd, opgelost) en welke timestamps zijn gebruikt voor “response” en “resolution” metrics.

Filters die echte vragen beantwoorden

Maak filters consistent over schermen: datumrange, klant, service, tier en severity. Gebruik overal dezelfde eenheden (minuten vs seconden; percentages met hetzelfde aantal decimalen). Als gebruikers de datumrange wijzigen, update dan elke metric op de pagina zodat er geen mismatch is.

Drill-down zonder vertrouwen te verliezen

Elke samenvattende metric moet een “Waarom?”-pad hebben:

Van een compliance-percentage → lijst van getelde incidenten in die periode.
Van een incident → ruwe events en de afgeleide timestamps die in berekeningen zijn gebruikt.
Van beschikbaarheid → downtime-intervallen met bronnen (monitoring-event vs handmatige aanpassing).

Gebruik tooltips spaarzaam om termen te definiëren zoals “Excluded downtime” of “Business hours”, en toon de exacte regeltekst op de servicepagina zodat mensen niet hoeven te raden.

Houd het simpel, maar onmiskenbaar

Geef de voorkeur aan gewone taal boven afkortingen (“Reactietijd” in plaats van “MTTA” tenzij je publiek die afkorting verwacht). Combineer statuskleur met tekstlabels (“At risk: 92% van het error budget gebruikt”) om ambiguïteit te voorkomen. Als je app auditlogs ondersteunt, voeg dan een klein “Laatst gewijzigd” vakje op SLA-regels toe met verwijzing naar /audit zodat gebruikers kunnen verifiëren wanneer definities zijn aangepast.

Alerting en notificaties voor breaches

Ontwerp het datamodel

Gebruik Planning Mode om entiteiten, regels en randgevallen in kaart te brengen voordat je iets schrijft.

Plan Het

Alerting is waar je SLA-tracking webapp stopt met passieve rapportage en teams helpt boetes te voorkomen. De beste alerts zijn tijdig, specifiek en actiegericht—ze vertellen iemand wat de volgende stap is, niet alleen dat iets “slecht” is.

Definieer alert-triggers die bij echte beslissingen passen

Begin met drie triggertypes:

Approaching breach: bijv. “Je hebt nog 30 minuten om de reactietijd-SLA te halen,” of “Beschikbaarheid deze maand is gedaald naar 99,92% en de SLA is 99,9%.” Dit is de meest waardevolle alert omdat herstel mogelijk is.
Breach occurred: afgevuurd wanneer de berekeningsengine bevestigt dat de SLA voor het relevante venster is gemist.
Repeated violations: detecteer patronen zoals “3 breaches in 30 dagen” of “dezelfde service twee keer gebreached deze week,” wat vaak op een structureel probleem wijst.

Maak triggers configureerbaar per klant/service/SLA, omdat verschillende contracten verschillende tolerantie hebben.

Kies kanalen en houd berichten actiegericht

Stuur alerts naar plekken waar mensen daadwerkelijk reageren:

E-mail voor auditvriendelijke notificaties en externe stakeholders.
Slack voor snelle interne coördinatie.
SMS (optioneel) voor escalaties met hoge severity.

Elke alert moet deep links bevatten zoals /alerts, /customers/{id}, /services/{id} en de incident- of eventdetailpagina zodat responders de cijfers snel kunnen verifiëren.

Verminder ruis: deduplicatie, stille uren, escalatie

Implementeer deduplicatie door alerts te groeperen met dezelfde sleutel (customer + service + SLA + period) en herhalingen te onderdrukken voor een cooldown-window.

Voeg quiet hours toe (per teamtijdzone) zodat niet-kritieke “approaching breach” alerts wachten tot werkuren, terwijl “breach occurred” stille uren kan overschrijven als de severity hoog is.

Ondersteun ten slotte escalatieregels (bijv. notify on-call na 10 minuten, escalate naar manager na 30) om te voorkomen dat alerts in één inbox blijven hangen.

Toegangscontrole, authenticatie en auditlogs

SLA-data is gevoelig omdat het interne prestaties en klantspecifieke rechten kan blootleggen. Behandel toegangscontrole als onderdeel van de SLA-“wiskunde”: hetzelfde incident kan verschillende compliance-resultaten opleveren afhankelijk van welke klant-SLA wordt toegepast.

Rollen om vanaf dag één te ondersteunen

Houd rollen simpel en breid later uit naar fijnmazigere permissies.

Admin: configureert globale instellingen, beheert services, SLA's, gebruikers, integraties en billing-gerelateerde items.
Agent: maakt/werkt incidenten en onderhoudsvensters bij, koppelt events en voegt postmortem-notities toe.
Manager: mag alles lezen binnen hun scope, keurt SLA-definities goed en exporteert rapporten.
Customer viewer: ziet alleen hun eigen service(s), SLA-doelen, incidentgeschiedenis en klantgerichte rapporten.

Een praktisch default is RBAC + tenant scoping:

Elk record (service, SLA-beleid, rapport) heeft een owner tenant/customer.
Interne gebruikers kunnen op meerdere tenants gescoped zijn; klantviewers tot precies één.
Bewerkingsrechten zijn beperkter dan leesrechten: agents mogen incidenten aanpassen maar geen SLA-regels wijzigen.

Wat elke rol kan zien/wijzigen

Wees expliciet over klant-specifieke data:

Customer viewers mogen nooit interne velden zien (root cause-hypotheses, interne severity, on-call notities, private tags).
SLA-beleid moet versioned zijn zodat een klant kan zien de SLA-voorwaarden die van toepassing waren op dat incident.

Authenticatie-opties die je niet vastzetten

Begin met e-mail/wachtwoord en eis MFA voor interne rollen. Plan SSO later (SAML/OIDC) door identiteit (wie ze zijn) te scheiden van autorisatie (wat ze mogen). Voor integraties geef je API-keys uit gekoppeld aan een service-account met beperkte scopes en rotatiemogelijkheid.

Auditlogs waar je blij mee zult zijn

Voeg immuteerbare auditentries toe voor:

Wijzigingen in SLA-regels (thresholds, kalenders, uitsluitingen, mapping naar services/klanten)
Incidentbewerkingen (timestamps, statusovergangen, handmatige downtime-overrides)
Permissie- en API-key-wijzigingen

Bewaar wie, wat er veranderde (voor/na), wanneer, waar (IP/user agent) en een correlatie-ID. Maak auditlogs doorzoekbaar en exporteerbaar (bijv. /settings/audit-log).

API-ontwerp voor integraties en automatisering

Een SLA-tracking app is zelden een eiland. Je wilt een API waarmee monitoringtools, ticketingsystemen en interne workflows incidenten kunnen aanmaken, events pushen en rapporten ophalen zonder handwerk.

Begin met een klein, voorspelbaar oppervlak

Gebruik een versioned base path (bijv. /api/v1/...) zodat je payloads kunt evolueren zonder bestaande integraties te breken.

Essentiële endpoints die de meeste use cases dekken:

Events: POST /api/v1/events om state-changes te ingesteren. GET /api/v1/events voor audits en debugging.
Incidents: POST /api/v1/incidents, PATCH /api/v1/incidents/{id} (acknowledge, resolve, assign), GET /api/v1/incidents.
SLAs: GET /api/v1/slas, POST /api/v1/slas, PUT /api/v1/slas/{id} om contracten en thresholds te beheren.
Reports: GET /api/v1/reports/sla?service_id=...&from=...&to=... voor compliance-samenvattingen.
Alerts: POST /api/v1/alerts/subscriptions om webhooks/e-mailtargets te beheren; GET /api/v1/alerts voor alert-historie.

Maak paginering en filtering consistent

Kies één conventie en gebruik die overal. Bijvoorbeeld: limit, cursor-paginering, plus standaardfilters zoals service_id, sla_id, status, from en to. Houd sortering voorspelbaar (bijv. sort=-created_at).

Definieer foutantwoorden waarop integrators kunnen vertrouwen

Retourneer gestructureerde fouten met stabiele velden:

{ "error": { "code": "VALIDATION_ERROR", "message": "service_id is required", "fields": { "service_id": "missing" } } }

Gebruik duidelijke HTTP-statussen (400 validatie, 401/403 auth, 404 not found, 409 conflict, 429 rate limit). Voor event-ingestie, overweeg idempotentie (Idempotency-Key) zodat retries geen duplicaten creëren.

Rate limits en basale security

Pas redelijke rate limits per token toe (en strengere limieten voor ingestie-endpoints), sanitize inputs en valideer timestamps/tijdzones. Geef de voorkeur aan beperkte API-tokens (read-only rapportage vs write-access voor incidents) en log altijd wie welk endpoint aanroept voor traceerbaarheid (details in je auditlog-sectie).

Teststrategie: bewijs dat de cijfers kloppen

Experimenteer zonder zorgen

Itereer veilig met snapshots en rollback terwijl je je SLA-math afstelt.

Probeer Snapshots

SLA-cijfers zijn alleen nuttig als mensen ze vertrouwen. Testen van een SLA-tracking webapp moet minder gericht zijn op “laadt de pagina” en meer op “gedraagt tijd-wiskunde zich precies zoals het contract zegt.” Behandel je berekeningsregels als een productfeature met een eigen testsuite.

Unit-test de regels met vaste tijdlijnen

Begin met unit-tests voor je SLA-berekeningsengine met deterministische inputs: een tijdlijn van events (incident geopend, acknowledged, gemitigeerd, opgelost) en een duidelijk gedefinieerde SLA-regelset.

Gebruik vaste timestamps en “freeze time” zodat je tests nooit afhankelijk zijn van de klok. Dek randgevallen die vaak SLA-rapportage breken:

Incident begint vóór de rapportageperiode en eindigt erin
Overlappende incidenten (moeten downtime merge of stacken?)
Meerdere pauzes (onderhoudsvensters, door klant veroorzaakte vertragingen)
Grensminuten/seconden (exact om 00:00, einde van de maand, schrikkeldag)

End-to-end tests voor de hele pipeline

Voeg een klein aantal end-to-end tests toe die de volledige flow doorlopen: ingest events → bereken compliance → genereer rapport → render UI. Deze vangen mismatches tussen “wat de engine berekende” en “wat het dashboard toont.” Houd de scenario's beperkt maar van hoge waarde, en asserteer op eindcijfers (availability %, breach ja/nee, tijd-naar-ack).

Bouw herbruikbare fixtures voor kalenders en tijdzones

Maak testfixtures voor werkuren, feestdagen en tijdzones. Je wilt reproduceerbare gevallen zoals “incident gebeurt vrijdag 17:55 lokale tijd” en “een feestdag verschuift reactietijd-telling.”

Monitor de SLA-app zelf

Testen stopt niet bij deploy. Voeg monitoring toe voor job-fouten, queue/backlog-grootte, herberekeningsduur en foutpercentages. Als ingestie achterloopt of een nightly job faalt, kan je SLA-rapport fout zijn, ook als de code correct is.

Deployment, operatie en een praktisch MVP-roadmap

Het uitrollen van een SLA-tracking app draait minder om fancy infra en meer om voorspelbare operatie: je berekeningen moeten op tijd draaien, je data moet veilig zijn en rapporten reproduceerbaar.

Een eenvoudige, betrouwbare deploymentroute

Begin met managed services zodat je je op correctheid kunt concentreren.

Managed database (PostgreSQL): geautomatiseerde backups, point-in-time recovery, encryptie.
Container hosting voor web/API (bijv. een managed containerplatform): eenvoudige rollbacks en consistente omgevingen.
Object storage voor exports (CSV/PDF) en grote artifacts, met lifecycle-regels.

Houd omgevingen minimaal: dev → staging → prod, elk met eigen database en secrets.

Background-jobs die je vanaf dag één nodig hebt

SLA-tracking is niet puur request/response; het hangt af van geplande taken.

Berekeningsjobs: recompute SLA-vensters op nieuwe events en herloop na laat binnenkomende data.
Rapportgeneratie: dagelijkse/maandelijkse samenvattingen, klantklare exports.
Data-hygiëne: archiveer oude raw events, compacteer afgeleide tabellen, verifieer referentiële integriteit.

Draai jobs via een workerproces + queue, of een managed scheduler die interne endpoints aanroept. Maak jobs idempotent (veilig om te herhalen) en log elke run voor auditability.

Retentie en exports (zonder teveel te beloven)

Definieer retentie per datatype: bewaak afgeleide compliance-resultaten langer dan raw eventstreams. Voor exports: bied eerst CSV aan (snel, transparant), later PDF-templates. Wees duidelijk: exports zijn “best-effort formatting”, terwijl de database de bron van waarheid blijft.

Een gefaseerde roadmap die scope beheersbaar houdt

MVP: één service, één SLA, één tijdzone, basisdashboard + maandelijks rapport.
Meer metrics: reactietijd-SLA's, onderhoudsvensters, uitsluitingen, meerdere kalenders.
Klantportaal: per-klant weergaven, toegangscontrole, downloadbare rapporten.
Statuspagina: publieke/private pagina's gebaseerd op je berekende beschikbaarheid (zie /blog/status-pages).

Snel prototypen met Koder.ai (optioneel)

Als je je datamodel, ingestieflow en rapportage-UI snel wilt valideren, kan een vibe-coding platform zoals Koder.ai je helpen om snel naar een werkend end-to-end prototype te gaan zonder je direct op een volledig engineeringtraject vast te leggen. Omdat Koder.ai volledige applicaties genereert via chat (web UI plus backend), is het een praktische manier om op te zetten:

een React-dashboard voor compliance, error budgets en drill-down tijdlijnen,
een Go + PostgreSQL-backend voor het opslaan van raw events en perioderesultaten,
export/report endpoints en eenvoudige klantportaalweergaven.

Zodra de requirements en berekeningen bewezen zijn (het moeilijke deel), kun je itereren, de broncode exporteren en overgaan naar een traditioneel build-and-operate-traject—terwijl functies zoals snapshots en rollback beschikbaar blijven tijdens snelle iteratie.

Veelgestelde vragen

What does “SLA compliance” mean in an SLA tracking web app?

Een SLA-tracker beantwoordt één vraag met bewijs: heb je de contractuele verplichtingen voor een specifieke klant en periode gehaald?

In de praktijk betekent het het binnenhalen van ruwe signalen (monitoring, tickets, handmatige updates), het toepassen van de regels van de klant (werkuren, uitsluitingen) en het produceren van een auditvriendelijke pass/fail met ondersteunende details.

How are SLI, SLO, and SLA different—and why should the app model them separately?

Gebruik:

SLI voor de ruwe meting (bijv. percentage succesvolle checks, tijd-naar-eerste-reactie).
SLO voor je interne doelstelling (vaak strenger dan het contract).
SLA voor de externe verplichting (vaak gekoppeld aan credits of boetes).

Modelleer ze apart zodat je betrouwbaarheid (SLO) kunt verbeteren zonder per ongeluk de contractuele rapportage (SLA) te wijzigen.

Which SLA metrics should I implement first for an MVP?

Een sterk MVP volgt meestal 1–3 metrics end-to-end:

Beschikbaarheid % per service per maand
Tijd tot eerste menselijke reactie (TTFR) (vaak alleen binnen werkuren)
Tijd tot oplossing (TTR) voor hoog-severity incidenten

Deze mappen goed naar echte databronnen en dwingen je om vroege implementatie van lastige onderdelen (perioden, kalenders, uitsluitingen) te doen.

What inputs do I need before I design the database or write the calculator?

Fouten in requirements ontstaan vaak door onduidelijke regels. Verzamel en noteer:

Contract-/SLA-tekst (inclusief addenda)
Tier-mapping (welke klant op welk plan zit)
Tijdzone en werkuren per klant/service
Expliciete uitsluitingen (onderhoud, door klant veroorzaakte vertragingen, overmacht, respijtperiodes)

Als een regel niet helder uit te drukken is, probeer het dan niet in code te ‘infereren’—flag het en vraag om opheldering.

What’s the minimal data model for a trustworthy SLA tracker?

Begin met saaie, expliciete entiteiten:

Klant (tenant)
Service (wat gemeten wordt)
Plan (commercieel omhulsel)
SLA-beleid (doelen + vensters + uitsluitingen)
Incident (mensvriendelijke container)
Event (immuteerbare feiten gebruikt voor berekeningen)

Streef naar traceerbaarheid: elk gerapporteerd getal moet linken naar en .

How should I store timestamps and handle time zones (including DST)?

Sla tijd correct en consistent op:

Bewaar occurred_at in UTC met timezone-semantiek
Bewaar ook received_at (wanneer je het binnenkreeg)
Houd de IANA-tijdzone van de klant voor weergave en werkurenlogica, niet voor het herschrijven van gebeurtenissen

Maak perioden expliciet (start/eind timestamps) zodat je rapporten later kunt reproduceren—ook over DST-wisselingen heen.

How do I ingest events reliably without duplicates or bad data corrupting reports?

Normaliseer alles naar één interne event-vorm met een stabiele unieke ID:

event_id (uniek, stabiel bij retries)
source, event_type, ,

How do I calculate TTFR/TTR correctly when business hours, pauses, and exclusions apply?

Bereken duur door intervals op te tellen op een tijdlijn, niet simpelweg twee timestamps van elkaar af te trekken.

Definieer “chargeable time” expliciet door intervallen te verwijderen die niet meetellen, zoals:

buiten de werkuren
“wachtend op klant”-pauzes
gepland onderhoud (als dat is uitgesloten door beleid)

Bewaar de afgeleide intervallen en redencodes zodat je precies kunt uitleggen wat er is meegeteld.

How should availability be calculated (eligible minutes vs total minutes)?

Houd twee noemers expliciet bij:

Eligible minutes (minuten die meetellen voor de SLA)
Downtime minutes (eligible minuten waarop de service down is)

Bereken dan:

availability_percent = 100 * (eligible_minutes - downtime_minutes) / eligible_minutes

Bepaal ook wat er gebeurt als eligible minutes nul is (bijv. toon ). Documenteer die regel en pas hem consequent toe.

What should dashboards and alerts include to be useful (and not noisy)?

Laat de UI in één oogopslag antwoord geven op “halen we het SLA, en waarom?”:

Toon compliance voor de huidige periode plus “afstand tot breach” (beschikbare downtime-budget)
Bied een drill-down: metric → getelde incidenten → ruwe events/intervallen
Gebruik expliciete labels (“Availability (this month)”) en toon de exacte SLA-tekst op de servicepagina

Voor alerts: prioriteer actiegerichte triggers: approaching breach, breach occurred en repeated violations—elk met links naar relevante pagina's zoals /customers/{id} of .

occurred_at

service_id

/services/{id}