Mark Russinovich & Windows Internals: Observeerbaarheid & Betrouwbaarheid

Q: Wanneer moet ik Process Explorer gebruiken in plaats van Taakbeheer?

Gebruik Process Explorer wanneer je wilt weten wie verantwoordelijk is. Het is het beste voor snelle antwoorden zoals: - Welke process gebruikt CPU/geheugen - Ouder/kind-relaties (wat het gestart heeft) - Thread-level hotspots en wachtredenen - Welke DLLs/handles het proces open heeft

Q: Bij welke problemen helpt Process Monitor (Procmon) het meest?

Gebruik Process Monitor wanneer je het activiteitsspoor over bestand, register en process/thread operaties nodig hebt. Praktische voorbeelden: - Het vinden van "NAME NOT FOUND" afhankelijkheidsfouten die app-start breken - Aantonen dat een access denied een permissie-/padprobleem is (niet "de app is down") - Identificeren van periodiek disk-hammeren en het exacte pad dat geraakt wordt

Inloggen Aan de slag

Mark Russinovich & Windows Internals: Observeerbaarheid & Betrouwbaarheid | Koder.ai

Waarom Mark Russinovich nog steeds relevant is voor Windows-operations

Als je Windows in productie draait—op laptops, servers, VDI of cloud-VMs—duikt het werk van Mark Russinovich dagelijks op. Niet vanwege persoonlijkheid of nostalgie, maar omdat hij een bewijs-eerst aanpak voor probleemoplossing heeft populair gemaakt: kijk naar wat het OS echt doet en verklaar symptomen met bewijs.

Drie ideeën in gewoon Nederlands

Observeerbaarheid betekent dat je kunt beantwoorden “wat gebeurt er nu?” met signalen die het systeem produceert (events, traces, counters). Als een dienst vertraagt of aanmeldingen hangen, is observeerbaarheid het verschil tussen raden en weten.

Debuggen is het omzetten van een vaag probleem (“het bevroor”) in een specifiek mechanisme (“deze thread wacht op I/O”, “dit proces thrasht het wisselbestand”, “een DLL-injectie veranderde gedrag”).

Betrouwbaarheid is het vermogen om te blijven werken onder stress en voorspelbaar te herstellen—minder incidenten, snellere herstelacties en veiligere veranderingen.

Waarom kennis van internals incidenten versnelt

De meeste "mysterie-uitval" zijn geen mysteries—het zijn Windows-gedragingen die je nog niet in kaart hebt gebracht: handle leaks, uit de hand gelopen child-processen, vastzittende drivers, DNS-timeouts, kapotte auto-start entries of beveiligingstools die overhead toevoegen. Een basisbegrip van Windows-internals (processen, threads, handles, services, geheugen, I/O) helpt patronen snel te herkennen en het juiste bewijs te verzamelen voordat het probleem verdwijnt.

Wat dit artikel je helpt doen

We richten ons op praktische, operations-vriendelijke workflows met:

Sysinternals-tools (vooral Process Explorer en Process Monitor) voor snelle, laagdrempelige zichtbaarheid
ETW-tracing wanneer logs niet genoeg zijn en je hoge-fideliteits tijdlijnen nodig hebt
WinDbg en crash/hang-dumps om fouten om te zetten in bruikbare oorzaken

Het doel is niet om je een kernel-engineer te maken. Het is om Windows-incidenten korter, rustiger en makkelijker uit te leggen te maken—zodat fixes veiliger en herhaalbaar zijn.

Windows Internals als een probleemoplossende superkracht

Windows “internals” zijn simpelweg de mechanismen die Windows gebruikt om echt werk te doen: threads plannen, geheugen beheren, services starten, drivers laden, bestand- en registeractiviteit afhandelen en beveiligingsgrenzen afdwingen. De praktische belofte is duidelijk: wanneer je begrijpt wat het OS doet, stop je met gokken en begin je te verklaren.

Dat is belangrijk omdat de meeste operationele symptomen indirect zijn. “De machine is traag” kan CPU-contentie zijn, één hete thread, een interrupt-storm van een driver, pagingdruk of een antivirusfilter dat bestand-I/O blokkeert. “Het hangt” kan een deadlock zijn, een vast netwerkcall, een opslagtimeout of een service die op een dependency wacht. Kennis van internals maakt vage klachten toetsbare hypothesen.

User mode vs. kernel mode (net genoeg om nuttig te zijn)

In grote lijnen draait user mode de meeste apps en services. Wanneer die crashen nemen ze meestal alleen zichzelf mee. Kernel mode is waar Windows zelf en drivers draaien; problemen daar kunnen het hele systeem bevriezen, een bugcheck (blue screen) veroorzaken of ongemerkt de betrouwbaarheid aantasten.

Je hoeft geen diepe theorie te beheersen om dit onderscheid te gebruiken—genoeg om het juiste bewijs te kiezen. Een app die CPU vult is vaak user mode; herhaalde opslagresets of netwerkdriver-issues wijzen vaak naar kernel mode.

Bewijs-eerst probleemoplossing

Russinovichs denkwijze—terug te vinden in tools zoals Sysinternals en in Windows Internals—is “bewijs eerst.” Voordat je instellingen wijzigt, blind herstart of herinstalleert, leg vast wat het systeem doet: welk proces, welke thread, welke handle, welke registersleutel, welke netwerkverbinding, welke driver, welk event.

Zodra je kunt beantwoorden “wat doet Windows nu en waarom”, worden fixes kleiner, veiliger en makkelijker te rechtvaardigen—en stopt betrouwbaarheid met reactief brandjes blussen te zijn.

De Sysinternals-aanpak: maak het onzichtbare zichtbaar

Sysinternals is het beste te begrijpen als een zichtbaarheidstoolkit voor Windows: kleine, draagbare utilities die onthullen wat het systeem echt doet—proces per proces, handle per handle, registersleutel per registersleutel. In plaats van Windows als een zwarte doos te behandelen, laat Sysinternals je het gedrag achter symptomen zien zoals “de app is traag”, “CPU is hoog” of “de server verliest verbindingen”.

Vertrouw maar verifieer: gok niet, meet

Veel operationele pijn komt van aannemelijke gissingen: het zal wel DNS zijn, het is waarschijnlijk antivirus, Windows Update hangt weer. De Sysinternals-mentaliteit is simpel: vertrouw je gevoel genoeg om een hypothese te vormen, verifieer die dan met bewijs.

Als je kunt zien welk proces CPU gebruikt, welke thread wacht, welk bestandspad wordt verslagen of welke registersleutel steeds wordt herschreven, stop je met discussies en begin je oorzaken te verkleinen. Die verschuiving—van verhaal naar meting—is wat internals praktisch en niet academisch maakt.

Waarom Sysinternals uitblinkt tijdens live-incidenten

Deze tools zijn gebouwd voor het “alles staat in brand”-moment:

Lage wrijving: veel tools draaien zonder installatie en starten snel.
Snel resultaat: je kunt een theorie binnen enkele minuten valideren of verwerpen.
Gerichte zichtbaarheid: elk hulpmiddel beantwoordt een specifieke klasse vragen (processen, opstartitems, netwerkendpoints, geheugen).

Dat telt wanneer je geen lange setup, zware agent-rollout of herstart kunt veroorloven om betere data te verzamelen.

Veilige gebruiksprincipes

Sysinternals is krachtig en kracht vraagt om richtlijnen:

Gebruik alleen wanneer nodig: begin met alleen-lezen observatie; verhoog privileges alleen als het moet.
Documenteer wat je doet: noteer tijdstempels, filters en acties zodat bevindingen herhaalbaar zijn.
Minimaliseer verstoring: geef de voorkeur aan het vastleggen van bewijs (screenshots, logs, geëxporteerde traces) boven het direct proberen van fixes tijdens een incident.
Wijzig zorgvuldig: als je een instelling wijzigt of een proces stopt, noteer de reden en het verwachte resultaat en verifieer daarna.

Zo gebruikt, wordt Sysinternals een gedisciplineerde methode: observeer het onzichtbare, meet de waarheid en voer alleen gerechtvaardigde veranderingen door.

Process Explorer & Process Monitor: de dagelijkse debug-paar

Als je maar twee Sysinternals-tools bewaart in je beheer-toolkit, kies dan Process Explorer en Process Monitor. Samen beantwoorden ze de meest voorkomende “wat doet Windows nu?”-vragen zonder agent, herstart of zware setup.

Process Explorer: snelle antwoorden in seconden

Process Explorer is Taakbeheer met röntgenzicht. Als een machine traag of onstabiel is, helpt het je te pinpointen welk proces verantwoordelijk is en waar het mee verbonden is.

Het is vooral nuttig voor:

CPU en threads: welk proces gebruikt CPU en is het één hete thread of meerdere?
Ouder/kind-relaties: wat heeft het proces gestart (een service, scheduled task, updater of gebruiker)?
DLLs en handles: welke modules zijn geladen en welke bestanden/registrysleutels/pipes houdt het proces open?

Dat laatste is een betrouwbaarheidssuperkracht: “Waarom kan ik dit bestand niet verwijderen?” wordt vaak “Deze service heeft er een open handle naar.”

Process Monitor: het volledige activiteitspoor

Process Monitor (Procmon) legt gedetailleerde events vast over bestandssysteem, register en process/thread activiteit. Het is het hulpmiddel voor vragen als: “Wat veranderde toen de app vastliep?” of “Wat slaat elke 10 minuten de schijf kapot?”.

Voordat je Capture indrukt, formuleer de vraag:

Wat is het symptoom (traag inloggen, hoge schijfactiviteit, crash, access denied)?
Wanneer gebeurt het (bij opstart, om 09:00, na sluimer)?
Welke machine en gebruikerscontext (maar één server, maar één gebruikersprofiel, alleen op VPN)?

Neem alleen op wat je nodig hebt (ruis is de vijand)

Procmon kan je overrompelen tenzij je streng filtert. Begin met:

Filter op een specifieke Process Name of PID.
Gebruik Include-regels voor het pad dat je belangrijk vindt (bijv. een config-map) en sluit de rest uit.
Neem op voor een korte periode rond het symptoom en stop dan.

Wat je eruit haalt

Veel voorkomende uitkomsten zijn praktisch: het identificeren van een slecht functionerende service die herhaaldelijk een ontbrekende registersleutel opvraagt, het ontdekken van een runaway realtime-bestandsscanner die duizenden bestanden raakt, of het vinden van een ontbrekende DLL-load poging (“NAME NOT FOUND”) die verklaart waarom een app op de ene machine niet start maar op een andere wel.

Autoruns, TCPView, RAMMap: snelle aanwijzingen zonder zware setup

Lever een intern ops-dashboard

Start een React- en Go-dashboard voor metrics, links en incidentstatus.

Maak app

Als een Windows-machine “anders aanvoelt” heb je vaak geen volledige monitoringstack nodig om vooruitgang te boeken. Een kleine set Sysinternals-tools beantwoordt snel drie praktische vragen: Wat start automatisch? Wie praat er op het netwerk? Waar is het geheugen heen?

Autoruns: betrouwbaarheid begint bij boot

Autoruns is de snelste manier om te begrijpen alles dat kan starten zonder een expliciete gebruiker: services, scheduled tasks, shell-extensies, drivers en meer.

Waarom dit belangrijk is voor betrouwbaarheid: opstartitems zijn frequente bronnen van trage boots, intermitterende hangs en CPU-spikes die alleen na inloggen verschijnen. Eén onstabiele updater, legacy driver helper of kapotte shell-extensie kan het hele systeem degradeeren.

Praktische tip: focus op items die unsigned, recent toegevoegd of niet laden zijn. Als het uitschakelen van een item de machine stabiliseert, heb je een vaag symptoom in een specifiek component veranderd dat je kunt updaten, verwijderen of vervangen.

TCPView: bevestig wie luistert en wie praat

TCPView geeft een directe kaart van actieve verbindingen en listeners, gekoppeld aan procesnamen en PIDs. Het is ideaal voor snelle controles:

Onverwachte LISTENING poorten (vooral op servers die stil zouden moeten zijn)
Eén proces met een ongewoon hoog aantal verbindingen
Snelle verbindingenwisselingen die correleren met CPU- of latentieklachten

Zelfs buiten security-onderzoeken kan dit runaway agents, verkeerd geconfigureerde proxies of retry-stormen aan het licht brengen waarbij de app traag lijkt maar de oorzaak netwerkgedrag is.

RAMMap: geheugenproblemen zonder giswerk

RAMMap helpt je geheugendruk te interpreteren door te tonen waar RAM daadwerkelijk is toegewezen.

Een nuttig basisonderscheid:

Working sets: geheugen dat actief door processen wordt gebruikt
Cache / standby: Windows houdt data vast om sneller te zijn (niet per se "slecht")

Als gebruikers “weinig geheugen” melden terwijl Taakbeheer verwarrend lijkt, kan RAMMap bevestigen of je echte procesgroei, zware file cache of iets als een driver die nonpaged memory gebruikt hebt.

Optioneel: Handle en VMMap bij vermoedens van leaks

Als een app in dagenlang langzaam wordt, kan Handle tonen dat handle-aantallen blijven groeien (klassiek leak-patroon). VMMap helpt wanneer geheugengebruik vreemd is—fragmentatie, grote gereserveerde regio's of allocaties die niet als simpele "private bytes" verschijnen.

Een herhaalbare eerste 15-minuten checklist

Autoruns: scan op nieuwe/unsigned items; schakel per keer één verdacht item uit.
TCPView: verifieer verwachte listeners; identificeer top connection owners.
RAMMap: check of druk werkset-groei is vs. cache/standby.
Als symptomen tijdgebonden zijn: neem een snelle "voor/na" snapshot (aantallen, poorten, geheugentotalen).
Als groei duidelijk is: gebruik Handle/VMMap om een leak-patroon te bevestigen.
Schrijf het verdachte component en het bewijs op zodat de fix doelgericht is, niet giswerk.

Van logs naar ETW: echte observeerbaarheid op Windows bouwen

Windows-operations begint vaak met het makkelijkst te pakken: Event Viewer en een paar screenshots van Taakbeheer. Dat is prima voor broodkruimels, maar betrouwbare incidentrespons heeft drie complementaire signaaltypes nodig: logs (wat gebeurde), metrics (hoe erg was het) en traces (wat deed het systeem moment-op-moment).

Event logs: goede aanwijzingen, onvolledige dekking

Windows event logs zijn uitstekend voor identiteit, service lifecycle, beleidswijzigingen en app-level fouten. Ze zijn ook ongelijkmatig: sommige componenten loggen rijk, andere schaars, en berichttekst kan vaag zijn (“The application stopped responding”). Beschouw ze als tijdlijnanker, niet als het hele verhaal.

Veelvoorkomende successen:

Service start/stop en crash-events
Authenticatie- en autorisatieevents
Applicatie-excepties (wanneer apps ze daadwerkelijk loggen)

Metrics tijdens outages: de paar die meestal tellen

Prestatiecounters beantwoorden de vraag: “Is de machine gezond?” Tijdens een outage begin met:

CPU: aanhoudend hoge CPU, ready time (VMs), per-proces CPU
Schijf: queue length, read/write latency, IOPS, vrije ruimte
Geheugen: committed bytes, commit limit, hard faults/sec, pool usage
Netwerk: retransmits, errors, bytes/sec, connection counts

Metrics vertellen je niet waarom een spike gebeurde, maar wel wanneer het begon en of het verbetert.

ETW in gewone taal: gestructureerde, high-volume tracing

Event Tracing for Windows (ETW) is Windows’ ingebouwde vluchtrecorder. In plaats van ad-hoc tekstberichten stuurt ETW gestructureerde events van kernel, drivers en services op hoge frequentie—proces/thread-activiteit, bestand-I/O, registertoegang, TCP/IP, scheduling en meer. Op dit niveau worden veel “mysterie-stalls” verklaarbaar.

Signalen kiezen (zonder alles te verzamelen)

Een praktische regel:

Gebruik logs voor discrete events (crash, restart, auth failure).
Gebruik metrics om impact te detecteren en te kwantificeren (latentie, verzadiging).
Gebruik ETW wanneer je causaliteit nodig hebt (wat blokkeerde, welke I/O, welke call path).

Vermijd “alles altijd aan zetten.” Houd een kleine always-on baseline (belangrijke logs + kernmetrics) en gebruik korte, gerichte ETW-captures tijdens incidenten.

Tijdscorrelatie is de superkracht

De snelste diagnoses komen door drie klokken op één lijn te zetten: gebruikersrapport (“10:42 het bevroor”), metric-inflecties (CPU/schijf spike) en log/ETW-events op hetzelfde tijdstempel. Zodra je data een consistente tijdbasis deelt, stoppen outages met gokken en worden ze verifieerbare verhalen.

Sysmon-telemetry: security-signalen die ook betrouwbaarheid helpen

De standaard Windows-eventlogs zijn nuttig, maar missen vaak de "waarom nu?" details die operators nodig hebben bij onverwachte veranderingen. Sysmon (System Monitor) vult dat gat door hogere-fideliteit proces- en systeemactiviteit te registreren—vooral rond starts, persistentie en driver-gedrag.

Wat Sysmon toevoegt (bovenop standaardlogs)

De kracht van Sysmon is context. In plaats van alleen “een service is gestart” zie je vaak welk proces het startte, met volledige command line, parent process, hashes, gebruiker en schone tijdstempels voor correlatie.

Dat is waardevol voor betrouwbaarheid omdat veel incidenten beginnen met "kleine" veranderingen: een nieuwe scheduled task, een stille updater, een verdwaald script of een driver die slecht gaat werken.

Minimale configuratie: bewust smal beginnen

Een “log alles” Sysmon-config is zelden een goed begin. Begin met een minimale, betrouwbaarheid-gerichte set en breid alleen uit wanneer je duidelijke vragen hebt.

Goede vroege kandidaten:

Procescreatie (onverwachte starts, verdachte command lines)
Driver load (nieuwe of veranderende kernelcomponenten)
Image/DLL load (selectief gebruiken voor dependency-problemen)
Service en scheduled-task activiteit (persistentie en achtergrondveranderingen)
Netwerkverbindingen / DNS (alleen inschakelen voor specifieke onderzoeken om volume te beheren)

Stem af met gerichte include-regels (kritieke paden, bekende service-accounts, sleutelservers) en zorgvuldig gekozen exclude-regels (luidruchte updaters, vertrouwde beheeragents) zodat het signaal leesbaar blijft.

Betrouwbaarheidsgedragsgevallen die je daadwerkelijk zult zien

Sysmon helpt vaak om veelvoorkomende “mysterie-change” scenario's te bevestigen of uit te sluiten:

Een nieuwe helper die onder een service-account spawn vlak voor CPU-spikes
Een service-binary die pad of starttype verandert na een patchcyclus
Een driverupdate die samenvalt met nieuwe hangs, bugchecks of opslag/netwerkresets

Operationele waarschuwingen

Test impact eerst op representatieve machines. Sysmon kan disk I/O en event-volume verhogen, en centrale collectie kan snel duur worden.

Behandel velden zoals command lines, gebruikersnamen en paden als gevoelig. Pas toegang, retentie en filtering toe voordat je breed uitrolt.

Aanvulling, geen vervanging

Sysmon is het beste als waardevolle broodkruimels. Gebruik het naast ETW voor diepe prestatievragen, metrics voor trenddetectie en gedisciplineerde incidentnotities zodat je kunt koppelen wat veranderde aan wat brak—en hoe je het repareerde.

WinDbg en dumps: crashes en hangs omzetten in antwoorden

Standaardiseer Procmon-filters

Maak een bibliotheek-app voor Procmon-filtertemplates en probleemoplossingsnotities.

Probeer Koder

Wanneer iets "gewoon crasht", is het meest waardevolle artefact vaak een dumpbestand: een snapshot van geheugen plus genoeg uitvoeringsstaat om te reconstrueren wat het proces (of het OS) op het moment van falen deed. In tegenstelling tot logs vereisen dumps niet dat je van tevoren het juiste bericht voorspelt—ze leggen het bewijs achteraf vast.

Wat crashdumps zijn (en waarom je ze wilt)

App crash dumps (user mode) leggen één proces vast. Ze zijn ideaal wanneer één dienst stopt maar de machine blijft draaien.
Kernel dumps (systeemwijd) worden gebruikt voor bugchecks (BSODs) en bevatten OS-state, drivers en kernel-threads.

Dumps kunnen wijzen naar een specifieke module, call path en fouttype (access violation, heap-corruptie, deadlock, driverfault), wat moeilijk uit symptomen alleen af te leiden is.

WinDbg basics: symbolen, stacks en “wat faalde”

WinDbg verandert een dump in een verhaal. De essentie:

Symbolen vertalen ruwe adressen naar functienamen en (waar beschikbaar) regelinfo. Zonder correcte symbolen wordt analyse giswerk.
Stacktraces tonen de call-sequentie die tot de crash leidde of de huidige staat van een "vastzittende" thread.
Het doel is het identificeren van de foutgevende component: jouw code, een dependency DLL, een driver, een antivirus-shim, een grafische stack, enz.

Een typisch workflow: open de dump → laad symbolen → run een automatische analyse → valideer door naar top stacks en betrokken modules te kijken.

Crash vs. BSOD vs. hang: verwissel de categorieën niet

Bugcheck (BSOD): het hele systeem stopt. Verwacht kernel dumps en driver/root-cause werk.
App crash: één proces beëindigt. Verwacht user-mode dumps en een exception code.
Hang: er crasht niets, maar het werk stopt. Je hebt bewijs nodig van wat threads aan het wachten zijn.

Hangs hebben bewijs nodig: stacks, waits en locks

"Het hangt" is een symptoom, geen diagnose. Voor hangs maak je een dump terwijl de app onresponsief is en onderzoek je:

Threadstacks om te zien wat elke thread doet.
Wachtredenen (I/O, RPC, mutex/critical section, netwerk).
Lock/contention patronen—vaak wacht de “hung” UI-thread op een worker-thread die ergens anders geblokkeerd zit.

Realistische verwachtingen: zelfdiagnose vs. escalatie

Je kunt vaak zelf duidelijke issues diagnosticeren (herhaalbare crashes in één module, duidelijke deadlocks, sterke correlatie met een specifieke DLL/driver). Escaleer wanneer dumps derden drivers/security-software impliceren, kernelcomponenten aanraken of wanneer symbolen/source ontbreekt—daarna is mogelijk een vendor (of Microsoft) nodig voor volledige interpretatie.

Veelvoorkomende faalpatronen en hoe internals ze verklaart

Veel "mysterieuze Windows-problemen" herhalen dezelfde patronen. Het verschil tussen gokken en repareren is begrijpen wat het OS doet—en het Internals/Sysinternals-denkmodel helpt dat te zien.

Geheugenlekken: working set vs. commit

Wanneer mensen zeggen "de app lekt geheugen" bedoelen ze vaak één van twee dingen.

Working set is het fysieke RAM dat momenteel een proces ondersteunt. Het kan op en neer gaan als Windows geheugen vrijmaakt onder druk.

Commit is de hoeveelheid virtueel geheugen die het systeem heeft beloofd te dekken met RAM of het pagefile. Als commit blijft stijgen, heb je een echt lekrisico: uiteindelijk bereik je de commit limit en gaan allocaties falen of wordt de host onstabiel.

Een veelvoorkomend symptoom: Taakbeheer toont “beschikbaar RAM”, maar de machine vertraagt toch—omdat commit, niet vrij RAM, de beperkende factor is.

Handle leaks: langzame fout die willekeurig lijkt

Een handle is een referentie naar een OS-object (bestand, registersleutel, event, section, enz.). Als een service handles lekt, kan hij uren of dagen goed draaien, en dan beginnen vreemde fouten te komen (kan bestanden niet openen, kan geen threads maken, kan geen verbindingen accepteren) doordat per-proces handle-aantallen stijgen.

Kijk in Process Explorer naar trends in handle-aantallen. Een gestage stijging is een sterk signaal dat de service “vergeet te sluiten”.

Schijf- en bestandssysteemproblemen: latentie, retries, filter-drivers

Opslagproblemen tonen zich niet altijd als hoge doorvoer; ze verschijnen vaak als hoge latentie en retries. In Process Monitor let je op:

Herhaalde CreateFile/ReadFile operaties
I/O-events met lange duur
Veel NAME NOT FOUND / PATH NOT FOUND-ruis (verkeerd geconfigureerde paden)

Let ook op filter drivers (AV, backup, DLP). Zij kunnen zich in het bestand-I/O-pad plaatsen en vertraging of fouten toevoegen zonder dat de applicatie “iets verkeerd” doet.

CPU-spikes: één heet proces vs. contentie

Een enkel heet proces is eenvoudig: één executable verbrandt CPU.

Systeembrede contentie is lastiger: CPU is hoog omdat veel threads runnable zijn en vechten om locks, disk of geheugen. Internals-denken dwingt je te vragen: “Doet de CPU nuttig werk, of draait het rond terwijl het elders geblokkeerd is?”

Netwerkproblemen: wie bezit de verbinding?

Bij timeouts maak je een map proces → verbinding met TCPView of Process Explorer. Als het verkeerde proces de socket bezit heb je een concreet schuldige. Als het juiste proces de socket bezit, zoek dan patronen: SYN-retries, lange idle-verbindingen vast, of een explosie van korte uitgaande pogingen die wijzen op DNS/firewall/proxy-problemen in plaats van "de app is down".

Een praktische workflow: Observeer → Neem op → Leg uit → Los op

Publiceer tools naar je team

Implementeer je interne tools en houd toegang eenvoudig met je eigen domein.

Publiceer app

Betrouwbaarheidswerk wordt makkelijker wanneer elk incident hetzelfde pad volgt. Het doel is niet "meer tools draaien"—het is betere beslissingen nemen met consistente bewijslast.

1) Reproduceer (of definieer de trigger)

Schrijf op wat “slecht” in één zin betekent: “App bevriest 30–60 seconden bij opslaan van groot bestand” of “CPU stijgt naar 100% elke 10 minuten.” Als je het kunt reproduceren, doe dat op aanvraag; zo niet, definieer de trigger (tijdvenster, workload, gebruikersactie).

2) Observeer (eerst lichtgewicht)

Voordat je zware data verzamelt, bevestig het symptoom en de scope:

Is het één machine of meerdere?
Eén proces of de hele host?
Prestatieprobleem, crash of hang?

Hier helpen snelle checks (Taakbeheer, Process Explorer, basiscounters) om te kiezen wat je daarna vastlegt.

3) Neem op (bouw een goed dossier)

Leg bewijs vast alsof je het aan een collega geeft die er niet bij was. Een goed dossier bevat meestal:

Tijdstempels (begin/eind, tijdzone, frequentie)
Versies (Windows-build, appversie, drijferversies)
Configuratie (feature flags, policies, omgevingsvariabelen, security tooling)
Traces (Procmon-filters, ETW-session naam, duur)
Dumps (hangs/crashes: full vs. mini, welk proces, hoe getriggerd)

Houd capturings kort en doelgericht. Een 60-seconden trace die het foutvenster dekt is beter dan 6 uur opname die niemand kan openen.

4) Leg uit (zet data om in een verhaal)

Vertaal wat je verzamelde naar een eenvoudig verhaal:

Wat veranderde? (nieuwe build, policy, driver, load)
Wat doet het systeem nu anders? (retries, contentie, geblokkeerde I/O, timeouts)
Wat is de waarschijnlijke oorzaak? (één of twee hypothesen, gerangschikt)

Als je het niet simpel kunt uitleggen, heb je waarschijnlijk een schonere capture of smallere hypothese nodig.

5) Los op, bevestig en verkort MTTR de volgende keer

Voer de kleinste veilige fix uit en verifieer met dezelfde reproducstappen en een “voor vs. na” capture.

Om MTTR te verminderen, standaardiseer playbooks en automatiseer saaie taken:

Eén script/commando om een trace te starten, één om te stoppen en te zippen
Een consistente mappenstructuur en naamgevingsconventie
Een checklist per symptoom (crash vs. hang vs. vertraging)

Post-incident leren: voeg het missende signaal toe

Na oplossing vraag: “Welk signaal had dit eerder duidelijk gemaakt?” Voeg dat signaal toe—Sysmon-event, ETW-provider, een prestatiecounter of een lichte health-check—zodat het volgende incident korter en rustiger verloopt.

Het vasthouden: veiligere fixes en langetermijnbetrouwbaarheid

Het doel van internals-werk is niet winnen in een debug-sessie—het is om wat je zag om te zetten in veranderingen die voorkomen dat het incident terugkeert.

Zet bevindingen om in concrete acties

Internals-tools beperken een probleem vaak tot een kleine set hefbomen. Vertaal bevindingen expliciet:

Configuratiewijziging: machtiging van service-account, registersleutel, poolgrootte, scheduled task-interval.
Patch: OS-cumulatieve update, .NET-update of vendor-hotfix die overeenkomt met call stack of driver-versie.
Driverupdate (of rollback): als Procmon/ETW stalls toont rond bestand/netwerk/filter-drivers, behandel driver-versies als eersteklas afhankelijkheden.
Rollback: als de fix riskant is, plan snel terugdraaien (bekende-goede package, eerdere GPO, oudere driverbundle).

Schrijf het "omdat" op: “We veranderden X omdat we Y zagen in Process Monitor / ETW / dumps.” Die zin voorkomt dat tribal knowledge wegzakt.

Guardrails: wijzigingsvensters, validatie, rollback

Maak je wijzigingsproces passend bij de blast radius:

Gebruik een wijzigingsvenster met verminderde traffic indien mogelijk.
Definieer validatiestappen (welke counters, event IDs of gebruikerspaden moeten verbeteren).
Bereid een duidelijke rollback-plan voor met een eigenaar en tijdslimiet (“Als fouten niet binnen 15 minuten dalen, revert”).

Betrouwbaarheids-patronen die je herhaaldelijk kunt toepassen

Zelfs als de oorzaak specifiek is, komt duurzaamheid vaak voort uit herbruikbare patronen:

Timeouts om thread-sterfte en vastlopende dependency-ketens te voorkomen.
Rate limiting/backoff om retry-stormen te stoppen.
Service recovery opties (restart acties, failure reset period) voor verwachte transiënten.
Health checks die hangs detecteren, niet alleen crashes.

Datahygiëne voor captures en telemetry

Bewaar wat je nodig hebt en bescherm wat je niet zou moeten verzamelen.

Beperk Procmon-filters tot verdachte processen, scrub paden/gebruikersnamen bij delen, stel retentie in voor ETW/Sysmon-data en vermijd netwerkcaptures met zware payloads tenzij strikt nodig.

Operationaliseren van playbooks (waar Koder.ai kan helpen)

Als je een herhaalbare workflow hebt, is de volgende stap die in te pakken zodat anderen het consistent kunnen draaien. Hier kan een platform als Koder.ai handig zijn: je zet je incident-checklist om in een kleine interne webapp (React UI, Go-backend met PostgreSQL) die responders begeleidt door “observe → capture → explain”, timestamps en artefacten opslaat en naamgeving en case-file-structuur standaardiseert.

Omdat Koder.ai apps via chat en agent-gebaseerde architectuur bouwt, kunnen teams snel itereren—een “start ETW session”-knop, een Procmon-filterbibliotheek, snapshot/rollback van wijzigingen of een exporteerbare runbook-generator toevoegen—zonder alles in een traditionele dev-pijplijn te herbouwen. Koder.ai ondersteunt ook source-code export en meerdere tiers (van gratis tot enterprise), zodat je klein kunt beginnen en later governance op kan schalen.

Een kleine wekelijkse oefenroutine

Kies één tool en een 15-minuten oefening per week: trace een langzaam opstartende app met Procmon, inspecteer een serviceboom in Process Explorer, review Sysmon-eventvolumes, of neem één crashdump en identificeer de falende module. Kleine herhalingen bouwen de spiermassa die echte incidenten sneller—en veiliger—maakt.

Veelgestelde vragen

Waarom is Mark Russinovich vandaag nog steeds belangrijk voor Windows-operations?

Mark Russinovich heeft een bewijs-eerst aanpak van Windows-probleemoplossing populair gemaakt en tools geleverd (en beïnvloed) die het OS in de praktijk observeerbaar maken.

Zelfs als je Windows Internals nooit hebt gelezen, vertrouw je waarschijnlijk op workflows die door Sysinternals, ETW en dumpanalyse zijn gevormd om incidenten te verkorten en oplossingen herhaalbaar te maken.

Wat betekent "observeerbaarheid" in de context van Windows-operations?

Observeerbaarheid is je vermogen om te beantwoorden "wat gebeurt er nu?" aan de hand van systeemsignalen.

Op Windows combineer je dat meestal met:

Event logs voor afzonderlijke systeem-/app-gebeurtenissen
Metrics (Prestatiecounters) voor impact en verzadiging
Traces (ETW) voor hoge-resolutie causaliteit en tijdlijnen

Hoe vermindert kennis van Windows-internals de incidenttijd (MTTR)?

Internals-kennis helpt vage symptomen omzetten in toetsbare hypothesen.

Bijvoorbeeld: "de server is traag" wordt een kortere set mechanismen om te valideren: CPU-contentie vs. pagingdruk vs. I/O-latentie vs. driver/filter-overhead. Dat versnelt de triage en helpt je het juiste bewijsmateriaal vast te leggen voordat het probleem verdwijnt.

Wanneer moet ik Process Explorer gebruiken in plaats van Taakbeheer?

Gebruik Process Explorer wanneer je wilt weten wie verantwoordelijk is.

Het is het beste voor snelle antwoorden zoals:

Welke process gebruikt CPU/geheugen
Ouder/kind-relaties (wat het gestart heeft)
Thread-level hotspots en wachtredenen
Welke DLLs/handles het proces open heeft

Bij welke problemen helpt Process Monitor (Procmon) het meest?

Gebruik Process Monitor wanneer je het activiteitsspoor over bestand, register en process/thread operaties nodig hebt.

Praktische voorbeelden:

Het vinden van "NAME NOT FOUND" afhankelijkheidsfouten die app-start breken
Aantonen dat een access denied een permissie-/padprobleem is (niet "de app is down")
Identificeren van periodiek disk-hammeren en het exacte pad dat geraakt wordt

Hoe voorkom ik Procmon-ruis en krijg ik toch bruikbaar bewijs?

Filter agressief en capture alleen het foutvenster.

Een goede startworkflow:

Filter eerst op Process Name of PID
Voeg Include-regels toe voor specifieke paden/sleutels die je belangrijk vindt
Capture 30–120 seconden rond het symptoom en stop dan

Een kleinere trace die je kunt analyseren is beter dan een enorme opname die niemand kan openen.

Hoe helpt Autoruns bij betrouwbaarheid en boot/logon-problemen?

Autoruns beantwoordt "wat start automatisch?"—services, scheduled tasks, drivers, shell-extensies en meer.

Het is vooral nuttig voor:

Trage opstarts/logons
Intermitterende CPU-spikes na inloggen
Mysterieprocessen op de achtergrond

Begin met items die unsigned, of lijken en schakel één voor één uit met aantekeningen.

Wanneer moet ik van logs/metrics naar ETW-tracing escaleren?

ETW (Event Tracing for Windows) is Windows’ ingebouwde high-volume, gestructureerde “vluchtrecorder.”

Gebruik ETW wanneer logs en metrics aangeven dat er iets fout is, maar niet waarom—bijvoorbeeld stalls door I/O-latentie, schedulingvertragingen, drivergedrag of dependency-timeouts. Houd captures kort, doelgericht en tijdsgecorreleerd met het gerapporteerde symptoom.

Hoe kan Sysmon betrouwbaarheidsonderzoeken verbeteren (niet alleen security)?

Sysmon voegt contextrijke telemetry toe (parent/child-processen, command lines, hashes, driver loads) die helpt beantwoorden "wat is er veranderd?"

Voor betrouwbaarheid is het nuttig om te bevestigen:

Nieuwe helper-processen of scheduled tasks die vlak voor spikes verschijnen
Driverloads die samenhangen met nieuwe hangs/bugchecks
Onverwachte binaire/padwijzigingen na patchrondes

Begin met een minimale configuratie en tune include/exclude-regels om de event-volume beheersbaar te houden.

Wat is het praktische verschil bij onderzoek met WinDbg tussen een crash, BSOD en hang?

Een dump is vaak het meest waardevolle artefact voor crashes en hangs omdat het de uitvoeringstoestand vastlegt.

App crashes: neem user-mode dumps; analyseer exception codes en stacks.
BSODs: neem kernel dumps; focus op drivers en kernelstate.
Hangs: maak een dump terwijl het vastzit; inspecteer threadstacks, wachtredenen en lock-contention.

WinDbg zet dumps om in antwoorden, maar correcte symbolen zijn essentieel voor betekenisvolle stacks en module-identificatie.