Mark Russinovich och Windows Internals: Observabilitet och pålitlighet

Q: When should I use Process Explorer instead of Task Manager?

Använd Process Explorer när du behöver identifiera vem som är ansvarig. Det är bäst för snabba svar som: - Vilken process använder CPU/minne - Förälder/barn-relationer (vad som startade processen) - Tråd-nivå hotspots och väntetider - Vilka DLL:er/handles processen har öppna

Q: What problems is Process Monitor (Procmon) best at solving?

Använd Process Monitor när du behöver aktivitetsspåret över filsystem, register och process-/trådoperationer. Praktiska exempel: - Hitta “NAME NOT FOUND” beroenden som bryter app-start - Bevisa att ett Access Denied är en behörighets-/sökvägsfråga - Identifiera periodisk diskbelastning och exakt sökväg som berörs

Logga in Kom igång

Varför Mark Russinovich fortfarande är viktig för Windows-drift

Om du kör Windows i produktion—på laptops, servrar, VDI eller moln-VM—så dyker Mark Russinovich arbete fortfarande upp i det dagliga driftsarbetet. Inte på grund av personlighet eller nostalgi, utan för att han hjälpte till att popularisera ett bevisförst-tankesätt för felsökning: titta på vad OS faktiskt gör, och förklara symptom med bevis.

Tre idéer på vanligt språk

Observabilitet betyder att du kan svara på “vad händer just nu?” med signaler systemet producerar (händelser, spår, räknare). När en tjänst blir seg eller inloggningar hänger, är observabilitet skillnaden mellan att gissa och att veta.

Felsökning är att förvandla ett vagt problem ("den frös") till en specifik mekanism ("denna tråd är blockerad av I/O", "denna process thrashar sidfilen", "en DLL-injektion förändrade beteendet").

Pålitlighet är förmågan att fortsätta fungera under belastning och att återhämta sig förutsägbart—färre incidenter, snabbare återställningar och säkrare ändringar.

Varför internals-kunskap snabbar upp incidenter

De flesta “mystiska avbrott” är inte mystiska—det är Windows-beteenden du inte kartlagt ännu: handle-leak, okontrollerade barnprocesser, fastnade drivrutiner, DNS-timeouter, trasiga autostart-poster eller säkerhetsverktyg som lägger overhead. En grundläggande förståelse för Windows internals (processer, trådar, handles, tjänster, minne, I/O) hjälper dig känna igen mönster snabbt och samla rätt bevis innan problemet försvinner.

Vad den här artikeln hjälper dig göra

Vi fokuserar på praktiska, driftvänliga arbetsflöden som använder:

Sysinternals-verktyg (särskilt Process Explorer och Process Monitor) för snabb, lågtröskelinsyn
ETW-spårning när loggar inte räcker och du behöver högupplösta tidslinjer över vad som hände
WinDbg och crash/hang-dumps för att omvandla fel till handlingsbara rotorsaker

Målet är inte att göra dig till kernel-ingenjör. Det är att göra Windows-incidenter kortare, lugnare och enklare att förklara—så att åtgärder blir säkrare och upprepbara.

Windows Internals som ett felsökningssuperkraft

Windows “internals” är helt enkelt de mekanismer Windows använder för att göra verkligt arbete: schemalägga trådar, hantera minne, starta tjänster, ladda drivrutiner, hantera fil- och regist aktivitet och upprätthålla säkerhetsgränser. Det praktiska löftet är enkelt: när du förstår vad OS gör, slutar du gissa och börjar förklara.

Det spelar roll eftersom de flesta driftsymptom är indirekta. “Maskinen är långsam” kan vara CPU-konkurrens, en het tråd, en drivrutins-interrupt-storm, sidtryckning, eller ett antivirusfilter som blockerar fil-I/O. “Den hänger” kan vara en deadlock, ett fast nätverksanrop, en lagrings-timeout eller en tjänst som väntar på en beroende. Internals-kunskap förvandlar vaga klagomål till testbara hypoteser.

User mode vs. kernel mode (lagom mycket för att vara användbart)

På en hög nivå körs de flesta appar och tjänster i user mode. När de kraschar tar de vanligtvis bara ner sig själva. Kernel mode är där Windows självt och drivrutiner körs; problem där kan frysa hela systemet, utlösa en bugcheck (blåskärm) eller tyst försämra pålitligheten.

Du behöver inte djup teori för att använda denna distinktion—bara så mycket att du väljer rätt bevis. En app som peggar CPU är ofta user mode; upprepade lagrings- eller nätverksdrivrutinsproblem pekar ofta mot kernel mode.

Bevisförst-felsökning

Russinovichs tankesätt—reflekterat i verktyg som Sysinternals och i Windows Internals—är “bevis först.” Innan du ändrar inställningar, startar om blint eller installerar om, fånga vad systemet gör: vilken process, vilken tråd, vilket handle, vilken registernyckel, vilken nätverksanslutning, vilken drivrutin, vilket event.

När du kan svara på “vad gör Windows just nu, och varför,” blir fixes mindre, säkrare och lättare att motivera—och pålitlighetsarbete slutar vara reaktivt släckande av bränder.

Sysinternals-ansatsen: gör det osynliga synligt

Sysinternals förstås bäst som en “synlighetsverktygslåda” för Windows: små, portabla verktyg som avslöjar vad systemet faktiskt gör—process för process, handle för handle, registernyckel för registernyckel. Istället för att behandla Windows som en svart låda låter Sysinternals dig observera beteendet bakom symptom som “appen är seg”, “CPU är hög” eller “servern tappar anslutningar”.

Lita men verifiera: gissa inte, mät

Mycket driftvärk kommer från rimligt klingande gissningar: det måste vara DNS, det är förmodligen antivirus, Windows Update har fastnat igen. Sysinternals-tankesättet är enkelt: lita på din instinkt tillräckligt för att forma en hypotes, och verifiera den sedan med bevis.

När du kan se vilken process som konsumerar CPU, vilken tråd som väntar, vilken sökväg som blir slagen på eller vilket registernyckel som ständigt skrivs om, slutar du debattera åsikter och börjar begränsa orsaker. Denna förskjutning—från berättelse till mätning—är vad som gör internals-kunskap praktisk, inte akademisk.

Varför Sysinternals glänser under live-incidenter

Dessa verktyg är byggda för “allt brinner”-ögonblicket:

Låg tröskel: många verktyg körs utan installation och startar snabbt.
Snabb återkoppling: du kan validera eller förkasta en teori på några minuter.
Fokuserad insyn: varje verktyg besvarar en specifik klass av frågor (processer, startobjekt, nätendpunkter, minnesanvändning).

Det spelar roll när du inte har råd med lång uppsättningstid, tung agentutbredning eller omstart bara för att samla bättre data.

Säkra användningsprinciper

Sysinternals är kraftfullt och kraft kräver styrning:

Kör vid behov: börja med read-only-observation; höj privilegier bara när det behövs.
Dokumentera vad du gör: spela in tidsstämplar, filter och åtgärder så fynden blir upprepbara.
Minimera störningar: föredra att fånga bevis (skärmdumpar, loggar, exporterade spår) framför att “försöka fixa” mitt i en incident.
Ändra försiktigt: om du måste ändra en inställning eller döda en process, notera skäl och förväntat utfall och verifiera sedan resultat.

Använd på detta sätt blir Sysinternals en disciplinerad metod: observera det osynliga, mät sanningen och gör ändringar som är motiverade—inte hoppfulla.

Process Explorer & Process Monitor: vardagspar för felsökning

Om du bara spar ett par Sysinternals-verktyg i din admin-verktygslåda, välj Process Explorer och Process Monitor. Tillsammans svarar de på de vanligaste “vad gör Windows just nu?”-frågorna utan agent, omstart eller tung konfiguration.

Process Explorer: snabba svar på sekunder

Process Explorer är Task Manager med röntgensyn. När en maskin är seg eller instabil hjälper det dig peka ut vilken process som är ansvarig och vad den är kopplad till.

Det är särskilt användbart för:

CPU och trådar: vilken process förbrukar CPU, och är det en het tråd eller många?
Förälder/barn-relationer: vad startade processen (en tjänst, schemalagd uppgift, uppdaterare eller användaråtgärd)?
DLL:er och handles: vilka moduler är inladdade och vilka filer/registernycklar/pipes håller processen öppna?

Den sista punkten är en pålitlighets-superkraft: “Varför kan jag inte ta bort den här filen?” blir ofta “Den här tjänsten har ett öppet handle till den.”

Process Monitor: hela aktivitetskedjan

Process Monitor (Procmon) fångar detaljerade händelser över filsystem, register och process/tråd-aktivitet. Det är verktyget för frågor som: “Vad ändrades när appen hängde?” eller “Vad slår hårt mot disken var 10:e minut?”.

Innan du trycker Capture, formulera frågan:

Vad är symptomet (långsam inloggning, hög disk, krasch, access denied)?
När händer det (vid uppstart, kl. 09:00, efter sleep)?
Vilken maskin och användarkontext (bara en server, bara en användarprofil, bara via VPN)?

Fånga bara vad du behöver (brus är fienden)

Procmon kan överväldiga dig om du inte filtrerar aggressivt. Börja med:

Filtrera på specifikt Process Name eller PID.
Använd Include-regler för sökvägen du bryr dig om (t.ex. en konfigmapp) och exkludera resten.
Fånga under ett kort fönster kring symptomet, stoppa sedan.

Vad du får ut av det

Vanliga, praktiska utfall: identifiera en felande tjänst som upprepade gånger frågar efter en saknad registernyckel, upptäcka en skyddsskannare som rör tusentals filer, eller hitta en misslyckad DLL-laddning ("NAME NOT FOUND") som förklarar varför en app inte startar på en maskin men fungerar på en annan.

Autoruns, TCPView, RAMMap: snabba ledtrådar utan tung setup

Rör dig snabbt och behåll kontrollen

Starta snabbt i Koder.ai och exportera sedan koden när du behöver djupare ägande.

Börja bygga

När en Windows-maskin “känns fel” behöver du ofta inte ett helt övervakningsstack för att få grepp. En liten uppsättning Sysinternals-verktyg kan snabbt besvara tre praktiska frågor: Vad startar automatiskt? Vad kommunicerar på nätet? Var tog minnet vägen?

Autoruns: pålitlighet börjar vid boot

Autoruns är snabbaste sättet att förstå allt som kan starta utan att användaren explicit kör det: tjänster, schemalagda uppgifter, shell-extensioner, drivrutiner och mer.

Varför det spelar roll för pålitlighet: startobjekt är frekventa källor till långsamma uppstarter, intermittenta hängningar och CPU-toppar som bara syns efter inlogg. En instabil uppdaterare, en legacy-drivrutin eller en trasig shell-extension kan försvaga hela systemet.

Praktisk tips: fokusera på poster som är unsigned, nyligen tillagda eller misslyckas att läsas in. Om inaktivering av en post stabiliserar maskinen har du förvandlat ett vagt symptom till en specifik komponent som kan uppdateras, tas bort eller ersättas.

TCPView: bekräfta vem som lyssnar, vem som pratar

TCPView ger en direkt karta över aktiva anslutningar och lyssnare, knutna till processnamn och PID. Det är idealiskt för snabba kontroll:

Ovänade LISTENING-portar (särskilt på servrar som bör vara tysta)
En process som äger ovanligt många anslutningar
Snabb anslutningschurn som korrelerar med CPU eller latensklagomål

Även för icke-säkerhetsgranskningar kan detta avslöja okontrollerade agenter, felkonfigurerade proxys eller “retry-storms” där appen verkar seg men rotorsaken är nätverksbeteende.

RAMMap: minnes-press utan gissningar

RAMMap hjälper dig tolka minnespress genom att visa var RAM egentligen är allokerat.

En användbar baseline-åtskillnad:

Working sets: minne som aktivt används av körande processer
Cache / standby: Windows håller data i minnet för snabbare åtkomst (inte nödvändigtvis “dåligt”)

Om användare rapporterar “lite minne” medan Task Manager ser förvirrande ut, kan RAMMap bekräfta om du har verklig process-tillväxt, tung filcache eller något som en drivrutin som tar icke-paged-minne.

Valfritt: Handle och VMMap när läckor misstänks

Om en app blir sämre över dagar kan Handle visa ökande handle-räkningar (klassiskt leak-mönster). VMMap hjälper när minnesanvändningen är ovanlig—fragmentering, stora reserverade regioner eller allokeringar som inte syns som vanliga “private bytes”.

En upprepbar första 15-minuters checklista

Autoruns: sök efter nya/unsigned-poster; inaktivera en misstänkt post i taget.
TCPView: verifiera förväntade lyssnare; identifiera topp-anslutningsägare.
RAMMap: kontrollera om press är working set-tillväxt vs cache/standby.
Om symptom är tidsbaserade: fånga en snabb “före/efter”-snapshot (räkningar, portar, minnestotaler).
Om tillväxt är uppenbar: använd Handle/VMMap för att bekräfta läckmönster.
Skriv ner misstänkt komponent och bevis så att åtgärden blir riktad, inte gissning.

Från loggar till ETW: bygga riktig observabilitet på Windows

Windows-drift börjar ofta med det som är lättast att få tag i: Event Viewer och några skärmdumpar av Task Manager. Det är okej för smulor, men pålitligt incidenthantering behöver tre kompletterande signalkategorier: loggar (vad som hände), metrik (hur illa blev det) och spår (vad systemet gjorde ögonblick-för-ögonblick).

Event logs: bra ledtrådar, ojämn täckning

Windows-händelseloggar är utmärkta för identitet, tjänste-livscykel, policyändringar och appnivåfel. De är också ojämna: vissa komponenter loggar rikt, andra sparsamt, och meddelandetext kan vara vag ("The application stopped responding"). Behandla dem som tidslinjeankare, inte hela historien.

Vanliga vinster:

Tjänsters start/stop och kraschevents
Autentiserings- och auktoriseringshändelser
Applikationsundantag (när appar faktiskt loggar dem)

Metriker under utfall: de få som oftast spelar roll

Prestandaräknare svarar på “är maskinen frisk?” Under en incident, börja med:

CPU: ihållande hög CPU, ready time (VMs), per-process CPU
Disk: kölängd, läs-/skrivlatens, IOPS, ledigt utrymme
Minne: committed bytes, commit limit, hard faults/sec, pool-användning
Nätverk: retransmits, fel, bytes/sec, antal anslutningar

Metriker talar inte om varför en topp uppstod, men de berättar när den började och om den förbättras.

ETW med enkla ord: strukturerad, högvolyms-spårning

Event Tracing for Windows (ETW) är Windows inbyggda flight recorder. Istället för ad-hoc textmeddelanden emitterar ETW strukturerade händelser från kernel, drivrutiner och tjänster i hög volym—process/tråd-aktivitet, fil-I/O, registeråtkomst, TCP/IP, schemaläggning och mer. På den nivån blir många “mystiska stopp” förklarliga.

Välja signaler (utan att samla allt)

En praktisk regel:

Använd loggar för diskreta händelser (krasch, omstart, auth-fel).
Använd metrik för att upptäcka och kvantifiera påverkan (latens, mättnad).
Använd ETW när du behöver kausalitet (vad blockerade, vilken I/O, vilken anropsväg).

Undvik “slå på allt för alltid.” Håll en liten alltid-på-baslinje (nyckelloggar + kärnmetrik) och använd korta, riktade ETW-fångster under incidenter.

Tidskorrelation är superkraften

De snabbaste diagnoserna kommer från att aligna tre klockor: användarrapporter ("10:42 frös det"), metrikinflectioner (CPU/disk-topp) och logg/ETW-händelser på samma tidsstämpel. När dina data delar en konsekvent tidsbas, slutar incidenter vara gissningar och blir berättelser du kan verifiera.

Sysmon-telemetri: säkerhetssignaler som också hjälper pålitlighet

Windows standard-händelselogg är användbar, men den missar ofta “varför nu?”-detaljer operatörer behöver när något ändras oväntat. Sysmon (System Monitor) fyller det gapet genom att spela in högre-fidelitets-process- och systemaktivitet—särskilt kring uppstarter, persistens och drivrutinsbeteende.

Vad Sysmon lägger till (utöver standardloggar)

Sysmons styrka är kontext. Istället för bara “en tjänst startade” kan du ofta se vilken process som startade den, med full kommandorad, förälderprocess, hashar, användarkonto och rena tidsstämplar för korrelation.

Det är värdefullt för pålitlighet eftersom många incidenter börjar som “små” ändringar: en ny schemalagd uppgift, en tyst uppdaterare, ett härjande skript eller en drivrutin som beter sig illa.

Minimal konfiguration: börja smalt med avsikt

En “log everything” Sysmon-konfig är sällan en bra första åtgärd. Börja med en minimal, pålitlighetsfokuserad uppsättning och expandera bara när du har tydliga frågor.

Bra tidiga kandidater:

Process creation (oväntade uppstarter, misstänkta kommandorader)
Driver load (nya eller förändrade kernel-komponenter)
Image/DLL load (använd selektivt för beroendeproblem)
Service och schemalagd-aktivitet (persistens och bakgrundsändringar)
Nätverksanslutningar / DNS (slå på endast för specifika utredningar för att hantera volymen)

Tuna med riktade include-regler (kritiska vägar, kända servicekonton, nyckelservrar) och noggrant valda exclude-regler (brusiga uppdaterare, betrodda management-agenter) så signalen förblir läsbar.

Pålitlighetsfall du faktiskt kommer se

Sysmon hjälper ofta att bekräfta eller avfärda vanliga “mystiska ändrings”-scenarier:

En ny hjälpprocess som spawnas under ett tjänstekonto strax innan CPU-toppar
En tjänstbinär som ändrar sökväg eller starttyp efter en patchcykel
En drivrutinsuppdatering som sammanfaller med nya hängningar, bugchecks eller lagrings-/nätverksåterställningar

Driftvarningar

Testa påverkan på representativa maskiner först. Sysmon kan öka disk-I/O och event-volym, och centraliserad insamling kan bli dyr snabbt.

Behandla också fält som kommandorader, användarnamn och sökvägar som känsliga. Tillämpa åtkomstkontroller, retention och filtrering innan bred utrullning.

Komplement, ersätter inte resten av observabiliteten

Sysmon är bäst som högvärdiga brödsmulor. Använd det tillsammans med ETW för djupa prestandafrågor, metrik för trenddetektion och disciplinerade incidentanteckningar så du kan koppla vad som ändrades till vad som bröts—och hur du fixade det.

WinDbg och dumps: omvandla krascher och hängningar till svar

Planera ändringar med rollback

Använd Planning Mode och snapshots för att öva säkra uppdateringar och snabba återställningar.

Börja planera

När något “bara kraschar” är det mest värdefulla artefaktet ofta en dumpfil: en snapshot av minne plus tillräckligt med exekveringstillstånd för att återskapa vad processen (eller OS) gjorde vid felögonblicket. Till skillnad från loggar kräver dumps inte att du förutsäger rätt meddelande i förväg—de fångar bevisen i efterhand.

Vad crash dumps är (och varför du vill ha dem)

App crash dumps (user mode) spelar in en enda process. De är idealiska när en tjänst dör men maskinen står uppe.
Kernel dumps (systemomfattande) används för bugchecks (BSODs) och fångar OS-tillstånd, drivrutiner och kernel-trådar.

Dumps kan peka på en specifik modul, anropsväg och feltyp (access violation, heap-korrumption, deadlock, drivrutinsfel), vilket är svårt att härleda från symptom ensam.

WinDbg-grunder: symboler, stackar och “vad som misslyckades”

WinDbg förvandlar en dump till en berättelse. Det viktigaste:

Symboler mappar råa adresser till funktionsnamn och radinfo. Utan korrekta symboler blir analys snabbt spekulation.
Stacktraces visar anropssekvensen som ledde till kraschen eller tillståndet för en “fast” tråd.
Målet är att identifiera den felande komponenten: din kod, en beroende-DLL, en drivrutin, en antivirus-shim, ett grafikkök etc.

Ett typiskt arbetsflöde är: öppna dumpen → ladda symboler → kör automatisk analys → validera genom att granska top-stackar och involverade moduler.

Krasch vs BSOD vs häng: blanda inte kategorierna

Bugcheck (BSOD): hela systemet stoppar. Förvänta dig kernel-dumps och drivrutins-/root-cause-arbete.
App crash: en process termineras. Förvänta dig user-mode-dumps och en undantagskod.
Häng: inget kraschar, men arbetet stannar. Du behöver bevis för vad trådarna väntar på.

Hängningar behöver bevis: stackar, väntan och lås

“Det är fryst” är ett symptom, inte en diagnos. För hängningar, fånga en dump medan appen är otillgänglig och inspektera:

Trådstackar för att se vad varje tråd gör.
Vänteskäl (I/O, RPC, mutex/critical section, nätverk).
Lås-/konkurrensmönster—ofta väntar UI-tråden på en worker-tråd som är blockerad någon annanstans.

Realistiska förväntningar: självdiagnos vs eskalera

Du kan ofta självdiagnostisera tydliga fall (upprepade krascher i en modul, uppenbara deadlocks, stark korrelation till en viss DLL/drivrutin). Eskalera när dumps implicerar tredjepartsdrivrutiner/säkerhetsprogram, kernel-komponenter, eller när symboler/källåtkomst saknas—då kan en leverantör (eller Microsoft) behövas för full kedjeanalys.

Vanliga felmönster och hur internals förklarar dem

Många “mystiska Windows-problem” upprepar samma mönster. Skillnaden mellan att gissa och att fixa är att förstå vad OS gör—och Internals/Sysinternals-mentaliteten hjälper dig se det.

Minnesläckor: working set vs commit

När folk säger “appen läcker minne” menar de ofta en av två saker.

Working set är det fysiska RAM som för närvarande backar processen. Det kan gå upp och ner när Windows trimmar minne under press.

Commit är mängden virtuellt minne systemet lovat att backa med RAM eller sidfil. Om commit fortsätter att stiga har du en verklig läckrisk: till slut når du commit-gränsen och allokeringar börjar misslyckas eller hosten blir instabil.

Ett vanligt symptom: Task Manager visar “tillgängligt RAM”, men maskinen blir ändå seg—eftersom commit, inte ledigt RAM, är begränsningen.

Handle-läckor: långsam fel som ser slumpmässig ut

Ett handle är en referens till ett OS-objekt (fil, registernyckel, event, section osv.). Om en tjänst läcker handles kan den fungera bra i timmar eller dagar, sedan börja misslyckas med konstiga fel (kan inte öppna filer, kan inte skapa trådar, kan inte acceptera anslutningar) när per-process handle-räkningar växer.

I Process Explorer, övervaka handle-räknetrender över tid. En stadig uppåtgående kurva är en stark ledtråd att tjänsten “glömmer” att stänga något.

Disk- och filsystemproblem: latens, retries, filter-drivrutiner

Lagringsproblem visar sig inte alltid som hög genomströmning; de visar ofta som hög latens och retries. I Process Monitor, leta efter:

Upprepade CreateFile/ReadFile-operationer
I/O-händelser med lång varaktighet
Mycket NAME NOT FOUND / PATH NOT FOUND-brus (felkonfigurerade sökvägar)

Observera även filter-drivrutiner (AV, backup, DLP). De kan lägga sig i fil-I/O-banan och lägga till fördröjning eller fel utan att applikationen “gör något fel”.

CPU-toppar: en het process vs konkurrens

En ensam het process är enkel: en exekverbara förbrukar CPU.

Systemomfattande konkurrens är knepigare: CPU är hög eftersom många trådar är runnable och slåss om lås, disk eller minne. Internals-tänk får dig att fråga: “Gör CPU:n användbart arbete, eller spinner den medan den väntar på något annat?”

Nätverksproblem: vem äger anslutningen?

När timeouter inträffar, kartlägg process → anslutning med TCPView eller Process Explorer. Om fel process äger socketen har du en konkret syndabock. Om rätt process äger den, leta efter mönster: SYN-retries, långvariga inaktiva anslutningar eller en explosion av kortlivade utgående försök som tyder på DNS/firewall/proxy-problem snarare än “appen är nere”.

Ett praktiskt arbetsflöde: Observera → Fånga → Förklara → Fixa

Bygg en ETW-hjälpare

Skapa ett litet verktyg som startar och stoppar spårningar och lagrar artefakter konsekvent.

Bygg nu

Pålitlighetsarbete blir enklare när varje incident följer samma väg. Målet är inte att “köra fler verktyg”—det är att fatta bättre beslut med konsekvent bevisföra.

1) Reproducera (eller definiera triggern)

Skriv ner vad “dåligt” ser ut i en mening: “App fryser i 30–60 sek när den sparar en stor fil” eller “CPU går till 100% var 10:e minut.” Om du kan reproducera, gör det; om inte, definiera triggern (tidsfönster, arbetsbelastning, användaråtgärd).

2) Observera (lättviktigt först)

Innan du samlar tung data, bekräfta symptomet och omfattningen:

Är det en maskin eller flera?
En process eller hela hosten?
Prestandaproblem, krasch eller hängning?

Här hjälper snabba kontroller (Task Manager, Process Explorer, grundläggande räknare) dig välja vad du ska fånga nästa.

3) Fånga (bygg en bra ärendefil)

Fånga bevis som om du skulle lämna det till en kollega som inte var där. En bra ärendefil brukar innehålla:

Tidsstämplar (start/slut, tidszon, frekvens)
Versioner (Windows-build, app-version, drivrutinsversioner)
Konfiguration (feature-flaggor, policies, miljövariabler, säkerhetsverktyg)
Spår (Procmon-filter, ETW-sessionens namn, varaktighet)
Dumps (häng/krasch: full vs mini, vilken process, hur det utlösts)

Håll fångster korta och riktade. Ett 60-sekunders spår som täcker fel-fönstret slår en 6-timmars capture ingen orkar öppna.

4) Förklara (gör data till en berättelse)

Översätt vad du samlat till en enkel berättelse:

Vad ändrades? (ny build, policy, drivrutin, belastning)
Vad gör systemet istället? (retries, konkurrens, blockerad I/O, timeouter)
Vad är sannolik orsak? (en eller två hypoteser, rankade)

Om du inte kan förklara det enkelt behöver du förmodligen en renare capture eller en smalare hypotes.

5) Fixa, bekräfta och minska MTTR nästa gång

Applicera den minsta säkra åtgärden och bekräfta med samma reproduktionssteg och en “före vs efter”-capture.

För att minska MTTR, standardisera playbooks och automatisera det tråkiga:

Ett kommando för att starta en trace, ett för att stoppa och zipa resultat
En konsekvent mappstruktur och namngivningskonvention
En checklista för vad som ska samlas per symptom (krasch vs häng vs nedgång)

Efter-incident-lärande: lägg till saknad signal

Efter åtgärd, fråga: “Vilken signal skulle gjort detta uppenbart tidigare?” Lägg till den signalen—Sysmon-event, ETW-provider, en prestandaräknare eller en lätt hälsokontroll—så nästa incident blir kortare och lugnare.

Få det att sitta: säkrare fixes och långsiktig pålitlighet

Poängen med Windows-internalsarbete är inte att “vinna” en debug-session—det är att omvandla vad du såg till ändringar som hindrar att incidenten återkommer.

Förvandla fynd till konkreta åtgärder

Internals-verktyg hjälper dig ofta avgränsa problemet till en liten uppsättning spakar. Håll översättningen explicit:

Konfigändring: ett tjänstekontosbehörighet, ett registervärde, pool-storlek, schemalagd uppgiftens takt.
Patch: OS cumulative update, .NET-uppdatering eller leverantörens hotfix som matchar call stack eller drivrutinsversion du observerade.
Drivrutin-uppdatering (eller rollback): om Procmon/ETW visar stall runt fil-/nätverks/filter-drivrutiner, behandla drivrutinsversioner som förstklassiga beroenden.
Rollback: om fixen är riskfylld, planera snabb återställning (känd-god paket, tidigare GPO, äldre drivrutinspaket).

Skriv ner “eftersom”: “Vi ändrade X eftersom vi observerade Y i Process Monitor / ETW / dumps.” Den meningen förhindrar att kunskap försvinner i tyst samförstånd.

Styrmedel: ändringsfönster, validering, rollback

Gör din ändringsprocess matcha blast-radien:

Använd ett ändringsfönster med reducerad trafik om möjligt.
Definiera valideringssteg (vilka räknare, event-ID:n eller användarflöden måste förbättras).
Förbered en tydlig rollback-plan med ägare och tidsgräns ("Om fel inte sjunker inom 15 minuter, återställ").

Pålitlighetsmönster du kan återanvända

Även när rotorsaken är specifik kommer hållbarhet ofta från återanvändbara mönster:

Timeouts för att förhindra tråd-stjärnning och fastnade beroendekedjor.
Rate limiting/backoff för att stoppa retry-storms.
Service recovery-alternativ (restartåtgärder, failure reset period) för förväntade transienta fel.
Health checks som upptäcker hängningar, inte bara krascher.

Datahygien för captures och telemetri

Behåll det du behöver och skydda det du inte bör samla in.

Begränsa Procmon-filter till misstänkta processer, scrubba sökvägar/användarnamn innan delning, sätt retention för ETW/Sysmon-data och undvik tunga nätverkspaket om det inte är nödvändigt.

Operationalisera playbooks (där Koder.ai kan hjälpa)

När du har ett upprepbart arbetsflöde är nästa steg att paketera det så andra kan köra det konsekvent. Här kan en vibe-coding-plattform som Koder.ai vara användbar: du kan förvandla din incident-checklista till en liten intern webbapp (React UI, Go-backend med PostgreSQL) som guidar respondenter genom “observe → capture → explain”, lagrar tidsstämplar och artefakter, och standardiserar namngivning och ärendefilstruktur.

Eftersom Koder.ai bygger appar via chat med agent-baserad arkitektur kan team iterera snabbt—lägga till en “start ETW-session”-knapp, en Procmon-filtermall-bibliotek, snapshot/rollback av ändringar eller en exportbar runbook-generator—utan att bygga om allt i en traditionell dev-pipeline. Om du delar interna pålitlighetsrutiner stödjer Koder.ai även export av källkod och flera nivåer (gratis till enterprise), så du kan börja smått och skala governance senare.

Ett litet veckoplan för träning

En gång i veckan, välj ett verktyg och en 15-minutersövning: spåra en långsam appstart med Procmon, inspektera en tjänsteträd i Process Explorer, granska Sysmon-eventvolym eller ta en kraschdump och identifiera felande modul. Små repetitioner bygger den muskelminne som gör verkliga incidenter snabbare—och säkrare.

Vanliga frågor

Why does Mark Russinovich still matter to Windows operations today?

Mark Russinovich populariserade ett bevisförst-tankesätt för Windows-felsökning och levererade (och påverkade) verktyg som gör operativsystemet observerbart i praktiken.

Även om du aldrig läst Windows Internals använder du sannolikt arbetsflöden formade av Sysinternals, ETW och dumpanalys för att korta ner incidenter och göra åtgärder upprepbara.

What does “observability” mean in a Windows operations context?

Observabilitet är din förmåga att svara på "vad händer just nu?" utifrån systemsignaler.

På Windows betyder det ofta en kombination av:

Händelselogg för diskreta system-/app-händelser
Metriker (Perf-kontare) för påverkan och mättnad
Spårningar (ETW) för högupplöst orsakssamband och tidslinjer

How does Windows internals knowledge reduce incident time (MTTR)?

Kunskap om internals hjälper dig göra vaga symptom till testbara hypoteser.

Till exempel blir “servern är seg” en kortare lista av mekanismer att validera: CPU-konkurrens mot sidtryckning (paging), I/O-latens eller drivrutin/filter-overhead. Det snabbar upp triage och hjälper dig samla rätt bevis innan problemet försvinner.

When should I use Process Explorer instead of Task Manager?

Använd Process Explorer när du behöver identifiera vem som är ansvarig.

Det är bäst för snabba svar som:

Vilken process använder CPU/minne
Förälder/barn-relationer (vad som startade processen)
Tråd-nivå hotspots och väntetider
Vilka DLL:er/handles processen har öppna

What problems is Process Monitor (Procmon) best at solving?

Använd Process Monitor när du behöver aktivitetsspåret över filsystem, register och process-/trådoperationer.

Praktiska exempel:

Hitta “NAME NOT FOUND” beroenden som bryter app-start
Bevisa att ett Access Denied är en behörighets-/sökvägsfråga
Identifiera periodisk diskbelastning och exakt sökväg som berörs

How do I avoid Procmon noise and still get useful evidence?

Filtrera hårt och fånga bara fel-fönstret.

Ett bra startflöde:

Filtrera på Process Name eller PID först
Lägg till Include-regler för specifika sökvägar/nycklar du bryr dig om
Spela in i 30–120 sekunder runt symptomet och stoppa

Ett litet spår du kan analysera slår en massiv inspelning ingen kan öppna.

How does Autoruns help with reliability and boot/logon issues?

Autoruns svarar på frågan “vad startar automatiskt?” — tjänster, schemalagda uppgifter, drivrutiner, shell-extensioner med mera.

Det är särskilt användbart för:

Långsamma uppstarter/inloggningar
Intermittenta CPU-toppar efter inlogg
Mystiska bakgrundsprocesser

Fokusera först på poster som är , eller , och inaktivera en sak i taget med anteckning.

When should I escalate from logs/metrics to ETW tracing?

ETW (Event Tracing for Windows) är Windows inbyggda högvolyms, strukturerade “flight recorder”.

Använd ETW när loggar och metrik visar att något är fel men inte varför — till exempel fördröjningar orsakade av I/O-latens, schemaläggningsförseningar, drivrutinbeteende eller beroendetidsgränser. Håll inspelningarna korta, riktade och tidskorrelerade med det rapporterade symptomet.

How can Sysmon improve reliability investigations (not just security)?

Sysmon lägger till högkontext-telemetri (förälder/process, kommandorader, hashar, drivrutinladdningar) som hjälper dig svara på “vad ändrades?”

För pålitlighet är det användbart för att bekräfta:

Nya hjälpprocesser eller schemalagda uppgifter som dyker upp före toppar
Drivrutinladdningar som korrelerar med nya hängningar/bugchecks
Ovänade binär-/sökvägsändringar efter patchcykler

Börja med en minimal konfiguration och fintrimma include/exclude för att kontrollera eventvolymen och kostnaden.

What’s the practical difference between investigating a crash, a BSOD, and a hang with WinDbg?

En dump är ofta det mest värdefulla artefaktet för krascher och hängningar eftersom den fångar exekveringstillståndet i efterhand.

App-krascher: ta user-mode-dumps; analysera undantagskoder och stackar.
BSOD: ta kernel-dumps; fokusera på drivrutiner och kernel-tillstånd.
Hängningar: ta en dump medan systemet är fast; inspektera tråd-stackar, vänteskäl och låskonflikter.

WinDbg förvandlar dumps till svar, men korrekta symboler är nödvändiga för meningsfulla stackar och identifiering av moduler.

Mark Russinovich och Windows Internals: Observabilitet och pålitlighet | Koder.ai