Mark Russinovich와 Windows Internals: 관찰성과 신뢰성

Q: Process Monitor(Procmon)는 어떤 문제 해결에 가장 유용한가?

Process Monitor는 파일·레지스트리·프로세스/스레드 활동 전반에 대한 활동 기록 이 필요할 때 사용합니다. 실용적 예시: - 앱 시작이 실패하는 원인을 설명하는 “NAME NOT FOUND” 의존성 오류 찾기 - 접근 거부가 권한/경로 문제인지 아닌지 증명 - 주기적으로 디스크를 강타하는 프로세스와 정확한 경로 식별

Q: WinDbg로 크래시, BSOD, 정지를 조사할 때 실무상의 차이는?

덤프는 사건이 발생한 시점의 실행 상태를 포착하므로 크래시나 정지 조사에서 매우 가치 있습니다. - 앱 크래시 : 유저 모드 덤프를 캡처하고 예외 코드와 스택을 분석하세요. - BSOD : 커널 덤프를 보고 드라이버와 커널 상태를 조사하세요. - 정지(hang) : 응답하지 않을 때 덤프를 캡처해 스레드 스택, 대기 이유, 잠금 경합을 검사하세요. WinDbg는 덤프를 분석해 답을 주지만, 올바른 심볼이 없으면 스택 해석이 어렵습니다.

로그인 시작하기

Mark Russinovich와 Windows Internals: 관찰성과 신뢰성 | Koder.ai

왜 Mark Russinovich가 여전히 Windows 운영에서 중요한가

운영 환경에서 Windows를 운영한다면—노트북, 서버, VDI, 클라우드 VM 어디서든—마크 러시노비치의 작업은 일상 운영에 계속 드러납니다. 이는 인물 자체나 향수 때문이 아니라, 문제 해결에 대한 ‘증거 우선’ 접근법을 대중화했기 때문입니다: 운영 체제가 실제로 무엇을 하고 있는지 먼저 보고, 증거로 증상들을 설명하라는 것입니다.

세 가지 평이한 아이디어

**관찰성(Observability)**은 시스템이 생산하는 신호(이벤트, 트레이스, 카운터)를 이용해 “지금 무슨 일이 벌어지고 있는가?”에 답할 수 있음을 의미합니다. 서비스가 느려지거나 로그온이 멈출 때, 관찰성은 추측과 확신의 차이를 만듭니다.

**디버깅(Debugging)**은 모호한 문제("멈췄다")를 특정 메커니즘("이 스레드가 I/O에 블록되었다", "이 프로세스가 페이지 파일을 과다 사용하고 있다", "이 DLL 인젝션이 동작을 바꿨다")으로 바꾸는 과정입니다.

**신뢰성(Reliability)**은 스트레스 상황에서도 작업을 지속하고 예측 가능하게 복구하는 능력입니다—사건 수 감소, 복구 시간 단축, 그리고 변경이 더 안전해지는 것.

왜 내부 구조 지식이 인시던트를 빠르게 해결하는가

대부분의 “미스터리 장애”는 사실 미지의 Windows 동작일 뿐입니다: 핸들 누수, 통제 불능의 자식 프로세스, 멈춘 드라이버, DNS 타임아웃, 깨진 자동 시작 항목, 또는 오버헤드를 추가하는 보안 툴 등. 프로세스, 스레드, 핸들, 서비스, 메모리, I/O 같은 Windows 내부 구조의 기초를 알면 패턴을 빠르게 인식하고 문제가 사라지기 전에 올바른 증거를 수집할 수 있습니다.

이 글이 도와줄 것

실무 중심 워크플로에 초점을 맞춥니다:

Sysinternals 도구(특히 Process Explorer와 Process Monitor)를 사용한 빠르고 낮은 마찰의 가시성
로그만으로 부족할 때 필요한 고정밀 “무슨 일이 일어났는가” 타임라인을 위한 ETW 트레이싱
실패를 실행 가능한 근본 원인으로 바꾸는 WinDbg와 크래시/정지 덤프

목표는 여러분을 커널 엔지니어로 만드는 것이 아닙니다. Windows 인시던트를 더 짧고 침착하게, 설명하기 쉽게 만들어 수정이 더 안전하고 재현 가능하게 하는 것입니다.

Windows 내부 구조: 문제 해결의 초능력

Windows "internals"는 스레드 스케줄링, 메모리 관리, 서비스 시작, 드라이버 로드, 파일·레지스트리 활동 처리, 보안 경계 강제 같은 Windows가 실제 작업을 수행하는 메커니즘의 집합입니다. 실용적 약속은 간단합니다: 운영 체제가 무엇을 하는지 이해하면 추측을 멈추고 설명을 시작합니다.

중요한 것은 대부분의 운영 증상은 간접적이라는 점입니다. "머신이 느리다"는 CPU 경합, 단일 핫 스레드, 드라이버 인터럽트 폭주, 페이징 압력, 또는 백신 필터가 파일 I/O를 차단하는 것일 수 있습니다. "멈춘다"는 데드락, 멈춘 네트워크 호출, 스토리지 타임아웃, 의존성 대기 서비스일 수 있습니다. 부팅 문제는 깨진 자동 실행 항목, 실패하는 드라이버 로드, 또는 끝나지 않는 정책 스크립트 때문일 수 있습니다. 내부 구조 지식은 모호한 불만을 테스트 가능한 가설로 바꿉니다.

사용자 모드 vs 커널 모드(유용할 정도로만)

대체로 사용자 모드는 대부분 앱과 서비스가 실행되는 곳입니다. 그들이 충돌하면 보통 자신만 영향을 받습니다. 커널 모드는 Windows 자체와 드라이버가 실행되는 곳으로, 여기 문제는 전체 시스템을 멈추게 하거나 버그체크(블루스크린)를 유발하거나 조용히 신뢰성을 떨어뜨릴 수 있습니다.

깊은 이론은 필요 없습니다—이 구분만으로 증거를 선택할 수 있습니다. 앱이 CPU를 점유하면 대개 사용자 모드 문제이고, 반복적인 스토리지 리셋이나 네트워크 드라이버 문제는 커널 모드를 의심하게 합니다.

증거 우선 문제 해결

러시노비치의 사고방식—Sysinternals와 Windows Internals에 반영된—은 “증거 우선”입니다. 설정을 바꾸거나, 무작정 재부팅하거나, 재설치하기 전에 시스템이 무엇을 하고 있는지 포착하세요: 어떤 프로세스, 어떤 스레드, 어떤 핸들, 어떤 레지스트리 키, 어떤 네트워크 연결, 어떤 드라이버, 어떤 이벤트인지.

"지금 Windows가 무엇을 하고 있고 그 이유는 무엇인가"에 답할 수 있으면 수정은 더 작고 안전하며 정당화하기 쉬워집니다—그리고 신뢰성 작업은 반응적 화재진압에서 벗어납니다.

Sysinternals 접근법: 보이지 않는 것을 보이게 하기

Sysinternals는 Windows를 위한 "가시성 툴킷"으로 이해하는 것이 가장 쉽습니다: 작고 휴대 가능한 유틸리티들이 시스템이 실제로 무엇을 하는지—프로세스별, 핸들별, 레지스트리 키별로—드러내 줍니다. Windows를 블랙박스로 취급하는 대신, Sysinternals는 “앱이 느리다”, “CPU가 높다”, “서버가 연결을 잃는다” 같은 증상 뒤의 동작을 관찰하게 해줍니다.

신뢰하되 검증하라: 추측하지 말고 측정하라

많은 운영상의 고통은 그럴듯한 추측에서 옵니다: "DNS일 거야", "아마 백신이겠지", "또 Windows Update가 걸렸을 거야" 같은. Sysinternals 사고방식은 간단합니다: 직감을 토대로 가설을 세우고, 그것을 증거로 검증하라.

어떤 프로세스가 CPU를 소비하는지, 어떤 스레드가 대기하는지, 어떤 파일 경로가 집중적으로 접근되는지, 어떤 레지스트리 값이 계속 덮어써지는지를 보면 논쟁을 멈추고 원인을 좁힐 수 있습니다. 이 전환—서사에서 측정으로—이 내부 구조 지식을 실용적으로 만듭니다.

라이브 인시던트에서 Sysinternals가 빛나는 이유

이 도구들은 "모든 것이 불타고 있다"는 순간을 위해 만들어졌습니다:

낮은 마찰: 많은 도구가 설치 없이 실행되고 빠르게 시작됩니다.
빠른 피드백: 몇 분 안에 가설을 검증하거나 기각할 수 있습니다.
집중된 가시성: 각 유틸리티가 특정 질문 클래스(프로세스, 시작 항목, 네트워크 엔드포인트, 메모리 사용)를 답합니다.

긴 설치 주기, 무거운 에이전트 전개, 또는 더 나은 데이터를 수집하기 위한 재부팅을 감당할 수 없는 상황에서 이것은 중요합니다.

안전한 사용 원칙

Sysinternals는 강력하므로 가이드라인을 지켜야 합니다:

필요할 때 실행: 우선 읽기 전용 관찰로 시작하고 권한 상승은 필요한 경우에만.
행동 기록: 타임스탬프, 필터, 수행한 작업을 기록해 재현 가능하게 하세요.
중단 최소화: 인시던트 중에는 ‘수정 시도’보다 증거(스크린샷, 로그, 추출한 트레이스) 수집을 선호하세요.
주의 깊게 변경: 설정을 변경하거나 프로세스를 종료해야 한다면 이유와 기대 결과를 적고 결과를 검증하세요.

이렇게 사용하면 Sysinternals는 규율 있는 방법론이 됩니다: 보이지 않는 것을 관찰하고, 진실을 측정하고, 정당화된 변경을 수행하세요.

Process Explorer & Process Monitor: 일상 디버그 페어

두 개의 Sysinternals 도구만 남긴다면 Process Explorer와 Process Monitor를 보관하세요. 이 둘이면 에이전트, 재부팅, 무거운 설정 없이 대부분의 “지금 Windows가 무엇을 하고 있나?” 질문에 답할 수 있습니다.

Process Explorer: 몇 초 내의 빠른 답변

Process Explorer는 엑스레이가 추가된 작업 관리자입니다. 머신이 느리거나 불안정할 때 어떤 프로세스가 책임이 있고 그것이 무엇과 연관되어 있는지 좁히는 데 도움됩니다.

특히 유용한 점:

CPU와 스레드: 어떤 프로세스가 CPU를 소모하는가, 단일 핫 스레드인가 복수인가
부모/자식 관계: 무엇이 프로세스를 실행했는가(서비스, 예약 작업, 업데이트 프로그램, 사용자 동작)
DLL과 핸들: 어떤 모듈이 로드되어 있고 프로세스가 어떤 파일/레지스트리 키/파이프를 열어 두고 있는가

마지막 항목은 신뢰성에서 큰 힘을 줍니다: “이 파일을 왜 삭제할 수 없지?”는 종종 “이 서비스가 그 파일에 대한 열린 핸들을 가지고 있다”로 바뀝니다.

Process Monitor: 전체 활동 기록

Process Monitor(Procmon)는 파일 시스템, 레지스트리, 프로세스/스레드 활동에 대한 상세 이벤트를 캡처합니다. 다음과 같은 질문에 적합합니다: “앱이 멈췄을 때 무엇이 바뀌었나?” 또는 “어떤 것이 10분마다 디스크를 강타하는가?”

캡처 전에 질문을 명확히 하세요:

증상은 무엇인가(느린 로그온, 높은 디스크, 충돌, 접근 거부)?
언제 발생하는가(시작 시, 오전 9시, 절전 후)?
어느 머신과 어떤 사용자 컨텍스트(한 서버만, 한 사용자 프로필만, VPN에서만)?

필요한 것만 캡처하라(잡음은 적)

Procmon은 필터를 강하게 걸지 않으면 압도합니다. 우선 다음을 시도하세요:

특정 프로세스 이름 또는 PID로 필터
관심 있는 경로(예: 설정 폴더)에 대한 Include 규칙과 나머지 제외
증상 주변의 짧은 시간만 캡처하고 중지

얻을 수 있는 것

일반적인 결과는 실용적입니다: 누락된 레지스트리 키를 반복적으로 조회하는 오작동 서비스 식별, 수천 개 파일을 건드리는 실시간 스캔으로 인한 런어웨이, 또는 한 머신에서만 앱이 시작되지 않는 원인을 설명하는 누락 DLL 로드 시도("NAME NOT FOUND") 발견 등.

Autoruns, TCPView, RAMMap: 무거운 설정 없이 빠른 단서

플레이북을 앱으로 전환

채팅에서 Windows 인시던트 워크플로우 앱을 만들어 팀과 공유하세요.

무료로 시작

Windows 머신이 “뭔가 이상하다”면 전체 모니터링 스택이 필요하지 않을 때가 많습니다. 소수의 Sysinternals 도구로 세 가지 실용적 질문에 빠르게 답할 수 있습니다: 무엇이 자동으로 시작되는가? 누가 네트워크에서 말하고 있는가? 메모리는 어디로 갔나?

Autoruns: 신뢰성은 부팅에서 시작된다

Autoruns는 사용자가 명시적으로 실행하지 않아도 시작될 수 있는 모든 것을 가장 빠르게 파악합니다: 서비스, 예약 작업, 셸 확장, 드라이버 등.

신뢰성에 중요한 이유: 시작 항목은 느린 부팅, 간헐적 정지, 로그인 후에만 나타나는 CPU 스파이크의 흔한 원인입니다. 불안정한 업데이트 도구, 레거시 드라이버 헬퍼, 깨진 셸 확장이 전체 시스템을 저하시킬 수 있습니다.

실용 팁: 서명되지 않았거나, 최근 추가되었거나, 로딩 실패가 보이는 항목에 집중하세요. 항목을 비활성화했을 때 시스템이 안정되면, 모호한 증상을 업데이트·제거·교체해야 할 특정 구성 요소로 좁힌 것입니다.

TCPView: 누가 리스닝하고 누가 통신하는지 확인

TCPView는 프로세스 이름과 PID에 연결된 활성 연결과 리스너의 즉각적인 지도를 제공합니다. 빠른 검증에 이상적입니다:

예상치 못한 LISTENING 포트(특히 조용해야 할 서버에서)
비정상적으로 많은 연결을 가진 단일 프로세스
CPU나 지연과 상관관계가 있는 빠른 연결 교체

보안이 아닌 조사에서도 런어웨이 에이전트, 잘못 구성된 프록시, 또는 앱이 느려 보이지만 근본 원인은 네트워크 동작인 “재시도 폭주” 등을 밝힐 수 있습니다.

RAMMap: 추측 없는 메모리 압력 분석

RAMMap은 메모리가 실제로 어디에 할당되어 있는지 보여줘 메모리 압력을 해석하는 데 도움을 줍니다.

유용한 기준 구분:

Working set: 실행 중인 프로세스가 실제로 사용하는 물리적 RAM
Cache / standby: 윈도우가 속도를 높이기 위해 유지하는 데이터(본질적으로 나쁜 것은 아님)

사용자가 "메모리가 부족하다"고 보고하고 작업 관리자에서 이상하게 보일 때, RAMMap은 실제로 프로세스 성장인지, 파일 캐시 과다인지, 또는 드라이버가 논페이징 메모리를 소비하는지를 확인해 줄 수 있습니다.

옵션: 누수가 의심될 때 Handle과 VMMap

앱이 며칠에 걸쳐 느려진다면 Handle로 증가하는 핸들 수를 확인하세요(고전적인 누수 패턴). VMMap은 메모리 사용이 이상할 때—조각화, 큰 예약 영역, 단순한 "private bytes"로 보이지 않는 할당—에 유용합니다.

반복 가능한 첫 15분 체크리스트

Autoruns: 새로 추가되거나 서명되지 않은 항목 스캔; 의심 항목 한 개씩 비활성화.
TCPView: 예상 리스너 확인; 상위 연결 소유자 식별.
RAMMap: 압력이 작업 집합 증가인지 캐시/대기인지 확인.
시간 기반 증상이라면: "이전/이후" 스냅샷(카운트, 포트, 메모리 합계) 캡처.
성장 패턴이 명확하면: Handle/VMMap으로 누수 패턴 확인.
의심 구성 요소와 증거를 적어 두어 수정이 추측이 되지 않게 함.

로그에서 ETW로: Windows에서 실제 관찰성 구축하기

Windows 운영은 보통 Event Viewer와 작업 관리자 스크린샷처럼 얻기 쉬운 것에서 시작합니다. 그건 실마리로 충분하지만, 신뢰할 수 있는 인시던트 대응에는 세 가지 상호보완적 신호가 필요합니다: 로그(무슨 일이 있었나), 메트릭(얼마나 심각했나), 트레이스(시스템이 순간순간 무엇을 하고 있었나).

이벤트 로그: 훌륭한 실마리지만 불완전함

Windows 이벤트 로그는 인증, 서비스 수명주기, 정책 변경, 앱 수준 오류에 훌륭합니다. 다만 균등하지 않습니다: 어떤 구성 요소는 풍부하게 로깅하고 어떤 것은 드뭅니다. 텍스트 메시지는 모호할 수 있습니다("애플리케이션이 응답을 멈췄습니다"). 이벤트 로그를 전체가 아닌 타임라인 앵커로 사용하세요.

일반적인 사용 승리 사례:

서비스 시작/중지 및 충돌 이벤트
인증·권한 부여 이벤트
애플리케이션 예외(앱이 실제로 로깅할 때)

아웃티지 중 메트릭: 보통 중요한 소수

성능 카운터 등은 "머신이 건강한가?"에 답합니다. 아웃티지 중엔 다음부터 시작하세요:

CPU: 지속적 고 CPU, 레디 시간(가상머신), 프로세스별 CPU
디스크: 큐 길이, 읽기/쓰기 지연, IOPS, 여유 공간
메모리: 커밋 바이트, 커밋 한도, 하드 폴트/sec, 풀 사용량
네트워크: 재전송, 오류, 바이트/sec, 연결 수

메트릭은 왜 스파이크가 일어났는지는 말해주지 않지만, 언제 시작했는지와 개선 여부는 알려줍니다.

ETW 한눈에: 구조화된 고볼륨 트레이싱

Event Tracing for Windows(ETW)는 Windows의 내장 비행 기록 장치입니다. 애드혹 텍스트 메시지 대신, ETW는 커널, 드라이버, 서비스에서 높은 볼륨의 구조화된 이벤트를 내보냅니다—프로세스/스레드 활동, 파일 I/O, 레지스트리 접근, TCP/IP, 스케줄링 등. 많은 "미스터리 정체"가 ETW 수준에서 설명 가능합니다.

모든 것을 수집하지 않기 위한 신호 선택

실용적 규칙:

로그는 이산 이벤트(충돌, 재시작, 인증 실패)에 사용
메트릭은 영향 탐지와 정량화(지연, 포화)에 사용
ETW는 인과관계(무엇이 블록되었는가, 어떤 I/O인지, 어떤 호출 경로인지)가 필요할 때 사용

"모든 것을 항상 켜라"는 피하세요. 작은 항상 켜진 기준선(핵심 로그 + 핵심 메트릭)을 유지하고 인시던트 중에는 짧고 대상이 분명한 ETW 캡처만 사용하세요.

시간 정렬은 슈퍼파워

사용자 보고(“10:42에 멈췄다”), 메트릭 변곡점(CPU/디스크 스파이크), 로그/ETW 이벤트를 동일한 타임스탬프에 맞추는 것이 가장 빠른 진단을 제공합니다. 데이터가 일관된 시간 기반을 공유하면 아웃티지는 추측이 아닌 검증 가능한 서사가 됩니다.

Sysmon 텔레메트리: 보안 신호가 신뢰성에도 도움된다

Windows 기본 이벤트 로그는 유용하지만, 무언가가 갑자기 바뀌었을 때 운영자가 필요로 하는 "왜 지금인가?" 세부 정보를 놓칠 때가 많습니다. Sysmon(System Monitor)은 실행, 지속성, 드라이버 동작 주변에서 더 높은 정밀도의 프로세스·시스템 활동을 기록해 이 공백을 메웁니다.

Sysmon이 추가하는 것(기본 로그를 넘어서)

Sysmon의 강점은 맥락입니다. 단순히 "서비스가 시작되었다" 대신에 어떤 프로세스가 그것을 시작했는지, 전체 명령줄, 부모 프로세스, 해시, 사용자 계정, 정확한 타임스탬프 등으로 볼 수 있습니다.

신뢰성 작업에서는 많은 인시던트가 "작은" 변경에서 시작되므로 이 정보가 가치 있습니다: 새 예약 작업, 조용한 업데이트, 떠돌이 스크립트, 나쁜 동작의 드라이버 등.

최소 구성: 의도적으로 좁게 시작하라

"모든 것을 로깅"하는 Sysmon 구성은 보통 좋은 첫걸음이 아닙니다. 최소한의 신뢰성 중심 설정으로 시작하고 질문이 생길 때만 확장하세요.

초기 좋은 후보:

프로세스 생성(예상치 못한 실행, 의심스러운 명령줄)
드라이버 로드(새로운 또는 변경된 커널 구성요소)
이미지/DLL 로드(의존성 문제에 선택적으로 사용)
서비스/예약 작업 관련 활동(지속성 및 백그라운드 변경)
네트워크 연결 / DNS(볼륨 관리를 위해 특정 조사에만 활성화)

중요 경로, 알려진 서비스 계정, 핵심 서버 등에 대한 타깃 include 규칙과 시끄러운 업데이트 프로그램·신뢰된 관리 에이전트 등에 대한 exclude 규칙으로 신호 가독성을 유지하세요.

실제 신뢰성 사용 사례

Sysmon은 다음과 같은 "미스터리 변경" 시나리오를 확인하거나 배제하는 데 자주 도움됩니다:

CPU 스파이크 직전에 서비스 계정 아래에서 스폰된 새 헬퍼 프로세스
패치 주기 이후 경로 또는 시작 유형이 바뀐 서비스 바이너리
새 정지/버그체크와 시점이 일치하는 드라이버 업데이트

운영상 주의

대표 머신에서 먼저 영향 테스트를 하세요. Sysmon은 디스크 I/O와 이벤트 볼륨을 증가시킬 수 있으며 중앙 수집 비용이 빠르게 커질 수 있습니다.

또한 명령줄, 사용자 이름, 경로 같은 필드는 민감할 수 있으니 접근 제어, 보존 기간, 필터링을 적용해 광범위 전개 전에 검토하세요.

다른 관찰성 도구의 보완물

Sysmon은 고가치의 실마리로 가장 잘 사용됩니다. ETW는 깊은 성능 질문, 메트릭은 추세 탐지에, 규율 있는 인시던트 노트는 무엇이 변했고 무엇이 고장났으며 어떻게 고쳤는지를 연결하는 데 함께 사용하세요.

WinDbg와 덤프: 크래시와 정지를 답으로 바꾸기

케이스 파일 트래커 만들기

타임스탬프, 버전, 증거를 한 내부 웹 앱에 기록하고 내보내세요.

시작하기

무언가가 “그냥 충돌”할 때 가장 가치 있는 유물은 종종 덤프 파일입니다: 메모리 스냅샷과 실패 시점의 실행 상태를 재구성할 수 있는 충분한 정보. 로그와 달리 덤프는 올바른 메시지를 미리 예측할 필요 없이 사건 이후 증거를 포착합니다.

크래시 덤프가 무엇이며 왜 필요한가

앱 크래시 덤프(유저 모드)는 단일 프로세스를 기록합니다. 하나의 서비스가 죽을 때 이상적입니다.
커널 덤프(시스템 전체)는 **버그체크(BSOD)**에 사용되며 OS 상태, 드라이버, 커널 스레드를 캡처합니다.

덤프는 특정 모듈, 호출 경로, 실패 유형(접근 위반, 힙 손상, 데드락, 드라이버 결함)을 지목할 수 있어 증상만으로는 추정하기 어렵습니다.

WinDbg 기초: 심볼, 스택, 그리고 “무엇이 실패했나”

WinDbg는 덤프를 서사로 바꿉니다. 필수 요소:

심볼은 원시 주소를 함수 이름과 라인 정보로 대응시킵니다. 올바른 심볼 없이는 분석이 금방 추측으로 변합니다.
스택 트레이스는 충돌로 이어진 호출 순서나 현재 “정지”된 스레드의 상태를 보여줍니다.
목표는 문제 구성요소를 식별하는 것입니다: 여러분의 코드, 의존 DLL, 드라이버, 백신 쇼트커트, 그래픽 스택 등.

일반적인 워크플로: 덤프 열기 → 심볼 로드 → 자동 분석 실행 → 최상위 스택과 관련 모듈 확인으로 검증.

크래시 vs BSOD vs 정지: 범주를 섞지 마라

버그체크(BSOD): 시스템 전체가 멈춥니다. 커널 덤프와 드라이버/근본 원인 작업을 기대하세요.
앱 크래시: 한 프로세스가 종료됩니다. 유저 모드 덤프와 예외 코드가 핵심입니다.
정지(hang): 아무것도 “충돌”하지 않았지만 작업이 멈춥니다. 어떤 스레드가 무엇을 기다리는지에 대한 증거가 필요합니다.

정지는 증거가 필요하다: 스택, 대기 이유, 잠금

"응답 없음"은 증상이며 진단이 아닙니다. 정지의 경우 앱이 응답하지 않을 때 덤프를 캡처하고 다음을 검사하세요:

스레드 스택으로 각 스레드가 무엇을 하는지 확인
대기 이유(I/O, RPC, 뮤텍스/임계구역, 네트워크)
락/경합 패턴—종종 “정지된” UI 스레드는 다른 곳에 막힌 워커 스레드를 기다리고 있습니다.

현실적 기대치: 자체 진단 vs. 에스컬레이션

명확한 문제(한 모듈에서 반복되는 충돌, 명백한 데드락, 특정 DLL/드라이버와 강한 상관관계)는 스스로 진단할 수 있습니다. 덤프가 서드파티 드라이버/보안 소프트웨어, 커널 구성요소와 연관되거나 심볼/소스 접근이 부족하면 에스컬레이션이 필요합니다—그때 벤더나 Microsoft의 해석이 필요할 수 있습니다.

흔한 실패 패턴과 내부 구조로 설명하는 방법

많은 “수수께끼 같은 Windows 문제”는 동일한 패턴을 반복합니다. 추측과 수정의 차이는 OS가 무엇을 하고 있는지 이해하는 데 있고, Internals/Sysinternals 사고방식은 그것을 보게 합니다.

메모리 누수: 작업 집합(working set) vs 커밋(commit)

사람들이 "앱이 메모리를 누수한다"고 말할 때 보통 두 가지 중 하나를 의미합니다.

작업 집합은 현재 프로세스를 실제로 지탱하는 물리적 RAM입니다. 압력이 가해지면 Windows가 이를 줄일 수 있습니다.

커밋은 시스템이 RAM이나 페이징 파일로 보장한 가상 메모리 양입니다. 커밋이 계속 증가하면 진짜 누수 위험이 됩니다: 결국 커밋 한도에 도달하면 할당이 실패하거나 호스트가 불안정해집니다.

일반적 증상: 작업 관리자에 "사용 가능한 RAM"이 표시되지만 머신이 여전히 느려지는 경우가 있습니다—그 이유는 여유 RAM이 아니라 커밋이 제약이기 때문입니다.

핸들 누수: 무작위로 보이는 느린 실패

핸들은 OS 객체(파일, 레지스트리 키, 이벤트, 섹션 등)에 대한 참조입니다. 서비스가 핸들을 누수하면 몇 시간 또는 며칠은 문제없이 동작하다가 파일을 열 수 없음, 스레드 생성 실패, 연결 수락 불가 같은 이상한 오류로 실패하기 시작합니다. Process Explorer에서 핸들 수 추이를 관찰하세요. 꾸준한 상승 추세는 서비스가 무언가를 "닫지 않고 있다"는 강한 단서입니다.

디스크·파일 시스템 문제: 지연, 재시도, 필터 드라이버

스토리지 문제는 항상 높은 처리량으로 나타나지 않습니다; 흔히 높은 지연과 재시도로 드러납니다. Process Monitor에서 다음을 찾으세요:

반복되는 CreateFile/ReadFile 연산
장기간 지속되는 I/O 이벤트
많은 NAME NOT FOUND / PATH NOT FOUND 잡음(잘못된 경로 구성)

또한 필터 드라이버(AV, 백업, DLP)에 주목하세요. 이들은 파일 I/O 경로에 끼어들어 지연이나 실패를 추가할 수 있으며, 애플리케이션 자체에는 아무 문제가 없어 보이는 상황을 만들 수 있습니다.

CPU 스파이크: 단일 핫 프로세스 vs 경쟁

단일 핫 프로세스는 단순합니다: 한 실행 파일이 CPU를 태웁니다.

시스템 전체 경쟁은 더 까다롭습니다: 많은 스레드가 runnable 상태여서 락, 디스크, 메모리를 두고 싸우는 경우입니다. 내부 구조 사고는 "CPU가 유용한 작업을 하고 있는가, 아니면 다른 곳에서 차단되어 스핀 중인가?"를 묻게 합니다.

네트워크 문제: 연결을 누가 소유하는가?

타임아웃이 발생하면 TCPView나 Process Explorer로 프로세스→연결을 매핑하세요. 잘못된 프로세스가 소켓을 소유하고 있다면 구체적 원인이 발견된 것입니다. 올바른 프로세스가 소유한다면 패턴을 보세요: SYN 재시도, 장기 유휴로 붙은 연결, 짧은 수명 아웃바운드 시도 폭발 등이 DNS/방화벽/프록시 문제를 시사합니다.

실용적 워크플로: 관찰 → 캡처 → 설명 → 수정

팀에 도구 게시

내부 도구를 배포하고 자체 도메인으로 접근을 간단히 유지하세요.

앱 배포

신뢰성 작업은 모든 인시던트가 동일한 경로를 따를 때 더 쉬워집니다. 목표는 "더 많은 도구 실행"이 아니라 일관된 증거로 더 나은 결정을 내리는 것입니다.

1) 재현(또는 트리거 정의)

“나쁜 상태”를 한 문장으로 적으세요: “큰 파일 저장 시 앱이 30–60초 동안 멈춘다” 또는 “10분마다 CPU가 100%로 올라간다.” 재현 가능하면 재현해 보세요; 불가능하면 트리거(시간대, 워크로드, 사용자 동작)를 정의하세요.

2) 관찰(경량 우선)

무거운 데이터를 수집하기 전에 증상과 범위를 확인하세요:

한 머신인가 다수인가?
한 프로세스인가 호스트 전체인가?
성능 문제인가 충돌인가 정지인가?

이 단계에서 빠른 확인(Task Manager, Process Explorer, 기본 카운터)이 다음에 무엇을 캡처할지 결정하게 합니다.

3) 캡처(좋은 케이스 파일 만들기)

현장에 없던 동료에게 넘길 것처럼 증거를 캡처하세요. 좋은 케이스 파일에 보통 포함되는 것:

타임스탬프(시작/종료, 타임존, 빈도)
버전(Windows 빌드, 앱 버전, 드라이버 버전)
구성(기능 플래그, 정책, 환경 변수, 보안 툴)
트레이스(Procmon 필터, ETW 세션 이름, 기간)
덤프(정지/충돌: 전체 vs 미니, 어느 프로세스, 어떻게 트리거했는지)

캡처는 짧고 대상이 분명해야 합니다. 실패 창을 포함한 60초 트레이스가 아무도 열지 않는 6시간 캡처보다 낫습니다.

4) 설명(데이터를 서사로 바꾸기)

수집한 것을 간단한 서사로 번역하세요:

무엇이 바뀌었는가?(새 빌드, 정책, 드라이버, 부하)
시스템은 대신 무엇을 하고 있는가?(재시도, 경쟁, 블록된 I/O, 타임아웃)
가능한 원인들?(우선순위로 배열한 한두 개의 가설)

간단히 설명하지 못하면 더 깨끗한 캡처나 더 좁은 가설이 필요하다는 신호입니다.

5) 수정, 확인, 다음 번 MTTR 감소

가장 작은 안전한 수정을 적용하고, 같은 재현 단계와 “이전 vs 이후” 캡처로 확인하세요.

MTTR을 줄이려면 플레이북을 표준화하고 반복적인 부분을 자동화하세요:

트레이스 시작 명령 하나, 중지 및 압축 명령 하나
일관된 폴더 구조와 명명 규칙
증상별 수집 체크리스트(충돌 vs 정지 vs 느려짐)

사후 학습: 놓친 신호 추가

해결 후에 물어보세요: “무엇이 있었더라면 더 빨리 이 문제를 알아차렸을까?” 그 신호(예: Sysmon 이벤트, ETW 공급자, 성능 카운터, 경량 헬스체크)를 추가해 다음 인시던트는 더 짧고 침착하게 만드세요.

정착시키기: 더 안전한 수정과 장기 신뢰성

Windows 내부 구조 작업의 요점은 디버깅 세션에서 이기는 것이 아니라, 관찰한 것을 재발을 막는 변경으로 바꾸는 것입니다.

발견을 구체적 조치로 전환하라

Internals 도구는 보통 문제를 소수의 조정 가능한 레버로 좁힙니다. 변환을 명확히 기록하세요:

설정 변경: 서비스 계정 권한, 레지스트리 값, 풀 크기, 예약 작업 주기
패치: OS 누적 업데이트, .NET 업데이트, 호출 스택이나 드라이버 버전과 일치하는 벤더 핫픽스
드라이버 업데이트(또는 롤백): Procmon/ETW가 파일/네트워크/필터 드라이버 주변에서 정체를 보이면 드라이버 버전을 1순위 종속성으로 취급
롤백: 수정이 위험하면 신속히 되돌릴 계획(알려진 정상 패키지, 이전 GPO, 이전 드라이버 번들)

"왜인지" 문장을 적으세요: “우리는 X를 변경했다. 이유: Process Monitor / ETW / 덤프에서 Y를 관찰했기 때문.” 이 문장은 부족한 구전 지식을 막아줍니다.

가드레일: 변경 창, 검증, 롤백

변경 과정은 영향 반경에 맞게 하세요:

가능하면 트래픽이 적은 변경 창 사용
검증 단계 정의(어떤 카운터, 이벤트 ID, 사용자 여정이 개선되어야 하는가)
명확한 롤백 계획과 책임자, 시간 제한 마련(“15분 내 오류가 줄지 않으면 되돌리기”)

반복 적용 가능한 신뢰성 패턴

근본 원인이 특정하더라도 내구성은 재사용 가능한 패턴에서 옵니다:

타임아웃으로 스레드 고갈과 막힌 의존성 체인을 방지
레이트 리미팅/백오프로 재시도 폭주 차단
서비스 복구 옵션(재시작 동작, 실패 초기화 기간)으로 일시적 오류 관리
헬스체크는 충돌뿐 아니라 정지도 탐지하도록 설계

캡처와 텔레메트리의 데이터 위생

필요한 것만 보관하고 수집해서는 안 될 것을 보호하세요.

Procmon 필터를 의심되는 프로세스로 제한하고, 공유 전 경로/사용자 이름을 마스킹하며, ETW/Sysmon 데이터 보존을 설정하고, 필요하지 않은 네트워크 페이로드 캡처는 피하세요.

플레이북의 운영화(예: Koder.ai 활용)

일단 반복 가능한 워크플로가 마련되면 다음 단계는 그것을 패키징해 다른 사람이 일관되게 수행할 수 있게 만드는 것입니다. 여기서 채팅 기반 에이전트 아키텍처로 앱을 만드는 플랫폼(예: Koder.ai)이 유용합니다: 내부 웹앱(React UI, Go 백엔드, PostgreSQL 포함)으로 "관찰 → 캡처 → 설명" 절차를 안내하고, 타임스탬프와 아티팩트를 저장하며, 명명 규칙과 사례 파일 구조를 표준화할 수 있습니다.

Koder.ai는 챗을 통해 앱을 빌드하므로 빠르게 반복하고—"ETW 세션 시작" 버튼, Procmon 필터 템플릿 라이브러리, 스냅샷/롤백 기능, 실행 가능한 런북 생성기 같은 기능을 추가할 수 있습니다. 내부 신뢰성 관행을 공유할 때 소스 코드 내보내기와 다양한 플랜(프리부터 엔터프라이즈) 지원으로 작은 규모에서 시작해 거버넌스를 확장하기도 쉽습니다.

주간 연습 계획(작게 시작)

주 1회, 한 도구를 골라 15분 연습을 하세요: Procmon으로 느린 앱 시작 추적, Process Explorer로 서비스 트리 검사, Sysmon 이벤트 볼륨 검토, 또는 하나의 크래시 덤프를 가져와 실패 모듈 식별하기. 작은 반복이 실전에서의 근육 기억을 키워 실제 인시던트를 더 빠르고 안전하게 만듭니다.

자주 묻는 질문

왜 마크 러시노비치는 오늘날에도 Windows 운영에 중요할까?

마크 러시노비치(Mark Russinovich)는 증거 우선(evidence-first) 접근법을 대중화했고, 운영 체제가 실제로 무엇을 하는지 관찰할 수 있게 해주는 도구들(그리고 그 워크플로)을 만들거나 영향을 주었습니다.

Windows Internals를 직접 읽지 않았더라도 Sysinternals, ETW, 덤프 분석으로 형성된 워크플로를 통해 인시던트 시간을 줄이고 수정 작업을 재현 가능하게 만드는 방식에 의존하고 있을 가능성이 큽니다.

Windows 운영 문맥에서 “관찰성”은 무엇을 의미하나?

관찰성은 “지금 무슨 일이 일어나고 있는가?”에 시스템 신호로 답할 수 있는 능력입니다.

Windows에서는 보통 다음을 조합하는 것을 의미합니다:

이산 이벤트를 위한 이벤트 로그
영향과 포화도를 파악하는 메트릭(성능 카운터)
높은 정밀도로 인과관계를 추적하는 트레이스(ETW)

Windows 내부 구조 지식이 인시던트 시간을 줄이는 방법은?

인터널 지식은 모호한 증상을 검증 가능한 가설로 좁혀 줍니다.

예: “서버가 느리다”는 CPU 경합인지 페이지잉 압력인지 I/O 지연인지 드라이버/필터 오버헤드인지 등의 소수 메커니즘으로 분해할 수 있습니다. 그러면 적절한 증거를 빠르게 수집해 MTTR을 줄일 수 있습니다.

언제 Task Manager 대신 Process Explorer를 사용해야 하나?

Process Explorer는 작업 관리자보다 더 정밀한 정보를 보여줘서 “누가 책임이 있는가?”를 빠르게 확인할 때 사용합니다.

다음과 같은 빠른 확인에 적합합니다:

어떤 프로세스가 CPU/메모리를 많이 쓰는가
부모/자식 관계(무엇이 프로세스를 띄웠는가)
스레드 수준의 핫스팟과 대기
프로세스가 열어 둔 DLL/핸들

Process Monitor(Procmon)는 어떤 문제 해결에 가장 유용한가?

Process Monitor는 파일·레지스트리·프로세스/스레드 활동 전반에 대한 활동 기록이 필요할 때 사용합니다.

실용적 예시:

앱 시작이 실패하는 원인을 설명하는 “NAME NOT FOUND” 의존성 오류 찾기
접근 거부가 권한/경로 문제인지 아닌지 증명
주기적으로 디스크를 강타하는 프로세스와 정확한 경로 식별

Procmon 잡음을 피하고 유용한 증거를 얻는 방법은?

잡음을 줄이고 유의미한 증거를 얻으려면 강하게 필터링하고 실패가 발생하는 시간대만 캡처하세요.

권장 워크플로:

먼저 프로세스 이름이나 PID로 필터링
관심 있는 경로/키에 대해 Include 규칙 추가
증상이 발생하는 주변 30–120초만 캡처하고 중지

분석 가능한 작은 트레이스가 아무도 열어보지 않는 큰 캡처보다 낫습니다.

Autoruns는 신뢰성 및 부팅/로그온 문제에 어떻게 도움이 되나?

Autoruns는 자동으로 시작되는 항목(서비스, 예약 작업, 셸 확장, 드라이버 등)을 한눈에 보여줍니다.

신뢰성 측면에서 특히 유용한 경우:

느린 부팅/로그온
간헐적인 로그인 이후 CPU 스파이크
정체된 백그라운드 프로세스

우선 서명되지 않았거나, 최근에 추가되었거나, 로딩에 실패하는 항목에 주목하고, 하나씩 비활성화하며 기록하세요.

언제 로그/메트릭에서 ETW 트레이싱으로 격상해야 하나?

ETW는 Windows의 고볼륨, 구조화된 ‘비행기록기’입니다.

로그와 메트릭이 ‘무언가 잘못됐다’는 것을 알려주지만 이유를 못 찾을 때 ETW를 사용하세요—예: I/O 지연, 스케줄링 지연, 드라이버 동작, 의존성 타임아웃 같은 원인 규명이 필요할 때입니다. 캡처는 짧고 대상이 분명해야 합니다.

Sysmon은 보안이외의 신뢰성 조사에 어떻게 도움이 되나?

Sysmon은 부모/자식 프로세스, 명령줄, 해시, 드라이버 로드 같은 고맥락 텔레메트를 추가해 “무엇이 변했는가?”를 답하는 데 도움을 줍니다.

신뢰성 조사에는 다음 같은 확인이 유용합니다:

스파이크 직전에 나타난 새 헬퍼 프로세스나 예약 작업
새 정지/버그체크와 시점이 맞는 드라이버 로드
패치 후 이상 증상과 일치하는 바이너리/경로 변경

초기에는 최소 구성을 사용하고 포함/제외 규칙으로 이벤트 볼륨을 관리하세요.

WinDbg로 크래시, BSOD, 정지를 조사할 때 실무상의 차이는?

덤프는 사건이 발생한 시점의 실행 상태를 포착하므로 크래시나 정지 조사에서 매우 가치 있습니다.

앱 크래시: 유저 모드 덤프를 캡처하고 예외 코드와 스택을 분석하세요.
BSOD: 커널 덤프를 보고 드라이버와 커널 상태를 조사하세요.
정지(hang): 응답하지 않을 때 덤프를 캡처해 스레드 스택, 대기 이유, 잠금 경합을 검사하세요.

WinDbg는 덤프를 분석해 답을 주지만, 올바른 심볼이 없으면 스택 해석이 어렵습니다.