Q: Logları, metrikleri ve izleri ne zaman/niçin kullanmalıyım?

Birlikte kullanın; her biri farklı soru cevaplar:\n\n- Metrikler: “Bu yaygın mı ve kötüleşiyor mu?” (oranlar, yüzdelikler, doyma)\n- İzler (traces): “Bu isteğin içinde zaman nereye harcanıyor?” (yavaş adım)\n- Loglar: “Bu kullanıcı/istek için tam olarak ne oldu?” (hatalar, bağlam)\n\nOlay sırasında: etkisini metriklerle doğrulayın, darboğazı izlerle bulun, açıklamayı loglarla yapın.

Q: Kaçınılmaz kaosu önlemek için hangi isimlendirme ve etiketleme kuralları gerekir?

Küçük bir kurallar seti seçin ve her yerde uygulayın:\n\n- Sabit , (ör. / ) ve \n- Kenarda üretilen ve çağrılar ile işlerde taşınan bir \n- Tutarlı etiketler: , , , ve çok kiracılıysa \n- Süreler için tek bir zaman birimi (ör. )\n\nAmaç, bir filtreyle hizmetler arasında gezinmek, her seferinde yeniden başlamamak.

Question 1

Gerçek kullanıcılar yeni bir uygulamaya başladığında genelde ilk ne bozulur?

Accepted Answer

Kenardan (API gateway, web sunucusu veya ilk handler) başlayın.

- Bir ekleyin ve tüm iç çağrılara iletin.
- Her istek için , , ve kaydedin.
- Her rota için p95 gecikme ve 5xx oranını izleyin.

Bunlar genellikle sizi hızlıca belirli bir uç noktaya ve zaman aralığına götürür.

Question 2

Gerçekçi bir ilk gün gözlemlenebilirlik hedefi nedir?

Accepted Answer

Varsayılan hedef şu olsun: 15 dakikadan kısa sürede yavaş adımı tespit edebilmelisiniz.

İlk günde mükemmel panolara ihtiyacınız yok. Cevaplamanız gereken yeterli sinyal şu sorulara yanıt vermeli:

- İstemci tarafı mı, API tarafı mı, veritabanı/önbellek mi, arka plan işleri mi yoksa dış bir bağımlılık mı soruna neden oluyor?
- Hangi rota veya iş türü etkilendi?
- Bu deploy veya konfigürasyon değişikliğinden sonra mı başladı?

Question 3

Logları, metrikleri ve izleri ne zaman/niçin kullanmalıyım?

Accepted Answer

Birlikte kullanın; her biri farklı soru cevaplar:

- Metrikler: “Bu yaygın mı ve kötüleşiyor mu?” (oranlar, yüzdelikler, doyma)
- İzler (traces): “Bu isteğin içinde zaman nereye harcanıyor?” (yavaş adım)
- Loglar: “Bu kullanıcı/istek için tam olarak ne oldu?” (hatalar, bağlam)

Olay sırasında: etkisini metriklerle doğrulayın, darboğazı izlerle bulun, açıklamayı loglarla yapın.

Question 4

Kaçınılmaz kaosu önlemek için hangi isimlendirme ve etiketleme kuralları gerekir?

Accepted Answer

Küçük bir kurallar seti seçin ve her yerde uygulayın:

- Sabit , (ör. / ) ve 
- Kenarda üretilen ve çağrılar ile işlerde taşınan bir 
- Tutarlı etiketler: , , , ve çok kiracılıysa 
- Süreler için tek bir zaman birimi (ör. )

Amaç, bir filtreyle hizmetler arasında gezinmek, her seferinde yeniden başlamamak.

Question 5

İlk günde minimum hangi loglamayı eklemeliyim?

Accepted Answer

Varsayılan olarak yapılandırılmış loglar (çoğunlukla JSON) ve her yerde aynı anahtarlarla başlayın.

Günlük olaylarda hemen işe yarayan minimum alanlar:

- , , , , 
- (varsa )
- , , , 
- veya (sabit bir kimlik, e-posta yerine)

Hataları bir kez, bağlamla birlikte loglayın (hata türü/kodu + mesaj + bağımlılık adı). Tekrarlanan denemelerde aynı stack trace'i çoğaltmayın.

Question 6

Çoğu üretim sorununu yakalayan minimum metrikler nelerdir?

Accepted Answer

Her ana bileşen için küçük bir metrik setiyle başlayın; temel soru: sistem şu an sağlıklı mı, değilse neresi acıyor?

Altın sinyaller (golden signals):

- Gecikme: p50/p95/p99 (ortalama değil)
- Trafik: istekler/saniye (veya işler/dakika)
- Hatalar: 4xx vs 5xx
- Doyma: paylaşılan kaynak sınırı (CPU, bellek, DB bağlantıları, kuyruk)

Bileşen bazlı minimum kontrol listesi:

- HTTP/API: istekler/s, p50/p95/p99 gecikme, 4xx oranı, 5xx oranı
- Veritabanı: sorgu gecikmesi (en az p95), bağlantı havuzu kullanımı, zaman aşımları, yavaş sorgu sayısı
- Worker/kuyruk: kuyruk derinliği, iş çalışma süresi p95, retry/ölü-mesaj sayısı
- Kaynaklar: CPU %, bellek kullanımı, disk kullanımı, container yeniden başlatmaları
- Dağıtım sağlığı: mevcut sürüm, deploy sonrası hata oranı, yeniden başlatma döngüleri

Örnek: p95 gecikme yükselip trafik sabit kalıyorsa DB havuzu doyuma ulaşmış olabilir. Koder.ai ile uygulama geliştiriyorsanız, bu checklist'i gün bir tanımı olarak kabul edin.

Question 7

“Yavaş” şikayetini anlaşılır kılan minimum izleme (tracing) kurulumu nedir?

Accepted Answer

Kullanıcı “yavaş” dediğinde loglar ne olduğunu, metrikler ne sıklıkta olduğunu, izler (traces) ise isteğin içinde zamanın nereye gittiğini söyler. Bu tek zaman çizgisi bulanık bir şikayeti net bir düzeltmeye dönüştürür.

Sunucu tarafından başlayın. İsteğin uygulamaya ilk giriş noktası (ilk handler) instrumente edilirse her istek bir trace üretebilir. İstemci tarafı izleme bekleyebilir.

Gün bir için iyi bir trace şu span'ları içerir:

- Tüm isteği kapsayan handler spanı
- Her sorgu veya işlem için veritabanı spanı
- Önbellek çağrıları (get/set) için span
- Ara bağımlılık için HTTP çağrı spanı
- Arka plan işi enqueuelendiğinde onun spanı

Aranan ve karşılaştırılabilir izler için bazı anahtar öznitelikleri tutarlı yakalayın. Gelen istek spanında rota (şablon formunda, ör. ), HTTP methodu, status kodu ve gecikmeyi kaydedin. DB spanlarında DB sistemi (PostgreSQL, MySQL), işlem tipi ve tablo adı (kolaysa) olsun. Dış çağrılarda bağımlılık adı ( , , vs.), hedef host ve durum olsun.

Örnek iyi uygulama: tüm hataların ve yavaş isteklerin %100 trace edilmesi (SDK destekliyorsa), normal trafikten ise küçük bir örnekleme (1–10%). Trafik azsa başlangıçta örneklemeyi yüksek tutup zamanla azaltın.

“İyi” bir örnek: bir trace'te hikayeyi baştan sona okuyabiliyorsunuz: 2.4s sürdü, DB 120ms, cache 10ms, ve dış ödeme çağrısı 2.1s sürdü — sorun bağımlılıktaydı.

Question 8

Birisi “yavaş” dediğinde basit bir triage akışı nedir?

Accepted Answer

Belirsiz bir hissi birkaç somut soruya dönüştürmek en hızlı kazançtır. Bu triage akışı yeni bir uygulama olsa bile işe yarar.

5 adımlı triage:

1. Kapsamı doğrulayın: bir kullanıcı mı, bir müşteri hesabı mı, bir bölge mi yoksa herkes mi etkilendi? Wi‑Fi ve hücreselde, farklı tarayıcı/cihazlarda oluyor mu?
2. Önce ne değişti kontrol edin: istek hacmi mi arttı, hata oranı mı yükseldi, yoksa sadece gecikme mi arttı? Trafik sıçraması genelde kuyruğa neden olur; hata artışı dış bir bağımlılığa işaret eder.
3. Yavaşlamayı rota/işe bölün: p95 gecikmeyi rota bazında kontrol edin ve en kötü rotayı bulun. Tek bir rotaysa ona odaklanın; hepsi yavaşsa paylaşılan bağımlılıklara bakın.
4. Yavaş yol için bir trace açın: son 15 dakikadaki yavaş bir isteğin trace'ini alın ve span'ları süreye göre sıralayın. Amaç bir cümle: “Zamanın çoğu X'te.”
5. Bağımlılıkları doğrulayın ve rollback kararını verin: DB doyumu, yavaş sorgular, önbellek isabet oranı ve üçüncü taraf yanıt sürelerini kontrol edin. Eğer sorun deploy sonrası başladıysa rollback genelde güvenli ilk adımdır.

İstikrar sağlandıktan sonra küçük bir iyileştirme yapın: ne olduğunu yazın ve bir eksik sinyal ekleyin (ör. bölge etiketi, sorgu adı alanı vb.).

Question 9

Beş dakikada yapılabilecek hızlı kontroller nelerdir?

Accepted Answer

Hemen zaman kaybetmemeniz için üç açıklayıcı soru ile başlayın:

- Kim etkilendi (bir kullanıcı, bir müşteri segmenti, herkes)?
- Hangi eylem yavaş (sayfa yükleme, arama, checkout, giriş)?
- Ne zamandan beri başladı (dakikalar önce, bir deploy sonrası, bu sabah)?

Sonra genelde sizi doğru yöne götüren birkaç sayıya bakın; mükemmel gösterge panosu aramayın, sadece “normalin üzeri” sinyalleri arayın:

- Mevcut hata oranı
- Etkilenen uç noktanın p95 gecikmesi
- Doyma: CPU, bellek, DB bağlantıları veya kuyruk derinliği

Eğer p95 yükselmiş ama hatalar sabitse, son 15 dakikadaki yavaş rota için bir trace açın. Tek bir trace genelde zamanın DB, dış API veya kilit bekleme gibi nerede geçtiğini gösterir.

Sonra bir log araması yapın: kullanıcı raporu varsa ile, yoksa aynı zaman aralığındaki en yaygın hata mesajını arayın.

Son olarak, hemen hafifletme (scale up, rollback, özellik bayrağını kapatma) mı yoksa daha derin inceleme mi gerekeceğine karar verin.

Question 10

Tahmin yürütmeden yavaş bir checkout nasıl teşhis edilir?

Accepted Answer

Yayın sonrası birkaç saat içinde destekten “Checkout 20–30 saniye sürüyor” raporları gelirse ve kimse kendi makinelerinde üretemiyorsa, triage süreci işe yarar.

Adımlar:

- Metriklere gidin ve belirtileri doğrulayın: p95 gecikme yalnızca için artmışsa diğer rotalar normalse daraltma başladı demektir.
- Yavaş için bir trace açın; su şelalesi (waterfall) suçu gösterir. İki yaygın sonuç:
 - spanı 18s sürüyor (çoğunluk bekleme).
 - spanı yavaş, sorgu dönmeden önce uzun bekleme var.
- Trace'teki (veya trace id) ile logları kontrol edin: “payment timeout reached” veya “context deadline exceeded” gibi uyarılar ve yeni sürümde eklenen retry'ler görüyorsanız sorun ödeme sağlayıcısıdır. DB yolunda ise kilit bekleme veya eşik üstü yavaş sorgu logları olabilir.

Üç sinyal hizalandığında çözüm açık olur:

- Sürümü geri alın.
- Ödeme çağrısına açık bir timeout ekleyin ve retry sayısını sınırlayın.
- Bağımlılık gecikmesi için p95 metriği ekleyin ve DB için p95 sorgu gecikmesini izleyin.

Metrikler rotayı gösterdi, izler yavaş adımı gösterdi, loglar ise hata modunu ve tam isteği doğruladı—tahmin yok.

Question 11

Olaylar sırasında en çok zaman kaybettiren yaygın hatalar nelerdir?

Accepted Answer

Çoğu zaman kaybı önlenebilir boşluklardan gelir: veri var ama gürültülü, riskli ya da ihtiyacınız olan tek detay eksik. Paket kullanılabilir kalmazsa kriz anında işe yaramaz.

Yaygın tuzaklar:

- Çok fazla ham gövde loglamak (storage maliyeti, aramalar ağır, hassas veri sızıntısı riski).
- Ortalama ile yetinmek; p95 ve p99'u kontrol etmemek.
- Yüksek kardinaliteli etiketler (tam kullanıcı ID'leri, e-postalar) ile metrik serilerinin patlaması.
- Kontekst içermeyen izler (rota adları ve bağımlılık isimleri yoksa görüntü anlamsız olur).
- Sürüm işareti yoksa deploy'un tetikleyip tetiklemediğini bilemezsiniz.
- Sahibinin belli olmadığı alarmlar; kimse ne yapacağını bilmiyorsa gürültüye dönüşür.

Küçük örnek: checkout p95 800ms'den 4s'e çıktıysa iki soruyu dakikalar içinde yanıtlamak istersiniz: deploy sonrası mı başladı ve zaman uygulamanızda mı yoksa bağımlılıkta mı geçiyor? Yüzdelikler, sürüm etiketi ve izlerde rota ile bağımlılık isimleri varsa hızlıca yanıtlayabilirsiniz.

Gün bir için üretim izlenebilirliği başlangıç paketi

Yeni bir uygulama gerçek kullanıcılara ulaştığında ilk ne bozulur

Loglar, metrikler ve izler (traces) basitçe ne söyler

Gün-bir kuralları: kaosu önlemek

Gün-bir için minimum loglama

Çoğu üretim sorununu yakalayan minimum metrikler

Altın sinyaller

Bileşene göre metrik kontrol listesi

“Yavaş”u debug edilebilir kılan minimum izleme

“Yavaş” raporları için basit bir triage akışı

5 adımlı triage

SSS