Uygulama Sağlığını ve İş KPI'larını İzleyen Bir Web Uygulaması Oluşturun

Q: Başlamak için hangi metrikleri dahil etmeliyiz?

Olay sorularıyla başlayın: - Ne bozuldu (servis/endpoint/bağımlılık/bölge)? - Kim etkilendi (segment/plan/müşteri)? - Ne kadar zarar var (dönüşüm, gelir, destek hacmi)? Ardından 5–10 sağlık metriği (erişilebilirlik, gecikme, hata oranı, doygunluk, trafik) ve 5–10 KPI (kaydolmalar, aktivasyon, dönüşüm, gelir, retention) seçin. Anasayfayı minimal tutun.

Q: Teknik sinyalleri checkout veya onboarding gibi müşteri yolculuklarına nasıl bağlarız?

Gelir veya retention'ı doğrudan etkileyen 3–5 kritik yolculuk seçin (checkout/ödeme, giriş, onboarding, arama, yayınlama). Her yolculuk için: - Adımları ve “başarı”yı tanımlayın - Öncü göstergeler (p95 gecikme, hata oranı, kuyruk derinliği) - Geciken göstergeler (dönüşüm, terk oranı, iadeler, destek talepleri) Bu, panoları sonuçlara odaklar, altyapı ayrıntılarına değil.

Q: Sağlık verileri ile KPI verileri için hangi depolama mimarisi en uygundur?

Pratik bir ayrım: - Zaman serisi backend: yüksek hacimli sağlık telemetri için (hızlı aralık taramaları, p95/p99 gibi yüzde hesapları) - Warehouse/lake : KPI'lar ve uzun dönem geçmiş için (join'ler, backfill, as-of raporlama) Araya bir veri API koyun: UI doğrudan depolara bağlanmasın; yetkilendirme, birleştirme ve tutarlı bucket/unit dönüşleri API'de yapılsın.

Q: Bu uygulamayı sıfırdan mı inşa etmeliyiz yoksa var olan araçları entegre mi etmeliyiz?

Kural: - Entegre edin : Mevcut araçlardan veri toplayıp tek bir deneyimde birleştirmeniz gerekiyorsa (grafikleri embed etmek, filtreleri standartlaştırmak), daha hızlı ilerlersiniz. - İnşa edin : Katı iş akışları, sıkı izinler veya satıcı panolarının desteklemediği özel birleşimler gerekiyorsa kendi çözümünüzü geliştirin. - Hibrit : Ortak seçenek—data API + UI kabuğunu inşa edip, uzmanlaşmış araçları olduğu yerde bırakın. “Tek pencere” her şeyi yeniden yazmak anlamına gelmez.

Giriş Yap Başla

Uygulama Sağlığını ve İş KPI'larını İzleyen Bir Web Uygulaması Oluşturun | Koder.ai

“Uygulama Sağlığı + İş KPI'ları” Ne Anlama Gelir (ve Neden Önemlidir)

Birleştirilmiş “Uygulama Sağlığı + İş KPI'ları” görünümü, ekiplerin sistemin çalışıp çalışmadığını ve ürünün işin önem verdiği sonuçları verip vermediğini aynı yerde görmesini sağlar. Olaylar için gözlemlenebilirlik aracından performans için analitik aracına gidip gelmek yerine, noktaları tek bir iş akışında bağlarsınız.

Teknik metrikler vs. iş metrikleri

Teknik metrikler yazılımınızın ve altyapınızın davranışını tanımlar. Cevap verir: Uygulama yanıt veriyor mu? Hata alınıyor mu? Yavaş mı? Yaygın örnekler: gecikme, hata oranı, throughput, CPU/ram kullanımı, kuyruk derinliği, bağımlılık erişilebilirliği.

İş metrikleri (KPI'lar) kullanıcı ve gelir sonuçlarını tanımlar. Cevap verir: Kullanıcılar başarılı mı? Para kazanıyor muyuz? Örnekler: kayıtlar, aktivasyon oranı, dönüşüm, ödeme tamamlama, ortalama sipariş değeri, churn, iadeler, destek talep hacmi.

Amaç kategorilerden birini değiştirmek değil—amaç onları bağlamak: böylece 500 hata sıçraması sadece “grafikte kırmızı” olmaz, aynı zamanda “checkout dönüşümü %12 düştü” ile açıkça ilişkilendirilir.

Birleştirmenin ekiplere faydaları

Sağlık sinyalleri ve KPI'lar aynı arayüzde ve zaman penceresinde paylaşıldığında ekipler genelde şunları görür:

Daha hızlı triage: Etkiyi hızlıca doğrulayın (ör. hatalar arttı ve ücretli yükseltmeler düştü) ve müşteriyi etkilemeyen “gürültülü” sorunların peşinden koşmayın.
Daha net öncelikler: Olayları müşteri etkisine göre sıralayın, en yüksek sesliyle değil.
Daha az kör nokta: İş ekipleri sonuç düşüşlerini fark eder, mühendislik ilgili teknik sinyalleri görür ve ikisi aynı olgular üzerinden çalışır.

Bu rehberden ne beklemelisiniz

Bu rehber yapı ve kararlar üzerine odaklanır: metrikleri nasıl tanımlayacağınız, kimlikleri nasıl bağlayacağınız, veriyi nasıl depolayıp sorgulayacağınız ve panolar ile uyarıları nasıl sunacağınız. Bilinçli olarak belirli bir satıcıya bağlı değildir; böylece yaklaşımı hazır araçlarla, kendi çözümünüzü inşa ederek veya her ikisini birleştirerek uygulayabilirsiniz.

Net Kullanım Vakaları ve Kısa Bir Metrik Listesiyle Başlayın

Her şeyi izlemeye çalışırsanız, kimsenin güvenmediği bir pano elde edersiniz. Basınç altındayken uygulamanın ne yapmasına yardımcı olması gerektiğini belirleyin: bir olay sırasında hızlı ve doğru kararlar almak ve hafta hafta ilerlemeyi izlemek.

Uygulamanızın yanıtlaması gereken olay soruları

Bir şey ters gittiğinde panolarınız hızla şu soruları cevaplamalı:

Ne bozuldu? (Hangi servis, endpoint, bağımlılık, bölge?)
Kim etkilendi? (Tüm kullanıcılar, bir segment, bir plan seviyesi, belirli bir müşteri?)
Ne kadar zarar var? (Dönüşüm düşüşü, başarısız ödemeler, destek talepleri, churn riski?)

Bir grafik bu sorulardan birine yardımcı olmuyorsa, kaldırılmaya adaydır.

“Uygulama çalışıyor mu?” sorusunu açıklayan 5–10 sağlık metriği seçin

Çekirdek seti küçük ve ekipler arasında tutarlı tutun. Başlangıç için iyi bir liste:

Erişilebilirlik (başarılı istekler vs toplam)
Gecikme (p50/p95/p99 yanıt süresi)
Hata oranı (4xx/5xx, istisnalar)
Doygunluk (CPU, bellek, kuyruk derinliği, DB bağlantıları)
Trafik (saniye başına istek)

Bunlar yaygın hata modlarına iyi eşlenir ve daha sonra uyarı için kolayca kullanılabilir.

“İş sağlıklı mı?” sorusunu açıklayan 5–10 iş KPI'sı seçin

Müşteri hunisini ve gelir gerçekliğini temsil eden metrikleri seçin:

Kayıtlar
Aktivasyon (ilk önemli eylemin tamamlanması)
Dönüşüm (deneme → ücretli, sepete ekle → satın alım vb.)
Gelir (MRR/ARR, başarılı ödemeler)
Retention (kohort retention, churn)

Pano sürüklenmesini sahipler ve gözden geçirme takvimi ile önleyin

Her metrik için bir sahip, bir tanım/doğru kaynak ve bir gözden geçirme sıklığı (haftalık veya aylık) tanımlayın. Hiç kimsenin sahibi olmadığı bir metrik sessizce yanıltıcı hale gelir ve olay kararlarınızı etkiler.

Teknik Sinyalleri Müşteri Yolculuklarına ve Sonuçlara Eşleyin

Sağlık grafikleri bir araçta, iş KPI panosu başka bir araçta ise olay sırasında “ne oldu” konusunda tartışmak kolaydır. İzlemeyi, performansın sonuçları açıkça etkilediği birkaç müşteri yolculuğu etrafında sabitleyin.

3–5 kritik yolculukla başlayın

Geliri veya retention'ı doğrudan sürükleyen akışları seçin: onboarding, arama, checkout/ödeme, hesap girişi, içerik yayını gibi. Her yolculuk için ana adımları ve “başarı”nın ne anlama geldiğini tanımlayın.

Örnek (checkout):

Adım: Sepet → Kargo → Ödeme → Onay
Başarı sonucu: sipariş tamamlandı
Başarısızlık sonucu: ödeme hatası, terk etme, timeout

Teknik sinyalleri sonuçlarla bağlayın

Her adımı en güçlü etkileyen teknik sinyalleri eşleyin. İşte uygulama sağlık izlemenin iş ile alakalı hale geldiği yer.

Öncü göstergeler: KPI'larda ortaya çıkmadan önce acıyı öngören erken uyarılar (p95 gecikme sıçramaları, hata oranı artışları, kuyruk derinliği, DB bağlantı doygunluğu).
Geciken göstergeler: müşterilerin gerçekte yaptığı şeyler (dönüşüm oranı, terk oranı, ortalama sipariş değeri, destek talepleri).

Checkout için öncü gösterge “ödeme API'si p95 gecikmesi” olabilir; geciken gösterge ise “checkout dönüşüm oranı”dır. Her ikisini aynı zaman çizelgesinde görmek nedenselliği netleştirir.

Bir metrik sözlüğü oluşturun (ve ona bağlı kalın)

Bir metrik sözlüğü kafa karışıklığını ve “aynı KPI farklı matematik” tartışmalarını önler. Her metrik için belgeleyin:

İsim (ekipler arası tutarlı)
Tanım/formül (ör. dönüşüm = siparişler / checkout oturumları)
Granülerlik (dakika/saat/gün; bölge/cihaz)
Veri kaynağı (APM, loglar, analytics, warehouse)
Sahip (kim bakımını yapar)

Gösteriş metriklerinden ve kopyalardan kaçının

Sayfa görüntülemeleri, ham kayıtlar veya “toplam oturumlar” gibi metrikler bağlam olmadan gürültülü olabilir. Kararlara dayalı metrikleri tercih edin (tamamlama oranı, hata bütçesi tüketimi, ziyaret başına gelir). Ayrıca KPI'ları çoğaltmayın: bir resmi tanım, üç çelişen panodan daha iyidir.

Bir Mimari Seçin: İnşa Et, Entegre Et veya Hibrit

UI kodunu yazmadan önce gerçekte ne inşa edeceğinize karar verin. Bir “sağlık + KPI'lar” uygulaması genelde beş çekirdek bileşene sahiptir: collector'lar (metrikler/loglar/trace'ler ve ürün olayları), ingestion (kuyruklar/ETL/streaming), depolama (zaman serisi + warehouse), bir veri API'si (tutarlı sorgular ve izinler için) ve bir UI (panolar + drill-down). Uyarı UI'nin bir parçası olabilir veya mevcut on-call sistemine devredilebilir.

İnşa vs. entegre: pratik bir kural

Entegre et: Mevcut gözlemlenebilirlik ve analitik verilerini tek bir deneyimde bir araya getirmeniz gerekiyorsa. Prometheus/Grafana, Datadog veya analitik platformunuz gibi araçları kullanıp, kimlik ve gezinmeyi standartlaştıran ince bir katman ekleyerek daha hızlı ilerlersiniz.
İnşa et: Çok özel bir iş akışına ihtiyacınız varsa (ör. “gelir düşüşü → etkilenen endpoint'ler → son deploy → müşteri segmenti”), sıkı izinler veya satıcı panolarının desteklemediği özel hesaplamalar gerekiyorsa.
Hibrit: Yaygın tercih—data API + UI kabuğunu inşa edin, ancak özel grafik/olay araçlarını olduğu yerde bırakın.

Hızlı bir UI ve iş akışı prototipi yapmak istiyorsanız, Koder.ai gibi vibe-coding platformları chat tabanlı bir spesifikasyondan React tabanlı bir pano kabuğu ile Go + PostgreSQL backend'i ayağa kaldırmanıza yardımcı olabilir; ardından drill-down gezinmesi ve filtreler üzerinde iterasyon yapabilirsiniz.

Prod, staging, dev ayrımı (neden önemli)

Ortamlara baştan plan yapın: prod verisi staging/dev ile karışmamalıdır. Ayrı proje kimlikleri, API anahtarları ve depolama bucket/tablo kullanın. “Prod vs staging karşılaştırması” yapmak istiyorsanız, bunu API'de kontrollü bir görünümle yapın—ham pipeline'ları paylaşmayın.

Her şeyi yeniden yazmadan “tek pencere”

Tek pencere her şeyi yeniden uygulamak demek değildir. Şunları yapabilirsiniz:

Mevcut grafikleri embed edin (hızlı, tanıdık) ve URL/sorgu parametreleriyle tutarlı filtreler ekleyin.
Yalnızca kaynaklar arası join ve özel drill-down gerektiren görünümleri yeniden uygulayın.

Embed seçerseniz, net bir gezinme standardı tanımlayın (ör. “KPI kartından trace görünümüne”) ki kullanıcılar araçlar arasında savruluyormuş gibi hissetmesin.

Doğru Kaynaklardan Veri Toplayın (ve Kimlikleri Hizalayın)

Uygulamayı uygulamaya alın

Hazır olduğunuzda kaynak kodunu dışa aktararak tam sahipliği koruyun ve standart iş akışınıza alın.

Kaynak Kodunu Dışa Aktar

Panolarınızın güvenilirliği arkasındaki verinin güvenilirliğine bağlıdır. Pipeline'ları inşa etmeden önce zaten “ne olduğunu bilen” sistemlerin bir listesini yapın ve her birinin ne sıklıkta yenilenmesi gerektiğine karar verin.

Uygulama sağlık kaynakları (hızlıca işlem yapabileceğiniz sinyaller)

Güvenilirlik ve performansı açıklayan kaynaklarla başlayın:

Metrikler: Prometheus ve/veya OpenTelemetry (istek oranı, hata oranı, gecikme, CPU/ram, kuyruk derinliği).
Loglar: hata ayıklama ve ana olayları saymak için (başarısız ödemeler, yetki hataları, timeoutlar).
Trace'ler: yavaş kullanıcı deneyimlerini belirli servis ve endpoint'lerle bağlamak için.
Uptime kontrolleri (sentetik monitoring): DNS/TLS ve temel akışları dışardan doğrulamak için.

Pratik kural: sağlık sinyallerini varsayılan olarak neredeyse gerçek zamanlı kabul edin; çünkü bunlar uyarıları ve olay müdahalesini tetikler.

İş KPI kaynakları (sonuçları açıklayan sinyaller)

İş KPI'ları genelde farklı ekiplerin sahip olduğu araçlarda yaşar:

Ürün analitiği (kaydolmalar, aktivasyon, özellik kullanımı, retention kohortları)
Faturalama/CRM (MRR, yenilemeler, churn nedenleri, plan yükseltmeleri)
Veritabanı agregatları (tamamlanmış siparişler, iadeler, ortalama sipariş değeri) — genellikle para ile ilgili sayılar için en otoritatif kaynak

Her KPI'nin saniye saniye güncellenmesine gerek yok. Günlük gelir batch olabilir; checkout dönüşümü daha taze veri isteyebilir.

Gerçek zamanlı vs batch kararı verin — beklenen gecikmeyi belgeleyin

Her KPI için basit bir gecikme beklentisi yazın: “Her 1 dakikada güncellenir”, “Saatlik”, veya “Ertesi iş günü”. Bunu UI'da direkt gösterin (örneğin: “Veri 10:35 UTC itibarıyla”). Bu yanlış alarmları önler ve “yanlış” sayılar yüzünden tartışmaları azaltır.

Sistemler arasında kimlikleri hizalayın (başarıyı belirleyen adım)

Hataları gelire bağlamak istiyorsanız tutarlı ID'lere ihtiyacınız var:

user_id (kişi)
account_id / org_id (müşteri/şirket)
order_id / invoice_id (işlem)

Her bir kimlik için bir “doğru kaynak” tanımlayın ve her sistemin bunu taşıdığından emin olun (analytics event'leri, loglar, faturalama kayıtları). Sistemler farklı anahtar kullanıyorsa, erken bir eşleme tablosu ekleyin—geriye dönük dikişleme pahalı ve hataya açıktır.

Depolamayı Tasarla: Sağlık için Zaman Serisi, KPI'lar için Warehouse

Her şeyi tek bir veritabanında saklamaya çalışırsanız genelde yavaş panolar veya pahalı sorgularla karşılaşırsınız. Daha temiz bir yaklaşım, uygulama sağlık telemetrisi ile iş KPI'larını farklı veri şekilleri ve okuma kalıpları olarak ele almaktır.

Sağlık verileri için zaman serisi depolama kullanın

Gecikme, hata oranı, CPU, kuyruk derinliği gibi sağlık metrikleri yüksek hacimlidir ve zaman aralığıyla sorgulanır: “son 15 dakika”, “dündekiyle karşılaştır”. Bir zaman serisi veritabanı hızlı rollup'lar ve aralık taramaları için optimize edilmiştir.

Etiketleri/sınırları sınırlı ve tutarlı tutun (service, env, region, endpoint group). Çok fazla benzersiz etiket kardinaliteyi patlatır ve maliyeti artırır.

KPI'lar ve uzun geçmiş için warehouse/lake kullanın

İş KPI'ları (kaydolmalar, ücretli dönüşümler, churn, gelir, siparişler) genelde join'ler, backfill'ler ve “as-of” raporlama gerektirir. Warehouse/lake bunun için daha uygundur:

Yavaş değişen boyutlar (plan, segment, ülke)
Tanım değiştiğinde yeniden hesaplama ihtiyacı
Aylar/yıllar boyunca dilimleme ve analiz

Birleştirilmiş erişim katmanı ekleyin (güvenli bir API)

Web uygulamanız tarayıcıdan doğrudan her iki depoya erişmemeli. Bir backend API oluşturun: her depo için sorgulama, izinleri uygulama ve tutarlı bir şema döndürme işi API'de olsun. Tipik desen: sağlık panelleri zaman serisi deposuna, KPI panelleri warehouse'a çarlar; drill-down uç noktaları her ikisinden de çekip zaman penceresine göre birleştirebilir.

Maliyet kontrolü için saklama ve agregasyon kuralları

Açık katmanlar belirleyin:

Ham sağlık metrikleri: 7–30 gün
Downsample edilmiş sağlık (1m → 5m → 1saat): 90–400 gün
KPI verileri: uzun süre (yıllar) saklanmalı, ancak tarih bazlı partition'lanmalı

Yaygın pano görünümlerini (saatlik/günlük) önceden agregate edin ki kullanıcıların çoğu “her şeyi tarayan” pahalı sorguları tetiklemesin.

Panoları Harekete Geçirecek Şekilde Tasarlayın

Bir pano, “Tamam mıyız?” ve “Değilsek, nereden bakmalıyım?” sorularını hızlıca cevapladığında başarılıdır. Her şeyi ölçmekten ziyade kararları kolaylaştıracak şekilde tasarlayın.

Küçük bir sayfa setiyle başlayın

Çoğu ekip, bir mega-panodan ziyade amaçlı birkaç görünümle daha iyi iş yapar:

Genel görünüm: bugünün uygulama sağlığı (gecikme, hata oranı, trafik) ve en çok önem taşıyan 1–3 iş KPI'sı (kaydolmalar, satın alımlar, gelir). Ne değiştiği açık olsun.
Servis sayfası: servis/API başına, endpoint'lere, bağımlılıklara ve son deploy'lara drill-down.
İş hunisi sayfası: landing → kayıt → aktivasyon → satın alma gibi adımlar, terk oranları ve dönüşüm süreleri.
Olay sayfası: ne oldu, ne zaman başladı, kullanıcıların ne hissettiği, mevcut durum ve ilgili uyarılar/değişikliklere linkler.

Paylaşılan zaman seçici ve global filtreler kullanın

Her sayfanın üstünde tek bir zaman seçici koyun ve tutarlı hale getirin. Gerçekten kullanılan global filtreleri ekleyin—bölge, plan, platform ve belki müşteri segmenti. Amaç “US + iOS + Pro plan”ı “EU + Web + Free” ile yeniden grafik kurmadan karşılaştırabilmek.

Korelasyonu zahmetsiz hale getirin

Her sayfada teknik ve iş sinyallerini aynı zaman ekseninde bindiren en az bir korelasyon paneli koyun. Örnekler:

hata oranı + checkout dönüşüm oranı
p95 gecikme + deneme aktivasyonu
ödeme hataları + dakika başına gelir

Bu, teknik olmayan paydaşların etkiyi görmesini sağlar ve mühendislerin müşteri sonuçlarını koruyan düzeltmeleri önceliklendirmesine yardımcı olur.

Netlik için tasarlayın (iyi vs. kötü aralığını tanımlayın)

Kalabalıktan kaçının: daha az grafik, daha büyük yazı tipleri, net etiketler. Her ana grafik eşikler (iyi / uyarı / kötü) göstermeli ve mevcut durum hover olmadan okunabilmeli. Bir metrik anasayfaya hazır değilse genelde iyi/kötü aralığı konusunda anlaşma yoktur.

İş Etkisiyle Bağlantılı SLO'lar ve Uyarılar Ekleyin

Panoyu hızlıca prototipleyin

Bir sohbet spesifikasyonundan çalışan bir sağlık + KPI panosu oluşturun ve ekibinizle yineleyin.

Ücretsiz Başla

İzleme, doğru eylemi tetkiklediğinde kullanışlıdır. Service Level Objectives (SLO) kullanıcı deneyiminin “yeterli” olduğunu işletmeye uygun şekilde tanımlamanıza yardımcı olur—ve uyarılar müşteriler fark etmeden önce tepki vermenizi sağlar.

SLI/SLO temelleri (jargondan kaçınarak)

SLI (Service Level Indicator): kullanıcı deneyiminin ölçülebilir sinyali (örn. “başarılı checkout isteklerinin %'si” veya “p95 sayfa yükleme süresi”).
SLO: belirli bir zaman penceresinde o SLI için hedef (örn. “30 gün boyunca %99.9 başarılı checkout”).

Kullanıcıların gerçekten hissettiği SLI'ları seçin: login, arama, ödeme gibi kilit yolculuklarda hata, gecikme ve erişilebilirlik—içsel metrikler değil.

Önce semptomlara, sonra nedenlere uyarı verin

Mümkünse, önce kullanıcı etkisi semptomlarına uyarı verin, sonra muhtemel nedenleri:

Semptom uyarıları: “Checkout başarı oranı SLO'nun altına düştü”, “p95 API gecikmesi aşıldı”, “giriş hataları sıçradı”.
Neden uyarıları: “CPU yüksek”, “bellek baskısı”, “DB bağlantıları sınırda”.

Neden uyarıları yine değerli, ama semptom tabanlı uyarılar gürültüyü azaltır ve ekibi müşteri deneyimine odaklar.

Teknik uyarıların yanında iş-etkisi uyarıları ekleyin

Sağlık izleme ile iş KPI'larını bağlamak için küçük bir iş-etkisi uyarı seti ekleyin, örneğin:

Ana funnel adımında dönüşüm oranı düşüşü (landing → kayıt, sepet → satın alım)
Ödeme başarısızlığı oranı sıçraması (sağlayıcı, bölge veya istemci sürümüne göre)
Sipariş/dk veya kayıt/dk ani düşüşü (mevsimselliğe göre ayarlanmış)

Her uyarıyı beklenen bir eyleme bağlayın: araştır, rollback, sağlayıcı değiştir, destek bilgilendir.

Tırmanma kuralları ve uyarı yönlendirme

Önceden şiddet seviyeleri ve yönlendirme kuralları tanımlayın:

Kritik: aktif kullanıcı etkisi veya gelir riski → on-call'i çağır ve olay kanalına postla
Yüksek: yakında kullanıcı etkisine dönüşme olasılığı → on-call'i bildir ve ticket oluştur
Bilgi: eğilim uyarıları → e-posta özeti veya sadece pano

Her uyarı yanıtlamalı: ne etkileniyor, ne kadar kötü ve bir sonraki adım ne olmalı?

İzinler, Gizlilik ve Uyumluluğu Erken Ele Alın

Uygulama sağlık izleme ile iş KPI panosunu karıştırmak riskleri artırır: tek bir ekran hata oranlarını gelir veya müşteri isimleriyle yan yana gösterebilir. İzinler ve gizliliği sonra eklemek ya ürünü aşırı kısıtlar ya da veriyi fazla açığa çıkarır.

Kararlara uygun rol tabanlı erişim (RBAC)

Rolleri organizasyon şemasından çok kararlar etrafında tanımlayın. Örnek roller:

Mühendislik: servis performans metrikleri, loglar, trace'ler, SLO/SLA takibi
Destek/CS: müşteri düzeyinde durum ve olay zaman çizelgeleri, fakat gelir görmemeli
Finans/Liderlik: iş KPI'ları ve trendler, sınırlı teknik drill-down

Varsayılan olarak en az ayrıcalık verin: kullanıcılar ihtiyaç duyunca daha geniş erişim talep etsin.

Hassas veriyi koruyun (PII, gelir, müşteri kimlikleri)

PII'yi ayrı bir veri sınıfı olarak sıkı ele alın:

Tablo ve dışa aktarımlarda maskelenme/redaksiyon (ör. kısmi e-posta, hashlenmiş user ID)
Müşteri özel görünümler için satır düzeyinde güvenlik
Üretim PII'sinin staging panolarında görünmemesi için ortam ayrımı

Gözlemlenebilirlik sinyallerini müşteri kayıtlarına bağlamanız gerekiyorsa, bunu sabit, PII içermeyen kimliklerle yapın (tenant_id, account_id) ve eşlemeyi daha sıkı erişimli bir yerde tutun.

İzlenebilirlik: KPI tanımları ve pano değişiklikleri

Ekipler bir KPI formülü sessizce değiştiğinde güvenini kaybeder. Şunları takip edin:

Bir metrik tanımını kim değiştirdi (pay/çarpan, filterlar)
Panolar veya uyarı eşikleri ne zaman düzenlendi
Bir olay sırasında hangi sürüm aktiftı

Bunu bir denetim kaydı olarak sunun ve ana widget'lara iliştirin.

Çok kiracılı planlama (iç araçlar için bile)

Birden çok ekip veya müşteri uygulamayı kullanacaksa, tenant-aware token'lar, tenant-aware sorgular ve varsayılan olarak sıkı izolasyon gibi çok kiracılı tasarımı baştan düşünün. Analytics entegrasyonu ve olay müdahalesi canlıyken sonradan düzeltmek zordur.

Yayınlamadan Önce Veri Kalitesini ve Performansı Test Edin

Prototipten canlıya geçin

Prototipinizi dağıtın ve barındırın, böylece paydaşlar yerel kurulum olmadan kullanabilir.

Uygulamayı Yayınla

“Uygulama sağlık + KPI” ürününü test etmek, sadece grafiklerin yüklenip yüklenmediğiyle ilgili değildir. İnsanların sayılara güvenip bunlara göre karar alabilmesiyle ilgilidir. Dışa açmadan önce doğruluğu ve hızını gerçekçi koşullarda doğrulayın.

İzleme uygulaması için performans eşikleri belirleyin

İzleme uygulamanızı birinci sınıf ürün gibi ele alın ve hedefler belirleyin:

Pano yükleme süresi (ör. tipik bir dizüstüde ilk render birkaç saniye içinde)
Ortak filtreler için sorgu süresi (zaman aralığı, bölge, plan)
Drill-down gecikmesi (KPI'dan alttaki olaylara/trace'lere tıklama)

Bu testleri “gerçekçi kötü günler” ile de çalıştırın—yüksek kardinaliteli metrikler, büyük zaman aralıkları ve zirve trafik pencereleri.

Veri pipeline'ınız için sağlık kontrolleri ekleyin

Bir pano görsel olarak iyi görünürken pipeline sessizce başarısız olabilir. Otomatik kontroller ekleyin ve bunları internal bir görünümde sunun:

İngestion gecikmesi (verinin “şimdi”den ne kadar geride olduğu)
Eksik veri oranları (kaynak ve ana metrik bazında)
Şema değişiklik tespiti (yeni/kaldırılan alanlar, tip değişimleri)

Bu kontroller staging'de yüksek sesle başarısız olmalı ki üretimde sorunları keşfetmeyesiniz.

Güvenli test için sentetik veri ve replay kullanın

Sıfır, ani sıçramalar, iadeler, çoğaltılmış event'ler ve saat dilimi sınırları gibi köşe durumlarını içeren sentetik veri setleri oluşturun. Ardından (kimlikler anonimleştirilmiş) gerçek prod trafik kalıplarını staging'e replay ederek panoları ve uyarıları doğrulayın.

KPI doğruluğu için QA adımları

Her çekirdek KPI için tekrarlanabilir doğruluk rutini tanımlayın:

Örnekleme: rastgele kullanıcı/sipariş seçip doğru şekilde toplandığını doğrulayın
Uzlaştırma: toplamları kaynak doğrusu (faturalama, CRM, analytics) ile karşılaştırın
Backfill: gecikmeli gelen event'lerin geçmişi öngörülebilir biçimde güncellediğini doğrulayın

Bir sayıyı teknik olmayan bir paydaşa bir dakikadan kısa sürede açıklayamıyorsanız, yayınlanmaya hazır değildir.

Yayın Planı, Benimseme ve Sürekli Bakım

Birleştirilmiş “sağlık + KPI” uygulaması ancak insanlar güvenip kullanırsa ve güncel tutarsa işe yarar. Yayını bir ürün lansmanı gibi ele alın: küçük başlayın, değeri kanıtlayın ve alışkanlıklar oluşturun.

Küçük başlayın: bir yolculuk, bir servis

Herkesin önem verdiği tek bir müşteri yolculuğu seçin (ör. checkout) ve buna en çok katkı veren bir backend servisi seçin. O ince dilim için yayınlayın:

Bir yolculuk özeti: dönüşüm oranı, terk noktaları, ziyaret başına gelir
Destekleyen servis için sağlık görünümü: gecikme, hata oranı, doygunluk
KPI düşüşünü teknik sinyallerle bağlayan bir drill-down yolu

Bu “bir yolculuk + bir servis” yaklaşımı uygulamanın amacını netleştirir ve erken dönemde hangi metriklerin önemli olduğu tartışmalarını yönetilebilir tutar.

Benimsemeyi haftalık gözden geçirme ile destekleyin

Ürün, destek ve mühendislik ile 30–45 dakikalık haftalık bir gözden geçirme planlayın. Pratik tutun:

Hangi panolar bu hafta gerçekten kullanıldı (ve kim tarafından)?
Hangi uyarılar gürültülü ya da göz ardı edildi—neden?
Herhangi bir müşteri etkili olayı önceden yakaladık mı?
Veriler hangi kararı destekledi (yayını durdur, rollback, funnel adımını ayarla)?

Kullanılmayan panoları basitleştirmek için bir sinyal olarak değerlendirin. Gürültülü uyarıları hata olarak görün.

Bir bakım kontrol listesi oluşturun (ve uygulayın)

Sahipliği atayın (paylaşılsa bile) ve aylık hafif bir kontrol listesi çalıştırın:

Metrik tanımlarını ve KPI formüllerini güncelle (ve değişiklikleri belgeleyin)
Kullanılmayan grafik ve pasif panoları emekliye ayır
SLO hedeflerini gerçek kullanıcı beklentilerine ve mevsimselliğe karşı gözden geçir
Kimlik eşlemeyi (user/org/order ID) ürün değişikliklerinden sonra kontrol et
Veri tazeliğini, gecikmeli event'leri ve eksik kaynakları doğrula

Sonraki adımlar

İlk dilim stabil hale gelince aynı desenle bir sonraki yolculuğa veya servise genişleyin.

Uygulama fikirleri ve örnekleri görmek isterseniz browse /blog. İnşa mı al mı değerlendirmesi yapıyorsanız, seçenekleri ve kapsamı karşılaştırın browse /pricing.

İlk çalışan versiyonu (pano UI + API katmanı + auth) hızlandırmak isterseniz, Koder.ai özellikle React frontend ile Go + PostgreSQL backend isteyen takımlar için pragmatik bir başlangıç olabilir; ayrıca hazır olduğunuzda kaynak kodunu dışa aktarma seçeneği sunar.

SSS

“Uygulama Sağlığı + İş KPI'ları” pratikte ne anlama geliyor?

Tek bir iş akışı (genellikle bir pano + drill-down deneyimi) içinde teknik sağlık sinyallerini (gecikme, hatalar, doygunluk) ve iş sonuçlarını (dönüşüm, gelir, churn) aynı zaman ekseninde görmektir.

Amaç korelasyondur: sadece “bir şey bozuldu” demek yerine “checkout hataları arttı ve dönüşüm düştü” gibi durumu görüp düzeltmeleri etkiye göre önceliklendirebilirsiniz.

Neden gözlemlenebilirlik metriklerini iş KPI'larıyla birleştirelim, ayrı panolar tutmayalım?

Bir gecikme sıçramasının önemli olup olmadığını tahmin etmek yerine, onu satın alma/dönüşüm gibi KPI'larla doğrulayarak hemen müşteri etkisini görebilir ve sayfayı, rollback'i veya izlemeyi seçebilirsiniz.

Başlamak için hangi metrikleri dahil etmeliyiz?

Olay sorularıyla başlayın:

Ne bozuldu (servis/endpoint/bağımlılık/bölge)?
Kim etkilendi (segment/plan/müşteri)?
Ne kadar zarar var (dönüşüm, gelir, destek hacmi)?

Ardından 5–10 sağlık metriği (erişilebilirlik, gecikme, hata oranı, doygunluk, trafik) ve 5–10 KPI (kaydolmalar, aktivasyon, dönüşüm, gelir, retention) seçin. Anasayfayı minimal tutun.

Teknik sinyalleri checkout veya onboarding gibi müşteri yolculuklarına nasıl bağlarız?

Gelir veya retention'ı doğrudan etkileyen 3–5 kritik yolculuk seçin (checkout/ödeme, giriş, onboarding, arama, yayınlama).

Her yolculuk için:

Adımları ve “başarı”yı tanımlayın
Öncü göstergeler (p95 gecikme, hata oranı, kuyruk derinliği)
Geciken göstergeler (dönüşüm, terk oranı, iadeler, destek talepleri)

Bu, panoları sonuçlara odaklar, altyapı ayrıntılarına değil.

Bir metric sözlüğü neler içermeli ve kim sahiplenmeli?

Bir metric sözlüğü “aynı KPI farklı hesap” tartışmalarını önler. Her metrik için belgeleyin:

İsim ve tanım/formül
Granülerlik (dakika/saat/gün; bölge/cihaz)
Veri kaynağı (APM, log, analytics, warehouse)
Sahip ve gözden geçirme sıklığı

Sahibi olmayan metrikler, bakımsız ve yanıltıcı hale gelir.

Log, trace, analytics ve faturalama verilerinde kimlikleri nasıl hizalarız?

Sistemler tutarlı kimlikleri paylaşamıyorsa hataları sonuçlara bağlayamazsınız.

Standartlaştırın ve her yerde taşıyın:

user_id
account_id / org_id
order_id / invoice_id

Araçlar farklı anahtar kullanıyorsa, erken bir eşleme tablosu oluşturun; geriye dönük birleştirme pahalı ve hataya açık olur.

Sağlık verileri ile KPI verileri için hangi depolama mimarisi en uygundur?

Pratik bir ayrım:

Zaman serisi backend: yüksek hacimli sağlık telemetri için (hızlı aralık taramaları, p95/p99 gibi yüzde hesapları)
Warehouse/lake: KPI'lar ve uzun dönem geçmiş için (join'ler, backfill, as-of raporlama)

Araya bir veri API koyun: UI doğrudan depolara bağlanmasın; yetkilendirme, birleştirme ve tutarlı bucket/unit dönüşleri API'de yapılsın.

Bu uygulamayı sıfırdan mı inşa etmeliyiz yoksa var olan araçları entegre mi etmeliyiz?

Kural:

Entegre edin: Mevcut araçlardan veri toplayıp tek bir deneyimde birleştirmeniz gerekiyorsa (grafikleri embed etmek, filtreleri standartlaştırmak), daha hızlı ilerlersiniz.
İnşa edin: Katı iş akışları, sıkı izinler veya satıcı panolarının desteklemediği özel birleşimler gerekiyorsa kendi çözümünüzü geliştirin.
Hibrit: Ortak seçenek—data API + UI kabuğunu inşa edip, uzmanlaşmış araçları olduğu yerde bırakın.

“Tek pencere” her şeyi yeniden yazmak anlamına gelmez.

İş etkisini yansıtan SLO ve uyarıları nasıl tasarlamalıyız?

Önce kullanıcı etkisinin belirtilerine (symptoms) uyarı verin, sonra nedenlere.

İyi semptom uyarıları:

Checkout başarı oranı SLO'nun altına düştü
Ana yolculuklarda p95 gecikme eşiği aşıldı
Giriş hataları yükseldi

Ayrıca iş-etkisi olan küçük bir uyarı seti ekleyin (dönüşüm düşüşü, ödeme hataları, sipariş/dk düşüşü) ve her uyarıya beklenen bir eylem atayın (araştır, rollback, sağlayıcı değiştir, destek bildir).

Birleştirilmiş bir pano için gizlilik ve izinlerde nelere dikkat etmeliyiz?

Gelir/KPI'ları operasyonel veriyle karıştırmak gizlilik ve güven sorunlarını doğurur.

Uygulayın:

Gerçek ihtiyaçlara göre RBAC (engineering vs support vs finance)
Hassas alanlar için maskelenme/redaksiyon ve satır seviyesinde güvenlik
Üretim PII'sinin staging'e sızmaması için ortam ayrımı
KPI tanımı ve pano/eşik değişiklikleri için denetim kayıtları

Join yaparken mümkünse PII içermeyen sabit gibi kimlikler kullanın.

account_id