Werner Vogels’in “You Build It, You Run It” açıklaması

Q: Bir ekip tam olarak hangi sorumlulukları üstlenir?

“Run it” genellikle şunları içerir: - kullanıcıyı etkileyen sağlık göstergeleri için panolar (gecikme, hata oranı, trafik) - etkiyle ilişkilendirilmiş, eyleme dönüştürülebilir uyarılar (gürültülü olmayan) - olay iş akışı (triage, hafifletme, iletişim, takipler) - yaygın hatalar için runbooklar ve “ilk 15 dakika” adımları - kapasite ve maliyet sorumluluğu (ölçekleme, limitler, bütçeleme)

Q: İnsanları yıpratmadan on-call nasıl kurulur?

İnsancıl varsayımlarla başlayın: - uygun büyüklükte rotasyonlar ve net yükseltme yolları (primary/secondary/domain expert) - gerçekten etki eden durumlar için sayfalama (seviyelendirme) - responderların stres altında tahmin yürütmemesi için runbooklar - zor gecelerin ardından toparlanma süresi İyi bir on-call sistemi amaç olarak “gelecek ay daha az sayfa” hedefler; kahramanlığı normalleştirmek değil.

Q: Ne zaman page atmalı, ne zaman ticket açılmalı?

Basit bir kural: birini uyandırmak sonucu değiştirmeyecekse, bu bir ticket olmalı, page değil . Pratikte: - kesintiler, veri kaybı riski, güvenlik olayları veya sert SLO ihlalleri için page atın - bozulmuş ama kararlı durumları iş saatlerine yönlendirin; devam ederse page atılabilir - gürültülü alarmlar takip işi olarak (tuning, daha iyi sinyaller, otomasyon) ele alınsın

Q: SLO’lar ve hata bütçeleri “You Build It, You Run It”i nasıl destekler?

SLI : ne ölçtüğünüz (ör. istek başarı oranı) SLO : o ölçüm için hedef (ör. %99.9) Hata bütçesi : SLO’yu sağlarken harcayabileceğiniz düzensizlik miktarı Bütçe hızlı tükeniyorsa öncelik güvenilirlik işlerine verilir; bütçe iyiyse daha fazla teslimat riski alınabilir.

Q: Hangi sürüm pratikleri bu modeli sürdürülebilir kılar?

Aşağıdaki uygulamalar bu modeli sürdürülebilir kılar: - üretim hazırlığı temelleri (panolar, uyarılar, runbook, rollback planı) - kademeli teslimat (feature flag, canary, küçük sürümler) - prova edilmiş rollback/roll-forward adımları - yük ve hata testleri ile “bilinmeyenleri” azaltma

Q: Bu model altında olaylar ve postmortemler nasıl ele alınmalı?

Olayları tekrarlanabilir bir akışla yönetin: - detect → triage → mitigate → communicate → learn Sonra suçlayıcı olmayan (blameless) postmortemler yazın; sistem ve süreç açıklarını belgeleyin ve takipler: - somut - bir sahibi olan - zaman sınırlı Olay müdahalesi kontrol listesi gibi hafif bir şablon süreci standartlaştırmaya yardımcı olur.

Giriş Yap Başla

Werner Vogels’in “You Build It, You Run It” açıklaması | Koder.ai

“You Build It, You Run It” gerçekte ne demek

“Sen yaparsın, sen işletirsin” gibi bir ifade akılda kalır çünkü çok net ve serttir. Motivasyon posterleri ya da “daha fazla DevOps olmak” meselesi değildir. Bu, sorumluluk hakkında açık bir beyan: bir servisi yayınlayan ekip, o servisin üretimde nasıl davrandığından da sorumludur.

Temel fikir: dağıtmak ve işletmek aynı işin parçası

Pratikte bu, özellikleri tasarlayan ve kod yazan aynı ürün ekibinin ayrıca şunları da yaptığı anlamına gelir:

servisi üretimde izler
bozulduğunda yanıt verir
zaman içinde güvenilirliği iyileştirir
yeni işler ile operasyonel işler arasında takas kararları alır

Herkesin bir gecede altyapı uzmanı olması gerektiği anlamına gelmez. Anlamı şudur: geri bildirim döngüsü gerçek olur: bir şey yayınlayıp kesintileri, pager gürültüsünü ya da müşteri sıkıntısını artırırsanız, ekip bunu doğrudan hisseder—ve hızlı öğrenir.

Bir slogan değil, pratik bir işletme modeli

Bu felsefe tekrar edilmesi kolay ama uygulanması zordur; eğer onu açık beklentilerle bir işletme modeli olarak ele almazsanız işe yaramaz. “İşlet” genellikle bir şekilde on-call olmayı, olay müdahalesini sahiplenmeyi, runbook yazmayı, panoları korumayı ve servisi sürekli iyileştirmeyi içerir.

Ayrıca kısıtlar getirir: ekiplerden “işletin” demeden önce onlara sorunları düzeltmek için gerekli araçları, erişimi ve yetkiyi—ve yol haritalarında buna ayıracak zamanı—vermeksiniz diyemezsiniz.

Kime yönelik

Ürün/servis ekipleri: gerçek uçtan uca sahiplik ve daha hızlı öğrenme için.
Mühendislik yöneticileri: net sınırlar koymak ("bu ekip bu servisin sahibi") ve operasyonel işler için kapasite planlamak.
Platform ekipleri: sahipliği kolaylaştıran yollar sağlamak—ama üretim sorumluluğunu sessizce almadan.

Bu felsefe yazılım gönderme biçimini nasıl değiştirdi

“You Build It, You Run It” öncesinde pek çok şirket yazılım işini bir bayrak yarışına benzetiyordu: geliştiriciler kod yazdı, sonra "duvardan atıp" operasyon ekibine veriyordu; onlar dağıtım ve işletmeden sorumluydu.

Bu el değiştirme kısa vadede bir problemi çözdü—üretimi deneyimli biri izliyordu—ama daha büyük sorunlar yarattı.

Handoff problemi: yavaş geri bildirim ve bulanık sorumluluk

Ayrı bir ops ekibi üretimi sahipleniyorsa, geliştiriciler genellikle problemleri geç (veya hiç) öğrenir. Bir hata belki günler sonra belirsiz bir ticket olarak gelir: “servis yavaş” ya da “CPU yüksek.” O zaman bağlam kaybolur, loglar rotasyon olur ve değişikliği yapan kişiler çoktan ayrılmış olur.

Handoff ayrıca sahipliği bulanıklaştırır. Bir kesinti olduğunda geliştirici "ops yakalar" varsayar, ops ise "dev riskli bir şey yayınladı" der. Sonuç tahmin edilebilir: daha uzun olay çözümü, tekrarlayan hata modları ve ekiplerin müşteri deneyimi yerine yerel optimizasyona yönelmesi.

Neden sahiplik teslimatı hızlandırır ve tekrarlayan hataları azaltır

“You Build It, You Run It” döngüyü sıkılaştırır. Aynı değişikliği yayınlayan ekip, üretimde nasıl davrandığından sorumludur. Bu pratik iyileştirmeleri yukarı doğru iter: daha net alarmlar, daha güvenli rollout’lar, daha iyi panolar ve işletmesi daha kolay kod.

Paradoksal olarak, bu genellikle daha hızlı teslimata yol açar. Ekipler yayımlama sürecine güvendikçe ve üretim davranışını anladıkça, daha küçük değişiklikleri daha sık gönderebilir—hataların etki alanını azaltır ve problemleri teşhis etmeyi kolaylaştırır.

Tek boyutlu bir çözüm değil

Her kuruluş aynı kadro, uyum gereksinimleri veya miras sistemlerle başlamaz. Bu felsefe bir yönlendirmedir, bir anahtar değil. Pek çok ekip bunu kademeli olarak benimser—önce paylaşılan on-call, daha iyi gözlemlenebilirlik ve net servis sınırları—sonra tam uçtan uca sahipliğe geçer.

Kökeni: Werner Vogels ve servis zihniyeti

Amazon’un CTO’su Werner Vogels, "You build it, you run it" ifadesini popülerleştirdi; Amazon (ve sonrasında AWS) ekiplerinin yazılımı bir proje olarak değil, işletilen bir servis olarak düşünmesini istediğini anlatırken kullandı.

Ana değişim teknik kadar psikolojiktir. Bir ekip başarısızlık için sayfa alacağını bildiğinde, tasarım kararları değişir. Mantıklı varsayımlar, net uyarılar, zarif düşüşler ve geri alabileceğiniz dağıtım yolları önem kazanır. Başka bir deyişle, inşa etmek gerçek hayatın dağınık kısımlarını planlamayı içerir.

Bulut çağı neden çıtayı yükseltti

AWS dönemi servis düşüncesi güvenilirlik ve hızı vazgeçilmez kıldı. Bulut müşterileri API’lerin her zaman erişilebilir olmasını ve geliştirmelerin sürekli gelmesini bekliyor—çeyreklik büyük sürüm dalgaları değil.

Bu baskı şunları teşvik etti:

uzun ömürlü, küçük servisler ve net sahipler
kod değişiklikleri ile üretim davranışı arasında hızlı geri bildirim döngüleri
izleme, kapasite planlama, runbook gibi operasyonel alışkanlıkları ürün özelliği olarak görmek

İlişkili fikirler

Bu felsefe daha geniş DevOps hareketiyle örtüşür: “dev” ile “ops” arasındaki boşluğu kapatmak, el değiştirmeleri azaltmak ve kullanılabilirlik/latency/destek yükü gibi sonuçları geliştirme döngüsüne dahil etmek. Ayrıca bağımsız, küçük takımların bağımsız olarak yayın yapabilmesi fikrine de uyuyor.

İlham verici, birebir kopyalanacak şablon değil

Amazon’un yaklaşımını doğrudan şablon olarak almak cazip olabilir. Ancak “You Build It, You Run It” daha çok bir yöndür; katı bir örgüt şeması değil. Takım büyüklüğünüz, düzenleyici kısıtlarınız, ürün olgunluğunuz ve çalışma süresi gereksinimleriniz uyarlamalar gerektirebilir—paylaşılan on-call rotasyonları, platform desteği veya aşamalı benimseme gibi.

Eğer zihniyeti eyleme çevirmek istiyorsanız, ayrıntılı adım adım rehbere bakın.

Sahiplik: “run it” dediğinizde ekiplerin üstlendiği şeyler

“You Build It, You Run It” aslında sahiplik hakkında bir beyanattır. Ekibiniz bir servisi yayınlıyorsa, ekip o servisin gerçek dünyada nasıl davrandığından sorumludur—sadece yayın günü testleri geçip geçmediğiyle sınırlı değildir.

Sahiplik neleri kapsar

Bir servisi işletmek uçtan uca sonuçlarla ilgilenmeyi gerektirir:

Güvenilirlik: kullanıcıların güvenebildiği ve hataların hızlıca ele alındığı sistemler.
Performans: normal ve pik kullanım altında yeterince hızlı kalma.
Maliyet: sessizce bütçenin en pahalı maddesi haline gelmemesi.
Güvenlik ve uyumluluk: riskler teslimatın bir parçası olarak ele alınır, sonra değil.
Destek: müşteriler ve dahili kullanıcılar için net, zamanında yardım.

“Run it” pratikte neleri içerir

Normal bir haftada “run it” kahramanlık değil, rutin operasyonlar hakkındadır:

ekibin sağlığı bir bakışta görebilmesi için izleme ve panolar kurmak
kullanıcı etkisine bağlı, gürültüsüz uyarılar tanımlamak
olayları yönetmek: triage, hafifletme, iletişim ve takip işleri
kapasiteyi yönetmek: ölçekleme planları, yük testleri, kaynak limitleri
herhangi bir on-call kişinin tutarlı yanıt verebilmesi için güncel runbooklar tutmak

Hesap verebilirlik suçlama değildir

Bu model yalnızca hesap verebilirlik “biz düzeltiriz” anlamına geldiğinde işler; “suçlu arama” anlamına gelmemelidir. Bir şey bozulduğunda amaç, sistemdeki hangi koşulun bunun üretime ulaşmasına izin verdiğini anlamak—eksik alarmlar, belirsiz limitler, riskli dağıtımlar—ve bu koşulları iyileştirmektir.

Net sınırlar ve isimlendirilmiş sahip

Sahiplik servisler muğlak olduğunda karışır. Servis sınırlarını (ne yaptığı, neye bağımlı olduğu, ne taahhüt ettiği) tanımlayın ve isimlendirilmiş bir sahip ekip atayın. Bu netlik el değiştirmeleri azaltır, olay yanıtını hızlandırır ve güvenilirlik ile özellik rekabet ettiğinde öncelikleri belirgin kılar.

On-call doğru yapıldığında (ve insanları yakmadan)

On-call “You Build It, You Run It” için merkezidir çünkü geri bildirim döngüsünü kapatır. Aynı ekibin yaptığı değişiklikleri operasyonel etkisini (latency artışı, başarısız deploy’lar, müşteri şikayetleri) hissetmesi öncelikleri netleştirir: güvenilirlik işi artık “başkasının işi” değil ve daha fazla yayın yapmanın en hızlı yolu genellikle sistemi sakinleştirmektir.

On-call’ı insancıl kılmak için tasarım

Sağlıklı on-call çoğunlukla öngörülebilirlik ve destekle ilgilidir.

Takımların büyüklüğüne uygun rotasyonlar: kahramanlık yüklü takvimlerden kaçının. Kapsama inceyse, kapsamı azaltın (rotasyondaki servis sayısını düşürün) veya paylaşılan bir secondary ekleyin.
Yükseltme yolları: birincil cevaplayan, sonra ikincil, sonra domain uzmanı—kimse 03:00’te tek başına kalmasın.
Kötü geceler sonrası toparlanma süresi: sayısal telafi zamanı veya sayfa sonrası geç başlama; büyük olaylar sonrası izin. Dinlenme güvenilirliğin parçasıdır.
Runbooklar ve “ilk 15 dakika” kontrol listeleri: cevap verenlerin kestirmeden değil, net bir oyun kitabı olmalı.

Ciddiyet seviyeleri: sadece önemli olduğunda sayfa atın

Sistem her kusur için sayfa atmaması için ciddiyet seviyeleri tanımlayın.

Sev 1 (page): müşteri etkileyen kesinti, veri kaybı riski, güvenlik olayı veya sert SLO ihlali.
Sev 2 (iş saatlerinde page veya süreklilik halinde page): gerçek kullanıcı etkisi olan degrade olmuş servis.
Sev 3 (ticket): acil olmayan hatalar, dalgalı alarmlar, küçük hata oranı artışları, kapasite trendleri.

Basit kural: birini uyandırmanın sonucu değiştirmeyeceği durum bir ticket olmalı, page değil.

Gerçek hedef: gelecek ay daha az page

On-call bir ceza değildir; bir sinyaldir. Her gürültülü uyarı, tekrarlayan hata veya manuel düzeltme mühendislik işine geri dönmeli: daha iyi alarmlar, otomasyon, daha güvenli sürümler ve sayfa gereksinimini ortadan kaldıracak sistem değişiklikleri.

SLO’lar, SLI’lar ve hata bütçeleri: pratik sınırlar

Tam yaşam döngüsünü sahiplenin

Ekibinizin operasyonunu, geliştirmesini ve yinelemesini uzun elden teslimatlar olmadan yapabileceği bir React uygulaması inşa edin.

Web Uygulaması Oluştur

Eğer “sen işletirsin” gerçekse, ekiplerin güvenilirlik hakkında tartışmayı görüşlere bırakmayacak ortak bir dili olmalı. İşte SLIs, SLOs ve hata bütçeleri: net hedefler ve hızlı hareket ile istikrar arasında adil bir takas sağlar.

SLI vs SLO vs SLA (düz Türkçe)

SLI (Service Level Indicator): servisin nasıl davrandığını ölçen şey. Düşün: “Üretimde gerçekte ne görüyoruz?”
SLO (Service Level Objective): bir SLI için hedef. Düşün: “Hangi güvenilirlik seviyesini hedefliyoruz?”
SLA (Service Level Agreement): müşterilere verilen taahhüt, genellikle cezalar veya kredi içerir. Düşün: “Sözleşmeyle neyi garanti ediyoruz?”

Hatırlamak için: SLI = metrik, SLO = hedef, SLA = dış taahhüt.

Ölçülebilecek SLI örnekleri

İyi SLI’lar spesifik ve kullanıcı deneyimine bağlıdır, örneğin:

Gecikme: “%95 istekler 300ms altında tamamlanır.”
Kullanılabilirlik: “İstekler %99.9 zamanında başarılı (non-5xx).”
İş başarı oranı (asenkron sistemler için): “%99.5 günlük ihracatlar 06:00’a kadar başarıyla biter.”

Hata bütçeleri: hız ile stabilite arasındaki denge

Hata bütçesi, SLO’yu karşılamaya devam ederken harcayabileceğiniz “kötülük” miktarıdır (örneğin, %99.9 kullanılabilirlik için aylık hata bütçeniz %0.1 kesinti olur).

Servis sağlıklı ve bütçe içindeyse, ekipler daha fazla teslimat riski alabilir. Bütçeyi hızla harcıyorsanız, güvenilirlik işleri öncelik kazanır.

SLO’lar planlamayı nasıl yönlendirir

SLO’lar güvenilirliği plan girdisine dönüştürür. Hata bütçeniz düşükse, bir sonraki sprint hız sınırlama, daha güvenli rollout’lar veya kırılgan bağımlılıkların düzeltilmesi gibi güvenilirlik odaklı işler içermelidir—çünkü SLO’yu kaçırmanın net bir maliyeti vardır. Bütçe bolsa, ürün işlerine güvenle öncelik verilebilir.

Güvenle gönderme: üretim hazırlığı ve sürüm uygulamaları

“You build it, you run it” yalnızca üretime gönderme rutin haline gelirse işe yarar—yüksek riskli bir olay olmamalı. Hedef, yayın öncesi belirsizliği azaltmak ve yayın sonrası etki alanını sınırlamaktır.

Yayına almadan önce olması gerekenler

Bir servis “hazır” sayılmadan önce genellikle birkaç operasyonel temel gereklidir:

kullanıcıyı etkileyen sağlık için panolar (gecikme, hata oranı, trafik) ve ana bağımlılıklar
eyleme dönüştürülebilir uyarılar (net eşikler, sahip belirtme, gürültüsüz)
yaygın hatalar için runbooklar: önce ne kontrol edilir, nasıl hafifletilir, ne zaman yükseltilir
yedekler ve geri yükleme tatbikatları (tatbikat yedekten en az önemsiz değil) ve belgelenmiş saklama politikası

Kademeli teslimat: daha küçük, daha güvenli adımlar

Her şeyi aynı anda herkese yayınlamak yerine kademeli teslimat etkiyi sınırlar:

Feature flag’ler kodu yayınlayıp maruziyeti kontrol etmenizi sağlar; temizleme planı olmalı.
Canary sürümler yeni versiyona küçük bir trafik yüzdesi gönderir ve metrikleri kıyaslar.
Hızlı geri alımlar (veya roll-forward) prova edilmiş ve otomatik olmalı; kurtarma sahada doğaçlama olmamalı.

Rollback standart hale getiriliyorsa, bunu birinci sınıf yetenek olarak ele alın: ne kadar hızlı güvenle geri dönebilirseniz, “sen işletirsin” o kadar gerçekçi olur.

Yük ve hata testleri ile güven oluşturma

İki test “bilinmeyen bilinmeyenleri” azaltır:

Yük testi kapasite varsayımlarını doğrular ve darboğazları gerçek müşterilerden önce ortaya çıkarır.
Hata testi (ör. bağımlılık zaman aşımı, örnek öldürme, bağlantı düşürme) servisin zarifçe bozulduğunu ve alarmların gerektiğinde tetiklendiğini kontrol eder.

Basit bir üretim hazırlık kontrol listesi

Hafif tutun: repoda veya ticket şablonunda bir sayfa checklist (ör. “Gözlemlenebilirlik,” “On-call hazırlığı,” “Veri koruma,” “Rollback planı,” “Kapasite test edildi,” “Runbooklar bağlı”). “Hazır değil” durumu normal olsun—üretimde öğrenmekten çok daha iyidir.

Olaylar ve postmortemler: kesintileri öğrenmeye dönüştürmek

Daha fazla yapı kredisi edinin

Yaptıklarınızı paylaşarak veya ekip arkadaşları davet ederek maliyetleri azaltın.

Kredi Kazan

Olaylar “sen işletirsin”in gerçeğe dönüştüğü anlardır: bir servis bozulur, müşteriler fark eder ve ekip hızlı ve net şekilde yanıt vermeli.

Basit bir olay iş akışı

Çoğu ekip benzer aşamalarda uzlaşır:

Tespit: izleme uyarıları, müşteri raporları veya otomatik anomali algılama.
Triage: ne bozulduğunu onaylama, ciddiyeti tahmin etme, olay lideri atama ve zaman çizelgesi başlatma.
Hafifletme: kanamayı durdurma (rollback, feature flag kapatma, ölçekleme, kötü trafiği engelleme), sonra tam hizmeti geri getirme.
İletişim: etkilenenler, mevcut durum ve sonraki güncelleme zamanı; iletişim mitigasyonun parçasıdır.
Öğrenme: servis stabil olduktan sonra katkıda bulunan faktörleri analiz edip tekrarını önleme.

Bu akış için hafif bir checklist bulundurmak pratik olur.

Suçlayıcı olmayan postmortemler (ve ne yazılmalı)

Suçlayıcı olmayan postmortem "kimse hata yapmadı" anlamına gelmez. Amaç, hatanın üretime ulaşmasına izin veren sistem ve süreç eksiklerini araştırmaktır. Bu, insanların ayrıntıları erken paylaşmasını sağlar—öğrenme için şarttır.

Belgeleyin:

Müşteri etkisi: kim etkilendi, ne kadar süre ve ne derece.
Zaman çizelgesi: kilit olaylar, kararlar ve sinyallerin görünme zamanı.
Kök ve katkıda bulunan nedenler: teknik ve süreçsel faktörler (ör. belirsiz sahiplik, eksik alarmlar).
İyi giden / gitmeyen: iletişim dahil.

Tekrarı önleyen eylem maddeleri

İyi postmortemler somut, sahipli ve zaman bağlı takiplerle biter; genelde dört kovaya girer: araç iyileştirmeleri (daha iyi panolar/uyarılar), testler (regresyonlar ve uç durumlar), otomasyon (daha güvenli deploy/rollback, guardrail’lar) ve dokümantasyon (runbooklar, net operasyon adımları). Bir sahip ve bitiş tarihi atayın—aksi takdirde öğrenme teorik kalır.

Sahipliği kolaylaştıran araçlar

Araçlar “You Build It, You Run It”i sürdürülebilir kılan kaldıraçtır—ama araçlar gerçek sahipliğin yerini alamaz. Ekip operasyonu "başkasının işi" olarak görürse en güzel pano kaosu belgelemekten öte gitmez. İyi araçlar sürtünmeyi azaltır: doğru şeyi (gözlemek, yanıtlamak, öğrenmek) yapmak yanlış şeyi (tahmin yürütmek, suçlamak, görmezden gelmek) yapmaktan daha kolay olmalıdır.

Her ekibin ihtiyaç duyduğu asgari parçalar

En azından servis sahiplerinin yazılımlarının üretimde ne yaptığını görmenin ve sorun çıktığında hızlıca aksiyon almanın tutarlı bir yolu olmalı:

Merkezi loglar: aranabilir, olay incelemesi için yeterli saklama süresi ve mümkünse yapılandırılmış.
Metrikler: altın sinyaller (latency, trafik, hatalar, doygunluk) artı iş açısından kritik metrikler.
Dağıtık izleme/tracing: bir isteği servisler arasında takip edip darboğazları görmek için.
Uyarı sistemi: müşteri etkisine bağlı, eyleme dönüştürülebilir alarmlar.
Ticketing / olay iş akışı: çalışmaları izlemek, olayları takiplere bağlamak ve düzeltmelerin yayımlanmasını sağlamak.

İzleme dağınıksa ekipler av peşinde fazlaca zaman harcar; birleşik bir gözlemlenebilirlik yaklaşımı yardımcı olur.

Ölçekte sahipliği görünür kılma

Organizasyon büyüdükçe “bunu kim sahipleniyor?” güvenilirlik riski haline gelir. Bir servis kataloğu (veya dahili geliştirici portalı) sahipliği ve operasyonel bağlamı tek bir yerde tutar: ekip adı, on-call rotasyonu, yükseltme yolu, runbooklar, bağımlılıklar ve panolara bağlantılar.

Anahtar, güncel kalan sahiplik meta verisidir. Yeni servislerin sahip olmadan canlıya alınmaması gibi iş akışına dahil edin; sahiplik değişiklikleri kod değişikliği gibi (incelenen, izlenen) olsun.

Araçlar alışkanlıkları pekiştirmeli

En iyi kurulumlar ekipleri sağlıklı davranışlara yönlendirir: runbook şablonları, SLO’lara bağlı otomatik alarmlar ve "kullanıcılar etkileniyor mu" sorusunu saniyeler içinde cevaplayan panolar. Ama insan sistemi yine önemlidir—ekiplere bu araçları korumak, alarmları budamak ve işletme biçimlerini sürekli iyileştirmek için zaman verilmeli.

Platform ekiplerinin rolü: sahipliği elinden almadan destek

Platform ekipleri “You Build It, You Run It”ı yaşamaya daha kolay kılar. Görevleri herkes için üretimi yürütmek değil—ürün ekiplerinin her sprintte operasyonu yeniden keşfetmeden sahip olabileceği iyi aydınlatılmış yollar (paved roads) sağlamaktır.

Paved roads, şablonlar, guardrail’lar

İyi bir platform, yanlış yapmayı zorlaştıran ve benimsemeyi kolaylaştıran varsayılanlar sunar:

yeni servisler için golden-path şablonları (repo yapısı, logging, uyarılar, panolar)
güvenli dağıtım seçenekleri içeren standart CI/CD pipeline’ları (canary, blue/green, otomatik rollback)
üretime hazır çalışma zamanı temelleri (health check, rate limit, konfigürasyon konvansiyonları)

Guardrail’lar gönderimi engellemek yerine riskli davranışı önlemeli. "Varsayılan olarak güvenli" düşünün.

Paylaşılan servisler vs paylaşılan sahiplik

Platform ekipleri paylaşılan servisleri çalıştırabilir—ama ürün servislerinin sahipliğini devralmamalıdır.

Paylaşılan servisler: kimlik/authorization, secret yönetimi, container platform, artifact registry, gözlemlenebilirlik yığını.
Ürün sahipliği: her ekip hala kendi servisinin güvenilirliğinden, performansından, veri bütünlüğünden ve on-call’ından sorumludur.

Sınır basittir: platform ekibi platformun çalışma süresinden sorumludur; ürün ekipleri platformu kullanarak kendi servislerinin davranışını sahiplenir.

Platformlar bilişsel yükü nasıl azaltır

Ekipler ilk günden CI/CD, auth veya secret yönetiminde uzman olmak zorunda kalmazsa, servis davranışı ve kullanıcı etkisine odaklanabilirler.

Örnekler:

tutarlı test gate’leriyle tek tıklamayla pipeline kurma
servisler arası kimlik sağlayan merkezi auth
otomatik döndürme politikalı yönetilen secret’lar
ortak metrikleri otomatik enstrüman eden temel monitoring

Sonuç: daha az özel operasyonel iş ile daha hızlı teslimat; aynı zamanda temel vaat korunur: servisi inşa eden ekip, onu çalıştırır.

Yaygın tuzaklar ve modeli ne zaman uyarlamalı

Doğru katmanı seçin

Sahiplik büyüdükçe takımınıza uyan bir katman seçin: ücretsizden enterprise’a.

Planları Karşılaştır

“You build it, you run it” güvenilirlik ve hızı artırabilir—ama organizasyon ekip etrafındaki koşulları değiştirmedikçe başarılı olamaz. Birçok başarısızlık, sloganın benimsendiği ama destekleyici alışkanlıkların alınmadığı durumlarda görülür.

Dikkat edilmesi gereken başarısızlık modelleri

Tekrar eden bazı örüntüler:

Geliştiriciler on-call ama kök nedenleri düzeltmeye vakit yok. Pager gece işi haline gelirken backlog güvenilirlik işlerini iter. Bu öğrenilmiş çaresizlik yaratır: insanlar olayların gerçek düzeltmelere dönüşeceğine inanmaz.
Belirsiz sahiplik ("herkes sahip"). Bir olay beş takımı ilgilendiriyorsa ve kimse uçtan uca karar veremiyorsa, sahiplik yok—toplantı var.
Çok fazla paylaşılan bağımlılık. Her servis merkezi bir veritabanı şemasına, paylaşılan bir kütüphaneye veya değişiklikler için “çekirdek” bir takıma bağımlıysa, ekipler gerçekten inşa ettiklerini çalıştıramaz. Başarısızlığı miras alırlar ama azaltmak için kaldıraçları yoktur.
On-call ceza veya kahramanlık olarak görülür. Kültür yangına müdahale etmeyi önleme yerine ödüllendiriyorsa, sistem sık sık acil durumlara kayma eğiliminde olur.

Model her zaman uymayabilir (ve nasıl uyarlarsınız)

Bazı ortamlar uyarlama gerektirir:

Ağır uyumluluk veya düzenlemeler. Ayrılma gerektiren görevler, resmi değişiklik kontrolü veya sınırlı üretim erişimi olabilir. Uyarlama: servis ekiplerini güvenilirlik sonuçlarından sorumlu tutun, ama onaylı iş akışları (denetlenmiş runbooklar, ön-onaylı değişiklikler, break-glass erişim) kullanın.
Miras monolitler. Bir kod tabanı içindeki dolanıklık “run it”i zorlaştırır. Belirli modüller, iş görevleri veya kullanıcı yolculukları için net operasyonel sahiplik çıkararak başlayın; sonra gözlemlenebilirlik ve dağıtım güvenliğine yatırım yapın.
Kritik paylaşılan platformlar. Bir platform birçok ürün takımını destekliyorsa platform ekibi platformu çalıştırabilir—ancak ürün takımları yine de servis davranışı ve güvenilirlik hedeflerini sahiplenmelidir.

Liderliğin işi: güvenilirlik kapasitesini korumak

Bu felsefe, güvenilirlik işi "fazladan" muamelesi gördüğünde en hızlı çöker. Liderlik açıkça şu için kapasite ayırmalı:

operasyonel borcu azaltma (alarmlar, runbooklar, otomasyon)
tekrarlayan olay nedenlerini düzeltme
riskli bağımlılıkları azaltma

Bu korunma yoksa, on-call vergi haline gelir—oysa doğru işleyince on-call sistemi sistemi iyileştiren bir geri bildirim döngüsüdür.

“You Build It, You Run It”i adım adım benimseme

Bunu uygulamak şirket genelinde bir duyuru değil, aşamalı bir değişim olarak daha iyi işler. Küçük başla, sahipliği görünür kıl ve sonra genişletin.

1) Bir servisle pilot başlatın

Net sınırları olan bir servis seçin (kullanıcıları belirgin ve riski yönetilebilir olan).

Tanımlayın:

Kullanıcı deneyimini yansıtan bir SLO (örn. “%99.9 istek başarılı”)
O servis için on-call kapsaması (başlangıçta iş saatleri + yükseltme olabilir)
Yaygın hata modları için runbooklar: "ne kontrol edilir", "nasıl rollback yapılır", "kimi page’leyelim"

Anahtar: değişiklikleri yayınlayan ekip, o servisin operasyonel sonuçlarından da sorumludur.

2) Ölçeklemeden önce guardrail’ları ekleyin

Daha fazla servise genişlemeden önce pilot ekibin kahramanlık olmadan çalışabildiğinden emin olun:

kullanıcı etkisi olan sorunlar için page atan temel uyarılar
hafif bir üretim hazırlık kontrol listesi (logging, panolar, rollback yolu)
sayfa ve olayların düzenli gözden geçirilmeye alınması; gürültülü alarmları kaldırma ve tekrarlayan sorunları düzeltme

3) Doğru benimseme metriklerini takip edin

Üç-beş göstergeyle sahipliğin teslimat ve stabiliteyi iyileştirip iyileştirmediğini görün:

Değişiklik başarısızlık oranı (bir deploy ne sıklıkla olay/rollback ile sonuçlanıyor)
MTTR (ortalama onarma süresi)
Sayfa hacmi (haftalık sayfalar + mesai dışı sayfalar)
Dağıtım sıklığı (güvenle ne kadar sık yayın yapabiliyorsunuz)

Örnek 30/60/90 günlük plan

Gün 1–30: pilot servisi seç, SLO tanımla, page politikası belirle, ilk runbookları yaz, panolar oluştur.
Gün 31–60: alarmları ayarla (gürültüyü azalt), olay müdahalesi pratiği yap, yayın güvenliği ekle (rollback adımları, mümkünse canary).
Gün 61–90: 1–2 servise daha genişle, şablonları standartlaştır (runbook/SLO belgeleri), metrikleri ve iş yükü adaletini gözden geçir.

Koder.ai bu süreçte nerede duruyor

Eğer “sen yaparsın, sen işletirsin”i benimserken aynı zamanda teslimatı hızlandırmaya çalışıyorsanız, darboğaz genellikle aynıdır: fikirden → üretime hazır bir servise, net sahiplikle ve güvenli rollback öyküsüyle ulaşmak.

Koder.ai bir vibe-coding platformudur; sohbet arayüzü üzerinden web, backend ve mobil uygulamalar oluşturmanıza yardımcı olur (web için React, backend için Go + PostgreSQL, mobil için Flutter). Servis sahipliğine kayan ekipler için birkaç özellik işletme modeliyle iyi uyuşur:

Planlama modu: kodlamaya başlamadan önce servis sınırlarını, bağımlılıkları ve runbook/SLO beklentilerini tanımlamaya yardımcı olur.
Anlık görüntüler ve rollback: olaylarda “hızlı geri al”ı standart bir hamle yapar.
Kaynak kodu dışa aktarımı: sahipliğin ekipte (repo’da), araçta değil, kalmasını sağlar.

Sonraki adım

Bu hafta pilot servisinizi seçin ve ilk SLO’yu, on-call rotasyonunu ve runbook sahiplerini belirlemek için 60 dakikalık bir başlangıç toplantısı planlayın. Araç ve iş akışı değerlendirmesi yapıyorsanız (gönderme, geri alma ve sahiplik etrafındaki iş akışları), fiyatlandırma sayfasına göz atın veya uygun planları inceleyin.

SSS

“You Build It, You Run It” pratikte ne anlama geliyor?

Bu, servisi tasarlayan, inşa eden ve dağıtan ekibin aynı zamanda canlıya çıktıktan sonra da ne olduğundan sorumlu olması demektir: izleme, on-call yanıtı, olay sonrası takipler ve güvenilirlik iyileştirmeleri.

Bu bir sorumluluk modelidir (net sahiplik); bir araç seçimi ya da sadece iş tanımı değişikliği değildir.

“Run it” demek her geliştiricinin ops uzmanı olması mı demek?

Her mühendisin tam zamanlı bir altyapı uzmanı olması gerektiği anlamına gelmez.

Anlamı şudur:

ekip, üretim sorunlarını teşhis edip düzeltmek için erişime ve yetkiye sahiptir
operasyonel işler ekibin normal planlamasının bir parçasıdır
platform araçları karmaşıklığı azaltmalı (yol döşeme/guided path) ama sahipliği elinden almamalıdır

Neden bu, geleneksel dev/ops el değiştirmesinden daha iyi?

Ayrı bir ops ekibi olduğunda geri bildirim gecikir ve sorumluluk bulanıklaşır: geliştiriciler üretim etkisini hissetmeyebilir, ops ekipse yapılan değişikliklerin bağlamına sahip olmayabilir.

Uçtan uca sahiplik genellikle şunları iyileştirir:

olay müdahalesi hızı (daha az el değiştirme)
sürüm kalitesi (ekipler daha güvenli dağıtımlar için yatırım yapar)
uzun vadeli stabilite (kök nedenler düzeltilir, sadece yamalanmaz)

Bir ekip tam olarak hangi sorumlulukları üstlenir?

“Run it” genellikle şunları içerir:

kullanıcıyı etkileyen sağlık göstergeleri için panolar (gecikme, hata oranı, trafik)
etkiyle ilişkilendirilmiş, eyleme dönüştürülebilir uyarılar (gürültülü olmayan)
olay iş akışı (triage, hafifletme, iletişim, takipler)
yaygın hatalar için runbooklar ve “ilk 15 dakika” adımları
kapasite ve maliyet sorumluluğu (ölçekleme, limitler, bütçeleme)

İnsanları yıpratmadan on-call nasıl kurulur?

İnsancıl varsayımlarla başlayın:

uygun büyüklükte rotasyonlar ve net yükseltme yolları (primary/secondary/domain expert)
gerçekten etki eden durumlar için sayfalama (seviyelendirme)
responderların stres altında tahmin yürütmemesi için runbooklar
zor gecelerin ardından toparlanma süresi

İyi bir on-call sistemi amaç olarak “gelecek ay daha az sayfa” hedefler; kahramanlığı normalleştirmek değil.

Ne zaman page atmalı, ne zaman ticket açılmalı?

Basit bir kural: birini uyandırmak sonucu değiştirmeyecekse, bu bir ticket olmalı, page değil.

Pratikte:

kesintiler, veri kaybı riski, güvenlik olayları veya sert SLO ihlalleri için page atın
bozulmuş ama kararlı durumları iş saatlerine yönlendirin; devam ederse page atılabilir
gürültülü alarmlar takip işi olarak (tuning, daha iyi sinyaller, otomasyon) ele alınsın

SLO’lar ve hata bütçeleri “You Build It, You Run It”i nasıl destekler?

SLI: ne ölçtüğünüz (ör. istek başarı oranı)

SLO: o ölçüm için hedef (ör. %99.9)

Hata bütçesi: SLO’yu sağlarken harcayabileceğiniz düzensizlik miktarı

Bütçe hızlı tükeniyorsa öncelik güvenilirlik işlerine verilir; bütçe iyiyse daha fazla teslimat riski alınabilir.

Hangi sürüm pratikleri bu modeli sürdürülebilir kılar?

Aşağıdaki uygulamalar bu modeli sürdürülebilir kılar:

üretim hazırlığı temelleri (panolar, uyarılar, runbook, rollback planı)
kademeli teslimat (feature flag, canary, küçük sürümler)
prova edilmiş rollback/roll-forward adımları
yük ve hata testleri ile “bilinmeyenleri” azaltma

Bu model altında olaylar ve postmortemler nasıl ele alınmalı?

Olayları tekrarlanabilir bir akışla yönetin:

detect → triage → mitigate → communicate → learn

Sonra suçlayıcı olmayan (blameless) postmortemler yazın; sistem ve süreç açıklarını belgeleyin ve takipler:

somut
bir sahibi olan
zaman sınırlı

Olay müdahalesi kontrol listesi gibi hafif bir şablon süreci standartlaştırmaya yardımcı olur.

Platform ekiplerinin rolü ne olmalı, sahipliği elinden almayacak şekilde?

Platform ekipleri “paved roads” (yol döşeme) sağlayarak benimsemeyi kolaylaştırmalı: şablonlar, CI/CD, guardrail’lar, ortak servisler. Ancak ürün ekiplerinin hizmetin davranışı ve güvenilirliği üzerindeki sahipliğini elinden almamalıdır.

Pratik sınır:

platform ekibi platformun çalışma süresinden sorumludur
ürün ekipleri platformu kullanarak kendi servislerinin güvenilirliğinden sorumludur