Veri Modeli Seçimleri Mimarinizi Uzun Vadede Nasıl Kilitler

Q: Veri modelimi kırılgan değil, güvenli bir sözleşme haline nasıl getiririm?

Her yaygın kullanılan tabloyu bir arabirim gibi ele alın: - Tablonun tahılını tanımlayın (“her satır bir ”). - Birincil anahtar/benzersizlik kuralı açıklayın. - Gerekli vs isteğe bağlı alanları ve izin verilen değerleri belgeleyin. - Metrik tanımlarını ayrı yayınlayın ki anlam kayması olmasın. Amaç “hiç değiştirmemek” değil—“sürpriz olmadan değiştirmek”tir.

Q: Performans ve maliyet kısıtlamaları veri modeli kararlarını nasıl etkiler?

Fiziksel seçimler davranışsal kısıtlar haline gelir: - Bölümlendirme/klasterleme belirli filtreleri ödüllendirir, diğerlerini cezalandırır. - Geniş tablolar BI kullanımını hızlandırabilir ama veri çoğaltır ve güncellemeleri zorlaştırır. - Çok normalize modeller bütünlüğü korur ama join ağırlığı nedeniyle yavaş olabilir. Dominant erişim desenlerinize göre tasarlayın (örn. son 30 gün, hesap id’ye göre) ve bölümlendirmeyi backfill/yeniden işleme yönteminize uygun hale getirin.

Giriş Yap Başla

Veri Modeli Seçimleri Mimarinizi Uzun Vadede Nasıl Kilitler | Koder.ai

Veri Modelleri Neden Uzun Vadede Kilitlenme Yaratır

“Kilitleme” veri mimarisinde sadece satıcılar veya araçlarla ilgili değildir. Şema değiştirmenin o kadar riskli veya maliyetli hale gelmesi durumudur ki değişimi bırakırsınız—çünkü panoları, raporları, ML özelliklerini, entegrasyonları ve verinin ne anlama geldiğine dair ortak anlayışı bozacaktır.

Bir veri modeli, kalan her şeyden daha uzun süre yaşayan kararlardan biridir. Ambarlar değiştirilebilir, ETL araçları yer değiştirir, ekipler yeniden düzenlenir ve isimlendirme zaman içinde kayar. Ama onlarca aşağı akış tüketicisi bir tablonun sütunlarına, anahtarlarına ve tanesine bağımlı hale geldiğinde model bir sözleşme olur. Değiştirmek sadece teknik bir göç değil; insanlar ve süreçler arasında bir koordinasyon problemidir.

Neden modelleme tercihleri araçlardan daha uzun ömürlüdür

Araçlar değiştirilebilir; bağımlılıklar değiştirilemez. Bir modelde “revenue” olarak tanımlanan bir metrik başka bir modelde “gross” olabilir. Bir müşteri anahtarı bir sistemde “fatura hesabı”, başka bir sistemde “kişi” anlamına gelebilir. Bu düzeydeki anlam taahhütleri yayıldığında geri çevrilmesi zorlaşır.

Kilitlenmeye yol açan ana karar noktaları

Uzun vadeli kilitlenmenin çoğu birkaç erken tercihe dayanır:

Tahıl (grain): bir satırın neyi temsil ettiği (olaya göre, güne göre, müşteriye göre, sipariş satırına göre)
Anahtarlar ve kimlik: bir şeyi nasıl benzersiz tanımladığınız ve bu kimliğin değişip değişemeyeceği
Geçmiş: değişiklikleri zaman içinde saklayıp saklamadığınız ve nasıl sakladığınız (snapshot, SCD, olay günlükleri)
Semantik: iş tanımlarının nerede yaşadığı (metrikler, boyutlar, paylaşılan mantık)
Erişim desenleri: analistlere, BI araçlarına, uygulamalara veya ML’ye mi optimize ettiğiniz

Takaslar normaldir. Amaç taahhütten kaçınmak değil—en önemli taahhütleri kasıtlı yapmak ve diğerlerini mümkün olduğunca geri döndürülebilir tutmaktır. Sonraki bölümler değişim kaçınılmaz olduğunda kırılmayı azaltmanın pratik yollarına odaklanır.

Bir Veri Modelinin Dokunduğu Yerler (Beklediğinizden Fazlası)

Veri modeli sadece bir dizi tablo değildir. Çoğu zaman ilk sürümü bitirmeden önce birçok sistemin sessizce bağımlısı haline gelen bir sözleşme olur.

Bariz bağımlılıklar

Bir model “onaylandığında”, genellikle şunlara yayılır:

Panolar ve raporlar (kaydedilmiş sorgular, grafik mantığı, filtreler)
ML özellikleri (feature store’lar, eğitim boru hatları, çevrimiçi scoring girdileri)
Reverse ETL ("müşteri durumu" veya "churn riski" gibi alanları CRM’ye geri senkronize etmek)
Dahili veya partner API’leri (ambarı doğrudan okuyan servisler)
Veri paylaşımı (paylaşımlar, Delta sharing, satıcılara ihracatlar)

Her bağımlılık değişimin maliyetini katlar: artık tek bir şemayı düzenlemiyorsunuz—birçok tüketiciyi koordine ediyorsunuz.

Bir metrik nasıl birçok kopyaya dönüşür

Yayınlanmış tek bir metrik (ör. “Active Customer”) nadiren merkezde kalır. Biri bunu BI aracında tanımlar, başka bir ekip dbt’de yeniden oluşturur, bir growth analisti bir notebook’ta sert kodlar ve bir ürün panosu biraz farklı filtrelerle tekrar gömer.

Birkaç ay sonra “tek metrik” aslında farklı uç durum kurallarıyla birkaç benzer metrik olur. Modeli değiştirmek artık sadece sorguları kırma riski değil; güveni bozma riskidir.

ER diyagramlarında görmediğiniz gizli bağlantılar

Kilitlenme genellikle şurada gizlenir:

Alt akış araçlarının varsaydığı adlandırma kuralları (örn. *_id, created_at)
İnsanların kanonik saydığı join yolları (“siparişler her zaman X ile müşterilere join edilir”)
Sütunlara gömülmüş ima edilen iş kuralları (örn. iadeleri hariç tutma, saat dilimi mantığı)

Operasyonel etkiler: maliyet, gecikme ve olay müdahalesi

Model şekli günlük operasyonları etkiler: geniş tablolar tarama maliyetlerini yükseltir, yüksek tahıl olay modelleri gecikmeyi artırabilir ve belirsiz lineage vakaları triage’ı zorlaştırır. Metrikler kaydığında veya boru hatları başarısız olduğunda, çağrı sırasındaki müdahaleniz modelin ne kadar anlaşılır ve test edilebilir olduğuna bağlıdır.

Tahıl Kararı: İlk Mimari Taahhüt

“Tahıl” bir tablonun temsil ettiği detay seviyesidir—her satır tam olarak hangi şeye ait? Küçük görünür ama genellikle mimarinizi sessizce yerinde sabitleyen ilk karardır.

Basit örneklerle tahıl

Orders tahılı: bir satır her sipariş için (order_id). Sipariş toplamları, durum ve yüksek seviyeli raporlama için iyi.
Order items tahılı: bir satır her satır kalemi için (order_id + product_id + line_number). Ürün karışımı, kalem başına indirimler, SKU bazında iadeler için gerekli.
Sessions tahılı: bir satır her kullanıcı oturumu için (session_id). Huni analizi ve atribüsyon için kullanışlı.

Sorun, işletmenin kaçınılmaz olarak soracağı soruları doğal olarak yanıtlayamayan bir tahıl seçtiğinizde başlar.

Yanlış tahıl nasıl garip veriler yaratır (ve ekstra tablolar)

Eğer sadece orders saklarsanız ama sonra “gelire göre en iyi ürünler” gerekir hale gelirse zorlanırsınız:

sipariş satırlarının JSON/array içinde sıkıştırılması (sorgulaması zor), veya
daha sonra bir order_items tablosu oluşturup backfill yapmak (göç ağrısı), veya
çoğalan mantıkla birden çok türetilmiş tablo oluşturmak (orders_by_product, orders_with_items_flat) ve bunun zamanla sürüklenmesi.

Benzer şekilde, birincil fact tahılınız sessions ise “güne göre net gelir” dikkatli köprüleme yapılmadıkça zorlaşır. Kırılgan join’ler, çift sayma riskleri ve “özel” metrik tanımlarıyla sonuçlanırsınız.

Gelecekteki join’lerinizi belirleyen ilişkiler

Tahıl ilişkilerle sıkı bağlıdır:

Birden çoğa (order → items): “bir” tarafında model yaparsanız detay kaybolur veya tekrar eden sütunlar oluşur.
Çoktan çoğa (sessions ↔ campaigns, products ↔ categories): köprü tablolar gerekir. Erken atladıysanız, sonra yapılan çözümler ETL’ye iş mantığını sert kodlama eğilimindedir.

Hızlı bir tahıl doğrulama kontrol listesi

İnşa etmeden önce paydaşlara cevaplayabilecekleri sorular sorun:

“’Bir sipariş’ dediğinizde tüm siparişi mi yoksa içindeki her ürünü mü kastediyorsunuz?”
“Her iki seviyede (sipariş ve kalem) raporlamaya ihtiyaç var mı? Hangisi birincil?”
“Önümüzdeki çeyrek sormayı planladığınız en önemli 5 soru nedir? Bunlar kalem düzeyinde ayrıntı gerektirir mi?”
“Bir olay birden fazla şeye ait olabilir mi (birden fazla kampanya, birden fazla kategori)?”
“Hangi şeyler asla çift sayılmamalı (gelir, kullanıcılar, oturumlar) ve hangi tahıl bunun için güvenlidir?”

Anahtarlar ve Kimlik: Doğal vs Ardıl ve Neden Önemli

Anahtarlar modelinizin “bu satır gerçek dünyadaki o satır ile aynı şeydir” kararını verir. Bunu yanlış yaparsanız her yerde hissedersiniz: join’lar karışır, artımlı yüklemeler yavaşlar ve yeni sistemleri entegre etmek bir kontrol listesinden ziyade bir pazarlık haline gelir.

Doğal anahtarlar vs ardıl anahtarlar (düz anlatım)

Doğal anahtar işte veya kaynak sistemde zaten var olan bir tanımlayıcıdır—fatura numarası, SKU, e-posta veya CRM customer_id gibi. Ardıl anahtar ise sizin yarattığınız içsel bir ID’dir (genellikle bir integer veya üretilmiş bir hash) ve depoda dışarıda anlamı yoktur.

Doğal anahtarlar anlaşılırdır. Ardıl anahtarlar ise yönetilirlerse stabildir.

Zaman içinde stabilite: ID’ler değiştiğinde ne olur

Kilitlenme, bir kaynak sistemin kaçınılmaz değiştiğinde ortaya çıkar:

Bir CRM migrate edildiğinde müşteri ID’leri yeniden atanabilir.
Ürün kataloğu SKU’ları numaralandırma şeklini değiştirebilir.
Bir satın alma, ikinci bir customer_id ad alanı getirebilir ve çakışma olabilir.

Ambarınızda doğal anahtarları her yerde kullandıysanız, bu değişiklikler fact’lerden dimension’lara ve panolara kadar dalga dalga yayılabilir. Tarihsel metrikler kayar çünkü “customer 123” eskiden bir kişiyi ifade ederken şimdi başka birini ifade edebilir.

Ardıl anahtarlarla, yeni kaynak ID’lerini mevcut ardıl kimliğe eşleyerek ambar kimliğini sabit tutabilirsiniz—bir eşleme tablosu kullanarak.

Birleştirme/dedup mantığı: kimlik bir join değil, bir politikadır

Gerçek veri dedupe kuralları gerektirir: “aynı e-posta + aynı telefon = aynı müşteri”, veya “en yeni kaydı tercih et”, veya “doğrulanana kadar her ikisini de tut”. Bu dedupe politikası şunları etkiler:

Join’lar: kimlik çözümü geç gerçekleşirse (BI’da), her join koşullu ve tutarsız hale gelir.
Artımlı yüklemeler: birleşmeler geçmişi yeniden yazabiliyorsa, backfill veya “re-keying” mantığı gerekebilir; bu pahalı ve risklidir.

Pratik bir desen, birden fazla kaynak anahtarının bir ambar kimliğine nasıl yuvarlandığını izleyen ayrı bir eşleme tablosu (identity map) tutmaktır.

Veri paylaşımı ve yeni ürünlerin entegre edilmesi için sonuçlar

Verileri paylaştığınızda veya yeni edinilen bir şirketi entegre ettiğinizde, anahtar stratejisi çabayı belirler. Bir sisteme bağlı doğal anahtarlar genellikle iyi taşınmaz. Ardıl anahtarlar dahili olarak taşınır, ancak başkalarının bunlara join atması gerekiyorsa tutarlı bir crosswalk yayımlamanız gerekir.

Her iki durumda da anahtarlar bir taahhüttür: yalnızca sütun seçmiyorsunuz—iş varlıklarınızın değişim karşısında nasıl hayatta kalacağını karar veriyorsunuz.

Zamanı ve Değişimi Modellemek: Gelecekteki Kendiniz Teşekkür Edecek

Zaman, “basit” modelleri pahalı hale getiren yerdir. Çoğu ekip bir şimdiki durum tablosuyla başlar (müşteri/sipariş/bilet başına bir satır). Sorgulaması kolaydır ama ileride ihtiyaç duyacağınız cevapları sessizce siler.

“Geçmiş”in ne anlama geldiğine karar verin (ihtiyaç doğmadan önce)

Genellikle üç seçenek vardır ve her biri farklı araçlar ve maliyetler kilitler:

Üzerine yazma (şimdi anlık görüntü): en az depolama, en basit tablolar, en zayıf izlenebilirlik.
Sadece ekleme olayları (immutable log): en iyi denetlenebilirlik, ama sorgular genellikle daha fazla iş gerektirir (dedupe, sessionize, “son durum”).
Yavaş değişen boyutlar (SCD): varlıklar için orta yol; genellikle effective_start, effective_end ve is_current bayrağı ile.

Eğer “o zaman ne biliyorduk?” sorusuna ihtiyacınız olabileceğini düşünüyorsanız, yalnızca overwrite yeterli değildir.

Şimdiki durumun yeterli olmadığı zamanlar

Ekipler eksik geçmişi genellikle şu durumlarda keşfeder:

Denetimler ve finans: “Fatura anındaki fiyat/indirim/vergiler neydi?”
Müşteri desteği: “O olay olduğunda hangi adres veya plan aktiftı?”
Uyumluluk ve güven: “O tarihte kimin erişimi vardı?”

Bunu sonradan yeniden inşa etmek zordur çünkü upstream sistemler gerçeği zaten üstüne yazmış olabilir.

Zamanın keskin kenarları: zonlar, efektif tarihler, geç gelen veriler

Zaman modelleme sadece bir zaman damgası sütunu değildir.

Saat dilimleri: açık bir an (UTC) saklayın ve gerekiyorsa raporlama için orijinal yerel saat dilimini de tutun.
Effective date vs event time: “effective” iş gerçekliğini (sözleşme başlangıcı), “event” kaydedildiği zamanı gösterir.
Geç gelen veriler ve backfill’ler: append-only ve SCD desenleri düzeltmeleri ve düzeltme kayıtlarını daha iyi yönetir; overwrite genellikle kırılgan yeniden yapılandırmalar gerektirir.

Maliyet ve basitlik takası

Geçmiş depolamak depolama ve işlem maliyetini artırır, ama ileride karmaşıklığı azaltabilir. Append-only günlükler almayı ucuz ve güvenli kılabilirken, SCD tabloları sık kullanılan “o ana göre” sorguları basitleştirir. Sadece bugünün panolarına göre değil, işin soracağı sorulara uygun deseni seçin.

Normalizasyon vs Boyutsal: Kimi Optimize Ediyorsunuz

Migrasyonları küçük bir uygulamayla doğrulayın

Paralel modeller için haftalarca özel kod yazmadan bir uzlaştırma panosu oluşturun.

Hemen Başla

Normalizasyon ve boyutsal modelleme sadece “stil” değildir. Sisteminizin kime daha dost olacağını belirler—boru hattını bakımını yapan veri mühendisleri mi, yoksa her gün soruları yanıtlayan kişiler mi.

Normalize modeller: çoğaltmayı azalt, güncelleme ağrısını azalt

Normalize model (genellikle 3NF), veriyi daha küçük, ilişkili tablolara böler böylece her gerçek yalnızca bir yerde saklanır. Amaç çoğaltmayı ve bununla gelen sorunları önlemektir:

Bir müşterinin adresi değiştiğinde, onu on farklı rapor tablosunda değil sadece bir yerde güncellersiniz.
Bir ürün adı düzeltildiğinde, panolar arasında tutarsız yazım olmaz.

Bu yapı veri bütünlüğü ve sık güncelleme olan sistemler için iyidir. Genellikle mühendislik ağırlıklı ekipler tarafından tercih edilir.

Boyutsal modeller (star şemaları): hız ve kullanılabilirlik

Boyutsal modelleme veriyi analize göre yeniden şekillendirir. Tipik bir star şemada:

Bir fact tablosu (olaylar veya ölçümler: siparişler, oturumlar, ödemeler)
Birkaç dimension tablosu (müşteri, ürün, tarih, bölge gibi betimsel bağlam)

Bu düzen hızlı ve sezgiseldir: analistler boyutlara göre filtreleyip gruplayabilir, BI araçları genelde buna uygundur. Ürün ekipleri için de özservis keşif daha gerçekçi hale gelir.

Hangi seçim kimden fayda sağlar?

Normalize modeller şu grupları optimize eder:

veri platformu bakımcıları (temiz güncellemeler, daha az çoğaltma)
birden çok aşağı akış kullanımında tutarlılık

Boyutsal modeller şu grupları optimize eder:

analistler ve analitik mühendisleri (daha basit SQL)
BI araçları (doğrudan ilişkiler)
ürün ekipleri (daha hızlı cevap, daha fazla özservis)

Kilitleme gerçektir: onlarca pano bir star şemaya bağlıysa, tahılı veya boyutları değiştirmek siyasi ve operasyonel olarak pahalıdır.

Pratik bir hibrit: normalize edilmiş staging + küratörlü martlar

Drama azaltma yaklaşımlarından biri her iki katmanı da tutmaktır:

Normalize staging/core: veriyi minimal yeniden şekillendirmeyle land ve standartlaştır, kaynakları koru ve çoğaltmayı azalt.
Küratörlü boyutsal martlar: en yüksek değerli kullanım durumları için star şemaları yayınla (gelir, büyüme, tutundurma) ve stabil metrik tanımları sağla.

Bu hibrit, kayıt sistemi (system of record) esnek tutarken işin beklediği hız ve kullanılabilirliği sağlar—tek bir modelin her işi yapmasını zorlamadan.

Olay-Merkezli vs Varlık-Merkezli Modeller

Olay-merkezli modeller ne olduğunu anlatır: bir tıklama, bir ödeme denemesi, bir sevkiyat güncellemesi, bir destek bileti cevabı. Varlık-merkezli modeller ise bir şeyin ne olduğunu tanımlar: müşteri, hesap, ürün, sözleşme.

Ne için optimize ediyorsunuz

Varlık-merkezli modelleme (müşteri, ürün, abonelik gibi tablolar ve “güncel durum” sütunları) operasyonel raporlama ve “Kaç aktif hesabımız var?” veya “Her müşterinin güncel planı nedir?” gibi basit sorular için iyidir. Aynı zamanda sezgiseldir: her şey için bir satır.

Olay-merkezli modelleme (append-only fact’ler) zaman içinde analiz için optimize eder: “Ne değişti?” ve “Hangi sırayla?” gibi sorulara uygundur. Çoğu zaman kaynak sistemlere daha yakındır, bu da yeni soruları eklemeyi kolaylaştırır.

Olay modelleri neden daha esnek olabilir

İyi tanımlanmış bir olay akışı tuttuğunuzda—her biri zaman damgası, aktör, nesne ve bağlam içeriyorsa—temel tabloları yeniden modellemeden yeni sorular cevaplanabilir. Örneğin, sonradan “ilk değer anı”nı, adımlar arasındaki düşüşü veya deneme başlangıcından ilk ödemeye kadar geçen süreyi türetebilirsiniz.

Sınırlar: olay payload’ı anahtar bir özniteliği hiç yakalamadıysa (örn. hangi pazarlama kampanyasının uygulandığı), bunu sonradan icat edemezsiniz.

Gizli maliyetler

Olay modelleri daha ağırdır:

Hacim: çok daha fazla satır, daha yüksek depolama ve işlem.
Geç/ sıra dışı olaylar: düzeltme ve backfill için kurallar gerekir.
Sessionizasyon ve durum yeniden kurma: olayları “oturum”, “aktif kullanıcı” veya “güncel durum”a dönüştürmek karmaşık ve maliyetli olabilir.

Varlıkların hâlâ gerekli olduğu yerler

Olay-öncelikli mimariler bile genellikle hesaplar, sözleşmeler, ürün kataloğu gibi stabil varlık tablolarına ihtiyaç duyar. Olaylar hikayeyi anlatır; varlıklar kadroyu tanımlar. Kilitlenme kararı, anlamın ne kadarını “güncel durum” olarak kodlayacağınız vs. ne kadarını geçmişten türeteceğinizdir.

Semantik Katmanlar ve Metrikler: İş Anlamı Düzeyinde Kilitlenme

Daha güvenli bir şema değişikliği planlayın

Tablolara dokunmadan önce tahıl, geçmiş ve metrik değişikliklerini eşleyin.

Proje Planla

Semantik katman (bazen metrik katmanı) ham tablolar ile kullanıcıların gerçekten kullandığı sayılar arasındaki “çeviri sayfasıdır”. Her dashboard veya analist “Revenue” veya “Active customer” gibi mantığı tekrar uygulamak yerine, semantik katman bu terimleri bir kez tanımlar—ve hangi boyutların kullanılabileceği, hangi filtrelerin her zaman uygulanacağı gibi kuralları koyar.

Metrik tanımları bir API gibi davranır

Bir metrik geniş çapta benimsendiğinde, iş için bir API gibi davranır. Yüzlerce rapor, uyarı, deney, tahmin ve prim planı buna bağlı olabilir. Tanımı değiştirmek güveni bozabilir; SQL çalışmaya devam etse bile insanlar neden farklı göründüğünü sorgulamadan önce veriye inanmamaya başlar.

Kilitlenme sadece teknik değildir—sosyaldir. Eğer “Revenue” hep iadeleri hariç tutuyorsa, aniden net gelire geçmek trendleri bir gecede yanlış gösterir.

Anlamın sertleştiği yerler

Küçük seçimler hızlıca sertleşir:

İsimlendirme: orders adı sipariş sayısını ima eder, kalemleri değil. Belirsiz isimler tutarsız kullanıma davetiye çıkarır.
Boyutlar: Bir metriğin order_date vs ship_date ile gruplanıp gruplanamayacağı anlatıları ve operasyonel kararları değiştirir.
Filtreler: “Dahili hesapları hariç tut” veya “sadece ücretli faturalar” gibi varsayılanlar kolay unutulur ve geri almak zordur.
Atribüsyon kuralları: “Kanal bazlı kayıtlar” ilk dokunuş, son dokunuş veya 7 günlük pencere gibi varsayılanlar takım başarılarını belirleyebilir.

Versiyonlama ve değişikliği iletişim

Metrik değişikliklerini ürün sürümü gibi ele alın:

Metrikleri açıkça versiyonlayın: revenue_v1, revenue_v2 ve geçişte her ikisini de erişilebilir tutun.
Sözleşmeyi belgeleyin: tanım, dahil edilen/dışlananlar, atribüsyon penceresi ve izin verilen boyutlar.
Kıran değişiklikleri erkenden duyurun: notlar, bir geçiş takvimi ve yan yana doğrulama panoları yayınlayın.
Tarihli emeklileştirme: “v1 Q2 sonrasında kaldırılacak” demek “v2 kullanın” demekten daha nettir.

Semantik katmanı kasıtlı tasarlarsanız, anlamı değiştirmeyi sürpriz olmadan yaparak kilitlenme acısını azaltırsınız.

Şema Evrimi: Kıran Değişikliklerden Kaçınma

Şema değişiklikleri eşit değildir. Yeni bir nullable sütun eklemek genellikle düşük risklidir: mevcut sorgular bunu yoksayar, downstream işler çalışmaya devam eder ve daha sonra backfill yapılabilir.

Mevcut bir sütunun anlamını değiştirmek pahalı olan türdür. Eğer status eskiden “ödeme durumu” anlamına geliyorsa ve şimdi “sipariş durumu” ise, her dashboard, uyarı ve join gizlice yanlış olur—hiçbir şey çarpıcı şekilde kırılmasa bile.

Paylaşılan tabloları sözleşme gibi ele alın

Birden çok ekip tarafından tüketilen tablolar için açık bir sözleşme ve test tanımlayın:

Beklenen şema: sütun isimleri, tipleri ve bir sütunun kaldırılıp kaldırılamayacağı.
İzin verilen null’lar: hangi alanların her zaman var olması gerektiği vs isteğe bağlı olanlar.
İzin verilen değerler: enum’lar (örn. pending|paid|failed) ve sayısal alan aralıkları.

Bu aslında veri için sözleşme testi yapmaktır. Tesadüfi sürüklenmeyi önler ve “kıran değişiklik”i net bir kategori haline getirir.

İşleyen geriye dönük uyumluluk kalıpları

Bir modeli evrimleştirmeniz gerektiğinde, eski ve yeni tüketicilerin birlikte çalışabileceği bir dönem hedefleyin:

Kullanımdan kaldırın, silmeyin: eski sütunları tanımlı bir pencere boyunca tutun ve dokümantasyonda eski olarak işaretleyin.
Dual-write: tüketiciler göçene kadar hem eski hem yeni alanları/tabloyu doldurun.
Takma ad view’lar: temel tablolar değişirken eski isimleri koruyan stabil bir view sunun.

Sahiplik ve onaylar

Paylaşılan tabloların kim onaylar, kim bilgilendirilir ve rollout süreci nedir sorularına yanıt veren net sahiplik gerekir. Hafif bir değişiklik politikası (sahip + gözden geçiriciler + kullanımdan kaldırma takvimi) herhangi bir araçtan daha fazla kırılmayı önler.

Performans ve Maliyet Kısıtlamaları Modeli Şekillendirir

Bir veri modeli sadece mantıksal bir diyagram değil—sorguların nasıl çalışacağı, ne kadar maliyetli olacağı ve ileride neyin acı verici olacağı konusunda fiziksel bahislerdir.

Partitioning ve clustering sorgu davranışını sessizce belirler

Partitioning (genellikle tarihe göre) ve clustering (sıklıkla filtrelenen anahtarlarla) belli sorgu desenlerini ödüllendirir ve diğerlerini cezalandırır.

Eğer partitioning event_datee göreyse, “son 30 gün” filtreleri ucuz ve hızlı olur. Ama kullanıcılar sıkça account_idye göre uzun dönem slice’lar yapıyorsa, çok sayıda partition taranır—maliyet artar ve ekipler özet tablolar veya extract’lar gibi geçici çözümler tasarlar; bu da modeli daha da pekiştirir.

Geniş tablolar vs çok join: hız vs esneklik

Geniş tablolar (denormalize edilmiş) BI araçları için dosttur: daha az join, daha az sürpriz, daha hızlı “ilk grafik zamanı”. Ayrıca belirli durumlarda tekrar eden join’lerin önüne geçerek sorgu başına daha ucuz olabilirler.

Takas: geniş tablolar veri çoğaltır. Bu depolamayı artırır, güncellemeleri karmaşıklaştırır ve tutarlı tanımları uygulamayı zorlaştırır.

Çok normalize modeller çoğaltmayı azaltır ve veri bütünlüğünü geliştirebilir, ama tekrar eden join’lar sorguları yavaşlatabilir ve özellikle teknik olmayan kullanıcılar kendi raporlarını oluştururken kötü bir deneyim yaratır.

Artımlı yüklemeler şema seçimlerini sınırlıyor

Çoğu boru hattı artımlı olarak (yeni satırlar veya değişen satırlar) yükler. Bu, stabil anahtarlar ve eklemeye uygun bir yapı olduğunda en iyi çalışır. Geçmişi sık sık yeniden yazmayı gerektiren modeller (ör. birçok türetilmiş sütunun yeniden oluşturulması) genellikle maliyetli ve operasyonel olarak risklidir.

Veri kalite kontrolleri, backfill ve yeniden işleme

Modeliniz hangi doğrulamaları yapabileceğinizi ve neleri düzeltebileceğinizi belirler. Metrikler karmaşık join’lere bağlıysa kalite kontrolleri lokalize etmek zorlaşır. Tablolarınız backfill parafcına göre bölümlenmemişse (gün, kaynak batch), yeniden işleme beklenenden çok daha fazla veri taramak ve yeniden yazmak anlamına gelir—rutin düzeltmeleri büyük olaylara dönüştürür.

Sonradan Değiştirmek Ne Kadar Zor? Göç Gerçekçiliği

Uygulamayı ve kodu saklayın

İş akışını prototiplendirin, ardından ekibinizin sahip olacağı kaynak kodunu dışa aktarın.

Kodu Dışa Aktar

Bir veri modelini sonradan değiştirmek nadiren bir “refactor”tır. Halen insanlar yaşarken bir şehri taşımaya benzer: raporlar çalışmaya devam etmeli, tanımlar tutarlı kalmalı ve eski varsayımlar panolara, boru hatlarına ve hatta tazminat planlarına gömülüdür.

Genellikle ne zorlar göçü

Aşağıdaki tetikleyiciler sıkça yeniden ortaya çıkar:

Yeni bir ambar/lakehouse (maliyet, performans, satıcı stratejisi) mevcut şemanıza uymayabilir.
M&A veya ayrışmalar, iki iş birbirine uymayan müşteri ID’leri, ürün hiyerarşileri ve metrik tanımları getirir.
Yeni ürün hatları veya kanallar başlangıçtaki tahılı bozar (örn. abonelik modellediniz, sonra kullanım bazlı faturalama eklediniz).

“Big bang” yerine daha güvenli bir yol haritası

En düşük riskli yaklaşım göçü hem mühendislik hem de değişim yönetimi projesi olarak ele almaktır.

Paralel modeller çalıştırın: eski şemayı stabil tutarken yeni modeli yan yana inşa edin.
Sürekli uzlaştırın: yan yana çıktılar yayınlayın ve farkları erken araştırın (sona bırakmayın).
Kesme planını dikkatle yapın: en yüksek değerli, en düşük karmaşıklıktaki kullanım durumlarını önce taşıyın; tanımları dondurun; tarihleri duyurun.

Eğer dahili veri uygulamalarınız (admin araçları, metrik keşif, QA panoları) varsa, bunları birinci sınıf göç tüketicileri olarak ele almak yardımcı olur. Ekipler bazen Koder.ai gibi hızlı uygulama oluşturma iş akışlarını kullanarak paralel çalıştırma sırasında hafif “sözleşme kontrol” UI’leri, uzlaştırma panoları veya paydaş inceleme araçları üretir—haftalarca mühendislik zamanını çalmadan.

Başarının göstergesi nedir

Başarı “yeni tabloların var olması” değildir. Başarıdır:

Sorgu paritesi: kritik sorgular kararlaştırılmış toleranslar içinde aynı cevapları döndürür.
Metrik paritesi: başlıca KPI’lar tanım bazında eşleşir, tesadüfen değil.
Kullanıcı benimsemesi: analistler ve paydaşlar gerçekten geçer ve eski panolar emekliye ayrılır.

Bütçeleme ve zaman çizelgeleri

Model göçleri beklenenden daha fazla zaman tüketir çünkü uzlaştırma ve paydaş onayı gerçek darboğazlardır. Maliyet planlamasını birinci sınıf bir iş akışı olarak ele alın (insan saati, çift çalışma compute’u, backfill’ler). Eğer senaryoları ve takasları çerçevelemek isterseniz, bakınız /pricing.

Geri Döndürülebilirlik İçin Tasarım: Pratik Anti-Kilitlenme Taktikleri

Geri döndürülebilirlik her geleceği tahmin etmekle ilgili değildir—değişimi ucuzlaştırmakla ilgilidir. Amaç, araçlardaki bir değişimin (ambar → lakehouse), modelleme yaklaşımındaki bir kaymanın (boyutsal → olay-merkezli) veya metrik tanımlarındaki bir değişikliğin tam bir yeniden yazma zorunluluğu getirmemesidir.

“Geri döndürülebilir yap” ilkeleri

Modelinizi net sözleşmelerle modüler katmanlar olarak ele alın.

Ham faktleri işlenmemiş olarak ayırın: değiştirilemez bir ingest katmanı, sonra küratörlü çekirdek varlık/olaylar, sonra martlar.
Sınırlarda sözleşmeler tanımlayın: paylaşılan tablolar için stabil sütun adları, tipleri ve tahıl; diğer her şey değişebilir.
Niyetli versiyonlama: bir sözleşmeyi kırmanız gerektiğinde v2yi yan yana sunun, tüketicileri taşıyın, sonra v1i emekliye ayırın.

Ön taahhüt kontrol listesi (yeni modeli yayımlamadan önce kullanın)

Tahıl bir cümleyle nedir?
Birincil anahtar (veya benzersizlik kuralı) nedir ve nasıl üretilir?
Hangi alanlar değiştirilemez (immutable) vs düzeltilebilir?
Zamanı nasıl temsil edeceksiniz (effective dates, event time, snapshot time)?
Beklenen tüketiciler kimler (panolar, ML, reverse ETL) ve gecikme ihtiyaçları nedir?
Tahıl veya anahtar stratejisi değişirse göç planı nedir?

Şaşırtmaz küçük bir yönetişim

Yönetişimi küçük ama gerçek tutun: metrik tanımlarıyla bir veri sözlüğü, her çekirdek tablo için atanan bir sahip ve ne değişti, neden ve kimle iletişim kurulacağına dair basit bir değişiklik günlüğü (repo’da bir Markdown dosyası bile) tutun.

Pratik sonraki adımlar

Bu desenleri küçük bir alanda pilotlayın (örn. “orders”), v1 sözleşmelerini yayınlayın ve planlı bir değişikliği en az bir kere versiyonlama sürecinden geçirin. İşler yolunda giderse, şablonları standartlaştırın ve bir sonraki alana ölçekleyin.

SSS

Tedarikçi kilitlenmesi dışında “veri modeli kilitlenmesi” ne anlama gelir?

Kilitleme, tabloları değiştirmeyi çok riskli veya maliyetli hale getirdiğinde ortaya çıkar; çünkü birçok aşağı akış tüketicisi onlara bağlıdır.

Depo veya ETL araçlarını değiştirmiş olsanız bile, tahıl, anahtarlar, geçmiş ve metrik tanımlarında kodlanmış olan anlam panolarda, ML özelliklerinde, entegrasyonlarda ve ortak iş dilinde bir sözleşme olarak kalır.

Veri modelimi kırılgan değil, güvenli bir sözleşme haline nasıl getiririm?

Her yaygın kullanılan tabloyu bir arabirim gibi ele alın:

Tablonun tahılını tanımlayın (“her satır bir ___”).
Birincil anahtar/benzersizlik kuralı açıklayın.
Gerekli vs isteğe bağlı alanları ve izin verilen değerleri belgeleyin.
Metrik tanımlarını ayrı yayınlayın ki anlam kayması olmasın.

Amaç “hiç değiştirmemek” değil—“sürpriz olmadan değiştirmek”tir.

Bir fact tablosu için doğru tahılı nasıl seçerim?

İleride sorulacak soruları zahmetsizce cevaplayabilecek bir tahıl seçin.

Pratik bir kontrol:

Gelecek çeyrek için en önemli soruları listeleyin.
Hangi şeylerin asla çift sayılmaması gerektiğini belirleyin (gelir, kullanıcılar, siparişler).
Hem toplama (örn. sipariş düzeyi) hem ayrıntı (örn. kalem düzeyi) gerekip gerekmediğini onaylayın.

Bir bire çok ilişkisinin “bir” tarafında sadece modelleme yaparsanız, daha sonra backfill veya çoğaltılmış türetilmiş tablolar ile ödersiniz.

Doğal anahtar mı yoksa ardıl anahtar mı kullanmalıyım?

Natural (doğal) anahtarlar (fatura numarası, SKU, kaynak customer_id) anlaşılırdır ama değişebilir veya çakışabilir.

Surrogate (ardıl) anahtarlar, kaynak ID’lerini depodan iç ID’ye eşleyerek stabil bir kimlik sağlar.

Eğer CRM taşımaları, M&A veya birden fazla ID ad alanı bekliyorsanız, planlayın:

bir kimlik eşleme tablosu (crosswalk)
açık dedupe/merge kuralları (kimlik bir politika, yalnızca bir join değildir)

Geçmişi (olaylar, snapshotlar, SCD) depolamaya ne zaman karar vermeliyim?

Eğer “o zaman ne biliyorduk?” sorusuna yanıt gerekebilecekse, sadece overwrite (üzerine yazma) modellerinden kaçının.

Yaygın seçenekler:

Üzerine yazma/şimdiki durum: en basit, en zayıf izlenebilirlik.
Sadece ekleme (append-only) olaylar: en güçlü izlenebilirlik; “şimdiki durumu” elde etmek daha fazla iş gerektirebilir.

Zaman ve zaman damgalarını modellemede en büyük tuzaklar nelerdir?

Zaman sorunları genellikle eksik sütunlardan değil, belirsizlikten gelir.

Pratik varsayılanlar:

Olay zaman damgaları için açık bir anı (genellikle UTC) saklayın.
Yerel zamanda raporlama yapıyorsanız koruyun.

Metrik tanımları neden kilitlenme yaratır ve metrik kaymasını nasıl önlerim?

Semantik (metrik) katman, metrikleri BI araçları, notebook’lar ve dbt modelleri arasında kopyala-yapıştır yapmayı azaltır.

İyi çalışması için:

Metrikleri bir kez tanımlayın; varsayılan filtreleri ve izin verilen dilimleri dahil edin.
Anlaşılmaz isimlerden kaçının (orders mı mı olduğuna netlik verin).

Tüketicileri kırmadan şema evrimi için güvenli stratejiler nelerdir?

Eski ve yeni tüketicilerin aynı anda çalışmasını sağlayan kalıpları tercih edin:

Yeni nullable sütunlar ekleyin; eski sütunları yeniden amaçlandırmayın.
Silmek yerine kullanımdan kaldırın (tarih verin).
Geçiş sırasında hem eskiyi hem yeniyi doldurun (dual-write).
Değişikliklerin altındaki tablolar değişirken eski adları koruyan alias view’lar kullanın.

En tehlikelisi, bir sütunun değiştirip aynı adı tutmaktır—hiçbir şey yüksek sesle kırılmaz, ama her şey sessizce yanlış olur.

Performans ve maliyet kısıtlamaları veri modeli kararlarını nasıl etkiler?

Fiziksel seçimler davranışsal kısıtlar haline gelir:

Bölümlendirme/klasterleme belirli filtreleri ödüllendirir, diğerlerini cezalandırır.
Geniş tablolar BI kullanımını hızlandırabilir ama veri çoğaltır ve güncellemeleri zorlaştırır.
Çok normalize modeller bütünlüğü korur ama join ağırlığı nedeniyle yavaş olabilir.

Dominant erişim desenlerinize göre tasarlayın (örn. son 30 gün, hesap_id’ye göre) ve bölümlendirmeyi backfill/yeniden işleme yönteminize uygun hale getirin.

Daha sonra yeni bir veri modeline geçmenin en pratik yolu nedir?

“Big bang” tek seferlik geçiş yüksek risklidir çünkü tüketiciler, tanımlar ve güvenin sabit kalması gerekir.

Daha güvenli yaklaşım:

Paralel modeller çalıştırın (eski sabit kalırken yeniyi inşa edin).
Sonuçları sürekli uzlaştırın (sorgu ve KPI paralelliği).
Kullanım senaryosuna göre geçiş yapın, sonra eski panoları emekliye ayırın.

Çift çalıştıran compute ve paydaş onay süresi için bütçe ayırın. Eğer taktikler ve zaman çizelgeleri çerçevesi isterseniz, bakınız /pricing.

order_items