यूज़र स्टोरीज़ से डेटाबेस स्कीमा तक: एक AI-निर्देशित विधि

Q: किसे फ़ील्ड बनाऊँ और कब अलग टेबल बनाऊँ?

“Attribute vs entity” टेस्ट का इस्तेमाल करें: - इसे एक फ़ील्ड बनाएं अगर यह एक रिकॉर्ड का एकल मान है (उदाहरण: ). - इसे अलग टेबल बनाएं अगर यह दोहराने योग्य, साझा, संरचित, या इतिहास की ज़रूरत वाला है (उदाहरण: कई पते, टैग, attachments). एक तेज संकेत: अगर आपको कभी “इनका कई होना” चाहिए, तो शायद आपको अलग टेबल चाहिए।

Q: स्टोरी टेक्स्ट को तालिका सम्बन्धों (1:1, 1:N, M:N) में कैसे बदलूं?

स्टोरी वाक्यों को रिलेशनशिप वाक्यों में लिखें: - “A customer can have many orders” → 1:N ( पर रखें) - “An order includes many products” → M:N (एक join टेबल जैसे जोड़ें) अगर रिलेशनशिप पर खुद डेटा है (quantity, price, role), तो वह डेटा join टेबल पर होना चाहिए।

Q: किस constraints को पहले जोड़ना चाहिए (keys, uniqueness, indexes)?

पहले जोड़ें: - हर टेबल के लिए एक स्थिर primary key ( ) - रिलेशनशिप के लिए foreign keys ( ) - चाही गई यूनिकनेस नियम (email, invoice number) फिर उन सबसे आम lookups के लिए indexes जोड़ें (उदा., , , ). संभावित स्पेकुलेटिव इंडेक्सिंग बाद में करें जब रीयल क्वेरी पैटर्न दिखें।

Q: कैसे पता करूँ कि स्कीमा पर्याप्त normalized है बिना उसे ज़्यादा जटिल बनाए?

एक तेज consistency चेक चलाएँ: - अगर आप जैसी repeated groups देखते हैं, तो child टेबल पर जाएँ। - अगर एक ही तथ्य कई टेबल्स में है, तो एक source of truth चुनें और दूसरों में reference रखें। - अगर कोई कॉलम उस टेबल की मुख्य एंटिटी के बारे में नहीं है, तो उसे अलग करें। परफॉर्मेंस, रिपोर्टिंग या audit snapshots जैसी स्पष्ट वजहों के बिना पहले से ज्यादा normalization मत हटाइए।

लॉग इन शुरू करें

यूज़र स्टोरीज़ से डेटाबेस स्कीमा तक: एक AI-निर्देशित विधि | Koder.ai

आप क्या बना रहे हैं: एक ऐसा स्कीमा जो असली काम से मेल खाता है

एक डेटाबेस स्कीमा आपके ऐप के याद रखने के तरीके की योजना है। व्यवहारिक रूप से यह है:

Tables: जानकारी के “बकेट” (Customers, Orders, Tickets)
Fields (columns): हर चीज़ के बारे में आप जो विवरण रखते हैं (customer_name, order_date)
Relationships: बकेट कैसे जुड़ते हैं (एक Order एक Customer से जुड़ा होता है; एक Customer के कई Orders हो सकते हैं)

जब स्कीमा असली काम से मेल खाता है, तो वह वही दर्शाता है जो लोग वास्तव में करते हैं—create, review, approve, schedule, assign, cancel—बजाय इसके कि बस whiteboard पर सुंदर लगे।

यूज़र स्टोरीज़ से क्यों शुरू करें?

यूज़र स्टोरीज़ और एक्सेप्टेंस क्राइटेरिया सामान्य भाषा में असली ज़रूरतें बताते हैं: कौन क्या करता है, और “done” का क्या मतलब है। अगर आप इन्हें स्रोत मानें, तो स्कीमा महत्वपूर्ण विवरण चूकेगा कम (जैसे “हमें यह ट्रैक करना है कि किसने refund approve किया” या “एक booking कई बार reschedule हो सकती है”)।

स्टोरीज़ से शुरू करने से आपको स्कोप के प्रति ईमानदार भी रखा जाता है। अगर कोई चीज़ स्टोरीज़ (या वर्कफ़्लो) में नहीं है, तो उसे ऑप्शनल मानें बजाय कि चुपचाप जटिल मॉडल बना लें “बस क्या पता काम आ जाए” के कारण।

यहाँ AI क्या कर सकता है और क्या नहीं

AI आपको तेज़ी से आगे बढ़ाने में मदद कर सकता है:

उम्मीदवार entities निकालकर (स्टोरीज़ में जो महत्वपूर्ण “cheez” हैं)
एक्सेप्टेंस क्राइटेरिया से निहित fields सुझाकर (timestamps, statuses, references)
संभावित relationships और गैप्स दिखाकर (“आप approvals का उल्लेख करते हैं पर approver स्टोर नहीं किया”)

AI भरोसेमंद तरीके से नहीं कर सकता:

वे बिज़नेस नियम या एज केस जो आपने नहीं लिखे, उन्हें जानना
trade-offs के बिना “सही” स्तर का विवरण चुनना (सादा बनाम फ्लेक्सिबल)
यह गारंटी देना कि स्कीमा आपकी रिपोर्टिंग, सुरक्षा, या अनुपालन ज़रूरतों को पूरा करेगा

AI को एक मजबूत सहायक मानें, निर्णय-निर्माता नहीं।

अगर आप उस सहायक को momentum में बदलना चाहते हैं, तो एक vibe-coding प्लेटफ़ॉर्म जैसे Koder.ai आपको स्कीमा निर्णयों से React + Go + PostgreSQL ऐप बनाने में तेज़ कर सकता है—फिर भी आपको मॉडल, constraints, और migrations पर नियंत्रण रखने देता है।

अपेक्षाएँ सेट करें: इटरेटिव, वन-शॉट नहीं

स्कीमा डिज़ाइन एक लूप है: draft → stories के खिलाफ टेस्ट → गायब डेटा खोजें → refine. लक्ष्य परफेक्ट पहले आउटपुट नहीं है; बल्कि एक ऐसा मॉडल है जिसे आप हर यूज़र स्टोरी तक ट्रेस कर सकें और निश्चिंत होकर कह सकें: “हाँ, हम इस वर्कफ़्लो की हर ज़रूरत स्टोर कर सकते हैं—और बता सकते हैं कि हर टेबल क्यों मौजूद है।”

इनपुट: यूज़र स्टोरीज़, एक्सेप्टेंस क्राइटेरिया, और असली उदाहरण

टेबल्स में आवश्यकता डालने से पहले यह स्पष्ट करें कि आप क्या मॉडल कर रहे हैं। एक अच्छा स्कीमा शायद खाली पन्ने से नहीं शुरू होता—यह उन ठोस कामों से शुरू होता है जो लोग करते हैं और जिस सबूत की बाद में ज़रूरत होगी (screens, outputs, और edge cases)।

आम इनपुट्स जिन्हें एक जगह रखें

यूज़र स्टोरीज़ मुख्य हेडलाइन हैं, लेकिन अकेले काफी नहीं। इकट्ठा करें:

User stories + roles (कौन क्या और क्यों कर रहा है)
Acceptance criteria (जो “ज़रूरी” नियम हैं)
Forms/screens (वे फ़ील्ड्स जो यूज़र टाइप करते, चुनते, या देखते हैं)
Reports/exports (क्या summarize, group, filter करना होगा)
Real examples (सैंपल orders, invoices, tickets, calendars—कोई भी प्रतिनिधि डेटा)

अगर आप AI का उपयोग कर रहे हैं, ये इनपुट मॉडल को grounded रखते हैं। AI जल्दी से entities और fields प्रस्ताव कर सकता है, पर उसे असली आर्टिफैक्ट्स चाहिये ताकि वह ऐसी संरचना न बना दे जो आपके प्रोडक्ट से मेल न खाती हो।

एक्सेप्टेंस क्राइटेरिया: constraints का छिपा स्रोत

अक्सर एक्सेप्टेंस क्राइटेरिया सबसे महत्वपूर्ण डेटाबेस नियम रखते हैं, भले ही वे स्पष्ट रूप से डेटा का उल्लेख न करें। इन बातों पर ध्यान दें:

“Email unique होना चाहिए” (uniqueness)
“Status Draft, Submitted, Approved हो सकता है” (allowed values)
“सिर्फ managers ही approve कर सकते हैं” (permissions, संभवत: audit फ़ील्ड्स)
“एक invoice को payments के साथ delete नहीं कर सकते” (referential rules)

जल्दी के पिटफॉल्ट जिन्हें पहले ठीक करें

अस्पष्ट स्टोरीज़ (“As a user, I can manage projects”) कई एंटिटी और वर्कफ़्लो छुपाती हैं। एक और सामान्य गैप है एज केस मिसिंग होना जैसे cancellations, retries, partial refunds, या reassignment।

स्टोरी-गुणवत्ता के लिए त्वरित चेकलिस्ट (मॉडलिंग से पहले)

actor/role स्पष्ट है।
ऑब्जेक्ट विशिष्ट है (न कि “data” या “things”)।
कम से कम एक असली उदाहरण मौजूद है।
Acceptance criteria में validations और सीमाएँ हैं।
Error और “क्या अगर” केस बताए गए हैं (या स्पष्ट रूप से आगे टाले गए हैं)।

Step 1 — स्टोरीज़ से एंटिटीज़ निकालें (The Nouns)

टेबल या डायग्राम के बारे में सोचने से पहले, यूज़र स्टोरीज़ पढ़ें और nouns को हाइलाइट करें। requirements लेखन में, संज्ञाएँ अक्सर उन “चीजों” की ओर इशारा करती हैं जिन्हें आपका सिस्टम याद रखेगा—ये अक्सर आपकी स्कीमा में entities बनती हैं।

एक तेज मानसिक मॉडल: nouns → entities, जबकि verbs → actions/workflows. अगर स्टोरी कहती है “A manager assigns a technician to a job,” तो संभावित entities हैं manager, technician, और job—और “assigns” एक रिलेशनशिप का संकेत है जिसे आप बाद में मॉडल करेंगे।

कैसे पहचानें कि कोई noun असली entity है

हर noun को टेबल बनाने की ज़रूरत नहीं होती। कोई noun मजबूत एंटिटी का उम्मीदवार है जब:

उसकी अपनी पहचान है: आप एक विशिष्ट उदाहरण बता सकते हैं (Job #1042, Customer A).
समय के साथ बदलता है: इसका एक लाइफसाइकल है (एक job scheduled → completed होता है).
कई जगहों पर उपयोग होता है: कई स्टोरीज़ इसका संदर्भ देती हैं या कई वर्कफ़्लो इसे छूते हैं।

अगर कोई noun केवल एक बार दिखता है, या सिर्फ किसी और चीज़ का वर्णन करता है (“red button”, “Friday”), तो वह शायद entity नहीं है।

Attribute बनाम अलग entity ("Address" और "Tag" टेस्ट)

हर डिटेल को टेबल में बदलना एक आम गलती है। यह नियम अपनाएँ:

अगर यह एक मान है जो किसी चीज़ का वर्णन करता है, तो आमतौर पर वह attribute है (उदा., Customer.phone_number).
अगर यह दोहराव योग्य, साझा, या संरचित है, तो अक्सर यह अलग entity होना चाहिए।

दो क्लासिक उदाहरण:

Address: अगर आप shipping और billing addresses दोनों स्टोर करते हैं, इतिहास रखते हैं, या पते reuse होते हैं, तो Address अलग entity हो सकता है। अगर आपको सिर्फ एक mailing address चाहिए जो कभी reuse नहीं होगा, तो उसे attributes के रूप में रखें।
Tag: टैग लगभग हमेशा अलग entity होते हैं क्योंकि वे repeatable और many-to-many होते हैं (एक Job के कई Tags; एक Tag कई Jobs पर लागू)।

AI का उपयोग कर उम्मीदवार entities सुझाना (सावधानी के साथ)

AI स्टोरीज़ स्कैन करके candidate nouns की ड्राफ्ट लिस्ट दे कर entity खोज में तेज़ी ला सकता है और उन्हें थीम के अनुसार ग्रुप कर सकता है (people, work items, documents, locations)। उपयोगी प्रॉम्प्ट: “ऐसी संज्ञाएँ निकालें जिन्हें हमें स्टोर करना चाहिए, और डुप्लिकेट/सिनोनिम्स ग्रुप करें।”

आउटपुट को शुरुआत मानें, उत्तर नहीं। फॉलो-अप पूछें:

“इनमें से किसका एक लाइफसाइकल है या अपनी ID चाहिए?”
“कौन से वास्तव में statuses, categories, या attributes हैं?”
“कोई synonyms तो नहीं (जैसे ‘client’ vs ‘customer’)?”

Step 1 का लक्ष्य एक छोटा, साफ़ सूची है जिसे आप असली स्टोरीज़ से defend कर सकें।

Step 2 — डिटेल्स को फ़ील्ड्स में बदलें (जो याद रखना ज़रूरी है)

एक बार जब आपने entities (जैसे Order, Customer, Ticket) नामित कर लिए, अगला काम है उन डिटेल्स को पकड़ना जो बाद में चाहिए होंगे। डेटाबेस में ये fields (या attributes) होते हैं—वे reminders जो आपका सिस्टम भूलने का खतरनाक नहीं ले सकता।

फ़ील्ड्स चुनने का तरीका (अनुमान लगाए बिना)

स्टोरीज़ से शुरू करें, फिर एक्सेप्टेंस क्राइटेरिया को चेकलिस्ट की तरह पढ़ें कि क्या स्टोर करना अनिवार्य है।

अगर requirement कहती है “Users can filter orders by delivery date,” तो delivery_date अनिवार्य है—यह फ़ील्ड के रूप में मौजूद होना चाहिए (या किसी भरोसेमंद तरीके से अन्य स्टोर किए गए डेटा से निकाला जा सके)। अगर कहा है “Show who approved the request and when,” तो आपको संभवतः approved_by और approved_at चाहिए।

एक व्यावहारिक टेस्ट: क्या कोई इसे display, search, sort, audit, या calculate करने के लिए चाहिएगा? अगर हाँ, तो शायद यह फ़ील्ड होना चाहिए।

साफ फ़ील्ड्स के सरल नियम

मानों को एटॉमिक रखें: “First name” और “Last name” अलग रखें अगर आप उनपर सर्च या सॉर्ट करेंगे। कई मानों को एक फ़ील्ड में न पैक करें (उदा., “red, blue”).
consistent types इस्तेमाल करें: dates को dates के रूप में, money को decimals के रूप में, booleans को true/false के रूप में—न कि मिश्रित फ़ॉर्मैट जैसे “$10”, “10 USD”, और “10”.
टेक्स्ट को डुप्लिकेट न करें: ग्राहक का address हर order line में कॉपी न करें। इसे सही जगह पर एक बार स्टोर करें और रेफ़रेंस रखें।

Controlled vocabularies: statuses, types, और categories

कई स्टोरीज़ में शब्द आते हैं जैसे “status,” “type,” या “priority.” इन्हें controlled vocabularies के रूप में ट्रीट करें—एक सीमित सेट ऑफ़ allowed values।

अगर सेट छोटा और स्थिर है, तो एक सरल enum-शैली फ़ील्ड काम कर सकता है। अगर यह बढ़ सकता है, लेबल्स चाहिए, या permissions की ज़रूरत है (उदा., admin-managed categories), तो अलग lookup टेबल (उदा., status_codes) और एक reference स्टोर करें।

इसी तरह स्टोरीज़ फ़ील्ड्स बन कर भरोसेमंद, searchable, reportable, और गलत दर्ज होने से बचने वाले बनती हैं।

Step 3 — एंटिटीज़ को रिलेशनशिप्स से जोड़ें

एक बार जब आपने entities (User, Order, Invoice, Comment, आदि) और उनके फ़ील्ड्स ड्राफ्ट कर लिए, अगला कदम है उन्हें जोड़ना। रिलेशनशिप्स वे “कैसे ये चीज़ें इंटरैक्ट करती हैं” लेयर हैं जो आपकी स्टोरीज़ से निहित होती हैं।

तीन रिलेशनशिप शेप्स (साधारण अंग्रेज़ी में)

One-to-one (1:1) मतलब “एक चीज़ की ठीक एक दूसरी चीज़ होती है.”

स्टोरी वाक्य: “Each user has one profile.”
मॉडल आइडिया: User ↔ Profile (अक्सर इन्हें merge किया जा सकता है जब अलग रखने का कारण नहीं हो)।

One-to-many (1:N) मतलब “एक चीज़ के कई दूसरे चीज़ हो सकते हैं.” यह सबसे आम है।

स्टोरी: “A user can have many orders.”
मॉडल: User → Order (Order पर user_id रखें).

Many-to-many (M:N) मतलब “कई चीज़ें कई चीज़ों से जुड़ सकती हैं.” इसके लिए एक अतिरिक्त टेबल चाहिए।

स्टोरी: “An order can include many products, and a product can be in many orders.”

Many-to-many: join table ट्रिक

डेटाबेस में Order के अंदर “product IDs की सूची” रखना बाद में समस्याएँ लाता है (सर्च, अपडेट, रिपोर्टिंग)। इसके बजाय एक join table बनाएं जो रिलेशनशिप को स्वयं दर्शाए।

उदाहरण:

Order
Product
OrderItem (join table)

OrderItem आमतौर पर शामिल करता है:

order_id
product_id
स्टोरी से मिलने वाले अतिरिक्त डिटेल जैसे quantity, unit_price, discount

ध्यान दें कि अक्सर स्टोरी का डिटेल (जैसे “quantity”) रिलेशनशिप पर होना चाहिए, न कि किसी एक एंटिटी पर।

आवश्यक बनाम वैकल्पिक (सरल भाषा में)

स्टोरीज़ यह भी बताती हैं कि कोई कनेक्शन अनिवार्य है या कभी-कभी गैप्ड.

“An order must belong to a user” → हर Order को user_id चाहिए (खाली न रहने दें).
“A user may have a phone number” → phone खाली रह सकता है।
“An order can have a shipping address (if physical goods)” → shipping_address_id डिजिटल orders के लिए खाली हो सकता है।

तेज़ जाँच: अगर स्टोरी बताती है कि आप रिकॉर्ड बनाए बग़ैर लिंक नहीं कर सकते, तो इसे required मानें। अगर स्टोरी में “can”, “may”, या exceptions हैं, तो optional मानें।

स्टोरी वाक्यों को रिलेशनशिप वाक्यों में बदलें

जब आप कोई स्टोरी पढ़ें, उसे एक जोड़ीदार वाक्य में फिर से लिखें:

“A user can leave many comments” → User 1:N Comment
“A comment belongs to one user” → Comment N:1 User

हर इंटरैक्शन के लिए यह करें। अंत तक, आपके पास एक जुड़ा हुआ मॉडल होगा जो वर्क के तरीके को दर्शाता है—उससे पहले कि आप कभी ER डायग्राम टूल खोलें।

Step 4 — वर्कफ़्लो का उपयोग स्टेट्स, ईवेंट्स, और गैप्स खोजने में करें

डेटा मॉडल का प्रोटोटाइप बनाएं

कई मिनटों में एक छोटा ऐप बना कर अपने स्कीमा को असली वर्कफ़्लो पर टेस्ट करें।

प्रोटोटाइप बनाएं

यूज़र स्टोरीज़ बताती हैं क्या चाहिए। वर्कफ़्लो दिखाते हैं काम वास्तव में कैसे आगे बढ़ता है, कदम-दर-कदम। एक वर्कफ़्लो को डेटा में ट्रांसलेट करने से आप जल्दी पाते हैं कि “हमने यह स्टोर करना भूल दिया”—पहले ही।

एक सरल वर्कफ़्लो से शुरू करें

वर्कफ़्लो को एक्शन और स्टेट चेंज के क्रम के रूप में लिखें। उदाहरण:

Create request → Draft
Submit request → Submitted
Manager reviews → Approved or Rejected
If approved, work is scheduled → In progress
Completed → Done

वे बोल्ड शब्द अक्सर status फ़ील्ड बन जाते हैं (या एक छोटी “state” टेबल), जिनके allowed values स्पष्ट होते हैं।

वर्कफ़्लोज़ गायब फ़ील्ड्स उजागर करते हैं

हर स्टेप के दौरान पूछें: “बाद में हमें क्या जानना होगा?” वर्कफ़्लोज़ आमतौर पर ऐसे फ़ील्ड्स दिखाते हैं:

timestamps: submitted_at, approved_at, completed_at
ownership: created_by, assigned_to, approved_by
reason/context: rejection_reason, approval_note
ordering: multi-step प्रक्रियाओं के लिए sequence

अगर वर्कफ़्लो में waiting, escalation, या handoffs हैं, तो आमतौर पर कम से कम एक timestamp और एक “किसके पास अब है” फ़ील्ड चाहिए।

वर्कफ़्लोज़ गायब टेबल्स उजागर करते हैं

कुछ वर्कफ़्लो स्टेप्स सिर्फ फ़ील्ड नहीं होते—वे अलग डेटा संरचनाएँ होते हैं:

Audit log / history: “किसने कब स्टेटस बदला”
Approvals: multi-approver या conditional approval rules के लिए
Attachments: जब यूज़र किसी स्टेप में फाइलें अपलोड करते हैं
Comments: जब चर्चा प्रक्रिया का हिस्सा हो

गैप जांच के लिए AI का उपयोग

AI को दोनों दें: (1) यूज़र स्टोरीज़ और एक्सेप्टेंस क्राइटेरिया, और (2) वर्कफ़्लो स्टेप्स। उससे कहें कि वह हर स्टेप सूचीबद्ध करे और हर स्टेप के लिए आवश्यक डेटा (state, actor, timestamps, outputs) बताए, फिर उन किसी भी requirements को हाइलाइट करे जिन्हें मौजूदा फ़ील्ड्स/टेबल्स समर्थन नहीं करते।

Koder.ai जैसे प्लेटफ़ॉर्म पर यह “gap check” खासकर व्यावहारिक हो जाता है क्योंकि आप जल्दी इटरेट कर सकते हैं: स्कीमा मान्यताएँ बदलें, scaffolding regenerate करें, और बिना लंबी मैन्युअल boilerplate के आगे बढ़ें।

Keys, Uniqueness, और बेसिक Constraints (ज्यादा शब्दबाजी के बिना)

जब आप यूज़र स्टोरीज़ को टेबल्स में बदलते हैं, तो आप सिर्फ फ़ील्ड्स सूचीबद्ध नहीं कर रहे—आप यह भी तय कर रहे हैं कि डेटा समय के साथ कैसे पहचाना और consistent रहेगा।

Primary keys: हर रो के लिए एक स्थिर “ID card”

एक primary key एक रिकॉर्ड को यूनिकली पहचानती है—इसे आप रो का स्थायी पहचान पत्र समझें।

क्यों हर रो को चाहिए: स्टोरीज़ अपडेट्स, रिफरेंसेस, और इतिहास बताती हैं। अगर स्टोरी कहती है “Support can view an order and issue a refund,” तो आपको ऑर्डर को एक स्थिर तरीके से प्वाइंट करने की ज़रूरत है—भले ही कस्टमर का email बदले, address edit हो, या order status बदल जाए।

व्यवहार में, यह आमतौर पर एक internal id होता है (नंबर या UUID) जो कभी नहीं बदलता।

Foreign keys: तालिकाओं के बीच pointers

एक foreign key एक टेबल को सुरक्षित तरीके से दूसरी टेबल की ओर इशारा करने देती है। अगर orders.customer_id customers.id को reference करता है, तो डेटाबेस सुनिश्चित कर सकता है कि हर order असली customer से जुड़ा है।

यह उन स्टोरीज़ से मेल खाता है जैसे “As a user, I can see my invoices.” Invoice तैरती नहीं होती; वह किसी customer (और अक्सर किसी order या subscription) से जुड़ी होती है।

Uniqueness नियम: “unique होना चाहिए” को enforcement में बदलना

यूज़र स्टोरीज़ अक्सर छिपे यूनिकनेस requirements रखती हैं:

“Users sign up with email” → unique email लागू करें (या multi-tenant सपोर्ट हो तो tenant के भीतर unique)।
“Finance searches by invoice number” → unique invoice_number.

ये नियम बाद में confusing duplicates को रोकते हैं जो महीनों बाद "data bugs" बन जाते हैं।

Indexing (ऊपर स्तर पर): सामान्य lookups तेज़ बनाना

Indexes उन सर्चेज़ को तेज़ करते हैं जैसे “customer by email ढूँढो” या “list orders by customer.” सबसे आम क्वेरीज और uniqueness नियमों के अनुरूप indexes से शुरू करें।

क्या बाद में टालें: दुर्लभ रिपोर्ट्स या अनुमानित फ़िल्टर्स के लिए भारी इंडेक्सिंग। उन ज़रूरतों को स्टोरीज़ में कैप्चर करें, स्कीमा सत्यापित करें, फिर रीयल उपयोग और slow-query सबूत के आधार पर optimize करें।

डेटा को consistent रखें: एक व्यावहारिक normalization चेकलिस्ट

अपने यूज़र स्टोरीज़ से बनाएं

Koder.ai के साथ यूज़र स्टोरीज़ को एक काम करने वाले React, Go और PostgreSQL ऐप में बदलें।

मुफ्त शुरू करें

नॉर्मलाइज़ेशन का एक सरल लक्ष्य है: conflicting duplicates रोकना। अगर वही तथ्य दो जगह सेव हो सकता है, तो अंततः वे असहमति में बदलेंगे (दो वर्तनी, दो कीमतें, दो “current” addresses)। एक normalized स्कीमा हर तथ्य को एक बार स्टोर करता है, फिर उसे reference करता है।

किसी भी ड्राफ्ट स्कीमा पर चलाने योग्य त्वरित चेकलिस्ट

1) repeated groups देखें

अगर आप देखते हैं “Phone1, Phone2, Phone3” या “ItemA, ItemB, ItemC,” तो यह अलग टेबल (जैसे CustomerPhones, OrderItems) का संकेत है। repeated groups खोज, validation, और scale को कठिन बनाते हैं।

2) एक ही नाम/विवरण कई टेबल्स में कॉपी न करें

अगर CustomerName Orders, Invoices, और Shipments में है, तो आपने कई sources of truth बना दिए हैं। ग्राहक विवरण Customers में रखें और सिर्फ customer_id अन्य जगहों पर रखें।

3) एक ही चीज़ के लिए कई कॉलम से बचें

billing_address, shipping_address, home_address जैसे कॉलम ठीक हैं अगर वे वास्तव में अलग अवधारणाएँ हैं। पर अगर आप असल में “विभिन्न प्रकार के कई पते” मॉडल कर रहे हैं, तो Addresses टेबल और एक type फ़ील्ड का उपयोग करें।

4) lookups को free text से अलग रखें

अगर यूज़र किसी ज्ञात सेट से चुनते हैं (status, category, role), तो इसे सुसंगत रूप से मॉडल करें: या तो constrained enum या lookup table। इससे “Pending” vs “pending” vs “PENDING” जैसी असंगतियाँ नहीं होंगी।

5) जाँचें कि हर non-ID फ़ील्ड सही चीज़ पर निर्भर है

एक मददगार गट-चेक: किसी टेबल में अगर एक कॉलम उस टेबल की मुख्य एंटिटी के अलावा किसी और चीज़ का वर्णन करता है, तो वह शायद कहीं और होना चाहिए। उदाहरण: Orders में product_price तब तक नहीं होना चाहिए जब तक इसका मतलब “order के समय की कीमत” (historic snapshot) न हो।

कब denormalization स्वीकार्य है (बाद में विकल्प)

कभी-कभी आप जानबूझकर duplicates स्टोर करते हैं:

Reporting/performance: pre-aggregated totals या summary tables.
Caching: भारी recalculation से बचने के लिए computed value स्टोर करना.
Audit/history: "खरीद के समय का नाम" कॉपी करना ताकि पुरानी सच्चाई सुरक्षित रहे।

कुंजी यह है कि यह जानबूझकर हो: दस्तावेज़ करें कौन सा फ़ील्ड source of truth है और कॉपी कैसे अपडेट होते हैं।

AI कहाँ मदद करता है — और कहाँ इंसान निर्णय लेता है

AI suspicious duplication (repeated columns, समान field नाम, inconsistent “status” fields) फ्लैग कर सकता है और टेबल्स में विभाजन सुझा सकता है। इंसान फिर trade-off—सादगी बनाम फ्लेक्सिबिलिटी बनाम प्रदर्शन—उसके आधार पर निर्णय लेता है कि प्रॉडक्ट कैसे उपयोग होगा।

स्टोर किया हुआ बनाम कैलकुलेट: क्या डेटाबेस में होना चाहिए

एक उपयोगी नियम: वह तथ्य स्टोर करें जिसे आप भरोसेमंद तरीके से बाद में दोबारा नहीं बना पाएँ; बाकी सब कुछ कैलकुलेट करें।

स्टोर बनाम कैलकुलेट (derived) डेटा

स्टोर किया हुआ डेटा स्रोत सच्चाई है: individual line items, timestamps, status changes, किसने क्या किया। Calculated (derived) डेटा उन तथ्यों से निकाला जाता है: totals, counters, flags जैसे “is overdue”, और rollups।

अगर दो मान एक ही बेसिक facts से निकाले जा सकते हैं, तो facts स्टोर करें और बाकी कैलकुलेट करें। वरना आप विरोधाभास का जोखिम उठाते हैं।

derived मान स्टोर करने से क्यों mismatch होते हैं

Derived मान उनके inputs बदलने पर बदलते हैं। अगर आप inputs और derived result दोनों स्टोर करते हैं, तो आपको हर वर्कफ़्लो और एज केस (edits, refunds, partial shipments, backdated changes) के लिए उन्हें sync रखना होगा। एक missed update और database दो अलग बताने लगेगा।

उदाहरण: order_total स्टोर करना जबकि order_items भी स्टोर हैं। अगर कोई quantity बदले या discount लागू हो और total सही तरीके से अपडेट न हो, तो finance एक नंबर देखेगा और cart दूसरा।

वर्कफ़्लो का उपयोग यह तय करने के लिए करें कि क्या स्टोर करना है (इतिहास और snapshots)

वर्कफ़्लो बताते हैं कि आपको कब historical truth चाहिए, सिर्फ “current truth” नहीं। अगर यूज़र को यह जानना ज़रूरी है कि किसी समय मूल्य क्या था, तो snapshot स्टोर करें।

एक order के लिए आप स्टोर कर सकते हैं:

Line items और कीमतें (facts)
एक captured order_total checkout पर (snapshot), क्योंकि taxes, discounts, और pricing rules बाद में बदल सकते हैं

इन्वेंटरी के लिए, "inventory level" अक्सर movements (receipts, sales, adjustments) से निकाला जाता है। लेकिन अगर audit trail चाहिए तो movements स्टोर करें और रिपोर्टिंग स्पीड के लिए periodic snapshots रखें।

लॉगिन ट्रैकिंग के लिए, last_login_at एक ईवेंट timestamp के रूप में स्टोर करें। “Is active in the last 30 days?” कैलकुलेट रहता है।

Worked Example: 5 यूज़र स्टोरीज़ से ER मॉडल तक

आइए एक परिचित support ticket ऐप लें। हम पांच यूज़र स्टोरीज़ से शुरू करेंगे और एक साधारण ER मॉडल बनाएँगे (entities + fields + relationships), फिर उसे एक वर्कफ़्लो के खिलाफ चेक करेंगे।

5 यूज़र स्टोरीज़ → nouns → entities

As a customer, I can create a support ticket with a subject, description, and category.
As an agent, I can assign a ticket to myself or another agent.
As an agent, I can add internal notes and public replies to a ticket.
As a customer, I can see when my ticket is updated and when it’s closed.
As a manager, I can track how long tickets stay open and who closed them.

इन nouns से हमें मुख्य एंटिटीज़ मिलती हैं:

User (customers, agents, managers)
Ticket
Message (public replies + internal notes)
Category
TicketEvent (audit/history)

फ़ील्ड्स और रिलेशनशिप्स (कम्पैक्ट ER मॉडल)

User: id, name, email, role
Category: id, name
Ticket: id, subject, description, status, created_at, updated_at, closed_at
- relationships: Ticket.category_id → Category.id
- relationships: Ticket.requester_id → User.id (customer)
- relationships: Ticket.assignee_id → User.id (agent, nullable)
Message: id, ticket_id, author_id, body, is_internal, created_at
- relationships: Message.ticket_id → Ticket.id
- relationships: Message.author_id → User.id
TicketEvent: id, ticket_id, actor_id, type, from_status, to_status, created_at

वर्कफ़्लो मैपिंग: create → update → close

Create: insert Ticket (status = “open”, created_at), insert TicketEvent(type = "created").
Update (assign, reply): insert Message या update Ticket.assignee_id, और insert TicketEvent(type = "assigned"/"replied", updated_at).
Close: update Ticket.status = "closed", set closed_at, insert TicketEvent(type = "closed", actor_id = closer).

“Before and after”: AI एक missing constraint पकड़ता है

Before (सामान्य गलती): Ticket में assignee_id है, पर हमने यह सुनिश्चित नहीं किया कि केवल agents ही assignee हो सकते हैं।

After: AI इसे फ्लैग करता है और आप एक व्यावहारिक नियम जोड़ते हैं: assignee User का role = "agent" होना चाहिए (इसे application validation या database constraint/policy के माध्यम से लागू करें)। इससे भविष्य में “कस्टमर को assign कर दिया” जैसी गलतियाँ रोकी जा सकती हैं।

स्कीमा सत्यापित करें: हर स्टोरी तक ट्रेस करें

गलतियाँ जल्दी पकड़ें

चैट में वर्कफ़्लो मॉडल करके approved_by और approved_at जैसे गायब फ़ील्ड पकड़ें।

बनाना शुरू करें

एक स्कीमा तभी “done” माना जा सकता है जब हर यूज़र स्टोरी का जवाब ऐसा डेटा देकर दिया जा सके जिसे आप विश्वसनीय रूप से स्टोर और क्वेरी कर सकें। सबसे सरल सत्यापन कदम यह है कि हर स्टोरी उठाएँ और पूछें: “क्या हम इस प्रश्न का डेटाबेस से हर केस के लिए विश्वसनीय उत्तर दे सकते हैं?” अगर जवाब “शायद” है, तो मॉडल में गैप है।

हर स्टोरी को एक डेटाबेस प्रश्न में बदलें

हर यूज़र स्टोरी को एक या अधिक टेस्ट प्रश्नों के रूप में फिर से लिखें—ऐसी चीज़ें जो आप रिपोर्ट, स्क्रीन, या API से पूछना चाहेंगे। उदाहरण:

Reports: “पिछले 30 दिनों में ग्राहक के हिसाब से सभी open orders totals के साथ दिखाओ।”
Permissions: “कौन से यूज़र्स इस स्टोर के लिए refunds approve कर सकते हैं?”
Edge cases: “क्या एक order बिना shipping address के मौजूद हो सकता है? डिजिटल आइटम्स के लिए क्या?”
Deletions: “अगर हम एक customer delete करें तो orders, invoices, और notes का क्या होगा?”

अगर आप किसी स्टोरी को स्पष्ट प्रश्न के रूप में व्यक्त नहीं कर सकते, तो स्टोरी अस्पष्ट है। अगर आप व्यक्त कर सकते हैं—पर अपने स्कीमा से इसका उत्तर नहीं दे पा रहे—तो आप किसी फ़ील्ड, रिलेशनशिप, स्टेट/इवेंट, या constraint की कमी में हैं।

तेज़ सैनीटी चेक के लिए सैम्पल डेटा का उपयोग करें

एक छोटा dataset बनाएँ (प्रति मुख्य टेबल 5–20 रो) जिसमें सामान्य और awkward केस (duplicates, missing values, cancellations) शामिल हों। फिर उस डेटा से स्टोरीज़ को “प्ले थ्रू” करें। आप जल्दी ही समस्याएँ देख लेंगे जैसे “हम यह बता नहीं पा रहे कि किस address का उपयोग खरीद के समय हुआ” या “कहाँ स्टोर करें कि किसने change approve किया।”

अनहैंडल्ड केसेस खोजने में AI मदद कर सकता है

AI से कहें कि वह प्रति स्टोरी validation प्रश्न जेनरेट करे (edge cases और deletion scenarios सहित), और बताए कि उन प्रश्नों के उत्तर के लिए कौन सा डेटा जरूरी होगा। उस सूची की तुलना अपने स्कीमा से करें: कोई भी mismatch एक ठोस एक्शन आइटम है।

AI का सुरक्षित उपयोग और स्कीमा को maintainable रखना

AI डेटा मॉडलिंग में तेज़ी ला सकता है, पर यह संवेदनशील जानकारी लीक करने या गलत मान्यताएँ hard-code करने का जोखिम भी बढ़ा देता है। इसे एक बहुत तेज सहायक मानें: उपयोगी, पर गार्डरैल्स के साथ।

AI के साथ क्या साझा करें (और क्या न दें)

ऐसे इनपुट साझा करें जो मॉडलिंग के लिए यथार्थवादी हों, पर सुरक्षित भी:

Sanitized user stories (ग्राहकों, उत्पादों, स्थानों के नाम बदलें)
Acceptance criteria और edge cases (“refund within 14 days”, “one active subscription per account”)
फेक डेटा के साथ example fields (उदा., invoice_total: 129.50, status: "paid")
मौजूदा CSV headers / टेबल संरचना (structure सामान्यतः सुरक्षित है; content अक्सर नहीं)

बचें उन चीज़ों से जो किसी व्यक्ति की पहचान या गोपनीय ऑपरेशंस का खुलासा कर सकें:

असली नाम, ईमेल, फोन नंबर, पते
असली order histories, support tickets, internal notes
API keys, database credentials, प्रोडक्शन screenshots

अगर आपको यथार्थवादी डेटाची चाहिए, तो synthetic samples जनरेट करें जो फॉर्मैट और रेंज मिलते हों—प्रोडक्शन रोस की प्रतिलिपि कभी न करें।

स्कीमा के पास अनुमान (assumptions) रखें

सबसे अधिक बार स्कीमा इसलिए फेल होते हैं क्योंकि “सबने अलग अंदाज़ में माना”। अपने ER मॉडल के पास (या उसी repo में) एक छोटा निर्णय-लॉग रखें:

परिभाषाएँ (“Active account किसे कहते हैं?”)
Constraints (“एक user कई organizations से जुड़ सकता है”)
tradeoffs (“हम हर invoice पर currency code स्टोर करते हैं audit के लिए”)

यह AI आउटपुट को टीम ज्ञान बनाता है बजाय कि एक-बार का artifact।

बदलाब के लिए योजना: versioning और migrations

आपका स्कीमा नई स्टोरीज़ के साथ विकसित होगा। इसे सुरक्षित रखने के तरीके:

Schema बदलावों का versioning (Git में migration फ़ाइलें)
reversible migrations जब संभव हों
seeds और sample queries अपडेट ताकि बदलाव टेस्टेबल हों
AI-जेनरेटेड migrations की review अन्य कोड की तरह करें

अगर आप Koder.ai जैसे प्लेटफ़ॉर्म का उपयोग कर रहे हैं, snapshots और rollback जैसे गार्डरैल्स का उपयोग करें जब स्कीमा बदलाव इटरेट कर रहे हों, और ज़रूरत पड़े तो स्रोत कोड export कर लें।

एक सरल दोहराने योग्य वर्कफ़्लो

स्टोरीज़ sanitize करें + 5–10 synthetic उदहारण बनाएं।
AI से entities, fields, relationships, और constraints प्रस्तावित करवाएँ।
टीम के साथ review करें; अनुमान (assumptions) रिकॉर्ड करें।
migrations लागू करें; एक छोटा “story trace” टेस्ट चलाएँ (हर स्टोरी मॉडल से संतोषजनक रूप से पूरी होती है)।
स्टोरीज़ बदलने पर दोहराएँ; स्कीमा और नोट्स को सिंक में रखें।

अक्सर पूछे जाने वाले प्रश्न

मैं यूज़र स्टोरीज़ से डेटाबेस एंटिटीज़ कैसे निकालूं?

स्टोरीज़ से शुरू करें और उन संज्ञाओं (nouns) को हाइलाइट करें जो सिस्टम को याद रखना चाहिए (जैसे Ticket, User, Category).

एक संज्ञा को एंटिटी बनाएं जब:

उसे अपनी एक id चाहिए
वह समय के साथ बदलती है (लाइफसाइकल/स्टेटस होता है)
वह कई स्टोरीज़ में दिखाई देती है

छोटी, कट्टर-सूची रखें जिसे आप किसी खास स्टोरी वाक्य से साबित कर सकें।

किसे फ़ील्ड बनाऊँ और कब अलग टेबल बनाऊँ?

“Attribute vs entity” टेस्ट का इस्तेमाल करें:

इसे एक फ़ील्ड बनाएं अगर यह एक रिकॉर्ड का एकल मान है (उदाहरण: customer.phone_number).
इसे अलग टेबल बनाएं अगर यह दोहराने योग्य, साझा, संरचित, या इतिहास की ज़रूरत वाला है (उदाहरण: कई पते, टैग, attachments).

एक तेज संकेत: अगर आपको कभी “इनका कई होना” चाहिए, तो शायद आपको अलग टेबल चाहिए।

एक्सेप्टेंस क्राइटेरिया फ़ील्ड्स और constraints में कैसे ट्रांसलेट होते हैं?

एक्सेप्टेंस क्राइटेरिया को स्टोरेज चेकलिस्ट की तरह देखें. अगर किसी चीज़ को फिल्टर/सॉर्ट/डिस्प्ले/ऑडिट करना कहा गया है, तो उसे स्टोर करना होगा (या भरोसेमंद तरीके से निकाला जा सके)।

उदाहरण:

“किसने मंज़ूर किया और कब” → approved_by, approved_at
“डिलिवरी डेट से फ़िल्टर करें” → delivery_date

स्टोरी टेक्स्ट को तालिका सम्बन्धों (1:1, 1:N, M:N) में कैसे बदलूं?

स्टोरी वाक्यों को रिलेशनशिप वाक्यों में लिखें:

“A customer can have many orders” → 1:N (orders पर customer_id रखें)
“An order includes many products” → M:N (एक join टेबल जैसे order_items जोड़ें)

अगर रिलेशनशिप पर खुद डेटा है (quantity, price, role), तो वह डेटा join टेबल पर होना चाहिए।

बहु-से-बहु (many-to-many) रिश्तों को मॉडल करने का सही तरीका क्या है?

M:N को एक join टेबल से मॉडल करें जो दोनों foreign keys और रिलेशनशिप-विशिष्ट फ़ील्ड स्टोर करे.

साँचा आमतौर पर:

orders
products

वर्कफ़्लो मुझे गायब टेबल्स या फ़ील्ड्स कैसे खोजने में मदद करते हैं?

वर्कफ़्लो को कदम-दर-कदम पढ़ें और पूछें: “बाद में इसे साबित करने के लिए हमें क्या जानने की ज़रूरत होगी?”

आम जोड़ियाँ:

timestamps: submitted_at, closed_at

किस constraints को पहले जोड़ना चाहिए (keys, uniqueness, indexes)?

पहले जोड़ें:

हर टेबल के लिए एक स्थिर primary key (id)
रिलेशनशिप के लिए foreign keys (orders.customer_id → customers.id)
चाही गई यूनिकनेस नियम (email, invoice_number)

फिर उन सबसे आम lookups के लिए indexes जोड़ें (उदा., , , ). संभावित स्पेकुलेटिव इंडेक्सिंग बाद में करें जब रीयल क्वेरी पैटर्न दिखें।

कैसे पता करूँ कि स्कीमा पर्याप्त normalized है बिना उसे ज़्यादा जटिल बनाए?

एक तेज consistency चेक चलाएँ:

अगर आप Phone1/Phone2 जैसी repeated groups देखते हैं, तो child टेबल पर जाएँ।
अगर एक ही तथ्य कई टेबल्स में है, तो एक source of truth चुनें और दूसरों में reference रखें।
अगर कोई कॉलम उस टेबल की मुख्य एंटिटी के बारे में नहीं है, तो उसे अलग करें।

परफॉर्मेंस, रिपोर्टिंग या audit snapshots जैसी स्पष्ट वजहों के बिना पहले से ज्यादा normalization मत हटाइए।

डेटाबेस में क्या स्टोर करना चाहिए और क्या calculate करना चाहिए?

जो तथ्य आप बाद में भरोसेमंद तरीके से दोबारा नहीं बना पाएंगे, उन्हें स्टोर करें; बाकी सब कुछ निकालें।

अच्छा स्टोर करने योग्य:

ईवेंट्स और timestamps
लाइन आइटम्स और हिस्टोरिकल प्राइस
audit के लिए “किसने क्या किया”

अच्छा कैलकुलेट करने योग्य:

totals (लाइन आइटम्स से)
flags जैसे “is overdue” (तिथियों से)

अगर आप derived values (जैसे ) स्टोर करते हैं, तो तय करें कि कैसे यह sync रहेगा और एज केस टेस्ट करें (refunds, edits)।

मैं AI का सुरक्षित तरीके से उपयोग कैसे करूं ताकि गलत मान्यताएँ ना बने?

AI को ड्राफ्ट्स के लिए इस्तेमाल करें, फिर अपने आर्टिफैक्ट्स के खिलाफ सत्यापित करें।

प्रैक्टिकल प्रॉम्प्ट्स:

“इन स्टोरीज़ से candidate entities और synonyms निकालो।”
“एक्सेप्टेंस क्राइटेरिया से implied fields की लिस्ट बनाओ (timestamps, actors, statuses).”
“इस वर्कफ़्लो के हिसाब से हर स्टेप में क्या डेटा चाहिए?”

गार्डरैल्स:

email

customer_id

status + created_at

order_total