ਡੇਟਾਬੇਸ ਦੇ ਕਿਸਮਾਂ: ਰਿਲੇਸ਼ਨਲ, ਕਾਲਮਨ, ਡੋਕਯੂਮੈਂਟ, ਗ੍ਰਾਫ ਅਤੇ ਹੋਰ

Q: “ਡੇਟਾਬੇਸ ਕਿਸਮ” ਕਾਰਜਕਾਰੀ ਰੂਪ ਵਿੱਚ ਕੀ ਮਤਲਬ ਰੱਖਦੀ ਹੈ?

“ਡੇਟਾਬੇਸ ਕਿਸਮ” ਤਿੰਨ ਚੀਜ਼ਾਂ ਲਈ ਇੱਕ ਸ਼ਾਰਥਹਾਂ ਹੈ: - ਡੇਟਾ ਮਾਡਲ (ਟੇਬਲ, ਦਸਤਾਵੇਜ਼, ਕੀ-ਵੈਲਿਊ ਜੋੜੇ, ਗ੍ਰਾਫ, ਵੈਕਟਰ, ਸਮੇਂ-ਸਬੰਧੀ ਬਿੰਦੂ) - ਕੁਐਰੀ ਪੈਟਰਨ ਜਿਨ੍ਹਾਂ ਲਈ ਇਹ ਆਪਟੀਮਾਈਜ਼ ਕੀਤਾ ਗਿਆ ਹੈ (ਜੋਇਨ, ਸਕੈਨ/ਐਗਰੇਗੇਸ਼ਨ, ਟ੍ਰੈਵਰਸਲ, ਸਮਾਨਤਾ-ਖੋਜ) - ਸਕੇਲਿੰਗ ਅਤੇ ਸਹਿਮਤੀ ਦੇ ਤਰਲ-ਫੈਸਲੇ (scale-up ਵਸਤੇ vs. scale-out, ਤੁਰੰਤ vs. ਆਖਰੀ ਸਹਿਮਤੀ) ਕਿਸਮ ਚੁਣਣਾ ਅਸਲ ਵਿੱਚ ਕਾਰਗੁਜ਼ਾਰੀ, ਲਾਗਤ ਅਤੇ ਓਪਰੇਸ਼ਨਲ ਜਟਿਲਤਾ ਲਈ ਡਿਫਾਲਟ ਫੈਸਲੇ ਚੁਣਨ ਵਰਗਾ ਹੈ।

Q: ਮੈਂ ਕਦੋਂ ਰਿਲੇਸ਼ਨਲ (SQL) ਡੇਟਾਬੇਸ ਵਰਤਾਂ?

ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਇੱਕ ਮਜ਼ਬੂਤ ਡਿਫਾਲਟ ਹਨ ਜਦੋਂ ਤੁਹਾਨੂੰ: - ਸੰਰਚਿਤ, ਵੱਡੇ ਪੱਧਰ ਤੇ ਪਰਿਭਾਸ਼ਿਤ ਸਕੀਮਾਂ - ACID ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ (ਪੈਸੇ, ਇਨਵੇਂਟਰੀ, ਆਦਿ ਲਈ ਸਹੀਪਣ) - ਜੋਇਨ ਅਤੇ ਬੰਧਨ (foreign keys, consistent ਰਿਸ਼ਤੇ) ਇਹਨਾਂ ਨੂੰ ਮੁਸ਼ਕਿਲ ਤਬ ਹੋ ਸਕਦੀ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਲਗਾਤਾਰ ਸਕੀਮਾ ਬਦਲ ਰਹੇ ਹੋ ਜਾਂ ਜਦੋਂ ਤੁਸੀਂ ਬਹੁਤ ਵੱਡੇ ਹੋਰਾਈਜ਼ਾਂਟਲ ਸਕੇਲ ਨਾਲ ਬੇਹੱਦ ਜੋਇਨ-ਭਾਰੀ ਕੁਐਰੀਜ਼ ਚਾਹੁੰਦੇ ਹੋ।

Q: ACID ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਕੀ ਹਨ, ਅਤੇ ਇਹ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ ਕਦੋਂ ਮਾਇਨੇ ਰੱਖਦੇ ਹਨ?

ACID ਇੱਕ ਮਲਟੀ-ਸਟੈਪ ਬਦਲਾਅ ਲਈ ਭਰੋਸੇਯੋਗਤਾ ਦੀ ਗਾਰੰਟੀ ਹੈ: - Atomicity : ਸਾਰੇ ਕਦਮ ਸਫਲ ਹੋਣ ਜਾਂ ਕੋਈ ਨਹੀਂ - Consistency : ਨਿਯਮ/ਕਨਸਟ੍ਰੇਂਟਸ ਸਹੀ ਰਹਿੰਦੇ ਹਨ - Isolation : ਇੱਕਸਮੇਂ ਹੋ ਰਹੇ ਓਪਰੇਸ਼ਨ ਇੱਕ ਦੂਜੇ ਨੂੰ ਖਰਾਬ ਨਹੀਂ ਕਰਦੇ - Durability : ਕਿਹਾ-ਕਰ ਬਚਿਆ ਡੇਟਾ ਕ੍ਰੈਸ਼ ਤੋਂ ਬਾਅਦ ਵੀ ਰਹਿੰਦਾ ਹੈ ਇਹ ਉਹਨਾਂ ਵਰਕਫਲੋਜ਼ ਲਈ ਜ਼ਰੂਰੀ ਹੁੰਦਾ ਹੈ ਜਿੱਥੇ ਗਲਤੀਆਂ ਮਹਿੰਗੀਆਂ ਪੈਂਦੀਆਂ ਹਨ (ਪੈਮੈਂਟ, ਬੁਕਿੰਗ, ਇਨਵੇਂਟਰੀ ਅੱਪਡੇਟ)।

Q: ਕਾਲਮਨ ਡੇਟਾਬੇਸ row-store ਨਾਲੋਂ ਐਨਾਲਿਟਿਕ ਲਈ ਤੇਜ਼ ਕਿਉਂ ਹੁੰਦੇ ਹਨ?

ਕਾਲਮਨ ਡੇਟਾਬੇਸ ਉਹਨਾਂ ਕੁਐਰੀਆਂ ਲਈ ਸਰੇਸ਼ਠ ਹਨ ਜਿਹੜੀਆਂ: - ਧੀਰੇ-ਧੀਰੇ ਬਹੁਤ ਸਾਰੇ ਰਿਕਾਰਡ ਸਕੈਨ ਕਰਦੀਆਂ ਹਨ - ਸਿਰਫ਼ ਕੁਝ ਕਾਲਮ ਪੜ੍ਹਦੀਆਂ ਹਨ - ਐਗਰੇਗੇਸ਼ਨ ਕਰਦੀਆਂ ਹਨ ( , , , ) ਉਹ OLTP-ਸ਼ੈਲੀ ਵਰਕਲੋਡਾਂ ਲਈ ਘੱਟ ਢੰਗ ਨਾਲ ਉਪਯੋਗੀ ਹੋ ਸਕਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ ਬਹੁਤ ਛੋਟੇ ਅਪਡੇਟ ਜਾਂ "ਇਕ ID ਦੁਆਰਾ ਇਕ ਰਿਕਾਰਡ ਲਿਆਓ" ਵਾਲੀਆਂ ਪੈਟਰਨਾਂ।

Q: ਡੋਕਯੂਮੈਂਟ ਡੇਟਾਬੇਸ SQL ਨਾਲੋਂ ਕਦੋਂ ਵਧੀਆ ਹੁੰਦਾ ਹੈ?

ਡੋਕਯੂਮੈਂਟ ਡੇਟਾਬੇਸ ਤਦੋਂ ਵਧੀਆ ਹੈ ਜਦੋਂ: - ਤੁਹਾਡਾ ਐਪ ਡੇਟਾ JSON-ਨੁਮਾਂ ਆਬਜੈਕਟਾਂ ਵਾਂਗ ਉਦਾਹਰਣ ਹੈ (ਪ੍ਰੋਫ਼ਾਈਲ, ਕੈਟਾਲੌਗ, ਸਮੱਗਰੀ) - ਆਈਟਮਾਂ ਦੀ ਸ਼ਕਲ ਅਕਸਰ ਬਦਲਦੀ ਰਹਿੰਦੀ ਹੈ ਜਾਂ ਵੱਖ-ਵੱਖ ਹੁੰਦੀ ਹੈ - ਤੁਸੀਂ ਨੇਸਟਡ ਸਟ੍ਰਕਚਰ ਨੂੰ ਬਿਨਾਂ ਕਈ ਟੇਬਲਾਂ ਵਿੱਚ ਵੰਡੇ ਰੱਖਣਾ ਚਾਹੁੰਦੇ ਹੋ ਧਿਆਨ ਰੱਖੋ: ਆਮ-ਤੌਰ 'ਤੇ ਕੁਝ ਟ੍ਰੇਡ-ਆਫ਼—ਜਿਵੇਂ ਕਿ ਜਟਿਲ ਜੋਇਨ, ਪੜ੍ਹਨ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ ਡਾਟਾ ਨਕਲ ਕਰਨਾ, ਅਤੇ ਮੁਲਟੀ-ਡੌਕਯੂਮੈਂਟ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨਾਂ ਦੇ ਖਰਚ।

Q: ਕੀ-ਵੈਲਿਊ ਸਟੋਰ (ਕੈਸ਼ ਤੋਂ ਇਲਾਵਾ) ਸਭ ਤੋਂ ਵਧੀਆ ਕਿਸ ਲਈ ਹਨ?

ਕੀ-ਵੈਲਿਊ ਸਟੋਰ ਉਸ ਵੇਲੇ ਵਰਤੋਂਯੋਗ ਹੁੰਦੇ ਹਨ ਜਦੋਂ: - ਤੁਹਾਡਾ ਐਕਸੈਸ ਪੈਟਰਨ ਵਿਚਾਰਨ ਮੁੱਖ ਤੌਰ ਤੇ ਇਕ ਕੀਂ ਦੁਆਰਾ get/set ਹੋਵੇ (ਘੱਟ ਲੇਟੰਸੀ ਲੁੱਕਅੱਪ) - ਕੈਸ਼ਿੰਗ : ਮੁੱਖ ਡੇਟਾਬੇਸ ਤੋਂ ਨਤੀਜੇ ਕੈਸ਼ ਕਰਨਾ - ਸੈਸ਼ਨ , ਰੇਟ ਲਿਮਿਟਿੰਗ , ਫੀਚਰ ਫਲੈਗ , ਜਾਂ ਸ਼ਾਪਿੰਗ ਕਾਰਟ ਯੋਜਨਾ ਬਣਾਓ ਕਿ ਐਡ-ਹੌਕ ਕੁਐਰੀਇੰਗ ਆਮ ਤੌਰ ਤੇ ਕਮਜ਼ੋਰ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਸਕੈਂਡਰੀ ਇੰਡੈਕਸਿੰਗ ਦੀ ਸਹਾਇਤਾ ਮ خداਰ ਉਤਪਾਦ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ—ਅਕਸਰ ਤੁਸੀਂ ਖ਼ਾਸ ਕੀ ਸਟ੍ਰਕਚਰ ਅਤੇ ਲੁੱਕਅਪ ਕੀਜ਼ ਬਣਾਉਂਦੇ ਹੋ।

Q: ਕਾਲਮਨ ਡੇਟਾਬੇਸ ਅਤੇ ਵਾਇਡ-ਕਾਲਮ ਡੇਟਾਬੇਸ ਵਿੱਚ ਕੀ ਫਰਕ ਹੈ?

ਨਾਂ-ਭਾਵ-ਨਾਲ ਨਾਮ ਮਿਲਦੇ ਹੋਏ, ਦੋਨੋ ਵੱਖਰੇ ਮਕਸਦ ਨਿਭਾਉਂਦੇ ਹਨ: - ਕਾਲਮਨ ਡੇਟਾਬੇਸ : ਐਨਾਲਿਟਿਕਸ (ਕਾਲਮਾਂ ਉੱਤੇ ਤੇਜ਼ ਸਕੈਨ + ਕੰਪ੍ਰੈਸ਼ਨ) - ਵਾਇਡ-ਕਾਲਮ ਡੇਟਾਬੇਸ : ਵੱਡੇ ਪੈਮਾਨੇ ਦਾ ਓਪਰੇਸ਼ਨਲ ਸਟੋਰੇਜ (ਉੱਚ ਲਿਖਾਈ ਥਰੂਪੁੱਟ, ਭਵਿੱਖਵਾਣੀ-ਅਧਾਰਿਤ ਕੀ-ਪੜ੍ਹਾਈ) ਵਾਇਡ-ਕਾਲਮ ਸਿਸਟਮ ਆਮ ਤੌਰ 'ਤੇ ਕੁਐਰੀ-ਚਲਾਇਆ ਮਾਡਲਿੰਗ ਮੰਗਦੇ ਹਨ (ਟਿੱਬਲਜ਼ ਨੂੰ ਠੀਕ ਐਕਸੈਸ ਪੈਟਰਨ ਲਈ ਡਿਜ਼ਾਈਨ ਕਰੋ) ਅਤੇ ਉਹ SQL ਵਰਗੀ ਲਚਕੀਲਾਪਣ ਨਹੀਂ ਦਿੰਦੇ।

ਲੌਗ ਇਨ ਸ਼ੁਰੂ ਕਰੋ

ਡੇਟਾਬੇਸ ਦੇ ਕਿਸਮਾਂ: ਰਿਲੇਸ਼ਨਲ, ਕਾਲਮਨ, ਡੋਕਯੂਮੈਂਟ, ਗ੍ਰਾਫ ਅਤੇ ਹੋਰ | Koder.ai

“ਡੇਟਾਬੇਸ ਕਿਸਮ” ਦਾ ਅਸਲ ਮਤਲਬ

“ਡੇਟਾਬੇਸ ਕਿਸਮ” ਸਿਰਫ਼ ਇੱਕ ਲੇਬਲ ਨਹੀਂ—ਇਹ ਇਸ ਗੱਲ ਦੀ ਛਾਂਹ ਹੈ ਕਿ ਇੱਕ ਸਿਸਟਮ ਡੇਟਾ ਕਿਵੇਂ ਸਟੋਰ ਕਰਦਾ ਹੈ, ਤੁਸੀਂ ਇਸਨੂੰ ਕਿਵੇਂ ਕਵੈਰੀ ਕਰੋਗੇ, ਅਤੇ ਇਹ ਕਿਸ ਕੰਮ ਲਈ ਆਪਟੀਮਾਈਜ਼ਡ ਹੈ। ਇਹ ਚੋਣ ਸਿੱਧਾ ਪ੍ਰਭਾਵ ਪਾਉਂਦੀ ਹੈ ਤੇਜ਼ੀ (ਕਿਹੜਾ ਤੇਜ਼ ਹੈ vs. ਢੀਲਾ), ਲਾਗਤ (ਹਾਰਡਵੇਅਰ ਜਾਂ ਕਲਾਉਡ ਖਰਚ), ਅਤੇ ਸਮਰੱਥਾ (ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ, ਐਨਾਲਿਟਿਕਸ, ਖੋਜ, ਰੇਪਲੀਕੇਸ਼ਨ ਆਦਿ) 'ਤੇ।

ਕਿਸਮ ਮਹੱਤਵਪੂਰਨ ਕਿਉਂ ਹੈ

ਵੱਖ-ਵੱਖ ਡੇਟਾਬੇਸ ਕਿਸਮਾਂ ਵੱਖ-ਵੱਖ ਟ੍ਰੇਡ-ਆਫ਼ ਬਣਾਉਂਦੀਆਂ ਹਨ:

ਇੱਕ ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਉਸ ਵੇਲੇ ਵਧੀਆ ਹੈ ਜਦੋਂ ਤੁਹਾਡਾ ਡੇਟਾ ਸੰਗਠਿਤ ਹੋਵੇ ਅਤੇ ਤੁਹਾਨੂੰ ਭਰੋਸੇਯੋਗ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਚਾਹੀਦੇ ਹੋਣ।
ਇੱਕ ਕਾਲਮਨ ਡੇਟਾਬੇਸ ਉਹਨਾਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਚਮਕਦਾ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਬਹੁਤ ਸਾਰੇ ਰੋਜ਼ ਸਕੈਨ ਕਰ ਰਹੇ ਹੋ ਅਤੇ ਐਨਾਲਿਟਿਕ ਸਵਾਲ ਪੁੱਛ ਰਹੇ ਹੋ।
ਇੱਕ ਡੋਕਯੂਮੈਂਟ ਡੇਟਾਬੇਸ ਤਿਆਰ ਹੋ ਸਕਦਾ ਹੈ ਜਦੋਂ ਤੁਹਾਡੇ ਐਪ ਦਾ ਡੇਟਾ ਆਕਾਰ ਬਦਲਦਾ ਰਹਿੰਦਾ ਹੈ।
ਇੱਕ ਗ੍ਰਾਫ ਡੇਟਾਬੇਸ ਰਿਸ਼ਤਿਆਂ-ਭਾਰੀ ਡੇਟਾ ਲਈ ਬਣਾਇਆ ਗਿਆ ਹੈ।
ਇੱਕ ਵੈਕਟਰ ਡੇਟਾਬੇਸ ਇੱਕੋ-ਇੱਕ ਜ਼ਿਆਦਾ ਮਿਲਦੇ-ਜੁਲਦੇ ਆਈਟਮਾਂ ਨੂੰ ਲੱਭਣ 'ਤੇ ਧਿਆਨ ਦਿੰਦਾ ਹੈ ਨਾ ਕਿ ਬਿਲਕੁਲ ਮਿਲਦੇ ਜੁਲਦੇ।

ਇਹ ਡਿਜ਼ਾਈਨ ਚੋਣਾਂ ਪ੍ਰਭਾਵਿਤ ਕਰਦੀਆਂ ਹਨ:

ਕੁਐਰੀ ਪੈਟਰਨ: ਬਹੁਤ ਛੋਟੇ ਲੁੱਕਅੱਪ, ਜਟਿਲ ਜੋਇਨ, ਜਾਂ ਵੱਡੇ ਐਨਾਲਿਟਿਕ ਸਕੈਨ?
ਸਕੇਲ ਮਾਡਲ: ਇੱਕ ਵੱਡੀ ਮਸ਼ੀਨ 'ਤੇ scale up, ਜਾਂ ਕਈ ਮਸ਼ੀਨਾਂ 'ਤੇ scale out?
ਡੇਟਾ ਮਾਡਲ: ਟੇਬਲ, ਦਸਤਾਵੇਜ਼, ਕੀ-ਵੈਲਿਊ ਜੋੜੇ, ਗ੍ਰਾਫ, ਵੈਕਟਰ, ਜਾਂ ਸਮੇਂ-ਸਟੈਂਪ ਕੀਤੇ ਬਿੰਦੂ।

ਇਸ ਗਾਈਡ ਤੋਂ ਤੁਸੀਂ ਕੀ ਸਿੱਖੋਗੇ

ਇਹ ਲੇਖ ਮੁੱਖ ਡੇਟਾਬੇਸ ਦੀਆਂ ਕਿਸਮਾਂ ਰਾਹੀਂ ਲੰਘਦਾ ਹੈ ਅਤੇ ਹਰ ਇੱਕ ਲਈ ਵੱਧ-ਘੱਟ:

ਇਹ ਕਿਸ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਹੈ (ਅਤੇ ਕਿੱਥੇ ਕਮਜ਼ੋਰ ਹੈ)
ਅਸਲ ਉਤਪਾਦਾਂ ਵਿੱਚ ਆਮ ਉਪਯੋਗ ਮਾਮਲੇ
ਕੁੰਜੀ-ਟ੍ਰੇਡ-ਆਫ਼ ਜੋ ਕਾਰਗੁਜ਼ਾਰੀ, ਲਾਗਤ ਅਤੇ ਜਟਿਲਤਾ 'ਤੇ ਅਸਰ ਪਾਉਂਦੇ ਹਨ

“ਮਲਟੀ-ਮਾਡਲ” ਸਿਸਟਮਾਂ ਬਾਰੇ ਛੋਟਾ ਨੋਟ

ਕਈ ਆਧੁਨਿਕ ਉਤਪਾਦ ਸਰਹਦਾਂ ਨੂੰ ਬਰਬਾਦ ਕਰਦੇ ਹਨ। ਕੁਝ ਰਿਲੇਸ਼ਨਲ DB JSON ਸਮਰਥਨ ਸ਼ਾਮਿਲ ਕਰਦੇ ਹਨ ਜੋ ਡੋਕਯੂਮੈਂਟ ਡੇਟਾਬੇਸ ਨਾਲ ਓਵਰਲੈਪ ਕਰਦਾ ਹੈ। ਕੁਝ ਖੋਜ ਅਤੇ ਐਨਾਲਿਟਿਕਸ ਪਲੇਟਫਾਰਮ ਵੈਕਟਰ ਇੰਡੈਕਸਿੰਗ ਦਿੰਦੇ ਹਨ ਜਿਵੇਂ ਵੈਕਟਰ ਡੇਟਾਬੇਸ। ਹੋਰਾਂ ਨੇ ਸਟ੍ਰੀਮਿੰਗ ਅਤੇ ਸਟੋਰੇਜ ਨੂੰ ਟਾਈਮ-ਸੀਰੀਜ਼ ਫੀਚਰ ਨਾਲ ਜੋੜਿਆ ਹੈ।

ਇਸ ਲਈ “ਕਿਸਮ” ਕੋਈ ਕਟੌਤੀ ਬਕਸਾ ਨਹੀਂ—ਪਰ ਇਹ ਸਮਝਣ ਲਈ ਉਪਯੋਗੀ ਹੈ ਕਿ ਡਿਫਾਲਟ ਤਾਕਤਾਂ ਕੀ ਹਨ ਅਤੇ ਕਿਹੜੇ ਵਰਕਲੋਡਸ ਨੂੰ ਇੱਕ ਡੇਟਾਬੇਸ ਸਭ ਤੋਂ ਵਧੀਆ ਹਲ ਕਰੇਗਾ।

ਇਸ ਗਾਈਡ ਨੂੰ ਵਰਤ ਕੇ ਵਿਕਲਪ ਘਟਾਉਣ ਦਾ ਤਰੀਕਾ

ਆਪਣੇ ਮੁੱਖ ਵਰਕਲੋਡ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ:

ਜੇ ਤੁਹਾਨੂੰ ਸੰਰਚਿਤ ਡੇਟਾ ਅਤੇ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਚਾਹੀਦੇ ਹਨ, ਤਾਂ ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ।
ਜੇ ਤੁਸੀਂ ਭਾਰੀ ਰਿਪੋਰਟਿੰਗ ਅਤੇ ਡੈਸ਼ਬੋਰਡ ਕਰ ਰਹੇ ਹੋ, ਤਾਂ ਕਾਲਮਨ ਡੇਟਾਬੇਸ ਜਾਂ ਵੇਅਰਹਾਊਸ ਦੇਖੋ।
ਜੇ ਤੁਹਾਡੇ ਐਪ ਦਾ ਡੇਟਾ ਆਕਾਰ ਅਕਸਰ ਬਦਲਦਾ ਰਹਿੰਦਾ ਹੈ, ਤਾਂ ਡੋਕਯੂਮੈਂਟ ਡੇਟਾਬੇਸ 'ਤੇ ਵਿਚਾਰ ਕਰੋ।
ਜੇ ਤੁਹਾਨੂੰ ਬਹੁਤ ਤੇਜ਼ ਕੀ-ਆਧਾਰਿਤ ਲੁੱਕਅੱਪ ਚਾਹੀਦੇ ਹਨ, ਤਾਂ ਕੀ-ਵੈਲਿਊ ਸਟੋਰ ਇੱਕ ਮਜ਼ਬੂਤ ਉਮੀਦਵਾਰ ਹੈ।

ਫਿਰ “ਸਹੀ ਡੇਟਾਬੇਸ ਕਿਸਮ ਕਿਵੇਂ ਚੁਣੀਏ” ਸੈਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰੋ ਤਾਂ ਕਿ ਸਕੇਲ, ਸਹਿਮਤੀ ਦੀ ਲੋੜ, ਅਤੇ ਉਹ ਕੁਐਰੀਜ਼ ਜੋ ਤੁਸੀਂ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ ਚਲਾਉਂਦੇ ਹੋ—ਉਨ੍ਹਾਂ ਦੇ ਆਧਾਰ 'ਤੇ ਫੈਸਲਾ ਪੱਕਾ ਕਰੋ।

ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ (SQL): ਸੰਰਚਿਤ ਡੇਟਾ ਲਈ ਡੀਫਾਲਟ

ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਉਹ ਹਨ ਜੋ ਬਹੁਤ ਲੋਕ “ਡੇਟਾਬੇਸ” ਸੁਨਦੇ ਹੀ ਸੋਚਦੇ ਹਨ। ਡੇਟਾ ਟੇਬਲਾਂ ਵਿੱਚ ਸੰਗਠਿਤ ਹੁੰਦਾ ਹੈ ਜੋ ਰੋਜ਼ (ਰਿਕਾਰਡ) ਅਤੇ ਕਾਲਮ (ਫੀਲਡ) ਬਣਾਉਂਦੇ ਹਨ। ਇੱਕ ਸਕੀਮਾ ਇਹ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦੀ ਹੈ ਕਿ ਹਰ ਟੇਬਲ ਕਿਵੇਂ ਦਿਖਦੀ ਹੈ—ਕਿਹੜੇ ਕਾਲਮ ਹਨ, ਉਹਨਾਂ ਦੀਆਂ ਕਿਸਮਾਂ ਕੀ ਹਨ, ਅਤੇ ਟੇਬਲਾਂ ਇਕ ਦੂਜੇ ਨਾਲ ਕਿਵੇਂ ਸੰਬੰਧਿਤ ਹਨ।

SQL ਹਰ ਜਗ੍ਹਾ ਕਿਉਂ ਹੈ

ਰਿਲੇਸ਼ਨਲ ਸਿਸਟਮ ਆਮ ਤੌਰ ਤੇ SQL (Structured Query Language) ਨਾਲ ਪੁੱਛੇ ਜਾਂਦੇ ਹਨ। SQL ਲੋਕਪ੍ਰਿਯ ਹੈ ਕਿਉਂਕਿ ਇਹ ਪੜ੍ਹਨ ਯੋਗ ਅਤੇ ਵਿਅਕਤਗਤ ਹੈ:

ਤੁਸੀਂ ਡੇਟਾ ਨੂੰ ਫਿਲਟਰ ਅਤੇ ਸੋਰਟ ਕਰ ਸਕਦੇ ਹੋ (WHERE, ORDER BY).
ਟੇਬਲਾਂ ਨੂੰ ਜੋੜ ਸਕਦੇ ਹੋ (JOIN).
ਨਤੀਜਿਆਂ ਨੂੰ ਸੰਖੇਪ ਵਿੱਚ ਵੇਖ ਸਕਦੇ ਹੋ (GROUP BY).

ਜ਼ਿਆਦਾਤਰ ਰਿਪੋਰਟਿੰਗ ਸੰਦ, ਐਨਾਲਿਟਿਕਸ ਪਲੇਟਫਾਰਮ, ਅਤੇ ਬਿਜ਼ਨਸ ਐਪ SQL ਬੋਲਦੇ ਹਨ, ਜੋ ਇਸਨੂੰ ਇੱਕ ਸੁਰੱਖਿਅਤ ਡਿਫਾਲਟ ਬਣਾਉਂਦਾ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਵਿਅਾਪਕ ਅਨੁਕੂਲਤਾ ਚਾਹੁੰਦੇ ਹੋ।

ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ ACID ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ

ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ACID ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਲਈ ਮਸ਼ਹੂਰ ਹਨ, ਜਿਹੜੇ ਡੇਟਾ ਨੂੰ ਸਹੀ ਰੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ:

Atomicity: ਇੱਕ ਬਹੁ-ਕਦਮੀ ਬਦਲਾਅ “ਸਭ ਜਾਂ ਕੁਝ ਨਹੀਂ” ਹੁੰਦਾ ਹੈ।
Consistency: ਨਿਯਮ (ਜਿਵੇਂ foreign keys) ਬਦਲਾਅ ਤੋਂ ਬਾਅਦ ਵੀ ਸਚੇ ਰਹਿੰਦੇ ਹਨ।
Isolation: ਸਿਮਲਟੇਨਿਅਸ ਅਪਡੇਟ ਇੱਕ ਦੂਜੇ ਨੂੰ ਖਰਾਬ ਨਹੀਂ ਕਰਦੇ।
Durability: ਜਦੋਂ ਸੇਵ ਹੋ ਜਾਵੇ, ਡੇਟਾ ਕ੍ਰੈਸ਼ ਤੋਂ ਬਾਅਦ ਜੀਵਤ ਰਹਿੰਦਾ ਹੈ।

ਜਦੋਂ ਗਲਤੀਆਂ ਮਹਿੰਗੀਆਂ ਹੁੰਦੀਆਂ ਹਨ—ਜਿਵੇਂ ਕਿ ਗਾਹਕ ਨੂੰ ਦੁਬਾਰਾ ਚਾਰਜ ਕਰਨਾ ਜਾਂ ਸਟਾਕ ਅਪਡੇਟ ਖੋ ਦੇਣਾ—ਇਸ ਦੀ ਮਹੱਤਤਾ ਵਧ ਜਾਂਦੀ ਹੈ।

ਸਭ ਤੋਂ ਵਧੀਆ ਵਰਕਲੋਡ

ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਆਮ ਤੌਰ ਤੇ ਠੀਕ ਹੁੰਦੇ ਹਨ ਤੇ ਸੰਰਚਿਤ, ਵੈਢ-ਪਰਿਭਾਸ਼ਿਤ ਡੇਟਾ ਅਤੇ ਵਰਕਫਲੋਜ਼ ਲਈ ਜਿਵੇਂ:

ਬਿਜ਼ਨਸ ਐਪਲਿਕੇਸ਼ਨ (CRM/ERP-ਤਰ੍ਹਾਂ ਦੇ ਸਿਸਟਮ)
ਫਾਇਨੈਂਸ, ਭੁਗਤਾਨ, ਬਿਲਿੰਗ
ਇਨਵੇਂਟਰੀ, ਆਰਡਰ, ਰਿਜਰਵੇਸ਼ਨ

ਆਮ ਘਾਟੇ ਜੋ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣੇ

ਉਹੀ ਢਾਂਚਾ ਜੋ ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਨੂੰ ਭਰੋਸੇਯੋਗ ਬਣਾਉਂਦਾ ਹੈ, ਕਈ ਵਾਰੀ ਰੁਕਾਵਟ ਵੀ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ:

ਕਠੋਰ ਸਕੀਮਾਂ: ਡੇਟਾ ਸ਼ੇਪ ਵਿੱਚ ਬਾਰੰਬਾਰ ਬਦਲਾਅ ਮਾਈਗ੍ਰੇਸ਼ਨਾਂ ਦੀ ਲੋੜ ਪਾ ਸਕਦੇ ਹਨ।
ਜੋਇਨ-ਭਾਰੀ ਸਕੇਲਿੰਗ: ਵੱਡੀਆਂ ਟੇਬਲਾਂ 'ਤੇ ਬਹੁਤ ਸਾਰੇ ਜੋਇਨ ਉੱਚ ਪੱਧਰ 'ਤੇ ਢਿੱਲੇ ਜਾਂ ਮਹਿੰਗੇ ਹੋ ਸਕਦੇ ਹਨ, ਖ਼ਾਸ ਕਰਕੇ ਜੇ ਡੇਟਾ ਕਈ ਮਸ਼ੀਨਾਂ 'ਤੇ ਫੈਲਿਆ ਹੋਵੇ।

ਜਦੋਂ ਤੁਹਾਡਾ ਡੇਟਾ ਮਾਡਲ ਲਗਾਤਾਰ ਬਦਲਦਾ ਰਹਿੰਦਾ ਹੈ—ਜਾਂ ਤੁਹਾਨੂੰ ਬਹੁਤ ਵੱਡੇ ਹੋਰਾਈਜ਼ਾਂਟਲ ਸਕੇਲ ਨਾਲ ਸਧਾਰਨ ਐਕਸੈੱਸ ਪੈਟਰਨ ਚਾਹੀਦੇ ਹਨ—ਤਾਂ ਹੋਰ ਡੇਟਾਬੇਸ ਕਿਸਮਾਂ ਬਿਹਤਰ ਮਿਲ ਸਕਦੀਆਂ ਹਨ।

ਕਾਲਮਨ ਡੇਟਾਬੇਸ: ਐਨਾਲਿਟਿਕਸ ਲਈ ਬਣੇ

ਕਾਲਮਨ ਡੇਟਾਬੇਸ ਡੇਟਾ ਨੂੰ “ਰੋਜ਼ ਦੀ ਥਾਂ ਕਾਲਮ ਦੇ ਅਧਾਰ” 'ਤੇ ਸਟੋਰ ਕਰਦੇ ਹਨ। ਇਹ ਇਕੋ ਬਦਲਾਅ ਐਨਾਲਿਟਿਕ ਵਰਕਲੋਡ ਲਈ ਤੇਜ਼ੀ ਅਤੇ ਲਾਗਤ 'ਤੇ ਵੱਡਾ ਅਸਰ ਪਾਉਂਦਾ ਹੈ।

ਰੋ-ਸਟੋਰ vs. ਕਾਲਮ-ਸਟੋਰ

ਪਾਰੰਪਰਿਕ ਰੋ-ਸਟੋਰ (ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਵਿੱਚ ਆਮ) ਵਿੱਚ ਇੱਕ ਰਿਕਾਰਡ ਲਈ ਸਾਰੇ ਵੈਲਿਊ ਇਕੱਠੇ ਹੁੰਦੇ ਹਨ। ਇਹ ਉਸ ਵੇਲੇ ਵਧੀਆ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਅਕਸਰ ਇੱਕ ਗਾਹਕ/ਆਰਡਰ ਇੱਕ-ਇੱਕ ਕਰ ਕੇ ਫੈਚ ਜਾਂ ਅਪਡੇਟ ਕਰਦੇ ਹੋ।

ਕਾਲਮ-ਸਟੋਰ ਵਿੱਚ, ਇਕੋ ਫੀਲਡ ਦੀਆਂ ਸਾਰੀਆਂ ਵੈਲਿਊਜ਼ ਇਕੱਠੀਆਂ ਹੁੰਦੀਆਂ ਹਨ—ਹਰੇਕ price, ਹਰ country, ਹਰ timestamp। ਇਸ ਨਾਲ ਇਹ ਕੁੱਝ ਕਾਲਮਾਂ ਹੀ ਪੜ੍ਹਨ ਤੇ ਰਿਪੋਰਟ ਲਈ ਡਿਸਕ ਤੋਂ ਪੂਰੀਆਂ ਰੋਜ਼ ਲੈਣ ਦੀ ਜ਼ਰੂਰਤ ਘਟਾਈ ਜਾਂਦੀ ਹੈ।

ਕਾਲਮਨ ਤੇਜ਼ੀ ਦਾ ਕਾਰਨ

ਐਨਾਲਿਟਿਕ ਅਤੇ BI ਕੁਐਰੀਆਂ ਆਮ ਤੌਰ 'ਤੇ:

ਬਹੁਤ ਸਾਰੇ ਰਿਕਾਰਡ ਸਕੈਨ ਕਰਦੀਆਂ ਹਨ
ਥੋੜ੍ਹੇ ਕਾਲਮ ਚੁਣਦੀਆਂ ਹਨ
SUM, AVG, COUNT ਵਰਗੀਆਂ ਐਗਰੇਗੇਸ਼ਨ ਕਰਦੀਆਂ ਹਨ

ਕਾਲਮਨ ਸਟੋਰੇਜ ਇਹਨਾਂ ਪੈਟਰਨਾਂ ਨੂੰ ਤੇਜ਼ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਇਹ ਘੱਟ ਡੇਟਾ ਪੜ੍ਹਦਾ ਹੈ ਅਤੇ ਬਹੁਤ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੰਪਰੇਸ ਹੁੰਦਾ ਹੈ (ਸਮੇਤ ਕੀਮਤਾਂ ਇਕੱਠੇ ਹੋਣ ਕਾਰਨ)। ਕਈ ਕਾਲਮਨ ਇੰਜਿਨ ਵੀ ਵੇਕਟਰਾਈਜ਼ਡ ਐਕਜ਼ੈਕਿਫ਼ੂਸ਼ਨ ਅਤੇ ਸਮਾਰਟ ਇੰਡੈਕਸਿੰਗ/ਪਾਰਟੀਸ਼ਨਿੰਗ ਵਰਤਦੇ ਹਨ ਤਾਂ ਜੋ ਵੱਡੇ ਸਕੈਨ ਤੇਜ਼ ਹੋ ਜਾਣ।

ਆਮ ਕੁਐਰੀ ਪੈਟਰਨ

ਡੈਸ਼ਬੋਰਡ ਅਤੇ ਰਿਪੋਰਟਿੰਗ ਲਈ ਕਾਲਮਨ ਸਿਸਟਮ ਬਿਹਤਰ ਹਨ: “ਹਫਤੇ ਵਾਰ ਰੇਵਨਿਊ”, “ਰਾਜ ਦੇ ਅਨੁਸਾਰ ਟੌਪ 20 ਉਤਪਾਦ”, “ਚੈਨਲ ਅਨੁਸਾਰ ਕਨਵਰਜ਼ਨ ਰੇਟ”, ਜਾਂ “ਪਿਛਲੇ 30 ਦਿਨਾਂ ਵਿੱਚ ਸੇਵਾ ਦੇ ਅਨੁਮਤੀਆਂ” — ਇਹ ਕੁਐਰੀਆਂ ਬਹੁਤ ਸਾਰੀਆਂ ਰੋਜ਼ਾਂ ਨੂੰ ਛੁਹਦੀਆਂ ਹਨ ਪਰ ਸਪੱਸ਼ਟ ਕਾਲਮਾਂ ਤੱਕ ਸੀਮਤ ਰਹਿੰਦੀਆਂ ਹਨ।

ਟਰੇਡ-ਆਫ਼: OLTP ਅਪਡੇਟ ਅਤੇ ਪੌਇੰਟ ਲੁੱਕਅੱਪ

ਜੇ ਤੁਹਾਡਾ ਵਰਕਲੋਡ ਅਕਸਰ “ID ਦੁਆਰਾ ਇੱਕ ਰਿਕਾਰਡ ਲਿਆਓ” ਜਾਂ “ਇੱਕ ਰੋਜ਼ ਨੂੰ ਦਿਨ ਵਿੱਚ ਦਰਜਨਾਂ ਵਾਰ ਅਪਡੇਟ ਕਰੋ” ਹੈ, ਕਾਲਮਨ ਹੇਠਾਂ ਮਹਿਸੂਸ ਹੋ ਸਕਦਾ ਹੈ। ਲਿਖਤਾਂ ਆਮ ਤੌਰ 'ਤੇ ਬੈਚ ਲਈ ਆਪਟੀਮਾਈਜ਼ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ (append-heavy ingestion) ਨਾ ਕਿ ਫਰੈਕਵੈਂਟ, ਛੋਟੇ ਅਪਡੇਟ ਲਈ।

ਕਿੱਥੇ ਇਹ ਚਮਕਦਾ ਹੈ

ਕਾਲਮਨ ਡੇਟਾਬੇਸ ਇੱਕ ਮਜ਼ਬੂਤ ਚੋ이스 ਹਨ:

BI ਅਤੇ ਐਗਜ਼ਿਕਿਊਟਿਵ ਡੈਸ਼ਬੋਰਡ
ਇਵੈਂਟ ਅਤੇ ਕਲਿੱਕਸਟਰੀਮ ਐਨਾਲਿਟਿਕਸ
ਲੌਗ ਜਾਂ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ 'ਤੇ ਵੱਡੇ ਪੱਧਰ ਦੀ ਰਿਪੋਰਟਿੰਗ

ਜੇ ਤੁਹਾਡੀ ਪ੍ਰਾਥਮਿਕਤਾ ਬਹੁਤ ਸਾਰੇ ਡੇਟਾ 'ਤੇ ਤੇਜ਼ ਐਗਰੇਗੇਸ਼ਨ ਹੈ, ਤਾਂ ਕਾਲਮਨ ਆਮ ਤੌਰ 'ਤੇ ਪਹਿਲੀ ਕਿਸਮ ਹੈ ਜੋ ਤੁਸੀਂ ਮੁਲਿਆਂਕਣ ਕਰੋਗੇ।

ਡੋਕਯੂਮੈਂਟ ਡੇਟਾਬੇਸ: ਐਪ ਡੇਟਾ ਲਈ ਲਚਕੀਲਾ ਸਕੀਮਾ

ਡੋਕਯੂਮੈਂਟ ਡੇਟਾਬੇਸ ਡੇਟਾ ਨੂੰ “ਡੋਕਯੂਮੈਂਟਾਂ” ਵਜੋਂ ਸਟੋਰ ਕਰਦੇ ਹਨ—ਆਮ ਤੌਰ 'ਤੇ JSON-ਸਮਾਨ ਰਿਕਾਰਡ। ਕਈ ਵਾਰੀ ਤੁਸੀਂ ਸਮਬੰਧਿਤ ਫੀਲਡਾਂ ਨੂੰ ਇੱਕ ਸ਼ਾਂਤ ਪਰਛੇਦੇ ਚੀਜ਼ ਵਿੱਚ ਰੱਖਦੇ ਹੋ (ਨੇਸਟਡ ਐਰੇਜ਼ ਅਤੇ ਸਬ-ਆਬਜੈਕਟਸ ਸਮੇਤ)। ਇਹਨਾਂ ਨੂੰ ਐਪਲੀਕੇਸ਼ਨ ਡੇਟਾ ਲਈ ਇੱਕ ਕੁਦਰਤੀ ਚੋਣ ਬਣਾਉਂਦਾ ਹੈ।

ਡੋਕਯੂਮੈਂਟ ਮਾਡਲ (JSON-ਨੁਮਾਂ ਰਿਕਾਰਡ)

ਇੱਕ ਡੋਕਯੂਮੈਂਟ ਇੱਕ ਯੂਜ਼ਰ, ਉਤਪਾਦ, ਜਾਂ ਲੇਖ ਦਾ ਪ੍ਰਤੀਨਿਧਿਤ ਕਰ ਸਕਦਾ ਹੈ—ਜਿਸ ਵਿੱਚ ਉਹੀ ਸਮੱਗਰੀ ਹੋ ਸਕਦੀ ਹੈ ਜੋ ਇੱਕ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਅਲੱਗ-ਅਲੱਗ ਆਈਟਮ ਲਈ ਵੱਖਰੀ ਹੁੰਦੀ ਹੈ। ਇੱਕ ਉਤਪਾਦ ਦੇ ਕੋਲ size ਅਤੇ color ਹੋ ਸਕਦੇ ਹਨ, ਦੂਜੇ ਦੇ ਕੋਲ dimensions ਅਤੇ materials—ਬਿਨਾਂ ਸਾਰੇ ਰਿਕਾਰਡਾਂ ਲਈ ਇੱਕ ਢਿੱਲੀ ਸਕੀਮਾ ਲਗਾਉਣ ਦੀ ਜ਼ਰੂਰਤ ਦੇ।

ਇਹ ਲਚਕੀਲਾਪਣ ਉਨ੍ਹਾਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਖਾਸ ਲਾਭਦਾਇਕ ਹੈ ਜਦੋਂ ਤੁਹਾਡੀਆਂ ਲੋੜਾਂ ਅਕਸਰ ਬਦਲਦੀਆਂ ਹਨ ਜਾਂ ਵੱਖ-ਵੱਖ ਆਈਟਮਾਂ ਕੋਲ ਵੱਖਰੇ ਫੀਲਡ ਹੋਣ।

ਇੰਡੈਕਸਿੰਗ, ਉੱਚ-ਪੱਧਰ 'ਤੇ

ਹਰੇਕ ਡੋਕਯੂਮੈਂਟ ਨੂੰ ਸਕੈਨ ਕਰਨ ਤੋਂ ਬਚਣ ਲਈ, ਡੋਕਯੂਮੈਂਟ DB ਇੰਡੈਕਸ ਵਰਤਦੇ ਹਨ—ਜਿਹੜੇ ਡੇਟਾ ਸਟ੍ਰਕਚਰ DB ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਮੈਚ ਕਰਨ ਵਾਲੇ ਡੋਕਯੂਮੈਂਟ ਲੱਭਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ। ਤੁਸੀਂ ਆਮ ਲੁੱਕਅੱਪ ਫੀਲਡਾਂ (ਜਿਵੇਂ email, sku, ਜਾਂ status) ਨੂੰ ਇੰਡੈਕਸ ਕਰ ਸਕਦੇ ਹੋ, ਅਤੇ ਕਈ ਸਿਸਟਮ ਨੇਸਟਡ ਫੀਲਡਾਂ ਨੂੰ ਵੀ ਇੰਡੈਕਸ ਕਰ ਸਕਦੇ ਹਨ (ਜਿਵੇਂ address.city)। ਇੰਡੈਕਸਜ਼ ਪੜ੍ਹਾਈ ਨੂੰ ਤੇਜ਼ ਕਰਦੇ ਹਨ ਪਰ ਲਿਖਤਾਂ 'ਤੇ ਓਵਰਹੈੱਡ ਵਧਾਉਂਦੇ ਹਨ, ਕਿਉਂਕਿ ਇੰਡੈਕਸ ਨੂੰ ਡੌਕਯੂਮੈਂਟ ਬਦਲਣ 'ਤੇ ਅੱਪਡੇਟ ਕਰਨਾ ਪੈਂਦਾ ਹੈ।

ਤਾਕਤਾਂ—ਅਤੇ ਟਰੇਡ-ਆਫ਼

ਡੋਕਯੂਮੈਂਟ DB ਉਹਨਾਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਚਮਕਦੇ ਹਨ ਜਿੱਥੇ ਸਕੀਮਾ बदलਦੀ ਰਹਿੰਦੀ ਹੈ, ਨੇਸਟਡ ਡੇਟਾ ਵੱਧ ਹੁੰਦਾ ਹੈ, ਅਤੇ API-ਮਿੱਤਰ payloads ਲੋੜੀਂਦੇ ਹਨ। ਟਰੇਡ-ਆਫ਼ ਆਮ ਤੌਰ 'ਤੇ ਵੇਖਣ ਨੂੰ ਮਿਲਦੇ ਹਨ ਜਦੋਂ ਤੁਹਾਨੂੰ:

ਬਹੁਤ ਸਾਰੇ ਏਂਟਿਟੀਜ਼ 'ਤੇ ਜਟਿਲ ਜੋਇਨ ਕਰਨੇ ਹੁੰਦੇ ਹਨ (ਰਿਲੇਸ਼ਨਲ DB ਵਿੱਚੋਂ ਅਕਸਰ ਜ਼ਿਆਦਾ ਕੁਦਰਤੀ)
ਉੱਚ ਸਕੇਲ 'ਤੇ ਮਲਟੀ-ਡੋਕਯੂਮੈਂਟ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ (ਕਈ ਉਤਪਾਦਾਂ ਵਿੱਚ ਸਮਰਥਿਤ, ਪਰ ਪ੍ਰਦਰਸ਼ਨ ਲਾਗਤ ਹੋ ਸਕਦੀ)
ਸਖ਼ਤ ਨਾਰਮਲਾਈਜ਼ੇਸ਼ਨ (ਟੀਮਾਂ ਕਈ ਵਾਰੀ ਪੜ੍ਹਾਈ ਸਧਾਰਨ ਰੱਖਣ ਲਈ ਡੇਟਾ ਡੁਪਲੀਕੇਟ ਕਰਦੀਆਂ ਹਨ, ਜੋ ਅਪਡੇਟ ਲਾਜਿਕ ਨੂੰ ਸਾਵਧਾਨ ਬਣਾਉਂਦਾ ਹੈ)

ਆਮ ਉਪਯੋਗ ਮਾਮਲੇ

ਇਹ ਸਮੱਗਰੀ ਪ੍ਰਬੰਧਨ, ਉਤਪਾਦ ਕੈਟਾਲੋਗ, ਯੂਜ਼ਰ ਪ੍ਰੋਫ਼ਾਈਲ, ਅਤੇ ਬੈਕਐਂਡ APIs ਲਈ ਇੱਕ ਮਜ਼ਬੂਤ ਚੋਣ ਹੁੰਦੇ ਹਨ—ਉਥੇ ਜਿੱਥੇ ਤੁਹਾਡਾ ਡੇਟਾ “ਇੱਕ ਪੰਨਾ/ਸਕਰੀਨ/ਰਿਕਵੈਸਟ ਲਈ ਇੱਕ ਆਬਜੈਕਟ” ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਮੈਪ ਕਰਦਾ ਹੈ।

ਕੀ-ਵੈਲਿਊ ਸਟੋਰ: ਸਿਰਫ਼ ਅਤੇ ਬਹੁਤ ਤੇਜ਼ ਲੁੱਕਅੱਪ

ਕੀ-ਵੈਲਿਊ ਸਟੋਰ ਸਭ ਤੋਂ ਸਧਾਰਣ ਡੇਟਾਬੇਸ ਮਾਡਲ ਹਨ: ਤੁਸੀਂ ਇੱਕ ਵੈਲਿਊ (ਕਿਸੇ ਵੀ ਚੀਜ਼—ਸ्ट्रਿੰਗ ਤੋਂ ਲੈ ਕੇ JSON ਬਲਾਬ) ਸਟੋਰ ਕਰਦੇ ਹੋ ਅਤੇ ਇੱਕ ਯੂਨਿਕ ਕੀ ਨਾਲ ਉਸਨੂੰ ਰੀਟ੍ਰੀਵ ਕਰਦੇ ਹੋ। ਮੁੱਖ ਆਪਰੇਸ਼ਨ ਤੇਜ਼ੀ ਨਾਲ “ਇਸ ਕੀ ਲਈ ਮੈਨੂੰ ਵੈਲਿਊ ਦਿਓ” ਹੁੰਦਾ ਹੈ, ਇਸੇ ਕਾਰਨ ਇਹ ਸਿਸਟਮ ਬਹੁਤ ਤੇਜ਼ ਹੋ ਸਕਦੇ ਹਨ।

ਕੀ-ਵੈਲਿਊ ਮਾਡਲ (ਅਤੇ ਇਹ ਤੇਜ਼ ਕਿਉਂ ਹੈ)

ਕਿਉਂਕਿ ਪੜ੍ਹਾਈਆਂ ਅਤੇ ਲਿਖਤਾਂ ਇੱਕ ਪ੍ਰਾਇਮਰੀ ਕੀ 'ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੁੰਦੀਆਂ ਹਨ, ਕੀ-ਵੈਲਿਊ ਸਟੋਰ ਘੱਟ ਲੇਟੰਸੀ ਅਤੇ ਉੱਚ ਥਰੂਪੁੱਟ ਲਈ ਆਪਟੀਮਾਈਜ਼ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ। ਕਈਆਂ ਨੂੰ ਹੌਟ ਡੇਟਾ ਨੂੰ ਮੇਮੋਰੀ ਵਿੱਚ ਰੱਖਣ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਉਪਯੋਗੀ ਹੁੰਦੇ ਹਨ ਕਿ ਜਟਿਲ ਕੁਐਰੀ ਪਲੈਨਿੰਗ ਘੱਟ ਰਹੇ ਅਤੇ ਹੋਰਾਂ ਨਾਲ ਹੋਰਾਈਜ਼ਾਂਟਲ ਸਕੇਲ ਕਰ ਸਕਣ।

ਇਹ ਸਧਾਰਣਤਾ ਵੀ ਡਾਟਾ ਮਾਡਲਿੰਗ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦੀ ਹੈ: ਤੁਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਡੇਟਾਬੇਸ ਤੋਂ ਇਹ ਨਹੀਂ ਪੁੱਛਦੇ "ਬੇਰਲਿਨ ਵਿੱਚ ਸਾਰੇ ਉਪਭੋਗਤਾਵਾਂ ਜੋ ਪਿਛਲੇ ਹਫ਼ਤੇ ਸਾਈਨਅਪ ਕੀਤੇ"—ਤਿਆਰ ਕੀਤੇ ਕੀਜ਼ ਐਸਾ ਡਾਇਰੈਕਟ ਪਤਾ ਦਿੰਦੀਆਂ ਹਨ (ਉਦਾਹਰਨ: user:1234:profile).

ਕੈਸ਼ ਅਤੇ ਸੈਸ਼ਨ ਲਈ ਇਸਦੀ ਲੋਕਪ੍ਰਿਯਤਾ

ਕੀ-ਵੈਲਿਊ ਸਟੋਰ ਬਹੁਤ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਇੱਕ ਕੈਸ਼ ਵਜੋਂ ਇੱਕ ਧੀਰੇ-ਚੱਲਦੇ ਪ੍ਰਾਇਮਰੀ ਡੇਟਾਬੇਸ (ਜਿਵੇਂ ਰਿਲੇਸ਼ਨਲ) ਤੋਂ ਅੱਗੇ ਵਰਤੇ ਜਾਂਦੇ ਹਨ। ਜੇ ਤੁਹਾਡਾ ਐਪ ਵਾਰ-ਵਾਰ ਇੱਕੋ ਡੇਟਾ ਨੂੰ ਲੋੜਦਾ ਹੈ—ਉਤਪਾਦ ਵੇਰਵੇ, ਯੂਜ਼ਰ ਪਰਮਿਸ਼ਨ, ਕੀਮਤ ਦੇ ਨਿਯਮ—ਤਾਂ ਕੀ ਨਾਲ ਨਤੀਜੇ ਕੈਸ਼ ਕਰਕੇ ਦੁਬਾਰਾ-ਕੰਪਿਊਟਿੰਗ ਜਾਂ ਰੀ-ਕੁਐਰੀਂਗ ਤੋਂ ਬਚਿਆ ਜਾ ਸਕਦਾ ਹੈ।

ਇਹ ਸੈਸ਼ਨ ਸਟੋਰੇਜ਼ ਲਈ ਵੀ ਕੁਦਰਤੀ ਹੈ (ਉਦਾਹਰਨ session:<id> -> session data) ਕਿਉਂਕਿ ਸੈਸ਼ਨਾਂ ਨੂੰ ਅਕਸਰ ਪੜ੍ਹਿਆ ਅਤੇ ਅਪਡੇਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਉਹ ਆਟੋਮੈਟਿਕ ਤੌਰ 'ਤੇ ਸਮਾਪਤ ਹੋ ਸਕਦੀਆਂ ਹਨ।

TTL, ਐਵਿਕਸ਼ਨ, ਅਤੇ 메ਮੋਰੀ vs. ਡਿਸਕ

ਜ਼ਿਆਦਾਤਰ ਕੀ-ਵੈਲਿਊ ਸਟੋਰ ਇੱਕ TTL (time to live) ਸਮਰਥਨ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਡੇਟਾ ਬਿਨਾਂ ਹੱਥੋਂ ਨਿਕਾਸ ਹੋ ਸਕੇ—ਸੈਸ਼ਨ, ਇੱਕ-ਵਾਰੀ ਟੋਕਨ, ਅਤੇ ਰੇਟ-ਲਿਮਿਟ ਕਾਉਂਟਰਾਂ ਲਈ ਇਹ ਉੱਤਮ ਹੈ।

ਜਦੋਂ ਮੈਮੋਰੀ ਸੀਮਤ ਹੋਵੇ, ਸਿਸਟਮ ਆਮ ਤੌਰ 'ਤੇ eviction policies (ਜਿਵੇਂ least-recently-used) ਵਰਤਦੇ ਹਨ ਪੁਰਾਣੀਆਂ ਐਨਟਰੀਆਂ ਹਟਾਉਣ ਲਈ। ਕੁਝ ਉਤਪਾਦ ਮੇਮੋਰੀ-ਪਹਿਲਾਂ ਹੁੰਦੇ ਹਨ, ਜਦ ਕਿ ਹੋਰ ਡਿਊਰਬਿਲਿਟੀ ਲਈ ਡੇਟਾ ਨੂੰ ਡਿਸਕ 'ਤੇ ਸੇਵ ਕਰ ਸਕਦੇ ਹਨ। ਤੇਜ਼ੀ ਲਈ ਮੈਮੋਰੀ ਤੇ ਯਾ ਧਾਰਣ/ਪੁਨਰ ਪ੍ਰਾਪਤੀ ਲਈ ਡਿਸਕ—ਇਹ ਚੋਣ ਤੁਹਾਡੇ ਲਛਣਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ।

ਪਹਿਲਾਂ ਤੋਂ ਜਾਣਣ ਯੋਗ ਟਰੇਡ-ਆਫ਼

ਕੀ-ਵੈਲਿਊ ਸਟੋਰ ਓਹ ਵੇਲੇ ਚਮਕਦੇ ਹਨ ਜਦੋਂ ਤੁਹਾਨੂੰ ਪਹਿਲਾਂ ਤੋਂ ਕੀ ਪਤਾ ਹੋਵੇ। ਉਹ ਖੁੱਲ੍ਹੇ-ਅੰਤ ਸਵਾਲਾਂ ਲਈ ਘੱਟ ਉਪਯੋਗੀ ਹਨ।

ਕਈਆਂ ਵਿੱਚ SQL ਡੇਟਾਬੇਸਾਂ ਨਾਲ ਮੁਕਾਬਲੇ 'ਚ ਸੀਮਤ ਕੁਐਰੀ ਪੈਟਰਨ ਹੁੰਦੇ ਹਨ। ਸਕੈਂਡਰੀ ਇੰਡੈਕਸ (ਵੈਲਿਊ ਦੇ ਅੰਦਰ ਫੀਲਡਾਂ ਦੁਆਰਾ ਪੁੱਛਣਾ) ਦੀ ਸਹਾਇਤਾ ਵੱਖ-ਵੱਖ ਹੁੰਦੀ: ਕੁਝ ਇਹ ਦੇਂਦੇ ਹਨ, ਕੁਝ ਅੰਸ਼ਿਕ ਵਿਕਲਪ ਦਿੰਦੇ ਹਨ, ਅਤੇ ਹੋਰ ਆਪਣੇ ਲੁੱਕਅਪ ਕੀਜ਼ ਬਣਾਉਣ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦੇ ਹਨ।

ਆਮ ਉਪਯੋਗ ਮਾਮਲੇ

ਕੀ-ਵੈਲਿਊ ਸਟੋਰ ਵਧੀਆ ਫਿੱਟ ਹਨ:

ਰੇਟ ਲਿਮਿਟਿੰਗ: ਯੂਜ਼ਰ/IP ਪ੍ਰਤੀ ਕਾਊਂਟਰਾਂ ਨਾਲ TTL ਵਿੰਡੋ
ਫੀਚਰ ਫਲੈਗਸ: ਪ੍ਰਤੀ ਯੂਜ਼ਰ ਜਾਂ ਕੋਹੋਰਟ ਤੇ ਤੁਰੰਤ ਫੈਸਲੇ
ਸ਼ਾਪਿੰਗ ਕਾਰਟਸ: ਯੂਜ਼ਰ/session ਦੁਆਰਾ ਕੀ ਕੀਤੀ ਗਈ ਤੇਜ਼ ਅਪਡੇਟ

ਜੇ ਤੁਹਾਡਾ ਐਕਸੈਸ ਪੈਟਰਨ "ID ਦੁਆਰਾ ਫੈਚ/ਅਪਡੇਟ" ਹੈ ਅਤੇ ਲੇਟੰਸੀ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਤਾਂ ਕੀ-ਵੈਲਿਊ ਸਟੋਰ ਅਕਸਰ ਸਰਲ ਤਰੀਕੇ ਨਾਲ ਭਰੋਸੇਯੋਗ ਤੇਜ਼ੀ ਦਿੰਦਾ ਹੈ।

ਵਾਇਡ-ਕਾਲਮ ਡੇਟਾਬੇਸ: ਸਕੇਲ-ਆਊਟ ਓਪਰੇਸ਼ਨਲ ਸਟੋਰੇਜ

ਆਪਣਾ ਕੋਡ ਪੋਰਟੇਬਲ ਰੱਖੋ

ਕਿਸੇ ਵੀ ਸਮੇਂ ਸਰੋਤ ਕੋਡ ਨਿਰਯਾਤ ਕਰੋ ਤਾਂ ਜੋ ਤੁਹਾਡੇ ਪਾਸ ਆਪਣੇ ਸਟੈਕ ਅਤੇ ਡੇਟਾ ਲੇਅਰ ਤੇ ਪੂਰਾ ਕੰਟਰੋਲ ਰਹੇ।

ਕੋਡ ਨਿਰਯਾਤ ਕਰੋ

ਵਾਇਡ-ਕਾਲਮ ਡੇਟਾਬੇਸ (ਕਈ ਵਾਰੀ wide-column stores ਕਹਿੰਦੇ ਹਨ) ਡੇਟਾ ਨੂੰ ਕਾਲਮ ਪਰਿਵਾਰ ਵਿੱਚ ਸੰਗਠਿਤ ਕਰਦੇ ਹਨ। ਇੱਕ ਸਥਿਰ ਟੇਬਲ ਸੋਚਣ ਦੀ ਥਾਂ, ਤੁਸੀਂ ਸੰਬੰਧਿਤ ਕਾਲਮਾਂ ਨੂੰ ਗਰੁੱਪ ਕਰਦੇ ਹੋ ਅਤੇ ਹਰ ਪੰਗਤੀ ਅੰਦਰ ਵੱਖ-ਵੱਖ ਕਾਲਮ ਸੈਟ ਰੱਖ ਸਕਦੇ ਹੋ।

ਵਾਇਡ-ਕਾਲਮ vs. ਕਾਲਮਨ ਐਨਾਲਿਟਿਕਸ

ਇਸੇ ਨਾਮ ਦੇ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਵਾਇਡ-ਕਾਲਮ ਡੇਟਾਬੇਸ ਕਾਲਮਨ ਡੇਟਾਬੇਸ ਵਰਗੇ ਨਹੀਂ ਹੁੰਦੇ।

ਕਾਲਮਨ ਡੇਟਾਬੇਸ: ਐਨਾਲਿਟਿਕਸ ਲਈ (ਵੱਡੇ ਡੇਟਾ ਸਕੈਨ ਲਈ ਹਰ ਕਾਲਮ ਅਲੱਗ)
ਵਾਇਡ-ਕਾਲਮ ਡੇਟਾਬੇਸ: ਓਪਰੇਸ਼ਨਲ ਵਰਕਲੋਡ ਲਈ ਬਣੇ ਹੁੰਦੇ ਹਨ ਜਿੱਥੇ ਤੁਹਾਨੂੰ ਬਹੁਤ ਤੇਜ਼ ਰਾਇਟ ਅਤੇ ਪੜ੍ਹਾਈ ਚਾਹੀਦੀ ਹੈ ਕਈ ਮਸ਼ੀਨਾਂ 'ਤੇ।

ਜਿੱਥੇ ਇਹ ਚਮਕਦੇ ਹਨ

ਵਾਇਡ-ਕਾਲਮ ਸਿਸਟਮ ਤਿਆਰ ਕੀਤੇ ਜਾਂਦੇ ਹਨ:

ਉੱਚ ਲਿਖਾਈ ਥਰੂਪੁੱਟ (ਪ੍ਰਤੀ ਸਕਿੰਡ ਬਹੁਤ ਸਾਰੇ ਇਵੈਂਟ ਪਾਉਣ)
ਹੋਰਾਈਜ਼ਾਂਟਲ ਸਕੇਲਿੰਗ (ਹੋਰ ਨੋਡ ਜੁੜਾਉਣ ਨਾਲ ਟ੍ਰੈਫਿਕ ਅਤੇ ਡੇਟਾ ਸੁਭਾਲ)
ਪ੍ਰਿਡਿਕਟੇਬਲ, ਘੱਟ-ਲੇਟੰਸੀ ਪੜ੍ਹਾਈਆਂ ਜਦੋਂ ਤੁਸੀਂ ਸਹੀ ਕੀ ਨਾਲ ਪੁੱਛਦੇ ਹੋ

ਆਮ ਐਕਸੈਸ ਪੈਟਰਨ

ਸਭ ਤੋਂ ਆਮ ਪੈਟਰਨ ਇਹ ਹੈ:

ਤੁਸੀਂ partition key ਜਾਣਦੇ ਹੋ (ਜੋ ਇਹ ਫੈਸਲਾ ਕਰਦਾ ਹੈ ਕਿ ਡੇਟਾ ਕਿੱਥੇ ਰਹੇਗਾ), ਅਤੇ
ਅਕਸਰ ਤੁਸੀਂ ਉਸ partition 'ਚੋਂ ਇੱਕ ਰੇਂਜ ਪੜ੍ਹਦੇ ਹੋ (ਉਦਾਹਰਨ: “ਡਿਵਾਈਸ X ਲਈ ਸਾਰੇ ਇਵੈਂਟ 10:00–10:05 ਦਰਮਿਆਨ”)।

ਇਹਨਾਂ ਨੂੰ ਟਾਈਮ-ਓਰਡਰਡ ਡੇਟਾ ਅਤੇ append-heavy ਵਰਕਲੋਡ ਲਈ ਵਧੀਆ ਬਣਾਉਂਦਾ ਹੈ।

ਸਮਝਣ ਯੋਗ ਟਰੇਡ-ਆਫ਼

ਵਾਇਡ-ਕਾਲਮ ਡੇਟਾਬੇਸ ਵਿੱਚ, ਡੇਟਾ ਮਾਡਲਿੰਗ ਕੁਐਰੀ-ਚਲਾਈ ਹੋਂਦੀ ਹੈ: ਤੁਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਟੇਬਲਾਂ ਨੂੰ ਉਹਨਾਂ ਕੁਐਰੀਜ਼ ਮੁਤਾਬਕ ਡਿਜ਼ਾਈਨ ਕਰਦੇ ਹੋ ਜੋ ਤੁਹਾਨੂੰ ਚਲਾਉਣੀਆਂ ਹਨ। ਇਸਦਾ ਮਤਲਬ ਵੱਖ-ਵੱਖ ਐਕਸੈਸ ਪੈਟਰਨ ਲਈ ਡਾਟਾ ਦੀ ਨਕਲ ਹੋ ਸਕਦੀ ਹੈ।

ਉਹਨਾਂ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਸੀਮਿਤ ਜੋਇਨ ਹੁੰਦੇ ਹਨ ਅਤੇ ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਵਾਂਗ ਅਡ-ਹੌਕ ਕੁਐਰੀਆਂਦੀਆਂ ਵਿਕਲਪ ਘਟ ਹੁੰਦੇ ਹਨ। ਜੇ ਤੁਹਾਡੀ ਐਪ ਨੂੰ ਜਟਿਲ ਰਿਲੇਸ਼ਨਸ਼ਿਪਸ ਅਤੇ ਲਚਕੀਲ ਕੁਐਰੀਜ਼ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਆਪਣੇ ਆਪ ਨੂੰ ਪਾਬੰਦ ਮਹਿਸੂਸ ਕਰ ਸਕਦੇ ਹੋ।

ਆਮ ਉਪਯੋਗ ਮਾਮਲੇ

ਵਾਇਡ-ਕਾਲਮ ਡੇਟਾਬੇਸ ਅਕਸਰ ਵਰਤੇ ਜਾਂਦੇ ਹਨ IoT ਇਵੈਂਟ, ਮੇਸੇਜਿੰਗ ਅਤੇ ਐਕਟਿਵਿਟੀ ਸਟ੍ਰੀਮ, ਅਤੇ ਹੋਰ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਓਪਰੇਸ਼ਨਲ ਡੇਟਾ ਲਈ ਜਿੱਥੇ ਤੇਜ਼ ਲਿਖਾਈ ਅਤੇ ਪ੍ਰਿਡਿਕਟੇਬਲ ਕੀ-ਆਧਾਰਿਤ ਪੜ੍ਹਾਈ ਮਹੱਤਵਪੂਰਨ ਹਨ।

ਗ੍ਰਾਫ ਡੇਟਾਬੇਸ: ਰਿਸ਼ਤਿਆਂ ਨੂੰ ਪਹਿਲਾਂ-ਕਲਾਸ ਡੇਟਾ ਬਣਾਉਣਾ

ਗ੍ਰਾਫ ਡੇਟਾਬੇਸ ਡੇਟਾ ਨੂੰ ਉਸ ਤਰੀਕੇ ਨਾਲ ਸਟੋਰ ਕਰਦੇ ਹਨ ਜਿਵੇਂ ਬਹੁਤ ਸਾਰੇ ਅਸਲ ਸਿਸਟਮ ਕੰਮ ਕਰਦੇ ਹਨ: ਚੀਜ਼ਾਂ ਇੱਕ-ਦੂਜੇ ਨਾਲ ਜੁੜੀਆਂ ਹੁੰਦੀਆਂ ਹਨ। ਰਿਸ਼ਤਿਆਂ ਨੂੰ ਟੇਬਲਾਂ ਅਤੇ ਜੋਇਨ ਟੇਬਲਾਂ ਵਿੱਚ ਖਿੱਚਣ ਦੀ ਬਜਾਏ, ਕਨੈਕਸ਼ਨ ਮਾਡਲ ਦਾ ਹਿੱਸਾ ਹੁੰਦੇ ਹਨ।

ਗ੍ਰਾਫ ਮਾਡਲ: ਨੋਡ, ਏਜ, ਅਤੇ ਪ੍ਰੌਪਰਟੀਜ਼

ਇੱਕ ਗ੍ਰਾਫ ਆਮ ਤੌਰ 'ਤੇ ਹੋਂਦਾ ਹੈ:

ਨੋਡਸ: ਇਕਾਈਆਂ (ਲੋਕ, ਅਕਾਊਂਟ, ਡਿਵਾਈਸ, ਉਤਪਾਦ)
ਏਜਸ: ਉਹ ਰਿਸ਼ਤੇ ਜੋ ਉਹਨਾਂ ਨੂੰ ਜੋੜਦੀਆਂ ਹਨ ("follows", "paid", "belongs to", "shipped to")
ਪ੍ਰੌਪਰਟੀਜ਼: ਨੋਡਸ ਅਤੇ ਏਜਸ ਉੱਤੇ ਕੁੰਜੀ-ਵੈਲਿਊ ਗੁਣ (ਟਾਈਮਸਟੈਂਪ, ਰਕਮ, ਲੇਬਲ)

ਇਸ ਨਾਲ ਨੈੱਟਵਰਕਾਂ, ਹਾਇਰਾਰਕੀਜ਼, ਅਤੇ many-to-many ਰਿਸ਼ਤਿਆਂ ਨੂੰ ਬਿਨਾਂ schema ਨੂੰ ਮਾਰ ਕੇ ਦਰਸਾਉਣਾ ਕੁਦਰਤੀ ਬਣ ਜਾਂਦਾ ਹੈ।

ਟ੍ਰੈਵਰਸਲ ਕਿਉਂ ਜੋਇਨ ਤੋਂ ਤੇਜ਼ ਹੋ ਸਕਦੇ ਹਨ

ਰਿਸ਼ਤੀਆਂ-ਭਾਰੀਆਂ ਕੁਐਰੀਆਂ ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਵਿੱਚ ਅਕਸਰ ਕਈ ਜੋਇਨ ਮੰਗਦੀਆਂ ਹਨ। ਹਰ ਇਕ ਵਧੇਰੇ ਜੋਇਨ ਨਾਲ ਜਟਿਲਤਾ ਅਤੇ ਲਾਗਤ ਵਧ ਸਕਦੀ ਹੈ ਜਿਵੇਂ ਤੁਹਾਡਾ ਡੇਟਾ ਵਧਦਾ ਹੈ।

ਗ੍ਰਾਫ ਡੇਟਾਬੇਸ ਟ੍ਰੈਵਰਸਲ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤੇ ਜਾਂਦੇ ਹਨ—ਇੱਕ ਨੋਡ ਤੋਂ ਜੁੜੇ ਨੋਡਾਂ ਵੱਲ ਚੱਲਣਾ, ਫਿਰ ਉਹਨਾਂ ਦੇ ਕਨੈਕਸ਼ਨਾਂ ਵੱਲ ਜਾਂਨਾ, ਆਦਿ। ਜਦੋਂ ਤੁਹਾਡੇ ਸਵਾਲ ਆਮ ਤੌਰ 'ਤੇ "2–6 ਕਦਮਾਂ ਵਿੱਚ ਜੁੜੇ ਚੀਜ਼ਾਂ ਲੱਭੋ" ਵਰਗੇ ਹੁੰਦੇ ਹਨ, ਟ੍ਰੈਵਰਸਲ ਨੈੱਟਵਰਕ ਦੇ ਵੱਧਣ ਦੇ ਬਾਵਜੂਦ ਵੀ ਤੇਜ਼ ਅਤੇ ਪੜ੍ਹਨ ਯੋਗ ਰਹਿ ਸਕਦੇ ਹਨ।

ਗ੍ਰਾਫ ਖਾਸ ਤੌਰ 'ਤੇ ਕਿਹੜੇ ਸਵਾਲਾਂ ਦਾ ਜਵਾਬ ਦਿੰਦੇ ਹਨ

ਗ੍ਰਾਫ DB ਉਤਮ ਹਨ:

ਰਸਤੇ ਅਤੇ ਦੂਰੀ (shortest path, reachability)
ਰਿਕਮੈਂਡੇਸ਼ਨ ("ਜਿਨ੍ਹਾਂ ਨੇ X ਖਰੀਦਿਆ ਉਨ੍ਹਾਂ ਨੇ Y ਵੀ ਖਰੀਦਾ")
ਫ੍ਰੌਡ ਰਿੰਗ ਅਤੇ ਅਨੋਮਲੀ ਪੈਟਰਨ (ਸਾਂਝੇ ਡਿਵਾਈਸ, ਪਤੇ, ਭੁਗਤਾਨ ਵਿਧੀਆਂ)

ਟਰੇਡ-ਆਫ਼ ਜਾਂਚਣ ਯੋਗ

ਗ੍ਰਾਫ ਟਿਮਾਂ ਲਈ ਇੱਕ ਬਦਲ ਹੈ: ਡੇਟਾ ਮਾਡਲਿੰਗ ਵੱਖਰੀ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਕੁਐਰੀ ਭਾਸ਼ਾਵਾਂ (ਅਕਸਰ Cypher, Gremlin, ਜਾਂ SPARQL) ਨਵੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਰਿਸ਼ਤੇ ਦੀਆਂ ਕਿਸਮਾਂ ਅਤੇ ਦਿਸ਼ਾ ਲਈ ਸਾਫ਼ ਰਿਵਾਜ ਬਣਾਉਣਾ ਚਾਹੀਦਾ ਹੈ ਤਾਂ ਕਿ ਮਾਡਲ ਸੰਭਾਲਯੋਗ ਰਹੇ।

ਜਦੋਂ ਰਿਲੇਸ਼ਨਲ ਮਾਡਲ ਕਾਫ਼ੀ ਹੈ

ਜੇ ਤੁਹਾਡੇ ਰਿਸ਼ਤੇ ਸਧਾਰਨ ਹਨ, ਤੁਹਾਡੀਆਂ ਕੁਐਰੀਆਂ ਮੁੱਖ ਤੌਰ 'ਤੇ ਫਿਲਟਰ/ਐਗਰੇਗੇਸ਼ਨ ਹਨ, ਅਤੇ ਕੁਝ ਜੋਇਨ "ਕਨੈਕਟਿਡ" ਹਿੱਸਿਆਂ ਨੂੰ ਕਵਰ ਕਰਦੇ ਹਨ, ਤਾਂ ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਅਕਸਰ ਸਭ ਤੋਂ ਸਿੱਧਾ ਚੋਣ ਰਹਿੰਦਾ ਹੈ—ਖ਼ਾਸ ਕਰਕੇ ਜਦੋਂ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਅਤੇ ਰਿਪੋਰਟਿੰਗ ਪਹਿਲਾਂ ਹੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰ ਰਹੇ ਹੋਣ।

ਵੈਕਟਰ ਡੇਟਾਬੇਸ: AI ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਸਮਾਨਤਾ-ਖੋਜ

아이ਡੀਆ ਤੋਂ ਡਿਪਲੋਇਮੈਂਟ ਤੱਕ

ਜਿਵੇਂ ਹੀ ਕੋਰ ਡੇਟਾ ਮਾਡਲ ਕੰਮ ਕਰਨ ਲਾਇਕ ਹੋਵੇ, ਆਪਣੇ ਐਪ ਨੂੰ ਨਿਯੁਕਤ ਕਰੋ ਅਤੇ ਹੋਸਟ ਕਰੋ।

ਹੁਣ ਤਿਆਰ ਕਰੋ

ਵੈਕਟਰ ਡੇਟਾਬੇਸ ਖ਼ਾਸ ਤਰੀਕੇ ਦੇ ਸਵਾਲ ਲਈ ਬਣਾਏ ਜਾਂਦੇ ਹਨ: "ਇਸ ਆਈਟਮ ਦੇ ਸਭ ਤੋਂ ਸਮਾਨ ਆਈਟਮ ਕਿਹੜੇ ਹਨ?" ਇਹ ਬਿਲਕੁਲ ਇੱਕ ID ਜਾਂ ਕੀਵਰਡ ਦੇ ਅਨੁਕੂਲਤਾ ਦੀ ਥਾਂ, embeddings—AI ਮਾਡਲਾਂ ਦੁਆਰਾ ਬਣਾਈਆਂ ਨੰਬਰਤਮਿਕ ਪ੍ਰਤੀਨਿਧੀਆਂ—ਦਾ ਮੁਕਾਬਲਾ ਕਰਦੇ ਹਨ। ਸਮਾਨ ਅਰਥ ਵਾਲੀਆਂ ਆਈਟਮਾਂ ਦੀਆਂ embeddings ਅਕਸਰ ਇੱਕ ਹੀ ਬਹੁ-ਮਿਆਰੀ ਸਪੇਸ ਵਿੱਚ ਨੇੜੇ ਹੁੰਦੀਆਂ ਹਨ।

ਵੈਕਟਰ ਸਮਾਨਤਾ ਖੋਜ ਕਿਵੇਂ ਖੋਲ੍ਹਦੀ ਹੈ

ਸਧਾਰਣ ਖੋਜ ਅਜੇਕਰ ਸ਼ਬਦ ਭਿੰਨ ਹੋਣ 'ਤੇ ਨਤੀਜਿਆਂ ਨੂੰ ਮੁੱਸਿਆ ਸਕਦੀ ਹੈ ("laptop sleeve" vs. "notebook case"). embeddings ਨਾਲ, ਸਮਾਨਤਾ ਅਰਥ 'ਤੇ ਆਧਾਰਿਤ ਹੁੰਦੀ ਹੈ, ਇਸ ਲਈ ਸਿਸਟਮ ਵੱਖ-ਵੱਖ ਸ਼ਬਦਾਂ ਦੇ ਹੋਣ ਦੇ ਬਾਵਜੂਦ ਸੰਬੰਧਤ ਨਤੀਜੇ ਦਿਖਾ ਸਕਦਾ ਹੈ।

ਮੁੱਖ ਆਪਰੇਸ਼ਨ: ਸਮਾਨਤਾ + ਫਿਲਟਰ

ਮੁੱਖ ਆਪਰੇਸ਼ਨ nearest neighbor search ਹੈ: ਇੱਕ ਕ੍ਵੈਰੀ ਵੈਕਟਰ ਦੇ ਇਰਾਦੇ ਨਾਲ, ਸਭ ਤੋਂ ਨੇੜੇ ਵੈਕਟਰ ਰੀਟ੍ਰੀਵ ਕਰੋ।

ਅਸਲੀ ਐਪਾਂ ਵਿੱਚ, ਤੁਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਸਮਾਨਤਾ ਨੂੰ ਫਿਲਟਰਾਂ ਨਾਲ ਜੋੜਦੇ ਹੋ, ਉਦਾਹਰਨ:

ਸਿਰਫ਼ ਕਿਸੇ ਖਾਸ ਗਾਹਕ ਤੋਂ ਦਸਤਾਵੇਜ਼ ਦਿਖਾਓ
ਕਿਸੇ ਉਤਪਾਦ ਕਿਸਮ ਜਾਂ ਭਾਸ਼ਾ ਤੱਕ ਸੀਮਿਤ ਕਰੋ
ਆਰਕਾਈਵ ਕੀਤੇ ਜਾਂ ਘਟੀਆ ਗੁਣਾ ਵਾਲੇ ਆਈਟਮਾਂ ਨੂੰ ਬਾਹਰ ਰੱਖੋ

ਇਹ “ਫਿਲਟਰ + ਸਮਾਨਤਾ” ਪੈਟਰਨ ਹੀ ਵੈਕਟਰ ਖੋਜ ਨੂੰ ਅਸਲੀ ਡੇਟਾਸੈਟਾਂ ਲਈ ਪ੍ਰਯੋਗਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।

ਕਿੱਥੇ ਵੈਕਟਰ ਡੇਟਾਬੇਸ ਫਿੱਟ ਹੁੰਦੇ ਹਨ

ਆਮ ਵਰਤੋਂ ਵਿੱਚ:

RAG (Retrieval-Augmented Generation): LLM ਦੇ ਜਵਾਬ ਤੋਂ ਪਹਿਲਾਂ ਸਭ ਤੋਂ ਪ੍ਰਸੰਗਿਕ ਪੈਸੇਜ ਲਿਆਓ
ਸੈਮੈਂਟਿਕ ਖੋਜ: ਨੋਲੇਜ ਬੇਸ, ਸਹਾਇਤਾ ਟਿਕਟ, ਜਾਂ ਅੰਦਰੂਨੀ ਡੌਕਸ 'ਚ ਖੋਜ
ਰਿਕਮੈਂਡੇਸ਼ਨ: ਸਮਾਨਤਾ ਤੇ ਆਧਾਰਿਤ “ਯੂਜ਼ਰਾਂ ਨੇ ਵੀ ਦੇਖਿਆ/ਖਰੀਦਿਆ”

ਜਾਣਣ ਯੋਗ ਟਰੇਡ-ਆਫ਼

ਵੈਕਟਰ ਖੋਜ ਵਿਸ਼ੇਸ਼ ਇੰਡੈਕਸਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਉਹਨਾਂ ਇੰਡੈਕਸਾਂ ਨੂੰ ਬਣਾਉਣਾ ਅਤੇ ਅਪਡੇਟ ਕਰਨਾ ਸਮਾਂ ਲੈ ਸਕਦਾ ਹੈ, ਅਤੇ ਉਹ ਬਹੁਤ ਸਾਰੀ ਮੈਮੋਰੀ ਵਰਤ ਸਕਦੇ ਹਨ। ਤੁਸੀਂ ਅਕਸਰ ਜਿਆਦਾ recall (ਸਚ-मੁਕਾਬਲੇਵਾਲੇ ਵਧੇਰੇ ਮਿਲਣ) ਅਤੇ ਘੱਟ ਲੇਟੰਸੀ (ਤੇਜ਼ ਜਵਾਬ) ਦੇ ਵਿਚਕਾਰ ਚੁਣਨਾ ਪੈਂਦਾ ਹੈ।

ਰਿਲੇਸ਼ਨਲ ਜਾਂ ਡੋਕਯੂਮੈਂਟ ਸਟੋਰ ਨਾਲ ਜੋੜਨਾ

ਵੈਕਟਰ ਡੇਟਾਬੇਸ ਦਦੂੰਗੇ ਤੁਹਾਡੇ ਮੁੱਖ ਡੇਟਾਬੇਸ ਦੀ ਥਾਂ ਨਹੀਂ ਲੈਂਦੇ। ਆਮ ਸੰਭਾਲ ਇਹ ਹੈ: “ਸਰੋਤ-ਸੱਚਾਈ” (orders, users, documents) ਨੂੰ ਰਿਲੇਸ਼ਨਲ ਜਾਂ ਡੋਕਯੂਮੈਂਟ DB ਵਿੱਚ ਰੱਖੋ, embeddings + ਖੋਜ ਇੰਡੈਕਸ ਨੂੰ ਵੈਕਟਰ DB ਵਿੱਚ ਰੱਖੋ—ਫਿਰ ਪੂਰੇ ਰਿਕਾਰਡ ਅਤੇ ਪਰਮੀਸ਼ਨ ਲਈ ਨਤੀਜਿਆਂ ਨੂੰ ਮੁੱਖ ਸਟੋਰ ਨਾਲ ਜੋੜੋ।

ਟਾਈਮ-ਸੀਰੀਜ਼ ਡੇਟਾਬੇਸ: ਸਮੇਂ ਦਰਮਿਆਨ ਮੈਟ੍ਰਿਕਸ ਲਈ ਆਪਟੀਮਾਈਜ਼ਡ

ਟਾਈਮ-ਸੀਰੀਜ਼ ਡੇਟਾਬੇਸ (TSDBs) ਉਹਨਾਂ ਡੇਟਾ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ ਜਿਹੜਾ ਲਗਾਤਾਰ ਆਉਂਦਾ ਹੈ ਅਤੇ ਸਦਾ ਇੱਕ ਟਾਈਮਸਟੈਂਪ ਨਾਲ ਜੁੜਿਆ ਹੁੰਦਾ ਹੈ। ਸੋਚੋ CPU ਉਪਯੋਗਤਾ ਹਰ 10 ਸਕਿੰਟ, ਪ੍ਰਤੀ-ਰਿਕਵੇਸਟ API ਲੈਟੰਸੀ, ਸੈਂਸਰ ਰੀਡਿੰਗਜ਼ ਹਰ ਮਿੰਟ, ਜਾਂ ਸਟਾਕ ਕੀਮਤਾਂ ਬਹੁਤ ਤੀਬਰਤਾ ਨਾਲ ਬਦਲ ਰਹੀਆਂ ਹੋਣ।

ਟਾਈਮ-ਸੀਰੀਜ਼ ਡੇਟਾ ਕਿਵੇਂ ਦਿਖਦਾ ਹੈ

ਜ਼ਿਆਦਾਤਰ ਟਾਈਮ-ਸੀਰੀਜ਼ ਰਿਕਾਰਡ ਇਹਨਾਂ ਨੂੰ ਮਿਲਾ ਕੇ ਹੁੰਦੇ ਹਨ:

ਟਾਈਮਸਟੈਂਪ: ਕਦੋਂ ਮਾਪਿਆ ਗਿਆ
ਮੈਟ੍ਰਿਕ/ਵੈਲਿਊ: ਜਿਹੜੀ ਗਿਣਤੀ ਤੁਸੀਂ ਮਾਪ ਰਹੇ ਹੋ (ਲੈਟੰਸੀ, ਤਾਪਮਾਨ, ਕੀਮਤ)
ਟੈਗਸ/ਲੇਬਲਸ: ਫਿਲਟਰ ਅਤੇ ਗਰੁੱਪ ਕਰਨ ਲਈ ਮੈਟਾਡੇਟਾ (host=web-01, region=us-east, service=checkout)

ਇਸ ਢਾਂਚੇ ਨਾਲ ਪੁੱਛੇ ਜਾ ਸਕਦੇ ਹਨ: “ਸੇਵਾ ਅਨੁਸਾਰ ਐਰਰ ਰੇਟ ਦਿਖਾਓ” ਜਾਂ “ਖੇਤਰਾਂ ਵਿੱਚ ਲੈਟੰਸੀ ਤੁਲਨਾ ਕਰੋ।”

TSDBs ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਫੀਚਰ

ਕਿਉਂਕਿ ਡੇਟਾ ਦੀ ਮਾਤਰਾ ਤੇਜ਼ੀ ਨਾਲ ਵੱਧ ਸਕਦੀ ਹੈ, TSDBs ਆਮ ਤੌਰ 'ਤੇ ਇਹਨਾਂ 'ਤੇ ਧਿਆਨ ਦਿੰਦੇ ਹਨ:

ਕੰਪ੍ਰੈਸ਼ਨ: ਨੰਬਰਤਮਿਕ ਵੈਲਿਊਜ਼ ਦੇ ਲੰਮੇ ਸੰਚਿਤ ਹਿੱਸੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕੇ ਨਾਲ ਸਟੋਰ ਕਰਨਾ
ਰਿਟੈਨਸ਼ਨ ਪਾਲਿਸੀਆਂ: ਔਲਡ ਡੇਟਾ ਨੂੰ ਆਟੋਮੈਟਿਕ ਤੌਰ 'ਤੇ ਖਤਮ ਕਰਨਾ (ਜਿਵੇਂ ਰੋ-ਡੇਟਾ 7 ਦਿਨ, ਐਗਰੀਗੇਟ 90 ਦਿਨ)
ਡਾਊਨਸੈਮਪਲਿੰਗ: ਵਿਸਥਾਰ ਨੂੰ ਸੰਖੇਪ ਵਿੱਚ ਰੋਅ-ਸੈਕੰਡ → ਪ੍ਰਤੀ ਮਿੰਟ → ਪ੍ਰਤੀ-ਘੰਟਾ ਰੋਲ-ਅਪ ਕਰਨਾ

ਇਹ ਫੀਚਰ ਸਟੋਰੇਜ ਅਤੇ ਕੁਐਰੀ ਲਾਗਤ ਨੂੰ ਪ੍ਰਭਾਸ਼ਿਤ ਬਣਾਉਂਦੇ ਹਨ ਬਿਨਾਂ ਹੱਥੋਂ-ਹੱਥ ਸਾਫ-ਸਫਾਈ ਦੇ।

ਆਮ ਕੁਐਰੀ ਪੈਟਰਨ

TSDBs ਉਹਨਾਂ ਗੱਲਾਂ ਲਈ ਵਧੀਆ ਹਨ ਜਦੋਂ ਤੁਹਾਨੂੰ ਸਮੇਂ-ਆਧਾਰਿਤ ਗਣਨਾਵਾਂ ਦੀ ਲੋੜ ਹੋਵੇ, ਜਿਵੇਂ:

ਰੋਲਿੰਗ ਐਵਰੇਜ (ਉਦਾਹਰਨ: 5-ਮਿੰਟ ਮੂਵਿੰਗ ਐਵਰੇਜ)
ਪਰਸੈਂਟਾਈਲ (p95/p99 ਲੈਟੰਸੀ)
ਚੇਂਜ ਦੀ ਦਰ (requests/second)
ਥਰੈਸ਼ਹੋਲਡ ਜਾਂ ਅਨੋਮਲੀ 'ਤੇ ਅਲਰਟ

ਕਿੱਥੇ ਇਹ ਫਿੱਟ ਹੁੰਦੇ ਹਨ (ਅਤੇ ਕਿੱਥੇ ਨਹੀਂ)

ਆਮ ਉਪਯੋਗ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ ਮਾਨੀਟਰਿੰਗ, ਓਬਜ਼ਰਵੇਬਿਲਿਟੀ, IoT/ਸੈਂਸਰ, ਅਤੇ ਫਾਇਨੈਂਸ਼ਲ ਟਿਕ ਡੇਟਾ।

ਟ੍ਰੇਡ-ਆਫ਼: TSDBs ਗਹਿਰੇ, ਐਡ-ਹੌਕ ਸੰਬੰਧ ਜਿਵੇਂ “ਉਪਭੋਗਤਾਵਾਂ → ਟੀਮਾਂ → ਪਰਮੀਸ਼ਨ → ਪ੍ਰੋਜੈਕਟ” ਵਰਗੀਆਂ ਜਟਿਲ ਜੋਇਨ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਨਹੀਂ ਹਨ। ਉਸ ਲਈ ਰਿਲੇਸ਼ਨਲ ਜਾਂ ਗ੍ਰਾਫ ਡੇਟਾਬੇਸ ਬੇਹਤਰ ਹੁੰਦੇ ਹਨ।

ਵੇਅਰਹਾਊਸ ਅਤੇ ਲੇਕਹਾਊਸ: ਸੰਗਠਨ ਪੱਧਰ 'ਤੇ ਐਨਾਲਿਟਿਕਸ

ਇੱਕ ਡੇਟਾ ਵੇਅਰਹਾਊਸ ਘੱਟ-ਬਹੁਤ ਇੱਕ ਇਕੱਲੀ “ਡੇਟਾਬੇਸ ਕਿਸਮ” ਨਹੀਂ ਅਤੇ ਜ਼ਿਆਦਾ ਇੱਕ ਵਰਕਲੋਡ + ਆਰਕੀਟੈਕਚਰ ਹੈ: ਕਈ ਟੀਮਾਂ ਵੱਡੇ ਇਤਿਹਾਸਕ ਡੇਟਾ 'ਤੇ ਕੁਐਰੀ ਕਰਦੀਆਂ ਹਨ ਤਾਂ ਜੋ ਕਾਰੋਬਾਰੀ ਸਵਾਲਾਂ ਪੂਰੇ ਹੋਣ (ਰੈਵਨਿਊ ਰੁਝਾਨ, ਚਰਨ, ਇਨਵੈਂਟਰੀ ਖਤਰਾ)। ਤੁਸੀਂ ਇਸਨੂੰ ਮਨਜੂਰਸ਼ੁਦਾ ਉਤਪਾਦ ਵਜੋਂ ਖਰੀਦ ਸਕਦੇ ਹੋ, ਪਰ ਜੋ ਇਸਨੂੰ ਵੇਅਰਹਾਊਸ ਬਣਾਉਂਦਾ ਹੈ ਉਹ ਇਸਦਾ ਉਪਯੋਗ ਹੈ—ਕੇਂਦਰੀ, ਵਿਅਸ਼ਲ ਅਤੇ ਸਾਂਝਾ।

ਬੈਚ vs. ਸਟਰੀਮਿੰਗ ਇੰਜੇਸਟ (ਸਰਲ ਵਰਜਨ)

ਜ਼ਿਆਦਾਤਰ ਵੇਅਰਹਾਊਸ ਡੇਟਾ ਦੋ ਆਮ ਤਰੀਕਿਆਂ ਨਾਲ ਲੈਂਦੇ ਹਨ:

ਬੈਚ ਇੰਜੇਸਟ: ਡੇਟਾ ਹਰ ਘੰਟਾ/ਦਿਨ ਆਉਂਦਾ ਹੈ (ਉਦਾਹਰਨ: ਰਾਤੀ ਐਪ DB ਤੋਂ ਨਿਰਯਾਤ)। ਇਹ ਸਸਤਾ ਅਤੇ ਸੌਖਾ ਹੁੰਦਾ ਹੈ, ਪਰ ਰੀਅਲ-ਟਾਈਮ ਨਹੀਂ।
ਸਟਰੀਮਿੰਗ ਇੰਜੇਸਟ: ਇਵੈਂਟ ਲਗਾਤਾਰ ਆਉਂਦੇ ਹਨ (ਕਲਿੱਕ, ਭੁਗਤਾਨ, IoT)। ਤੁਹਾਨੂੰ ਤਾਜ਼ਾ ਨੰਬਰ ਮਿਲਦੇ ਹਨ, ਪਰ ਪਾਈਪਲਾਈਨ ਅਤੇ ਮਾਨੀਟਰਿੰਗ ਵੱਧ ਮੁਹਤਾਜ਼ ਹੋ ਜਾਂਦੀ ਹੈ।

ਤੇਜ਼ੀ ਦਾ ਕਾਰਨ: ਕਾਲਮਨ ਸਟੋਰੇਜ਼, ਪਾਰਟੀਸ਼ਨਿੰਗ, ਮੈਟਰੀਅਲਾਈਜ਼ਡ ਵਿਊਜ਼

ਵੇਅਰਹਾਊਸ ਅਕਸਰ ਐਨਾਲਿਟਿਕਸ ਲਈ ਆਪਟੀਮਾਈਜ਼ ਕੀਤੇ ਜਾਂਦੇ ਹਨ ਕੁਝ ਪ੍ਰਯੋਗਕ تدري਼ਕਾਂ ਨਾਲ:

ਕਾਲਮਨ ਸਟੋਰੇਜ਼ ਰਿਪੋਰਟ ਲਈ ਸਿਰਫ਼ ਲੋੜੀਂਦੇ ਕਾਲਮ ਪੜ੍ਹਦਾ ਹੈ (ਐਗਰੇਗੇਸ਼ਨ ਲਈ ਸ਼ਾਨਦਾਰ)
ਪਾਰਟੀਸ਼ਨਿੰਗ ਵੱਡੀਆਂ ਟੇਬਲਾਂ ਨੂੰ ਸਮੇਂ ਜਾਂ ਖੇਤਰ ਅਨੁਸਾਰ ਵੰਡਦੀ ਹੈ ਤਾਂ ਕਿ ਕੁਐਰੀ ਘੱਟ ਡੇਟਾ ਸਕੈਨ ਕਰਨ
ਮੈਟਰੀਅਲਾਈਜ਼ਡ ਵਿਊਜ਼ ਪੂਰਵ-ਗਣਿਤ ਨਤੀਜੇ (ਜਿਵੇਂ “ਰੋਜ਼ਾਨਾ ਵਿਕਰੀ ਰਾਜ ਅਨੁਸਾਰ”) ਸੰਭਾਲ ਕੇ ਡੈਸ਼ਬੋਰਡ ਨੂੰ ਤੇਜ਼ ਬਣਾਉਂਦੇ ਹਨ

ਗਵਰਨੈਂਸ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਵਿਕਲਪ ਨਹੀਂ

ਜਦੋਂ ਕਈ ਵਿਭਾਗ ਇਕੋ ਠੇਠ ਨੰਬਰਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ, ਤਾਂ ਤੁਹਾਨੂੰ ਐਕਸੈਸ ਕੰਟਰੋਲ (ਕੌਣ ਕੀ ਦੇਖ ਸਕਦਾ ਹੈ), ਆਡਿਟ ਟਰੇਲ (ਕੌਣ ਕੁਐਰੀ/ਬਦਲਾਅ ਕੀਤੇ), ਅਤੇ ਲਾਈਨੇਜ (ਕਿਸ ਸੋਰਤ ਤੋਂ ਮੈਟਰਿਕ ਆਇਆ ਅਤੇ ਕਿਵੇਂ ਤਬਦੀਲ ਹੋਇਆ) ਦੀ ਲੋੜ ਹੋਵੇਗੀ। ਇਹ ਅਕਸਰ ਕੁਐਰੀ ਤੇਜ਼ੀ ਜਿੱਤਣ ਨਾਲੋਂ ਬਰਾਬਰ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦਾ ਹੈ।

ਜਦੋਂ ਲੇਕਹਾਊਸ ਮਾਨਯੋਗ ਹੈ

ਲੇਕਹਾਊਸ ਇੱਕ ਢਾਂਚਾ ਹੈ ਜੋ ਵੇਅਰਹਾਊਸ-ਸ਼ੈਲੀ ਐਨਾਲਿਟਿਕਸ ਨੂੰ ਡੇਟਾ-ਲੇਕ ਦੀ ਲਚਕੀਲਾਪਣ ਨਾਲ ਮਿਲਾਉਂਦਾ ਹੈ—ਉਪਯੋਗ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਇੱਕ ਥਾਂ ਚਾਹੁੰਦੇ ਹੋ ਜੋ curated ਟੇਬਲਾਂ ਅਤੇ ਰੌ ਫਾਈਲਾਂ (ਲੌਗ, ਚਿੱਤਰ, ਅਰਧ-ਸੰਰਚਿਤ ਇਵੈਂਟ) ਦੋਹਾਂ ਲਈ ਹੋਵੇ, ਬਿਨਾਂ ਹਰ ਚੀਜ਼ ਨੂੰ ਨਕਲ ਕੀਤੇ। ਜਦੋਂ ਡੇਟਾ ਵਿਆਪਕਤਾ ਜ਼ਿਆਦਾ ਹੋਵੇ, ਫਾਰਮੈਟ ਵੱਖ-ਵੱਖ ਹੋਣ, ਅਤੇ ਤੁਹਾਨੂੰ SQL-ਮਿਤ੍ਰ ਰਿਪੋਰਟਿੰਗ ਚਾਹੀਦੀ ਹੋਵੇ, ਤਾਂ ਇਹ ਚੰਗਾ ਫਿਟ ਹੈ।

ਮੁੱਖ ਟਰੇਡ-ਆਫ਼: ਸਹਿਮਤੀ, ਸਕੇਲ, ਅਤੇ ਕੁਐਰੀ ਪੈਟਰਨ

ਬਣਾਓ ਅਤੇ ਇਨਾਮ ਜ਼ੀਤੋ

Koder.ai ਤੇ ਜੋ ਤੁਸੀਂ ਬਣਾਉਂਦੇ ਹੋ ਉਹ ਸਾਂਝਾ ਕਰੋ ਅਤੇ Earn Credits ਪ੍ਰੋਗਰਾਮ ਰਾਹੀਂ ਕ੍ਰੈਡਿਟ ਪ੍ਰਾਪਤ ਕਰੋ।

ਕ੍ਰੈਡਿਟ ਪ੍ਰਾਪਤ ਕਰੋ

ਡੇਟਾਬੇਸ ਕਿਸਮਾਂ ਵਿੱਚੋਂ ਚੁਣਨਾ “ਸਭ ਤੋਂ ਵਧੀਆ” ਬਾਰੇ ਨਹੀਂ, ਬਲਕਿ ਫਿੱਟ ਬਾਰੇ ਹੁੰਦਾ ਹੈ: ਤੁਸੀਂ ਆਪਣੇ ਡੇਟਾ ਨਾਲ ਕੀ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਕਿਨੀ ਤੇਜ਼ੀ ਨਾਲ, ਅਤੇ ਜਦੋਂ ਸਿਸਟਮ ਦੇ ਹਿੱਸੇ ਫੇਲ ਹੋ ਜਾਂਦੇ ਹਨ ਤਾਂ ਕੀ ਹੁੰਦਾ ਹੈ।

OLTP vs. OLAP (ਵਰਕਲੋਡ ਨਾਲ ਮੇਲ ਖਾਓ)

ਇੱਕ ਛੋਟਾ ਨਿਯਮ:

OLTP (online transactions): ਬਹੁਤ ਸਾਰੇ ਛੋਟੇ ਪੜ੍ਹਾਈ/ਲਿਖਤ (ਚੈਕਆਉਟ, ਲੌਗਇਨ, ਆਰਡਰ ਅਪਡੇਟ). ਪ੍ਰਾਥਮਿਕਤਾ: ਘੱਟ ਲੇਟੰਸੀ, ਸਹੀ ਅਪਡੇਟਸ, ਬਹੁਤ concurrent ਯੂਜ਼ਰ।
OLAP (analytics): ਘੱਟ ਪਰ ਭਾਰੀ ਕੁਐਰੀਆਂ ਜੋ ਬਹੁਤ ਸਾਰੀਆਂ ਰੋਜ਼ ਸਕੈਨ ਕਰਦੀਆਂ ਹਨ (ਡੈਸ਼ਬੋਰਡ, ਰੁਝਾਨ). ਪ੍ਰਾਥਮਿਕਤਾ: ਤੇਜ਼ ਐਗਰੇਗੇਸ਼ਨ, ਕਾਲਮਨ ਸਟੋਰੇਜ, compute ਨੂੰ storage ਤੋਂ ਵੱਖ ਕਰਨਾ।

ਰਿਲੇਸ਼ਨਲ DB ਆਮ ਤੌਰ 'ਤੇ OLTP ਵਿੱਚ ਚੰਗੇ ਹਨ; ਕਾਲਮਨ ਸਿਸਟਮ, ਵੇਅਰਹਾਊਸ ਅਤੇ ਲੇਕਹਾਊਸ ਆਮ ਤੌਰ 'ਤੇ OLAP ਲਈ ਵਰਤੇ ਜਾਂਦੇ ਹਨ।

CAP ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ

ਜਦੋਂ ਨੈਟਵਰਕ ਹਿੱਚਕ-ਹੋ ਜਾਂਦਾ ਹੈ ਅਤੇ ਸਿਸਟਮ ਵੰਡਿਆ ਹੋ ਜਾਵੇ, ਤੁਹਾਨੂੰ ਤੇਨੂੰ ਇੱਕ ਵਾਰ ਨਹੀਂ ਮਿਲ ਸਕਦਾ:

Consistency: ਹਰ ਕੋਈ ਤੁਰੰਤ ਇੱਕੋ ਡੇਟਾ ਵੇਖੇ
Availability: ਸਿਸਟਮ ਜਵਾਬ ਦਿੰਦਾ ਰਹੇ
Partition tolerance: ਨੈਟਵਰਕ-ਵੰਡਾਂ ਦੇ ਬਾਵਜੂਦ ਕੰਮ ਕਰਦਾ ਰਹੇ

ਕਈ ਵੰਡੇ ਹੋਏ ਡੇਟਾਬੇਸ ਚੋਣ ਕਰਦੇ ਹਨ ਕਿ ਉਹ ਮੁੱਦਿਆਂ ਦਰਮਿਆਨ ਉਪਲਬਧ ਰਹਿਣ ਅਤੇ ਬਾਅਦ ਵਿੱਚ ਸਹਿਮਤ ਹੋ ਜਾਣ (eventual consistency)। ਹੋਰਾਂ ਨੇ ਸਖ਼ਤ ਸਹਿਮਤੀ ਨੂੰ ਤਰਜੀਹ ਦਿੱਤੀ, ਭਾਵੇਂ ਕਿ ਉਨ੍ਹਾਂ ਨੂੰ ਕੁਝ ਬੇਨਤੀਆਂ ਇਸਤੋਂ ਪਹਿਲਾਂ ਮਨਜ਼ੂਰ ਨਹੀਂ ਕਰਨੀਆਂ ਪੈਂ।

ਸਕੇਲਿੰਗ: ਵਰਟਿਕਲ, ਹੋਰਾਈਜ਼ਾਂਟਲ, ਅਤੇ ਸ਼ਾਰਡਿੰਗ

Vertical scaling: ਵੱਡੀ ਮਸ਼ੀਨ—ਸੌਖਾ, ਪਰ ਹੱਦਾਂ ਹੁੰਦੀਆਂ ਹਨ।
Horizontal scaling: ਹੋਰ ਮਸ਼ੀਨ—ਜ਼ਿਆਦਾ ਸਮਰੱਥਾ, ਵੱਧ ਸਹਯੋਗੀਤਾ ਦੀ ਲੋੜ।
Sharding: ਡੇਟਾ ਨੂੰ ਨੋਡਸ 'ਤੇ ਵੰਡਣਾ (ਅਕਸਰ customer ID ਦੁਆਰਾ). ਇਹ ਸਕੇਲ ਵਧਾਉਂਦਾ ਹੈ, ਪਰ cross-shard ਕੁਐਰੀਆਂ ਅਤੇ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨਾਂ ਮੁਸ਼ਕਿਲ ਹੋ ਸਕਦੀਆਂ ਹਨ।

ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਅਤੇ concurrency ਮੂਲ-ਸੂਝ

ਜੇ ਬਹੁਤ ਸਾਰੇ ਯੂਜ਼ਰ ਇੱਕੋ ਡੇਟਾ ਅਪਡੇਟ ਕਰ ਰਹੇ ਹਨ, ਤਾਂ ਤੁਹਾਨੂੰ ਸਾਫ ਨਿਯਮ ਚਾਹੀਦੇ ਹਨ। ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਕਦਮਾਂ ਨੂੰ “ਸਭ-ਜਾ ਨਾਂ ਤਾਂ ਕੁਝ ਨਹੀਂ” ਵਿੱਚ ਬੰਨ੍ਹਦਾ ਹੈ। ਲਾਕਿੰਗ ਅਤੇ ਇਸੋਲੇਸ਼ਨ ਲੈਵਲ ਟਕਰਾਅ ਤੋਂ ਰੋਕਦੇ ਹਨ, ਪਰ throughput ਘਟਾ ਸਕਦੇ ਹਨ; ਹਲਕੀ ਇਸੋਲੇਸ਼ਨ ਗਤੀ ਤੇ ਵਾਧਾ ਕਰਦੀ ਹੈ ਪਰ ਅਜਿਹੀਆਂ ਅਣਚਾਹੀਆਂ ਪੈਦਾ ਹੋ ਸਕਦੀਆਂ ਹਨ।

ਓਪਰੇਸ਼ਨਲ ਚਿੰਤਾਵਾਂ (ਇਹ ਛੱਡੋ ਨਹੀਂ)

ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਬੈਕਅਪ, ਰੇਪਲੀਕੇਸ਼ਨ, ਅਤੇ ਡਿਜਾਸਟਰ ਰੀਕਵਰੀ ਦੀ ਯੋਜਨਾ ਬਣਾਓ। ਇਹ ਵੀ ਸੋਚੋ ਕਿ ਰੀਸਟੋਰ ਟੈਸਟ ਕਰਨਾ ਕਿੰਨਾ ਆਸਾਨ ਹੈ, ਲੈਗ ਮਾਨੀਟਰ ਕਰਨਾ ਅਤੇ ਅੱਪਗਰੇਡ ਕਰਨਾ—ਇਹ ਦੂਜੇ-ਦਿਨ ਵਾਲੇ ਵੇਰਵੇ ਅਕਸਰ ਕੁਐਰੀ ਤੇਜ਼ੀ ਦੇ ਉਤਪਾਦਾਂ ਨਾਲੋਂ ਜ਼ਿਆਦਾ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦੇ ਹਨ।

ਸਹੀ ਡੇਟਾਬੇਸ ਕਿਸਮ ਕਿਵੇਂ ਚੁਣੀਏ

ਮੁੱਖ ਡੇਟਾਬੇਸ ਕਿਸਮਾਂ ਵਿਚਕਾਰ ਚੋਣ "ਟ੍ਰੈਂਡੀ" ਦੇ ਬਾਰੇ ਘੱਟ ਹੈ ਅਤੇ ਇਸ ਗੱਲ ਬਾਰੇ ਵੱਧ ਹੈ ਕਿ ਤੁਸੀਂ ਆਪਣੇ ਡੇਟਾ ਨਾਲ ਕੀ ਕਰਨਾ ਹੈ। ਸ਼ੁਰੂ ਕਰਨ ਲਈ ਇੱਕ عملي ਤਰੀਕਾ ਇਹ ਹੈ ਕਿ ਤੁਸੀਂ ਆਪਣੇ ਕੁਐਰੀਆਂ ਅਤੇ ਵਰਕਲੋਡਸ ਤੋਂ ਬੈਕਵਰਡ ਕੰਮ ਕਰੋ।

1) ਆਪਣੇ ਕੁਐਰੀਜ਼ ਤੋਂ ਸ਼ੁਰੂ ਕਰੋ (ਡੇਟਾ ਤੋਂ ਨਹੀਂ)

ਆਪਣੇ ਐਪ ਜਾਂ ਟੀਮ ਦੀਆਂ Top 5–10 ਗੱਲਾਂ ਲਿਖੋ:

ਤੁਸੀਂ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ ਕੀ ਪੜ੍ਹਦੇ ਹੋ (ਇਕ ਇਕਲ ਰਿਕਾਰਡ ਲੁੱਕਅੱਪ, ਫਿਲਟਰ, ਜੋਇਨ, ਐਗਰੇਗੇਸ਼ਨ, ਸਮਾਨਤਾ ਖੋਜ)?
ਤੁਸੀਂ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ ਕੀ ਲਿਖਦੇ ਹੋ (ਸਿੰਗਲ-ਰੋ ਇੰਸਰਟ, ਇਵੈਂਟ ਸਟ੍ਰੀਮ, ਅਪਡੇਟ, ਬਲਕ ਲੋਡ)?
ਨਤੀਜੇ ਕਿੰਨੇ ਤੁਰੰਤ ਚਾਹੀਦੇ ਹਨ (ਮਿਲੀਸੈਕੰਡ, ਸਕਿੰਟ, ਮਿੰਟ)?

ਇਹ ਵਿਕਲਪਾਂ ਨੂੰ feature checklist ਨਾਲੋਂ ਤੇਜ਼ੀ ਨਾਲ ਘਟਾਉਂਦਾ ਹੈ।

2) ਆਪਣੀ ਡੇਟਾ ਸ਼ਕਲ ਨਾਲ ਡੇਟਾਬੇਸ ਮੇਲਾਓ

ਇਸ ਛੋਟੇ “ਸ਼ੇਪ” ਚੈਕਲਿਸਟ ਨੂੰ ਵਰਤੋ:

ਸੰਰਚਿਤ, consistent ਫੀਲਡਸ → ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ
ਅਰਧ-ਸੰਰਚਿਤ JSON ਜੋ ਅਕਸਰ ਬਦਲਦਾ ਹੈ → ਡੋਕਯੂਮੈਂਟ ਡੇਟਾਬੇਸ
ਬਹੁਤ ਸਾਰੇ many-to-many ਰਿਸ਼ਤੇ ਜੋ ਤੁਸੀਂ ਗਹਿਰਾਈ ਨਾਲ ਟ੍ਰੈਵਰਸ ਕਰਦੇ ਹੋ → ਗ੍ਰਾਫ ਡੇਟਾਬੇਸ
ਐਮਬੈਡਿੰਗਸ ਅਤੇ nearest-neighbor ਖੋਜ → ਵੈਕਟਰ ਡੇਟਾਬੇਸ
ਟਾਈਮ-ਸਟੈਂਪ ਕੀਤੇ ਇਵੈਂਟ/ਮੈਟ੍ਰਿਕਸ ਅਤੇ ਰੋਲਅਪ → ਟਾਈਮ-ਸੀਰੀਜ਼ ਡੇਟਾਬੇਸ
ਪ੍ਰਿਡਿਕਟੇਬਲ ਐਕਸੈਸ ਪੈਟਰਨਾਂ ਵਾਲੇ ਬਹੁਤ ਵੱਡੇ ਸਕੇਲ-ਆਊਟ ਟੇਬਲਸ → ਵਾਇਡ-ਕਾਲਮ ਡੇਟਾਬੇਸ
ਬਹੁਤ ਸਧਾਰਨ get/set by key → ਕੀ-ਵੈਲਿਊ ਸਟੋਰ
ਭਾਰੀ ਐਨਾਲਿਟਿਕ ਸਕੈਨ ਅਤੇ ਐਗਰੇਗੇਸ਼ਨ → ਕਾਲਮਨ ਡੇਟਾਬੇਸ (ਜਾਂ ਵੇਅਰਹਾਊਸ)

3) ਸ਼ੁਰੂ ਵਿੱਚ ਹੀ ਲੇਟੰਸੀ, ਥਰੂਪੁੱਟ, ਅਤੇ ਲਾਗਤ ਨਿਸ਼ਚਿਤ ਕਰੋ

ਕਾਰਗੁਜ਼ਾਰੀ ਟਾਰਗੇਟ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹਨ। ਰਫ਼ ਅੰਕੜੇ (p95 ਲੇਟੰਸੀ, reads/writes per second, ਡੇਟਾ ਰਿਟੇੰਸ਼ਨ) ਤਯਾਰ ਕਰੋ। ਲਾਗਤ ਆਮ ਤੌਰ 'ਤੇ:

Storage (ਰੌ ਡੇਟਾ + ਰਿਪਲਿਕਾ)
Compute (ਕੁਐਰੀ, ETL/ELT, ਬੈਕਗ੍ਰਾਉਂਡ ਜੌਬ)
Replication (ਮਲਟੀ-ਰੀਜਨ, HA)
Indexing (ਤੇਜ਼ ਕੁਐਰੀ ਲਈ, ਵਧੀਆ ਲਿਖਤ-ਓਵਰਹੈੱਡ)

4) ਸਧਾਰਨ ਫੈਸਲਾ-ਸਾਰਣੀ

ਮੁੱਖ ਉਪਯੋਗ	ਅਕਸਰ ਵਧੀਆ ਫਿੱਟ	ਕਿਉਂ
ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ, ਇਨਵੌਇਸ	ਰਿਲੇਸ਼ਨਲ (SQL)	ਮਜ਼ਬੂਤ ਕਨਸਟ੍ਰੇਂਟਸ, ਜੋਇਨ, ਸਹਿਮਤੀ
ਐਪ ਡੇਟਾ ਜੋ ਬਦਲਦਾ ਰਹਿੰਦਾ ਹੈ	ਡੋਕਯੂਮੈਂਟ	ਲਚਕੀਲਾ ਸਕੀਮਾ, ਕੁਦਰਤੀ JSON
ਰੀਅਲ-ਟਾਈਮ ਕੈਸ਼/ਸੈਸ਼ਨ	ਕੀ-ਵੈਲਿਊ ਸਟੋਰ	ਕੀ ਦੁਆਰਾ ਤੇਜ਼ ਲੁੱਕਅੱਪ
ਕਲਿੱਕਸਟਰੀਮ/ਮੈਟ੍ਰਿਕਸ ਸਮੇਂ ਦੇ ਨਾਲ	ਟਾਈਮ-ਸੀਰੀਜ਼	ਉੱਚ ingest + ਸਮੇਂ-ਆਧਾਰਿਤ ਕੁਐਰੀਜ਼
BI ਡੈਸ਼ਬੋਰਡ, ਵੱਡੇ ਐਗਰੇਗੇਸ਼ਨ	ਕਾਲਮਨ	ਤੇਜ਼ ਸਕੈਨ + ਕੰਪ੍ਰੈਸ਼ਨ
ਸੋਸ਼ਲ/ਨੋਲੇਜ ਰਿਸ਼ਤੇ	ਗ੍ਰਾਫ	ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਰਿਸ਼ਤਾ ਟ੍ਰੈਵਰਸਲ
ਸੈਮੈਂਟਿਕ ਖੋਜ, RAG	ਵੈਕਟਰ	embeddings 'ਤੇ ਸਮਾਨਤਾ ਖੋਜ
ਵੱਡੇ ਓਪਰੇਸ਼ਨਲ ਡੇਟਾ	ਵਾਇਡ-ਕਾਲਮ	ਹੋਰਾਈਜ਼ਾਂਟਲ ਸਕੇਲ, predictable queries

ਭਾਰੀਆਂ ਟੀਮਾਂ ਅਕਸਰ ਦੋ ਡੇਟਾਬੇਸ ਵਰਤਦੀਆਂ ਹਨ: ਇੱਕ ਓਪਰੇਸ਼ਨਲ (e.g., ਰਿਲੇਸ਼ਨਲ) ਅਤੇ ਇੱਕ ਐਨਾਲਿਟਿਕਸ (e.g., ਕਾਲਮਨ/ਵੇਅਰਹਾਊਸ)। “ਸਹੀ” ਚੋਣ ਉਹ ਹੈ ਜੋ ਤੁਹਾਡੇ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਕ ਕੁਐਰੀਜ਼ ਨੂੰ ਸਭ ਤੋਂ ਸਧਾਰਨ, ਤੇਜ਼, ਅਤੇ ਸਸਤਾ ਤਰੀਕੇ ਨਾਲ ਭਰੋਸੇਯੋਗ ਬਣਾਉਂਦੀ ਹੈ।

ਤੇਜ਼ ਨੋਟ ਜੇ ਤੁਸੀਂ ਤੇਜ਼ੀ ਨਾਲ ਉਤਪਾਦ ਬਣਾ ਰਹੇ ਹੋ

ਜੇ ਤੁਸੀਂ ਪ੍ਰੋਟੋਟਾਈਪਿੰਗ ਜਾਂ ਨਵੇਂ ਫੀਚਰ ਜਲਦੀ ਸ਼ਿਪ ਕਰ ਰਹੇ ਹੋ, ਤਾਂ ਡੇਟਾਬੇਸ ਫੈਸਲਾ ਅਕਸਰ ਤੁਹਾਡੇ ਡਿਵੈਲਪਮੈਂਟ ਵਰਕਫਲੋ ਨਾਲ ਜੁੜਿਆ ਹੁੰਦਾ ਹੈ। ਪਲੇਟਫਾਰਮ ਜਿਵੇਂ Koder.ai (ਇੱਕ vibe-coding ਪਲੇਟਫਾਰਮ ਜੋ ਚੈਟ ਤੋਂ ਵੈੱਬ, ਬੈਕਐਂਡ, ਅਤੇ ਮੋਬਾਈਲ ਐਪ ਬਣਾਉਂਦਾ ਹੈ) ਇਸਨੂੰ ਹੋਰ ਵਿਹਲ ਬਣਾਉਂਦਾ ਹੈ: ਉਦਾਹਰਣ ਲਈ, Koder.ai ਦਾ ਡੀਫਾਲਟ ਬੈਕਐਂਡ ਸਟੈਕ Go + PostgreSQL ਵਰਤਦਾ ਹੈ, ਜੋ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨਲ ਸਹੀਪਣ ਅਤੇ ਵਿਆਪਕ SQL ਟੂਲਿੰਗ ਲਈ ਇੱਕ ਮਜ਼ਬੂਤ ਸ਼ੁਰੂਆਤ ਹੈ।

ਜਿਵੇਂ ਤੁਹਾਡਾ ਉਤਪਾਦ ਵੱਧਦਾ ਹੈ, ਤੁਸੀਂ ਹੁਣ ਵੀ ਵੱਖ-ਵੱਖ ਖਾਸ ਡੇਟਾਬੇਸ ਜੋੜ ਸਕਦੇ ਹੋ (ਜਿਵੇਂ ਵੈਕਟਰ DB ਸੈਮੈਂਟਿਕ ਖੋਜ ਲਈ ਜਾਂ ਕਾਲਮਨ ਵੇਅਰਹਾਊਸ ਐਨਾਲਿਟਿਕਸ ਲਈ) ਤੇ PostgreSQL ਨੂੰ ਸਰੋਤ-ਸੱਚਾਈ ਵਜੋਂ ਰੱਖ ਸਕਦੇ ਹੋ। ਕੁੰਜੀ ਇਹ ਹੈ ਕਿ ਅੱਜ ਜਿਨ੍ਹਾਂ ਵਰਕਲੋਡਾਂ ਨੂੰ ਤੁਸੀਂ ਸਹਾਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਉਹਨਾਂ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ—ਅਤੇ ਜਦੋਂ ਕੁਐਰੀ ਪੈਟਰਨ ਮੰਗ ਕਰਦੇ ਹਨ ਤਾਂ "ਦੂਜਾ ਸਟੋਰ ਜੋੜੋ" ਲਈ ਦਰਵਾਜ਼ਾ ਖੁੱਲ੍ਹਾ ਰੱਖੋ।

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

“ਡੇਟਾਬੇਸ ਕਿਸਮ” ਕਾਰਜਕਾਰੀ ਰੂਪ ਵਿੱਚ ਕੀ ਮਤਲਬ ਰੱਖਦੀ ਹੈ?

“ਡੇਟਾਬੇਸ ਕਿਸਮ” ਤਿੰਨ ਚੀਜ਼ਾਂ ਲਈ ਇੱਕ ਸ਼ਾਰਥਹਾਂ ਹੈ:

ਡੇਟਾ ਮਾਡਲ (ਟੇਬਲ, ਦਸਤਾਵੇਜ਼, ਕੀ-ਵੈਲਿਊ ਜੋੜੇ, ਗ੍ਰਾਫ, ਵੈਕਟਰ, ਸਮੇਂ-ਸਬੰਧੀ ਬਿੰਦੂ)
ਕੁਐਰੀ ਪੈਟਰਨ ਜਿਨ੍ਹਾਂ ਲਈ ਇਹ ਆਪਟੀਮਾਈਜ਼ ਕੀਤਾ ਗਿਆ ਹੈ (ਜੋਇਨ, ਸਕੈਨ/ਐਗਰੇਗੇਸ਼ਨ, ਟ੍ਰੈਵਰਸਲ, ਸਮਾਨਤਾ-ਖੋਜ)
ਸਕੇਲਿੰਗ ਅਤੇ ਸਹਿਮਤੀ ਦੇ ਤਰਲ-ਫੈਸਲੇ (scale-up ਵਸਤੇ vs. scale-out, ਤੁਰੰਤ vs. ਆਖਰੀ ਸਹਿਮਤੀ)

ਕਿਸਮ ਚੁਣਣਾ ਅਸਲ ਵਿੱਚ ਕਾਰਗੁਜ਼ਾਰੀ, ਲਾਗਤ ਅਤੇ ਓਪਰੇਸ਼ਨਲ ਜਟਿਲਤਾ ਲਈ ਡਿਫਾਲਟ ਫੈਸਲੇ ਚੁਣਨ ਵਰਗਾ ਹੈ।

ਮੈਂ ਬਿਨਾਂ ਜ਼ਿਆਦਾ ਸੋਚੇ-ਵਿੱਚਰੇ ਕਿਵੇਂ ਸਹੀ ਡੇਟਾਬੇਸ ਕਿਸਮ ਚੁਣ ਸਕਦਾ/ਸਕਦੀ ਹਾਂ?

ਆਪਣੀਆਂ ਟੌਪ 5–10 ਕੁਐਰੀਆਂ ਅਤੇ ਲਿਖਣ ਦੇ ਪੈਟਰਨ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ, ਫਿਰ ਉਨ੍ਹਾਂ ਨੂੰ موزੂਨ ਤਾਕਤਾਂ ਨਾਲ ਮੇਲ ਕਰੋ:

OLTP ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ + ਸੰਰਚਿਤ ਡੇਟਾ → ਰਿਲੇਸ਼ਨਲ (SQL)
ਡੈਸ਼ਬੋਰਡ ਅਤੇ ਵੱਡੀਆਂ ਐਗਰੇਗੇਸ਼ਨ → ਕਾਲਮਨ / ਵੇਅਰਹਾਊਸ

ਮੈਂ ਕਦੋਂ ਰਿਲੇਸ਼ਨਲ (SQL) ਡੇਟਾਬੇਸ ਵਰਤਾਂ?

ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਇੱਕ ਮਜ਼ਬੂਤ ਡਿਫਾਲਟ ਹਨ ਜਦੋਂ ਤੁਹਾਨੂੰ:

ਸੰਰਚਿਤ, ਵੱਡੇ ਪੱਧਰ ਤੇ ਪਰਿਭਾਸ਼ਿਤ ਸਕੀਮਾਂ
ACID ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ (ਪੈਸੇ, ਇਨਵੇਂਟਰੀ, ਆਦਿ ਲਈ ਸਹੀਪਣ)
ਜੋਇਨ ਅਤੇ ਬੰਧਨ (foreign keys, consistent ਰਿਸ਼ਤੇ)

ਇਹਨਾਂ ਨੂੰ ਮੁਸ਼ਕਿਲ ਤਬ ਹੋ ਸਕਦੀ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਲਗਾਤਾਰ ਸਕੀਮਾ ਬਦਲ ਰਹੇ ਹੋ ਜਾਂ ਜਦੋਂ ਤੁਸੀਂ ਬਹੁਤ ਵੱਡੇ ਹੋਰਾਈਜ਼ਾਂਟਲ ਸਕੇਲ ਨਾਲ ਬੇਹੱਦ ਜੋਇਨ-ਭਾਰੀ ਕੁਐਰੀਜ਼ ਚਾਹੁੰਦੇ ਹੋ।

ACID ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਕੀ ਹਨ, ਅਤੇ ਇਹ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ ਕਦੋਂ ਮਾਇਨੇ ਰੱਖਦੇ ਹਨ?

ACID ਇੱਕ ਮਲਟੀ-ਸਟੈਪ ਬਦਲਾਅ ਲਈ ਭਰੋਸੇਯੋਗਤਾ ਦੀ ਗਾਰੰਟੀ ਹੈ:

Atomicity: ਸਾਰੇ ਕਦਮ ਸਫਲ ਹੋਣ ਜਾਂ ਕੋਈ ਨਹੀਂ
Consistency: ਨਿਯਮ/ਕਨਸਟ੍ਰੇਂਟਸ ਸਹੀ ਰਹਿੰਦੇ ਹਨ
Isolation: ਇੱਕਸਮੇਂ ਹੋ ਰਹੇ ਓਪਰੇਸ਼ਨ ਇੱਕ ਦੂਜੇ ਨੂੰ ਖਰਾਬ ਨਹੀਂ ਕਰਦੇ
Durability: ਕਿਹਾ-ਕਰ ਬਚਿਆ ਡੇਟਾ ਕ੍ਰੈਸ਼ ਤੋਂ ਬਾਅਦ ਵੀ ਰਹਿੰਦਾ ਹੈ

ਇਹ ਉਹਨਾਂ ਵਰਕਫਲੋਜ਼ ਲਈ ਜ਼ਰੂਰੀ ਹੁੰਦਾ ਹੈ ਜਿੱਥੇ ਗਲਤੀਆਂ ਮਹਿੰਗੀਆਂ ਪੈਂਦੀਆਂ ਹਨ (ਪੈਮੈਂਟ, ਬੁਕਿੰਗ, ਇਨਵੇਂਟਰੀ ਅੱਪਡੇਟ)।

ਕਾਲਮਨ ਡੇਟਾਬੇਸ row-store ਨਾਲੋਂ ਐਨਾਲਿਟਿਕ ਲਈ ਤੇਜ਼ ਕਿਉਂ ਹੁੰਦੇ ਹਨ?

ਕਾਲਮਨ ਡੇਟਾਬੇਸ ਉਹਨਾਂ ਕੁਐਰੀਆਂ ਲਈ ਸਰੇਸ਼ਠ ਹਨ ਜਿਹੜੀਆਂ:

ਧੀਰੇ-ਧੀਰੇ ਬਹੁਤ ਸਾਰੇ ਰਿਕਾਰਡ ਸਕੈਨ ਕਰਦੀਆਂ ਹਨ
ਸਿਰਫ਼ ਕੁਝ ਕਾਲਮ ਪੜ੍ਹਦੀਆਂ ਹਨ
ਐਗਰੇਗੇਸ਼ਨ ਕਰਦੀਆਂ ਹਨ (SUM, COUNT, AVG, )

ਡੋਕਯੂਮੈਂਟ ਡੇਟਾਬੇਸ SQL ਨਾਲੋਂ ਕਦੋਂ ਵਧੀਆ ਹੁੰਦਾ ਹੈ?

ਡੋਕਯੂਮੈਂਟ ਡੇਟਾਬੇਸ ਤਦੋਂ ਵਧੀਆ ਹੈ ਜਦੋਂ:

ਤੁਹਾਡਾ ਐਪ ਡੇਟਾ JSON-ਨੁਮਾਂ ਆਬਜੈਕਟਾਂ ਵਾਂਗ ਉਦਾਹਰਣ ਹੈ (ਪ੍ਰੋਫ਼ਾਈਲ, ਕੈਟਾਲੌਗ, ਸਮੱਗਰੀ)
ਆਈਟਮਾਂ ਦੀ ਸ਼ਕਲ ਅਕਸਰ ਬਦਲਦੀ ਰਹਿੰਦੀ ਹੈ ਜਾਂ ਵੱਖ-ਵੱਖ ਹੁੰਦੀ ਹੈ
ਤੁਸੀਂ ਨੇਸਟਡ ਸਟ੍ਰਕਚਰ ਨੂੰ ਬਿਨਾਂ ਕਈ ਟੇਬਲਾਂ ਵਿੱਚ ਵੰਡੇ ਰੱਖਣਾ ਚਾਹੁੰਦੇ ਹੋ

ਧਿਆਨ ਰੱਖੋ: ਆਮ-ਤੌਰ 'ਤੇ ਕੁਝ ਟ੍ਰੇਡ-ਆਫ਼—ਜਿਵੇਂ ਕਿ ਜਟਿਲ ਜੋਇਨ, ਪੜ੍ਹਨ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ ਡਾਟਾ ਨਕਲ ਕਰਨਾ, ਅਤੇ ਮੁਲਟੀ-ਡੌਕਯੂਮੈਂਟ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨਾਂ ਦੇ ਖਰਚ।

ਕੀ-ਵੈਲਿਊ ਸਟੋਰ (ਕੈਸ਼ ਤੋਂ ਇਲਾਵਾ) ਸਭ ਤੋਂ ਵਧੀਆ ਕਿਸ ਲਈ ਹਨ?

ਕੀ-ਵੈਲਿਊ ਸਟੋਰ ਉਸ ਵੇਲੇ ਵਰਤੋਂਯੋਗ ਹੁੰਦੇ ਹਨ ਜਦੋਂ:

ਤੁਹਾਡਾ ਐਕਸੈਸ ਪੈਟਰਨ ਵਿਚਾਰਨ ਮੁੱਖ ਤੌਰ ਤੇ ਇਕ ਕੀਂ ਦੁਆਰਾ get/set ਹੋਵੇ (ਘੱਟ ਲੇਟੰਸੀ ਲੁੱਕਅੱਪ)
ਕੈਸ਼ਿੰਗ: ਮੁੱਖ ਡੇਟਾਬੇਸ ਤੋਂ ਨਤੀਜੇ ਕੈਸ਼ ਕਰਨਾ
ਸੈਸ਼ਨ, ਰੇਟ ਲਿਮਿਟਿੰਗ, ਫੀਚਰ ਫਲੈਗ, ਜਾਂ ਸ਼ਾਪਿੰਗ ਕਾਰਟ

ਯੋਜਨਾ ਬਣਾਓ ਕਿ ਐਡ-ਹੌਕ ਕੁਐਰੀਇੰਗ ਆਮ ਤੌਰ ਤੇ ਕਮਜ਼ੋਰ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਸਕੈਂਡਰੀ ਇੰਡੈਕਸਿੰਗ ਦੀ ਸਹਾਇਤਾ ਮ خداਰ ਉਤਪਾਦ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ—ਅਕਸਰ ਤੁਸੀਂ ਖ਼ਾਸ ਕੀ ਸਟ੍ਰਕਚਰ ਅਤੇ ਲੁੱਕਅਪ ਕੀਜ਼ ਬਣਾਉਂਦੇ ਹੋ।

ਕਾਲਮਨ ਡੇਟਾਬੇਸ ਅਤੇ ਵਾਇਡ-ਕਾਲਮ ਡੇਟਾਬੇਸ ਵਿੱਚ ਕੀ ਫਰਕ ਹੈ?

ਨਾਂ-ਭਾਵ-ਨਾਲ ਨਾਮ ਮਿਲਦੇ ਹੋਏ, ਦੋਨੋ ਵੱਖਰੇ ਮਕਸਦ ਨਿਭਾਉਂਦੇ ਹਨ:

ਕਾਲਮਨ ਡੇਟਾਬੇਸ: ਐਨਾਲਿਟਿਕਸ (ਕਾਲਮਾਂ ਉੱਤੇ ਤੇਜ਼ ਸਕੈਨ + ਕੰਪ੍ਰੈਸ਼ਨ)
ਵਾਇਡ-ਕਾਲਮ ਡੇਟਾਬੇਸ: ਵੱਡੇ ਪੈਮਾਨੇ ਦਾ ਓਪਰੇਸ਼ਨਲ ਸਟੋਰੇਜ (ਉੱਚ ਲਿਖਾਈ ਥਰੂਪੁੱਟ, ਭਵਿੱਖਵਾਣੀ-ਅਧਾਰਿਤ ਕੀ-ਪੜ੍ਹਾਈ)

ਵਾਇਡ-ਕਾਲਮ ਸਿਸਟਮ ਆਮ ਤੌਰ 'ਤੇ ਕੁਐਰੀ-ਚਲਾਇਆ ਮਾਡਲਿੰਗ ਮੰਗਦੇ ਹਨ (ਟਿੱਬਲਜ਼ ਨੂੰ ਠੀਕ ਐਕਸੈਸ ਪੈਟਰਨ ਲਈ ਡਿਜ਼ਾਈਨ ਕਰੋ) ਅਤੇ ਉਹ SQL ਵਰਗੀ ਲਚਕੀਲਾਪਣ ਨਹੀਂ ਦਿੰਦੇ।

ਮੈਂ ਕਿਸ ਵੇਲੇ ਗ੍ਰਾਫ ਡੇਟਾਬੇਸ ਰਿਲੇਸ਼ਨਲ ਟੇਬਲਾਂ ਨਾਲੋਂ ਚੁਣਾਂ?

ਗ੍ਰਾਫ DB ਉਪਯੋਗ ਕਰੋ ਜਦੋਂ ਤੁਹਾਡੇ ਮੁੱਖ ਸਵਾਲ ਰਿਸ਼ਤਿਆਂ ਬਾਰੇ ਹੋਣ, ਉਦਾਹਰਣ:

ਰਸਤੇ ਅਤੇ ਦੂਰੀਆਂ (degrees of separation)
ਕਨੈਕਸ਼ਨ ਆਧਾਰਿਤ ਰਿਕਮਿੰਡੇਸ਼ਨ
ਫ੍ਰੌਡ ਰਿੰਗ ਅਤੇ ਸਾਂਝੇ ਗੁਣਾਂ ਵਾਲੀਆਂ ਅਨੋਮਲੀਆਂ

ਗ੍ਰਾਫ ਟ੍ਰੈਵਰਸਲਾਂ 'ਚ ਉਤਮ ਹਨ (ਨੋਡ ਤੋਂ ਨੋਡ ਤੱਕ ਚੱਲਣਾ) ਜਿੱਥੇ ਰਿਲੇਸ਼ਨਲ ਵਿਧੀ ਵਿੱਚ ਕਈ ਜੋਇਨ ਲੱਗਣਗੇ। ਟਰੇਡ-ਆਫ਼: ਨਵਾਂ ਡਾਟਾ ਮਾਡਲ ਅਤੇ ਕੁਐਰੀ ਭਾਸ਼ਾਵਾਂ (Cypher/Gremlin/SPARQL) ਸਿੱਖਣ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ।

ਵੈਕਟਰ ਡੇਟਾਬੇਸ ਕਿਹੜਾ ਸਮੱਸਿਆ ਹੱਲ ਕਰਦੇ ਹਨ, ਅਤੇ ਕੀ ਇਹ ਮੇਰੇ ਮੁੱਖ ਡੇਟਾਬੇਸ ਦੀ ਥਾਂ ਲੈ ਲੈਂਦੇ ਹਨ?

ਵੈਕਟਰ ਡੀਬੀ ਸਮਾਨਤਾ-ਖੋਜ (similarity search) ਲਈ ਬਣਾਏ ਜਾਂਦੇ ਹਨ—ਇਹ embeddings (ਟੈਕਸਟ, ਚਿੱਤਰ, ਆਡੀਓ, ਉਤਪਾਦ ਦੇ ਨੰਬਰਤਮਿਕ ਪ੍ਰਤੀਨਿਧੀ) ਦੀ ਨਜ਼ਦੀਕੀ 'ਤੇ ਆਧਾਰਿਤ ਹਨ। ਆਮ ਵਰਤੋਂ:

ਸੈਮੈਂਟਿਕ ਖੋਜ (ਵੱਖ-ਵੱਖ ਸ਼ਬਦਾਂ ਦੇ ਹੋਣ 'ਤੇ ਵੀ ਸਮਾਨ ਅਰਥ ਵਾਲੀਆਂ ਨਤੀਜਾਂ)
RAG: LLM ਨੂੰ ਉੱਤਰ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ ਸਭ ਤੋਂ ਸਬੰਧਤ ਪੈਸੇਜ ਲਿਆਉਣਾ
ਸਮਾਨਤਾ-ਆਧਾਰਿਤ ਰਿਕਮੈਂਡੇਸ਼ਨ

ਅਮਲ ਵਿੱਚ, ਇਹ ਆਮ ਤੌਰ 'ਤੇ ਤੁਹਾਡੇ ਮੁੱਖ ਡੇਟਾਬੇਸ ਦੀ ਜਗ੍ਹਾ ਨਹੀਂ ਲੈਂਦੇ। ਆਮ ਪੈਟਰਨ: ਸਰੋਤ-ਸੱਚਾਈ (orders, users, documents) ਰਿਲੇਸ਼ਨਲ/ਡੋਕਯੂਮੈਂਟ DB ਵਿੱਚ ਰੱਖੋ, ਇੱਕ ਵੈਕਟਰ DB ਵਿੱਚ embeddings + ਇੰਡੈਕਸ ਰੱਖੋ, ਫਿਰ ਫੁੱਲ ਰਿਕਾਰਡ ਅਤੇ ਪਰਮੀਸ਼ਨ ਲਈ ਨਤੀਜਿਆਂ ਨੂੰ ਮੁੱਖ ਸਟੋਰ ਨਾਲ ਜੋੜੋ।

GROUP BY