ਡੇਟਾਬੇਸ ਸ਼ਾਰਡਿੰਗ ਕਿਵੇਂ ਕੰਮ ਕਰਦੀ ਹੈ — ਅਤੇ ਇਸ ਬਾਰੇ ਸੋਚਣਾ ਕਿਉਂ ਔਖਾ ਹੈ

Q: What are the core components of a sharded database system?

ਇੱਕ ਆਮ ਸ਼ਾਰਡਿੰਗ ਸਿਸਟਮ ਵਿੱਚ ਸ਼ਾਮਿਲ ਹੁੰਦਾ ਹੈ: - ਸ਼ਾਰਡਸ: ਆਪਣੀ ਸਟੋਰੇਜ ਅਤੇ ਇੰਡੈਕਸਾਂ ਵਾਲੇ ਸੁਤੰਤਰ ਹਿੱਸੇ - ਰਾਊਟਰ/ਕੋਰਡੀਨੇਟਰ: ਇਹ ਫੈਸਲਾ ਕਰਦੇ ਹਨ ਕਿ ਕਿਹੜਾ ਸ਼ਾਰਡ(ਸ) ਕਵੈਰੀ ਸੰਭਾਲਣਗੇ - ਮੈਟਾਡੇਟਾ/ਕੰਫਿਗ ਸਰਵਿਸ: ਸ਼ਾਰਡ ਮੈਪ, ਮਲਕੀਅਤ, ਹੈਲਥ, ਮੈਂਬਰਸ਼ਿਪ - ਬੈਕਗਰਾਊਂਡ ਜਾਬਜ਼: ਰੀਬੈਲੈਂਸਿੰਗ, ਮਾਈਗ੍ਰੇਸ਼ਨ, ਬੈਕਅੱਪ/ਰਿਸਟੋਰ ਵਰਕਫਲੋਜ਼ ਪੈਰਫਾਰਮੈਂਸ ਅਤੇ ਸਹੀਪਣ ਇਸ ਗੱਲ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ ਕਿ ਇਹ ਹਿੱਸੇ ਇਕੱਠੇ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ।

Q: What makes a shard key “bad,” and what failures does it cause?

ਕੁਝ shard ਕੁੰਜੀਆਂ ਨੁਕਸਾਨ ਦੇਣ ਵਾਲੀਆਂ ਹੁੰਦੀਆਂ ਹਨ: - ਟਾਇਮ-ਅਧਾਰਿਤ monotonic ਕੁੰਜੀਆਂ (ਟਾਈਮਸਟੈਂਪ, ਆਟੋ-ਇਨਕ੍ਰੀਮੈਂਟ ID): ਨਵਾਂ ਡੇਟਾ "ਲੀਟਸ" shard 'ਤੇ ਇਕੱਠਾ ਹੋ ਜਾਂਦਾ ਹੈ → ਲਿਖਾਈ ਦਾ ਹਾਟਸਪੌਟ - ਘੱਟ ਕਾਰਡੀਨੈਲਟੀ ਵਾਲੇ ਫੀਲਡ (status, plan tier, country): ਬਹੁਤ ਘੱਟ ਵੱਖ-ਵੱਖ ਮੁੱਲ → ਕੁਝ shards ਵੱਧ ਕੰਮ ਲੈਂਦੇ ਹਨ - ਬਦਲਣਯੋਗ ਆਈਡੇਂਟੀਫਾਇਰ (email, mutable usernames): ਕੁੰਜੀ ਬਦਲੇ ਤਾਂ ਡੇਟਾ ਮੁਵ ਕਰਨਾ ਮਹਿੰਗਾ ਤੇ ਖਤਰਨਾਕ ਹੁੰਦਾ ਹੈ ਇਹਨਾਂ ਕਾਰਨਾਂ ਨਾਲ ਰੁਟੀਨ ਕਵੈਰੀਆਂ scatter-gather ਫੈਨ-ਆਉਟ ਬਣ ਸਕਦੀਆਂ ਹਨ।

Q: What are range, hash, and directory sharding, and when should each be used?

ਤਿੰਨ ਆਮ ਰਣਨੀਤੀਆਂ ਹਨ: - ਰੇਂਜ ਸ਼ਾਰਡਿੰਗ: ਹਰ ਸ਼ਾਰਡ ਇੱਕ ਲਗਾਤਾਰ ਕੀ ਰੇਂਜ ਦਾ ਮਾਲਕ ਹੁੰਦਾ ਹੈ (ਉਦਾਹਰਣ: customer id 1–1,000,000). ਰੂਟਿੰਗ ਸਧਾਰਨ ਹੁੰਦੀ ਹੈ, ਪਰ ਨਵਾਂ ਡੇਟਾ monotonic ਆਈਡੀਜ਼ ਨਾਲ ਹਾਟਸਪੌਟ ਬਣ ਸਕਦਾ ਹੈ। ਰੇਂਜ ਕਵੈਰੀਆਂ ਲਈ ਇਹ ਚੰਗਾ ਹੈ। - ਹੈਸ਼ ਸ਼ਾਰਡਿੰਗ: ਕੀ ਨੂੰ ਹੈਸ਼ ਕਰਕੇ shard ਚੁਣਿਆ ਜਾਂਦਾ ਹੈ—ਇਸ ਨਾਲ ਡੇਟਾ ਜ਼ਿਆਦਾ ਬਰਾਬਰ ਵੰਡਦਾ ਹੈ। ਪਰ ਰੇਂਜ ਕਵੈਰੀਆਂ ਮਹਿਲਕ ਹੋ ਜਾਂਦੀਆਂ ਹਨ। ਕਨਸਿਸਟੈਂਟ ਹੈਸ਼ਿੰਗ ਵਰਤਕੇ shards ਨੂੰ ਵੱਧਾਇਆ ਜਾਣ 'ਤੇ ਸਾਰੇ ਕੁੰਜੀਆਂ ਦੀ ਮੁੜ-ਵੰਡ ਘੱਟ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। - ਡਾਇਰੈਕਟਰੀ (ਲੁੱਕਅੱਪ) ਸ਼ਾਰਡਿੰਗ: ਇੱਕ ਐਕਸਪਲਿਸਿਟ ਨਕਸ਼ਾ key → shard ਰੱਖਦਾ ਹੈ। ਇਹ ਸਭ ਤੋਂ ਲਚਕੀਲਾ ਹੈ—ਅਲੱਗ-ਅਲੱਗ ਟੇਨੈਂਟਾਂ ਨੂੰ ਡੈਡੀਕੇਟੇਡ ਸ਼ਾਰਡਾਂ 'ਤੇ ਰੱਖ ਸਕਦੇ ਹੋ—ਪਰ ਇਹ ਨਕਸ਼ੇ (ਡਾਇਰੈਕਟਰੀ) 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ।

ਲੌਗ ਇਨ ਸ਼ੁਰੂ ਕਰੋ

ਡੇਟਾਬੇਸ ਸ਼ਾਰਡਿੰਗ ਕਿਵੇਂ ਕੰਮ ਕਰਦੀ ਹੈ — ਅਤੇ ਇਸ ਬਾਰੇ ਸੋਚਣਾ ਕਿਉਂ ਔਖਾ ਹੈ | Koder.ai

ਸ਼ਾਰਡਿੰਗ ਕੀ ਹੈ (ਅਤੇ ਕੀ ਨਹੀਂ)

ਸ਼ਾਰਡਿੰਗ (ਜਿਸਨੂੰ ਹੋਰਾਈਜ਼ਾਂਟਲ ਪਾਰਟੀਸ਼ਨਿੰਗ ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ) ਦਾ ਮਤਲਬ ਹੈ ਇੱਕ ਐਸੀ ਡੇਟਾਬੇਸ ਜੋ ਐਪ ਲਈ ਇੱਕ ਲੱਗਦੀ ਹੈ, ਉਸ ਦੇ ਡੇਟਾ ਨੂੰ ਕਈ ਮਸ਼ੀਨਾਂ ਵਿੱਚ ਵੰਡਣਾ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਸ਼ਾਰਡ ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਹਰ ਸ਼ਾਰਡ ਸਿਰਫ ਰਿਕਾਰਡਾਂ ਦਾ ਇੱਕ ਹਿੱਸਾ ਰੱਖਦਾ ਹੈ, ਪਰ ਮਿਲ ਕੇ ਉਹ ਪੂਰਾ ਡੇਟਾਸੈੱਟ ਬਣਾਉਂਦੇ ਹਨ.

ਇੱਕ ਲੌਜਿਕਲ ਟੇਬਲ, ਕਈ ਭੌਤਿਕ ਥਾਵਾਂ

ਇੱਕ ਨੁਕਸਾਨੀ ਮਾਨਸਿਕ ਮਾਡਲ ਹੈ ਲੌਜਿਕਲ ਬਣਤਰ ਅਤੇ ਭੌਤਿਕ ਰੱਖ-ਰਖਾਵ ਵਿੱਚ ਫ਼ਰਕ.

ਲੌਜਿਕਲ: ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ “Users” ਟੇਬਲ ਹੀ ਬਣੀ ਰਹਿੰਦੀ ਹੈ (ਉਹੀ ਕਾਲਮ, ਉਹੀ ਮੀਨਿੰਗ).\n- ਭੌਤਿਕ: ਉਸ ਟੇਬਲ ਦੀਆਂ ਰੋਆਂ ਵੱਖ-ਵੱਖ ਥਾਂਵਾਂ ਤੇ ਸਟੋਰ ਹੁੰਦੀਆਂ ਹਨ—ਸ਼ਾਇਦ ID 1–1,000,000 ਸ਼ਾਰਡ A ਤੇ ਹਨ ਅਤੇ ਅਗਲੇ ਮਿਲੀਅਨ shard B ਤੇ.

ਐਪ ਦੀ ਨਜ਼ਰ ਵਿੱਚ, ਤੁਸੀਂ ਕਵੈਰੀਆਂ ਓਹਦੇ ਨਾਲ ਚਲਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ ਜਿਵੇਂ ਇਹ ਇੱਕ ਟੇਬਲ ਹੋਵੇ. ਪਰ ਅੰਦਰੋਂ, ਸਿਸਟਮ ਨੂੰ ਨਿਰਧਾਰਨ ਕਰਨਾ ਪੈਂਦਾ ਹੈ ਕਿ ਕਿਹੜੇ shard(ਸ) ਨਾਲ ਗੱਲ ਕਰਨੀ ਹੈ.

ਨਕਲ ਨਹੀਂ, "ਵੱਡਾ ਬਾਕਸ ਖਰੀਦੋ" ਨਹੀਂ

ਸ਼ਾਰਡਿੰਗ ਰੈਪਲਿਕੇਸ਼ਨ ਤੋਂ ਵੱਖ ਹੈ। ਰੈਪਲਿਕੇਸ਼ਨ ਇੱਕੋ ਡੇਟਾ ਦੀਆਂ ਨਕਲਾਂ ਬਣਾਉਂਦੀ ਹੈ ਕਈ ਨੋਡਾਂ 'ਤੇ, ਜ਼ਿਆਦਾਤਰ ਉਪਲਬਧਤਾ ਅਤੇ ਰੀਡ ਸਕੇਲਿੰਗ ਲਈ। ਸ਼ਾਰਡਿੰਗ ਡੇਟਾ ਨੂੰ ਵੰਡਦੀ ਹੈ ਤਾਂ ਜੋ ਹਰ ਨੋਡ ਵੱਖ ਰਿਕਾਰਡ ਰਖੇ।

ਇਹ ਵਰਟਿਕਲ ਸਕੇਲਿੰਗ ਤੋਂ ਵੀ ਵੱਖ ਹੈ, ਜਿਸ ਵਿੱਚ ਤੁਸੀਂ ਇੱਕ ਡੇਟਾਬੇਸ ਹੀ ਰੱਖਦੇ ਹੋ ਪਰ ਉਨ੍ਹਾਂ ਨੂੰ ਵੱਡੀ ਮਸ਼ੀਨ ਤੇ ਲਿਆ ਜਾਂਦੇ ਹੋ (ਵੱਧ CPU/RAM/ਤੇਜ਼ ਡਿਸਕ). ਵਰਟਿਕਲ ਸਕੇਲਿੰਗ ਸਧਾਰਣ ਹੋ ਸਕਦੀ ਹੈ ਪਰ ਹੱਦਾਂ ਹਨ ਅਤੇ ਜ਼ਲਦੀ ਮਹਿੰਗੀ ਹੋ ਸਕਦੀ ਹੈ।

ਸ਼ਾਰਡਿੰਗ ਜੋ ਸੁਧਾਰ ਨਹੀਂ ਕਰਦੀ

ਸ਼ਾਰਡਿੰਗ ਸਮਰੱਥਾ ਵਧਾਉਂਦੀ ਹੈ, ਪਰ ਇਹ ਆਪਣੇ ਆਪ ਤੁਹਾਡੀ ਡੇਟਾਬੇਸ ਨੂੰ "ਆਸਾਨ" ਨਹੀਂ ਬਣਾਉਂਦੀ ਜਾਂ ਹਰ ਕਵੈਰੀ ਨੂੰ ਤੇਜ਼ ਨਹੀਂ ਕਰਦੀ।

Join ਉਹਨਾਂ ਨੂੰ ਮਹਿੰਗਾ ਕਰ ਸਕਦੇ ਹਨ ਜੇ ਸੰਬੰਧਿਤ ਰੋਜ਼ ਵੱਖ-ਵੱਖ shards 'ਤੇ ਹੋਣ।
ਟਰਾਂਜ਼ੈਕਸ਼ਨ ਸ਼ਾਰਡਾਂ ਦੇ ਰਾਹੀਂ ਆਸਾਨ ਨਹੀਂ ਰਹਿੰਦੀਆਂ; "ਸਾਰੇ-ਜਾਂ-ਕੁਝ ਨਹੀਂ" ਅਪਡੇਟਸ ਨੂੰ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਕਰਨ ਲਈ ਕੋਆਰਡੀਨੇਸ਼ਨ ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ।
ਓਪਰੇਸ਼ਨਲ ਜਟਿਲਤਾ ਵੱਧਦੀ ਹੈ: ਰੂਟਿੰਗ, ਰੀਬੈਲੈਂਸਿੰਗ, ਡੀਬੱਗਿੰਗ ਅਤੇ ਫੇਲਯੂਰ ਹੈਂਡਲਿੰਗ ਸਿਸਟਮ ਦਾ ਹਿੱਸਾ ਬਣ ਜਾਂਦੇ ਹਨ।

ਇਸ ਲਈ ਸ਼ਾਰਡਿੰਗ ਨੂੰ ਸਮਝਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇਹ ਸਟੋਰੇਜ ਅਤੇ throughput ਨੂੰ ਸਕੇਲ ਕਰਦੀ ਹੈ—ਨਾ ਕਿ ਡੇਟਾਬੇਸ ਦੇ ਹਰ ਪਹਿਲੂ ਨੂੰ ਮੁਫ਼ਤ ਵਿੱਚ ਸੁਧਾਰ ਦੇਵੇ।

ਟੀਮਾਂ ਸ਼ਾਰਡ ਕਿਉਂ ਕਰਦੀਆਂ ਹਨ: ਉਹ ਮੁੱਸਲ ਸਲਾਹ ਜੋ ਇਹ ਹੱਲ ਕਰਦੀ ਹੈ

ਸ਼ਾਰਡਿੰਗ ਆਮ ਤੌਰ 'ਤੇ ਪਹਿਲਾ ਚੋਣ ਨਹੀਂ ਹੁੰਦੀ। ਟੀਮਾਂ ਆਮ ਤੌਰ 'ਤੇ ਇਸ ਵੱਲ ਜਾਣਦੀਆਂ ਹਨ ਜਦੋਂ ਸਿਸਟਮ ਨੇ ਸਫਲਤਾ ਦੇ ਬਾਅਦ ਫਿਜ਼ਿਕਲ ਹੱਦਾਂ ਨੂੰ ਛੂਹ ਲਿਆ ਹੋਵੇ—ਜਾਂ ਜਦੋਂ ਓਪਰੇਸ਼ਨਲ ਦਰਦ ਇੰਨਾ ਵੱਧ ਜਾਵੇ ਕਿ ਉਹ ਨਜ਼ਰਅੰਦਾਜ਼ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ। ਮਕਸਦ ਘੱਟੋ-ਘੱਟ "ਸਾਨੂੰ ਸ਼ਾਰਡਿੰਗ ਚਾਹੀਦੀ ਹੈ" ਨਹੀਂ ਹੁੰਦਾ, ਸਗੋਂ "ਸਾਨੂੰ ਅਜਿਹਾ ਤਰੀਕਾ ਚਾਹੀਦਾ ਹੈ ਜਿਸ ਨਾਲ ਇੱਕ ਡੇਟਾਬੇਸ ਇਕੱਲਾ ਬਿੰਦੂ ਨਾ ਬਣੇ।"

ਉਹ ਦਰਦ ਦੀਆਂ ਨਿਸ਼ਾਨੀਆਂ ਜੋ ਟੀਮਾਂ ਨੂੰ ਸ਼ਾਰਡ ਵੱਲ ਧੱਕਦੀਆਂ ਹਨ

ਇੱਕ ਸਿੰਗਲ ਡੇਟਾਬੇਸ ਨੋਡ ਕਈ ਤਰੀਕਿਆਂ ਨਾਲ ਕਮ ਰੱਖ ਸਕਦਾ ਹੈ:

ਸਟੋਰੇਜ ਸੀਮਾਵਾਂ: ਟੇਬਲ ਅਤੇ ਇੰਡੈਕਸ ਵੱਧ ਜਾਣ ਤੇ ਡਿਸਕ ਘੱਟ ਹੋਣਾ, ਬੈਕਅੱਪ ਧੀਮੇ ਹੋਣਾ, ਅਤੇ ਮੇਨਟੇਨੈਂਸ ਖਤਰਨਾਕ ਹੋ ਜਾਣਾ।
ਲਿਖਤ throughput ਸੀਮਾਵਾਂ: CPU, WAL/redo, ਜਾਂ ਲਾਕ contention ਲਿਖਤਾਂ ਪ੍ਰਤੀ ਸਕਿੰਟ ਦੀ ਸੀਮਾ ਕੱਢ ਦਿੰਦੇ ਹਨ।
ਰੀਡ throughput ਸੀਮਾਵਾਂ: caching ਅਤੇ ਰੈਪਲਿਕਾਜ਼ ਦੇ ਬਾਵਜੂਦ, ਕੁਝ ਲੋੜਾਂ ਪ੍ਰਾਇਮਰੀ ਨੂੰ ਓਵਰਵਹੈਲਮ ਕਰ ਸਕਦੀਆਂ ਹਨ।
ਨੌਜ਼ੀ ਨੇਬਰਜ਼: ਇੱਕ ਟੀਨੈਂਟ ਜਾਂ ਵਰਕਲੋਡ ਪੈਟਰਨ ਸਾਰਿਆਂ ਦੀ ਲੈਟੈਂਸੀ ਨੁਕਸਾਨ ਕਰ ਸਕਦਾ ਹੈ।

ਜੇ ਇਹ ਮੁੱਦੇ ਰੈਗੂਲਰ ਢੰਗ ਨਾਲ ਆਉਂਦੇ ਹਨ, ਤਾਂ ਅਕਸਰ ਮੁੱਦਾ ਇਹ ਹੁੰਦਾ ਹੈ ਕਿ ਇੱਕ ਮਸ਼ੀਨ ਬਹੁਤ ਜ਼ਿਆਦਾ ਜ਼ਿੰਮੇਵਾਰੀ ਢੋ ਰਹੀ ਹੈ।

ਲੱਖੜੀ: ਆਊਟ, ਅਲੱਗ ਕਰਨਾ, ਅਤੇ ਲਾਗਤ ਨਿਯੰਤਰਿਤ ਕਰਨਾ

ਡੇਟਾਬੇਸ ਸ਼ਾਰਡਿੰਗ ਡੇਟਾ ਅਤੇ ਟ੍ਰੈਫਿਕ ਨੂੰ ਕਈ ਨੋਡਾਂ ਵਿੱਚ ਫੈਲਾਉਂਦੀ ਹੈ ਤਾਂ ਕਿ ਸਮਰੱਥਾ ਮਸ਼ੀਨਾਂ ਜੋੜ ਕੇ ਵਧੇ. ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੀਤੀ ਗਈ ਸ਼ਾਰਡਿੰਗ workloads ਨੂੰ ਅਲੱਗ-ਅਲੱਗ ਕਰ ਸਕਦੀ ਹੈ (ਇਕ ਟੀਨੈਂਟ ਦੇ spike ਨਾਲ ਹੋਰਾਂ ਦੀ ਲੈਟੈਂਸੀ ਖਰਾਬ ਨਾ ਹੋਵੇ) ਅਤੇ ਲਾਗਤ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰ ਸਕਦੀ ਹੈ ਕਿਉਂਕਿ ਤੁਸੀਂ ਹਰ ਵਾਰ ਮਹਿੰਗੀਆਂ ਪ੍ਰੀਮੀਅਮ ਇੰਸਟੇਂਸਾਂ ਖਰੀਦਣ ਦੀ ਥਾਂ ਨਵੇਂ ਨੋਡ ਜੋੜ ਸਕਦੇ ਹੋ।

ਸ਼ੁਰੂਆਤੀ ਚੇਤਾਵਨੀ ਨਿਸ਼ਾਨੀਆਂ

ਦੋਹਰਾਈਆਂ ਰੈਪੈਟਰਨਿੰਗ ਪੈਟਰਨਾਂ ਵਿੱਚ ਚਰਮ ਤੇ p95/p99 ਦਾ ਵੱਧਣਾ, replication lag ਵਧਣਾ, ਬੈਕਅੱਪ/ਰਿਸਟੋਰ ਤੁਹਾਡੇ ਮਨਜ਼ੂਰਵੇ ਹਿੱਸੇ ਤੋਂ ਵੱਧ ਹੋਣਾ ਅਤੇ "ਛੋਟੀ" ਸਕੀਮਾ ਬਦਲਾਵ ਇੱਕ ਵੱਡਾ ਸਮਰੱਥਾ ਘਟਨਾ ਬਣ ਜਾਣਾ ਸ਼ਾਮਿਲ ਹੈ।

ਸ਼ਾਰਡਿੰਗ ਆਮ ਤੌਰ 'ਤੇ ਆਖਰੀ ਕਦਮ ਕਿਉਂ ਹੁੰਦੀ ਹੈ

ਇਸ ਨੂੰ ਅਪਣਾਉਣ ਤੋਂ ਪਹਿਲਾਂ, ਟੀਮਾਂ ਆਮ ਤੌਰ 'ਤੇ ਸਧਾਰਣ ਵਿਕਲਪ ਖਤਮ ਕਰਦੀਆਂ ਹਨ: ਇੰਡੈਕਸਿੰਗ ਅਤੇ ਕਵੈਰੀ ਫਿਕਸ, ਕੈਸ਼ਿੰਗ, ਰੀਡ ਰੈਪਲਿਕਾਜ਼, ਇੱਕ ਨੋਡ ਦੇ ਅੰਦਰ ਪਾਰਟੀਸ਼ਨਿੰਗ, ਬੁਰੇ ਡੇਟਾ ਦਾ ਆਰਕੀਵ, ਅਤੇ ਹਾਰਡਵੇਅਰ ਅੱਪਗਰੇਡ. ਸ਼ਾਰਡਿੰਗ ਸਮਰੱਥਾ ਹੱਲ ਕਰ ਸਕਦੀ ਹੈ, ਪਰ ਇਹ ਕੋਆਰਡੀਨੇਸ਼ਨ, ਓਪਰੇਸ਼ਨਲ ਜਟਿਲਤਾ, ਅਤੇ ਨਵੇਂ ਫੇਲਯੂਰ ਮੋਡ ਲਿਆਉਂਦੀ ਹੈ—ਇਸ ਲਈ ਬਹੁਤ ਸੋਚ-ਵਿਚਾਰ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਮੁੱਖ ਟੁਕੜੇ: ਸ਼ਾਰਡਸ, ਰਾਊਟਰ, ਅਤੇ ਮੈਟਾਡੇਟਾ

ਇੱਕ ਸ਼ਾਰਡਡ ਡੇਟਾਬੇਸ ਇੱਕ ਚੀਜ਼ ਨਹੀਂ—ਇਹ ਥੋੜ੍ਹੇ ਭਾਗਾਂ ਦਾ ਇੱਕ ਛੋਟਾ ਸਿਸਟਮ ਹੁੰਦਾ ਹੈ ਜੋ ਮਿਲ ਕੇ ਕੰਮ ਕਰਦਾ ਹੈ। ਸ਼ਾਰਡਿੰਗ "ਸੋਚਣਾ ਮੁਸ਼ਕਿਲ" ਮਹਿਸੂਸ ਹੋਣ ਦਾ ਕਾਰਣ ਇਹ ਹੈ ਕਿ ਸਹੀਪਣ ਅਤੇ ਪੈਰਫਾਰਮੈਂਸ ਇਨ੍ਹਾਂ ਟੁਕੜਿਆਂ ਦੇ ਅੰਤਰਕਿਰਿਆ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ, ਸਿਰਫ ਡੇਟਾਬੇਸ ਇੰਜਨ 'ਤੇ ਨਹੀਂ।

ਸ਼ਾਰਡਸ: ਸੁਤੰਤਰ partition (ਆਪਣੇ ਇੰਡੈਕਸਾਂ ਨਾਲ)

ਇੱਕ ਸ਼ਾਰਡ ਡੇਟਾ ਦਾ ਇੱਕ ਉਪਸੈੱਟ ਹੁੰਦਾ ਹੈ, ਆਮ ਤੌਰ 'ਤੇ ਆਪਣੇ ਸਰਵਰ ਜਾਂ ਕਲੱਸਟਰ 'ਤੇ ਸਟੋਰ ਕੀਤਾ. ਹਰੇਕ shard ਆਮ ਤੌਰ 'ਤੇ ਰੱਖਦਾ ਹੈ:

ਸਟੋਰੇਜ (ਡੇਟਾ ਫਾਈਲਾਂ)
ਇੰਡੈਕਸ (ਤਾਂ ਜੋ ਉਸ shard ਵਿੱਚ ਕਵੈਰੀਆਂ ਤੇਜ਼ ਹੋ ਸਕਣ)
ਲੋਕਲ ਸੀਮਾਵਾਂ (CPU, ਮੈਮੋਰੀ, ਡਿਸਕ, ਕਨੈਕਸ਼ਨ)

ਐਪ্লਿਕੇਸ਼ਨ ਦੀ ਨਜ਼ਰ ਵਿੱਚ, ਇੱਕ ਸ਼ਾਰਡਡ ਸੈਟਅਪ ਅਕਸਰ ਇੱਕ ਲੌਜਿਕਲ ਡੇਟਾਬੇਸ ਵਰਗਾ ਦਿਖਾਈ ਦੇਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ. ਪਰ ਅੰਦਰੋਂ, ਇੱਕ ਕਵੈਰੀ ਜੋ ਸਿੰਗਲ-ਨੋਡ ਡੇਟਾਬੇਸ ਵਿੱਚ "ਇੱਕ ਇੰਡੈਕਸ ਲੁੱਕਅੱਪ" ਹੁੰਦੀ, ਉਹ ਹੁਣ "ਸਹੀ shard ਲੱਭੋ, ਫਿਰ ਲੁੱਕਅੱਪ ਕਰੋ" ਬਣ ਸਕਦੀ ਹੈ।

ਰਾਊਟਰ/ਕੋਰਡੀਨੇਟਰ: ਬੇਨਤੀਆਂ ਸਹੀ shard ਤੱਕ ਕਿਵੇਂ ਪਹੁੰਚਦੀਆਂ ਹਨ

ਇੱਕ ਰਾਊਟਰ (ਕਦੇ-ਕਦੇ ਕੋਆਰਡੀਨੇਟਰ, ਕਵੈਰੀ ਰਾਊਟਰ, ਜਾਂ ਪ੍ਰਾਕਸੀ) ਟ੍ਰੈਫਿਕ ਦਾ ਪੋਲੀਸ ਹੈ. ਇਹ ਪ੍ਰੈਕਟਿਕਲ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦਿੰਦਾ ਹੈ: ਇਸ ਬੇਨਤੀ ਦੀ ਸਥਿਤੀ ਦੇਖ ਕੇ, ਕਿਹੜਾ shard ਇਸਨੂੰ ਹੇਠਾਂ ਲੈ ਲਏਗਾ?

ਦੋ ਆਮ ਡਿਜ਼ਾਈਨ ਪੈਟਰਨ ਹਨ:

ਕਲਾਇਂਟ-ਸਾਈਡ ਰੂਟਿੰਗ: ਤੁਹਾਡੀ ਐਪ ਲਾਇਬ੍ਰੇਰੀ shard ਮੈਪ ਜਾਣਦੀ ਹੈ ਅਤੇ ਸਿੱਧਾ ਸਹੀ shard ਨਾਲ ਕੰਨੈਕਟ ਕਰਦੀ ਹੈ.
ਪ੍ਰਾਕਸੀ ਰੂਟਿੰਗ: ਐਪ ਇੱਕ ਰਾਊਟਰ ਸਰਵਿਸ ਨਾਲ ਕੰਨੈਕਟ ਕਰਦੀ ਹੈ, ਜੋ ਬੇਨਤੀ ਨੂੰ ਅੱਗੇ ਭੇਜਦਾ ਹੈ.

ਰਾਊਟਰ ਐਪ ਵਿੱਚ ਕੰਪਲੇਕਸਿਟੀ ਘਟਾਉਂਦੇ ਹਨ, ਪਰ ਜੇ ਧਿਆਨ ਨਾਲ ਨਹੀਂ ਬਣਾਏ ਗਏ ਤਾਂ ਉਹ ਬੌਤਲਨੈਕ ਜਾਂ ਨਵਾਂ ਫੇਲਯੂਰ ਪੁਆਇੰਟ ਵੀ ਬਣ ਸਕਦੇ ਹਨ।

ਮੈਟਾਡੇਟਾ/ਕੰਫਿਗ ਸਰਵਿਸ: ਸ਼ਾਰਡ ਮੈਪ, ਮਲਕੀਅਤ, ਅਤੇ ਹੈਲਥ

ਸ਼ਾਰਡਿੰਗ ਮੈਟਾਡੇਟਾ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ—ਇੱਕ ਸੋਸ ਨਾਲ ਆਫ ਸਚ ਜੋ ਦਰਸਾਉਂਦਾ ਹੈ:

ਸ਼ਾਰਡ ਮੈਪ (ਕਿਹੜਾ shard ਕਿਸ ਰੇਂਜ/ਹੈਸ਼ ਬੱਕੇਟ/IDs ਦਾ ਮਾਲਕ ਹੈ)
ਮਲਕੀਅਤ (ਖਾਸ ਕਰਕੇ ਮਾਈਗ੍ਰੇਸ਼ਨ ਦੌਰਾਨ, ਜਦ ਮਲਕੀਅਤ ਅਸਥਾਈ ਤੌਰ 'ਤੇ ਓਵਰਲੈਪ ਕਰ ਸਕਦੀ ਹੈ)
ਹੈਲਥ ਅਤੇ ਮੈਂਬਰਸ਼ਿਪ (ਕਿਹੜੇ ਨੋਡ ਚੱਲ ਰਹੇ ਹਨ, ਪ੍ਰਾਇਮਰੀ/ਰੈਪਲਿਕਾ ਰੋਲ, draining ਸਥਿਤੀ)

ਇਹ ਜਾਣਕਾਰੀ ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਕੰਫਿਗ ਸਰਵਿਸ (ਜਾਂ ਇੱਕ ਛੋਟੀ "ਕੰਟਰੋਲ ਪਲੇਨ" ਡੇਟਾਬੇਸ) ਵਿੱਚ ਰਹਿੰਦੀ ਹੈ. ਜੇ ਮੈਟਾਡੇਟਾ ਸਟੇਲ ਜਾਂ ਅਨਕਨਸਿਸਟੈਂਟ ਹੋਵੇ, ਤਾਂ ਰਾਊਟਰ ਗਲਤ ਥਾਂ ਟਰੈਫਿਕ ਭੇਜ ਸਕਦੇ ਹਨ—ਚਾਹੇ ਹਰ shard ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਿਹਤਮੰਦ ਹੋਵੇ।

ਬੈਕਗਰਾਊਂਡ ਜਾਬਜ਼: ਬੈਲੈਂਸਿੰਗ, ਮਾਈਗ੍ਰੇਸ਼ਨ, ਅਤੇ ਬੈਕਅੱਪ

ਅਖੀਰਕਾਰ, ਸ਼ਾਰਡਿੰਗ ਪਿੱਠ-ਭੂਮੀ ਪ੍ਰਕਿਰਿਆਵਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਜੋ ਸਿਸਟਮ ਨੂੰ ਸਮੇਂ ਨਾਲ ਵਰਤਣਯੋਗ ਰੱਖਦੀਆਂ ਹਨ:

ਰੀਬੈਲੈਂਸਿੰਗ ਜਦੋਂ ਇੱਕ ਸ਼ਾਰਡ ਦੂਜੇ ਨਾਲੋਂ ਤੇਜ਼ ਵਾਧਾ ਕਰਦਾ ਹੈ
ਮਾਈਗ੍ਰੇਸ਼ਨ ਜਦੋਂ ਮਲਕੀਅਤ ਸ਼ਾਰਡਾਂ ਵਿਚੋਂ ਇੱਕ ਤੋਂ ਦੂਜੇ ਨੂੰ ਮੂਵ ਕੀਤੀ ਜਾਂਦੀ ਹੈ
ਬੈਕਅੱਪ/ਰਿਸਟੋਰ ਪ੍ਰਕਿਰਿਆਵਾਂ ਜੋ ਕਈ ਸ਼ਾਰਡਸ 'ਤੇ ਕੰਮ ਕਰਦੀਆਂ ਹਨ (ਅਤੇ ਤੁਹਾਡੇ ਰਿਕवरी ਟੀਚਿਆਂ ਨੂੰ ਮਿਲਦੀਆਂ ਹਨ)

ਇਹ ਜਾਬਜ਼ ਸ਼ੁਰੂ ਵਿੱਚ ਅਣਦੇਖੀਆਂ ਰਹਿ ਸਕਦੀਆਂ ਹਨ, ਪਰ ਉਹੀ ਉਹਨਾਂ ਥਾਵਾਂ ਹਨ ਜਿੱਥੇ ਕਈ ਪ੍ਰੋਡਕਸ਼ਨ ਅਚਾਨਕੀ ਨਿਰਾਸ਼ਾਵਾਂ ਹੁੰਦੀਆਂ ਹਨ—ਕਿਉਂਕਿ ਉਹ ਸਿਸਟਮ ਦਾ ਆਕਾਰ ਬਦਲ ਰਹੇ ਹੁੰਦੇ ਹਨ ਜਦੋਂ ਇਹ ਸੇਵਾ ਦਿੰਦੀ ਹੈ।

ਸ਼ਾਰਡ ਕੀ ਚੁਣਣਾ: ਪਹਿਲਾ ਵੱਡਾ ਟਰੇਡ-ਆਫ

ਸ਼ਾਰਡ ਕੀ ਉਹ ਫੀਲਡ (ਜਾਂ ਫੀਲਡਾਂ ਦਾ ਜੋੜ) ਹੁੰਦੀ ਹੈ ਜੋ ਤੁਹਾਡੇ ਸਿਸਟਮ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ ਕਿ ਇੱਕ ਰੋ ਕਿਹੜੇ shard 'ਤੇ ਸਟੋਰ ਹੋਵੇਗੀ. ਇਹ ਇਕੱਲਾ ਚੋਣ ਨਿਰਧਾਰਿਤ ਕਰਦੀ ਹੈ ਪੈਰਫਾਰਮੈਂਸ, ਲਾਗਤ, ਅਤੇ ਉਹ ਫੀਚਰ ਕਿੰਨੇ ਆਸਾਨ ਮਹਿਸੂਸ ਹੋਣਗੇ—ਕਿਉਂਕਿ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ ਕਿ ਬੇਨਤੀਆਂ ਇੱਕ shard ਨੂੰ ਰੂਟ ਹੋ ਸਕਦੀਆਂ ਹਨ ਜਾਂ ਕਈ ਨੂੰ ਫੈਨ-ਆਉਟ ਕਰਦੀਆਂ ਹਨ.

ਇੱਕ ਚੰਗੀ shard ਕੀ ਕੀ ਗੁਣ ਰੱਖਦੀ ਹੈ

ਚੰਗੀ ਕੀ ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਰੱਖਦੀ ਹੈ:

ਉੱਚ ਕਾਰਡੀਨੈਲਟੀ: ਬਹੁਤ ਸਾਰੇ ਸੰਭਵ ਮੁੱਲ (ਜਿਵੇਂ user_id ਦੇ ਮੁਕਾਬਲੇ ਦੇਸ਼)\n- ਬਰਾਬਰ ਵੰਡ: ਮੁੱਲ shards ਤੇ ਲਿਖਤਾਂ ਅਤੇ ਪੜ੍ਹਨਾਂ ਨੂੰ ਫੈਲਾਉਣ
ਸਥਿਰ ਐਕਸੈਸ ਪੈਟਰਨ: ਇਹ ਤੁਹਾਡੇ ਸਭ ਤੋਂ ਆਮ ਕਵੈਰੀ ਪੈਟਰਨ ਨਾਲ ਮਿਲਦੀ ਹੋਵੇ

ਏਕ ਆਮ ਉਦਾਹਰਨ tenant_id ਦੁਆਰਾ ਸ਼ਾਰਡਿੰਗ ਹੈ: ਜ਼ਿਆਦਾਤਰ ਇੱਕ ਟੇਨੈਂਟ ਲਈ ਰੀਡ ਅਤੇ ਰਾਈਟ ਇੱਕ shard 'ਤੇ ਰਹਿੰਦੀਆਂ ਹਨ, ਅਤੇ ਟੇਨੈਂਟਾਂ ਕਾਫੀ ਹਨ ਤਾਂ ਲੋਡ ਫੈਲ ਜਾਂਦਾ ਹੈ।

ਇੱਕ ਖਰਾਬ shard ਕੀ ਕੀ ਬਣਾਉਂਦੀ ਹੈ (ਅਤੇ ਇਹ ਕਿਵੇਂ ਨੁਕਸਾਨ ਪਹੁੰਚਾਉਂਦੀ ਹੈ)

ਕੁਝ ਕੁੰਜੀਆਂ ਲਗਭਗ ਪੱਕੇ ਤੌਰ 'ਤੇ ਸਮੱਸਿਆ ਪੈਦਾ ਕਰਦੀਆਂ ਹਨ:

ਟਾਈਮ-ਅਧਾਰਿਤ monotonic ਕੁੰਜੀਆਂ (timestamp, auto-increment IDs): ਨਵਾਂ ਡੇਟਾ "ਲੈਟਸਟ" shard 'ਤੇ ਠੰਢਾ ਹੋ ਜਾਂਦਾ ਹੈ → ਲਿਖਤ ਹਾਟਸਪੌਟ
ਘੱਟ-ਕਾਰਡੀਨੈਲਟੀ ਫੀਲਡ (status, plan_tier, country): ਬਹੁਤ ਘੱਟ ਵੱਖ-ਵੱਖ ਮੁੱਲ → ਕੁਝ shards 'ਤੇ ਜਿਆਦਾ ਕੰਮ
ਬਦਲਣਯੋਗ identifiers (email, mutable usernames): ਜੇ ਕੀ ਬਦਲੇ, ਡੇਟਾ ਨੂੰ shards ਵਿਚ ਮੂਵ ਕਰਨਾ ਮਹਿੰਗਾ ਤੇ ਖ਼ਤਰਨਾਕ ਹੈ

ਇਹ ਅਕਸਰ ਰੁਟੀਨ ਕਵੈਰੀਆਂ ਨੂੰ scatter-gather ਵਿੱਚ ਬਦਲ ਦਿੰਦੇ ਹਨ, ਕਿਉਂਕਿ ਮਿਲਦੇ-ਜੁਲਦੇ ਰਿਕਾਰਡ ਹਰ ਜਗ੍ਹਾ ਹੋ ਸਕਦੇ ਹਨ।

ਅਸਲ ਟਰੇਡ-ਆਫ: ਕਵੈਰੀ ਸੁਵਿਧਾ ਵਰਸੁ ਵਿੱਚ ਵੰਡ ਗੁਣਵੱਤਾ

ਲੋਡ ਬੈਲੈਂਸਿੰਗ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ shard ਕੀ ਸਦਾ ਉਤਨੀ ਹੀ ਚੰਗੀ ਨਹੀਂ ਹੁੰਦੀ ਜਿੰਨੀ ਕਿ ਉਤਨੀ ਕਵੈਰੀ ਸੁਵਿਧਾ ਲਈ।

ਇੱਕ ਕੁੰਜੀ ਚੁਣੋ ਜੋ ਤੁਹਾਡੇ ਮੁੱਖ ਐਕਸੈਸ ਪੈਟਰਨ ਨਾਲ ਮਿਲਦੀ ਹੈ (ਜਿਵੇਂ user_id), ਤਾਂ ਕੁਝ "ਗਲੋਬਲ" ਕਵੈਰੀਆਂ (ਜਿਵੇਂ ਐਡਮਿਨ ਰਿਪੋਰਟਿੰਗ) ਧੀਮੀ ਹੋ ਸਕਦੀਆਂ ਹਨ ਜਾਂ ਵੱਖਰੇ ਪਾਈਪਲਾਈਨਾਂ ਦੀ ਲੋੜ ਪਵੇਗੀ।
ਕਿਸੇ ਕੀ ਨੂੰ ਰਿਪੋਰਟਿੰਗ ਲਈ ਚੁਣੋ (ਜਿਵੇਂ region), ਤਾਂ ਤੁਸੀਂ ਹਾਟਸਪੌਟਾਂ ਅਤੇ ਅਸਮਾਨ ਸਮਰੱਥਾ ਦੇ ਖਤਰੇ ਵਿੱਚ ਹੁੰਦੇ ਹੋ।

ਕਈ ਟੀਮ ਇਸ ਟਰੇਡ-ਆਫ ਦੇ ਆਸ-ਪਾਸ ਡਿਜ਼ਾਈਨ ਕਰਦੀਆਂ ਹਨ: shard ਕੀ ਨੂੰ ਸਭ ਤੋਂ ਘੱਟ latency-ਸੰਵੇਦੀ ਆਪਰੇਸ਼ਨਾਂ ਲਈ optimize ਕਰੋ—ਅਤੇ ਬਾਕੀ ਨੂੰ ਇੰਡੈਕਸ, ਡੇਨੋਰਮਲਾਈਜੇਸ਼ਨ, ਰੈਪਲਿਕਾ, ਜਾਂ ਸਮਰਪਿਤ ਐਨਾਲਿਟਿਕਸ ਟੇਬਲਾਂ ਨਾਲ ਸਾਂਭੋ।

ਆਮ ਸ਼ਾਰਡਿੰਗ ਰਣਨੀਤੀਆਂ (ਰੇਂਜ, ਹੈਸ਼, ਡਾਇਰੈਕਟਰੀ)

ਇੱਕ "ਸਭ ਤੋਂ ਵਧੀਆ" ਤਰੀਕਾ ਨਹੀਂ ਹੈ. ਜੋ ਰਣਨੀਤੀ ਤੁਸੀਂ ਚੁਣਦੇ ਹੋ ਉਹ ਰੂਟਿੰਗ ਕਿੰਨੀ ਆਸਾਨ ਹੋਵੇਗੀ, ਡੇਟਾ ਕਿੰਨਾ ਬਰਾਬਰ ਵੰਡੇਗਾ, ਅਤੇ ਕਿਹੜੇ ਐਕਸੈਸ ਪੈਟਰਨ ਦੁੱਖਦਾਇਕ ਹੋਣਗੇ—ਇਸ ਨੂੰ ਨਿਰਧਾਰਿਤ ਕਰਦੀ ਹੈ.

ਰੇਂਜ ਸ਼ਾਰਡਿੰਗ

ਰੇਂਜ ਸ਼ਾਰਡਿੰਗ ਵਿੱਚ ਹਰ ਸ਼ਾਰਡ ਕੁੰਜੀ ਸਪੇਸ ਦਾ ਐੱਕ ਲਗਾਤਾਰ ਟੁਕੜਾ ਹੁੰਦਾ ਹੈ—ਉਦਾਹਰਣ:

Shard A: customer_id 1–1,000,000
Shard B: customer_id 1,000,001–2,000,000

ਰੂਟਿੰਗ ਸਿੱਧੀ ਹੈ: ਕੀ ਵੇਖੋ, ਸ਼ਾਰਡ ਚੁਣੋ.

ਫੜ ਹੈ ਹਾਟਸਪੌਟ: ਜੇ ਨਵੇਂ ਯੂਜ਼ਰ ਹਰ ਵਾਰੀ ਵਧਦੇ ਹੋਏ IDs ਪਾਉਂਦੇ ਹਨ, ਤਾਂ "ਆਖਰੀ" shard ਲਿਖਾਈ ਬੋਤਲਨੈਕ ਬਣ ਸਕਦਾ ਹੈ. ਰੇਂਜ ਕਵੈਰੀਆਂ ("ਸਾਰੇ ਆਰਡਰ Oct 1–Oct 31") ਲਾਭਦਾਇਕ ਹੋ سکتیਆਂ ਹਨ ਕਿਉਂਕਿ ਡੇਟਾ ਭੌਤਿਕ ਤੌਰ 'ਤੇ ਗਰੁੱਪ ਹੈ।

ਹੈਸ਼ ਸ਼ਾਰਡਿੰਗ

ਹੈਸ਼ ਸ਼ਾਰਡਿੰਗ shard ਕੀ ਨੂੰ ਹੈਸ਼ ਫੰਕਸ਼ਨ ਵਿੱਚ ਦਾਲ ਕੇ shard ਚੁਣਦੀ ਹੈ। ਇਹ ਆਮ ਤੌਰ 'ਤੇ ਡੇਟਾ ਨੂੰ ਹੋਰ ਬਰਾਬਰ ਵੰਡਦੀ ਹੈ, ਜਿਸ ਨਾਲ "ਨਵਾਂ ਸਭ ਕੁਛ ਨਵੇਂ shard 'ਤੇ" ਸਮੱਸਿਆ ਘੱਟ ਹੁੰਦੀ ਹੈ।

ਟ੍ਰੇਡ-ਆਫ: ਰੇਂਜ ਕਵੈਰੀਆਂ ਮੁਸ਼ਕਿਲ ਹੋ ਜਾਂਦੀਆਂ ਹਨ—ਉਦਾਹਰਣ ਲਈ "ID X ਤੋਂ Y" ਕਵੈਰੀ ਹੁਣ ਕਈ shards ਨੂੰ ਛੂਹ ਸਕਦੀ ਹੈ।

ਵਰਤੋਂ ਵਿੱਚ, ਕਈ ਸਿਸਟਮconsistent hashing ਵਰਤਦੇ ਹਨ ਅਤੇ "ਵਰਚੁਅਲ ਨੋਡਸ" ਤਕਨੀਕ ਨਾਲ shards ਨੂੰ ਵਧਾਉਣ ਤੇ ਸਬ ਕੁਝ ਮੁੜ-ਰਾਸ਼ਨ ਤੋਂ ਬਚਾਉਂਦੇ ਹਨ।

ਡਾਇਰੈਕਟਰੀ (ਲੁੱਕਅੱਪ) ਸ਼ਾਰਡਿੰਗ

ਡਾਇਰੈਕਟਰੀ ਸ਼ਾਰਡਿੰਗ ਇੱਕ ਵਿਸ਼ੇਸ਼ ਨਕਸ਼ਾ (key → shard) ਰੱਖਦੀ ਹੈ। ਇਹ ਸਭ ਤੋਂ ਲਚਕੀਲਾ ਹੈ: ਤੁਸੀਂ ਖਾਸ ਟੇਨੈਂਟਾਂ ਨੂੰ ਡੈਡੀਕੇਟੇਡ shards 'ਤੇ ਰੱਖ ਸਕਦੇ ਹੋ, ਇੱਕ ਗਾਹਕ ਨੂੰ ਹਿਲਾ ਸਕਦੇ ਹੋ ਬਿਨਾਂ ਸਭ ਨੂੰ ਮੂਵ ਕੀਤੇ, ਅਤੇ ਅਸਮਾਨ shard ਆਕਾਰ ਸਹਿਯੋਗ ਕਰ ਸਕਦੇ ਹੋ.

ਨੁਕਸਾਨ: ਹੋਰ ਇੱਕ ਨਿਰਭਰਤਾ—ਜੇ ਡਾਇਰੈਕਟਰੀ ਹੌਲੀ, ਸਟੇਲ ਜਾਂ ਅਣਉਪਲਬਧ ਹੋਵੇ, ਤਾਂ ਰੂਟਿੰਗ ਪ੍ਰਭਾਵਿਤ ਹੋ ਸਕਦੀ ਹੈ।

ਕੰਪੋਜ਼ਿਟ ਕੁੰਜੀਆਂ ਅਤੇ ਸਬ-ਸ਼ਾਰਡਿੰਗ

ਅਸਲ ਸਿਸਟਮ ਅਕਸਰ ਤਰੀਕੀਆਂ ਮਿਲਾ ਦਿੰਦੇ ਹਨ। ਇੱਕ ਕੰਪੋਜ਼ਿਟ shard ਕੀ (ਉਦਾਹਰਣ tenant_id + user_id) ਟੇਨੈਂਟਾਂ ਨੂੰ ਅਲੱਗ ਰੱਖਦਾ ਹੈ ਅਤੇ ਇੱਕ ਟੇਨੈਂਟ ਦੇ ਅੰਦਰ ਲੋਡ ਫੈਲਾਉਂਦਾ ਹੈ। ਸਬ-ਸ਼ਾਰਡਿੰਗ ਮਿਲਦੀ ਜੁਲਦੀ ਹੈ: ਪਹਿਲਾਂ ਟੇਨੈਂਟ ਦੁਆਰਾ ਰੂਟ ਕਰੋ, ਫਿਰ ਉਸ ਟੇਨੈਂਟ ਦੇ ਗਰੁੱਪ ਵਿੱਚ ਹੈਸ਼ ਕਰੋ ਤਾਂ ਕਿ ਇੱਕ "ਬੜਾ ਟੇਨੈਂਟ" ਇਕੱਲਾ shard ਨੂੰ ਕਬਜ਼ਾ ਨਾ ਕਰੇ।

ਕਿਵੇਂ ਕਵੈਰੀਆਂ ਕੰਮ ਕਰਦੀਆਂ ਹਨ: ਰੂਟਿੰਗ ਵਰਸੁ scatter-gather

ਡਿਜ਼ਾਈਨ 'ਤੇ ਸਹਿਯੋਗ ਕਰੋ

ਆਪਣੀ ਟੀਮ ਨੂੰ ਲਿਆਓ ਤਾਂ ਜੋ ਯੋਜਨਾ ਦੀ ਸਮੀਖਿਆ, ਟੈਸਟ ਅਤੇ ਤੇਜ਼ ਰੋਲਬੈਕ ਹੋ ਸਕੇ।

ਟੀਮ ਨੂੰ ਸੱਦੋ

ਸ਼ਾਰਡਡ ਡੇਟਾਬੇਸ ਵਿੱਚ ਦੋ ਬਹੁਤ ਵੱਖਰੇ "ਕਵੈਰੀ ਪਾਥ" ਹੁੰਦੇ ਹਨ। ਇਹ ਸਮਝਣਾ ਕਿ ਤੁਸੀਂ ਕਿਹੜੇ ਰਸਤੇ 'ਤੇ ਹੋ ਜ਼ਿਆਦਾਤਰ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਹੈਰਾਨੀਆਂ ਅਤੇ ਯੋਗ ਸ਼ਾਰਡਿੰਗ ਦਾ ਅਨੁਭਵ ਵੀ ਸਮਝਾਊਂਦਾ ਹੈ।

ਸਿੰਗਲ-ਸ਼ਾਰਡ ਕਵੈਰੀਆਂ: ਤੇਜ਼ ਰਸਤਾ

ਆਦਰਸ਼ ਨਤੀਜਾ ਇਹ ਹੈ ਕਿ ਕਵੈਰੀ ਨਿਰਧਾਰਤ ਰੂਪ ਵਿੱਚ ਸਿਰਫ ਇੱਕ shard ਨੂੰ ਭੇਜੀ ਜਾਵੇ। ਜੇ ਬੇਨਤੀ shard ਕੀ ਸ਼ਾਮਿਲ ਕਰਦੀ ਹੈ (ਜਾਂ ਰਾਊਟਰ ਕੁਝ ਐਸੀ ਚੀਜ਼ ਦਾ ਨਕਸ਼ਾ ਕਰ ਸਕਦਾ ਹੈ), ਤਾਂ ਸਿਸਟਮ ਸੀਧਾ ਸਹੀ ਥਾਂ ਭੇਜ ਸਕਦਾ ਹੈ।

ਇਸ ਲਈ ਟੀਮਾਂ ਅਕਸਰ ਆਮ ਪੜ੍ਹਨਾਂ ਨੂੰ "shard-key ਅਨੁਕੂਲ" ਬਣਾਉਣ ਦਾ ਧਿਆਨ ਰੱਖਦੀਆਂ ਹਨ। ਇੱਕ shard ਦਾ ਮਤਲਬ ਘੱਟ ਨੈੱਟਵਰਕ ਹੋਪ, ਸਿੱਧਾ ਇਜੈਕਿਊਸ਼ਨ, ਘੱਟ ਲਾਕ, ਅਤੇ ਕਮ ਸੰਯੋਜਨ—ਲੈਟੈਂਸੀ ਬਹੁਤ ਘੱਟ ਹੁੰਦੀ ਹੈ।

scatter-gather ਰੀਡਸ: ਫੈਨ-ਆਉਟ ਅਤੇ ਟੇਲ ਲੇਟੈਂਸੀ

ਜਦੋਂ ਇੱਕ ਕਵੈਰੀ ਨੂੰ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਰੂਟ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ, ਤਾਂ ਸਿਸਟਮ ਇਸਨੂੰ ਬਹੁਤ ਸਾਰਿਆਂ shards ਨੂੰ ਭੇਜ ਸਕਦਾ ਹੈ। ਹਰ shard ਲੋਕਲੀ ਕਵੈਰੀ ਚਲਾਉਂਦਾ ਹੈ, ਫਿਰ ਰਾਊਟਰ (ਜਾਂ ਕੋਆਰਡੀਨੇਟਰ) ਨਤੀਜੇ ਜੋੜਦਾ—ਸੋਰਟ, ਡਿਡੁਪਲੀਕੇਟ, ਲਿਮਿਟ ਲਗਾਉਣ ਅਤੇ ਹਿੱਸਾ-ਕਲੈਕਸ਼ਨ ਨੂੰ ਮਿਲਾਉਂਦਾ।

ਇਹ ਫੈਨ-ਆਉਟ ਟੇਲ ਲੇਟੈਂਸੀ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ: ਜੇ 9 shards ਜਲਦੀ ਜਵਾਬ ਦੇਣ, ਇੱਕ ਸੁਸਤ shard ਪੂਰੀ ਬੇਨਤੀ ਨੂੰ ਰੋਕ ਸਕਦਾ ਹੈ. ਇਹ ਲੋਡ ਨੂੰ ਵੀ ਗੁਣਾ ਕਰਦਾ ਹੈ: ਇਕ ਯੂਜ਼ਰ ਬੇਨਤੀ N shard ਬੇਨਤੀਆਂ ਵਿੱਚ ਬਦਲ ਸਕਦੀ ਹੈ।

ਕ੍ਰਾਸ-ਸ਼ਾਰਡ ਜੋਇਨਾਂ ਅਤੇ ਏਗਰੇਗੇਸ਼ਨ

ਸ਼ਾਰਡਸ 'ਤੇ ਜੋਇਨਾਂ ਮਹਿੰਗੇ ਹੁੰਦੇ ਹਨ ਕਿਉਂਕਿ ਜੋ ਡੇਟਾ ਅੰਦਰ ਹੀ ਮਿਲ ਸਕਦਾ ਸੀ, ਹੁਣ shards ਵਿਚੋਂ ਇੱਕ ਦੂਜੇ ਨੂੰ ਭੇਜਣਾ ਪੈਂਦਾ ਹੈ (ਜਾਂ ਕੋਆਰਡਿਨੇਟਰ ਦੇ ਕੋਲ). ਸਧਾਰਨ ਏਗਰੇਗੇਸ਼ਨ (COUNT, SUM, GROUP BY) ਵੀ ਦੋ-ਚਰਣੀ ਯੋਜ਼ਨਾ ਮੰਗ ਸਕਦੇ ਹਨ: ਹਰ shard 'ਤੇ ਹਿੱਸਾ-ਨਤੀਜੇ ਕੱਢੋ, ਫਿਰ ਉਨ੍ਹਾਂ ਨੂੰ ਮਿਲਾਓ।

ਇੰਡੈਕਸਿੰਗ ਸੀਮਾਵਾਂ: ਲੋਕਲ ਵਰਸੁ ਗਲੋਬਲ

ਬਹੁਤ ਸਾਰੇ ਸਿਸਟਮ ਡੀਫਾਲਟ ਤੌਰ 'ਤੇ ਲੋਕਲ ਇੰਡੈਕਸ ਵਰਤਦੇ ਹਨ: ਹਰ shard ਆਪਣਾ ਡੇਟਾ ਹੀ ਇੰਡੈਕਸ ਕਰਦਾ ਹੈ। ਇਹ ਮੇਂਟੇਨ ਕਰਨ ਲਈ ਸਸਤੇ ਹਨ, ਪਰ ਰੂਟਿੰਗ ਵਿੱਚ ਮਦਦ ਨਹੀਂ ਕਰਦੇ—ਇਸ ਲਈ ਕਵੈਰੀਆਂ ਅਜੇ ਵੀ scatter ਹੋ ਸਕਦੀਆਂ ਹਨ।

ਗਲੋਬਲ ਇੰਡੈਕਸ ਨਾਨ-ਸ਼ਾਰਡ-ਕੀ ਫੀਲਡਾਂ 'ਤੇ ਨਿਸ਼ਾਨਾ ਲੱਗਾ ਕੇ ਟਾਰਗੇਟ ਰੂਟਿੰਗ ਯੋਗ ਬਣਾਉਂਦੇ ਹਨ, ਪਰ ਉਹ ਲਿਖਤ ਓਵਰਹੈਡ, ਵਾਧੂ ਕੋਆਰਡੀਨੇਸ਼ਨ, ਅਤੇ ਆਪਣੀ ਸਕੇਲਿੰਗ ਅਤੇ ਕਨਸਿਸਟੈਂਸੀ ਮੁਸ਼ਕਿਲਾਂ ਲਿਆਉਂਦੇ ਹਨ।

ਲਿਖਤਾਂ ਅਤੇ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨਜ਼ ਸ਼ਾਰਡਸ 'ਚ: ਜਿੱਥੇ ਜਟਿਲਤਾ ਵਧਦੀ ਹੈ

ਲਿਖਤਾਂ ਉਹ ਜਗ੍ਹਾ ਹਨ ਜਿੱਥੇ ਸ਼ਾਰਡਿੰਗ "ਸਿਰਫ ਸਕੇਲ" ਮਹਿਸੂਸ ਕਰਨਾ ਬੰਦ ਕਰ ਦਿੰਦੀ ਹੈ ਅਤੇ ਫੀਚਰ ਡਿਜ਼ਾਈਨ ਨੂੰ ਬਦਲ ਦਿੰਦੀ ਹੈ। ਇਕ ਲਿਖਤ ਜੋ ਇੱਕ shard ਨੂੰ ਛੂਹਦੀ ਹੈ ਤੇਜ਼ ਅਤੇ ਸਧਾਰਣ ਹੋ ਸਕਦੀ ਹੈ। ਪਰ ਇੱਕ ਲਿਖਤ ਜੋ ਕਈ shards ਨੂੰ ਛੂਹਦੀ ਹੈ, ਉਹ ਧੀਮੀ, ਫੇਲ-ਪ੍ਰੋਨ, ਅਤੇ ਸਹੀ ਬਣਾਉਣ ਵਿੱਚ ਹੈਰਾਨ ਕਰਨ ਵਾਲੀ ਹੋ ਸਕਦੀ ਹੈ।

ਸਿੰਗਲ-ਸ਼ਾਰਡ ਲਿਖਤਾਂ: ਖੁਸ਼ ਰਸਤਾ

ਜੇ ਹਰ ਬੇਨਤੀ ਨੂੰ ਸਹੀ shard 'ਤੇ ਰੂਟ ਕੀਤਾ ਜਾ ਸਕੇ (ਆਮ ਤੌਰ 'ਤੇ shard ਕੀ ਰਾਹੀਂ), ਤਾਂ ਡੇਟਾਬੇਸ ਆਪਣੀ ਨਾਰਮਲ ਟਰਾਂਜ਼ੈਕਸ਼ਨ ਮਸ਼ੀਨਰੀ ਵਰਤ ਸਕਦਾ ਹੈ। ਤੁਸੀਂ atomicity ਅਤੇ isolation shard ਦੇ ਅੰਦਰ ਪਾਓਗੇ ਅਤੇ ਬਹੁਤ ਸਾਰੇ ਓਪਰੇਸ਼ਨਲ ਮੁੱਦੇ ਜਾਣ ਦੇ ਤਰੀਕੇ ਇੱਕੋ ਜਿਹੇ ਰਹਿੰਦੇ ਹਨ—ਸਿਰਫ N ਵਾਰੀ ਦੁਹਰਾਏ ਹੋਏ।

ਮਲਟੀ-ਸ਼ਾਰਡ ਲਿਖਤਾਂ: ਜਿੱਥੇ ਜਟਿਲਤਾ ਸ਼ੀਰਸ਼ੱਥੀ ਤੇ ਚੜ੍ਹਦੀ ਹੈ

ਜਦੋਂ ਤੁਹਾਨੂੰ ਦੋ shards 'ਤੇ ਇੱਕ ਹੀ "ਲੌਜਿਕਲ ਕਾਰਵਾਈ" ਵਿੱਚ ਅੱਪਡੇਟ ਕਰਨ ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ (ਉਦਾਹਰਣ ਲਈ ਪੈਸਾ ਟ੍ਰਾਂਸਫਰ ਕਰਨਾ, ਇੱਕ ਆਰਡਰ ਕਿਸੇ ਹੋਰ ਗ੍ਰਾਹਕ 'ਤੇ ਮੂਵ ਕਰਨਾ, ਜਾਂ ਕੋਈ ਏਗਰੇਗੇਟ ਜੋ ਦੂਜੇ ਥਾਂ ਸਟੋਰ ਹੈ ਨੂੰ ਨਵੀਨ ਕਰਨਾ), ਤੁਸੀਂ ਵੰਡੇ ਹੋਏ ਟਰਾਂਜ਼ੈਕਸ਼ਨਜ਼ ਵਾਲੇ ਖੇਤਰ ਵਿੱਚ ਆ ਜਾਦੇ ਹੋ।

ਵੰਡੇ ਹੋਏ ਟਰਾਂਜ਼ੈਕਸ਼ਨ ਮੁਸ਼ਕਿਲ ਹਨ ਕਿਉਂਕਿ ਉਹ ਮਸ਼ੀਨਾਂ ਵਿਚਕਾਰ ਕੋਆਰਡੀਨੇਸ਼ਨ ਮੰਗਦੇ ਹਨ ਜੋ ਧੀਮੇ, ਪਾਰਟੀਸ਼ਨਡ, ਜਾਂ ਰੀਸਟਾਰਟ ਹੋ ਸਕਦੇ ਹਨ। two-phase commit-ਜਿਹੇ ਪ੍ਰੋਟੋਕੋਲ ਵਾਧੂ ਰਾਉਂਡ ਟ੍ਰਿਪ ਲੈਂਦੇ ਹਨ, ਟਾਈਮਆਉਟ 'ਤੇ ਬਲਾਕ ਕਰ ਸਕਦੇ ਹਨ, ਅਤੇ ਫੇਲਯੂਰ ਅਸਪષ્ટ ਬਣਾਉਂਦੇ ਹਨ: ਕੀ shard B ਨੇ ਚੇਂਜ ਲਾਗੂ ਕੀਤਾ ਸੀ ਪਹਿਲਾਂ coordinator ਮਰ ਗਿਆ? ਜੇ client ਰੀਟ੍ਰਾਈ ਕਰਦਾ ਹੈ ਤਾਂ ਕੀ ਤੁਸੀਂ ਦੋਹਰਾ ਲਾਗੂ ਕਰੋਂਗੇ? ਜੇ ਨਹੀਂ ਕਰਦੇ ਤਾਂ ਕੀ ਡੇਟਾ ਗੁੰਮ ਹੋ ਜਾਵੇਗਾ?

ਕ੍ਰਾਸ-ਸ਼ਾਰਡ ਲਿਖਤਾਂ ਤੋਂ ਬਚਣ ਦੇ ਪੈਟਰਨ

ਕੁਝ ਆਮ ਤਰਕੇ ਜੋ ਮਲਟੀ-ਸ਼ਾਰਡ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਦੀ ਲੋੜ ਨੂੰ ਘਟਾਉਂਦੇ ਹਨ:

ਡੇਟਾ ਲੋਕੈਲਟੀ: ਸੰਬੰਧਿਤ ਰਿਕਾਰਡ ਇੱਕੋ shard 'ਤੇ ਰੱਖੋ (ਉਦਾਹਰਣ: ਇੱਕ ਗਾਹਕ ਲਈ ਸਾਰਾ ਡੇਟਾ)
ਬੇਨਤੀ ਰੂਟਿੰਗ: ਇੱਕ ਕਾਰਵਾਈ ਨੂੰ ਇੱਕ shard ਦਾ "ਮਾਲਕ" ਬਣਾ ਕੇ, ਹੋਰ shards ਨੂੰ ਸਿਰਫ ਰੀਡ-ਇਨਪੁਟ ਸਮਝੋ
ਡੇਨੋਰਮਲਾਈਜੇਸ਼ਨ: ਛੋਟੀ ਜਾਣਕਾਰੀਆਂ ਨੂੰ ਨਕਲ ਕਰ ਲਵੋ ਤਾਂ ਜੋ ਅਪਡੇਟਾਂ ਨੂੰ ਫੈਨ-ਆਉਟ ਕੀਤਾ ਨਾ ਪਵੇ

idempotency ਅਤੇ retry ਸੁਰੱਖਿਆ

ਸ਼ਾਰਡਡ ਸਿਸਟਮਾਂ ਵਿੱਚ ਰੀਟ੍ਰਾਈ ਆਖ਼ਤਰੀ ਨਹੀਂ—ਉਹ ਜਰੂਰੀ ਹਨ। ਲਿਖਤਾਂ ਨੂੰ idempotent ਬਣਾਓ: ਸਥਿਰ ਓਪਰੇਸ਼ਨ IDs (ਜਿਵੇਂ idempotency key) ਵਰਤੋ ਅਤੇ ਡੇਟਾਬੇਸ ਵਿੱਚ "ਪਹਿਲਾਂ ਹੀ ਲਾਗੂ ਹੋ ਚੁੱਕਾ" ਮਾਰਕਰ ਸਟੋਰ ਕਰੋ। ਇਸ ਤਰ੍ਹਾਂ, ਜੇ ਟਾਈਮਆਉਟ ਹੋਵੇ ਅਤੇ ਕਲਾਇਂਟ ਦੁਬਾਰਾ ਕੋਸ਼ਿਸ਼ ਕਰੇ, ਦੂਜੀ ਕੋਸ਼ਿਸ਼ ਨੋ-ਓਪ ਹੋ ਜਾਵੇਗੀ बजाय ਦੋਹਰਾ-ਲਾਗੂ ਕਰਨ ਦੇ।

ਕਨਸਿਸਟੈਂਸੀ ਅਤੇ ਰੈਪਲਿਕੇਸ਼ਨ: ਡੇਟਾ ਸਹੀ ਰੱਖਣਾ

ਇੱਕ ਸ਼ਾਰਡ ਕੀ ਚੁਣੋ

ਕੋਡ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ shard ਕੀਜ਼, ਕਵੈਰੀ ਪਾਥ ਅਤੇ ਮਾਈਗ੍ਰੇਸ਼ਨ ਕਦਮ ਨਕਸ਼ਾ ਬਣਾਉਣ ਲਈ Planning Mode ਵਰਤੋ।

ਪਹਿਲਾਂ ਯੋਜਨਾ ਬਣਾਓ

ਸ਼ਾਰਡਿੰਗ ਤੁਹਾਡੇ ਡੇਟਾ ਨੂੰ ਕਈ ਮਸ਼ੀਨਾਂ 'ਤੇ ਵੰਡਦਾ ਹੈ, ਪਰ ਇਸ ਨਾਲ redundancy ਦੀ ਲੋੜ ਨਹੀਂ ਘੱਟਦੀ। ਰੈਪਲਿਕੇਸ਼ਨ ਉਹ ਹੈ ਜੋ ਇੱਕ shard ਨੂੰ ਉਪਲਬਧ ਰੱਖਦੀ ਹੈ ਜਦੋਂ ਇਕ ਨੋਡ ਡਾਅਉਨ ਹੋ ਜਾਏ—ਪਰ ਇਹ ਵੀ ਇਹ ਸਵਾਲ ਲਿਆਉਂਦਾ ਹੈ: "ਹੁਣੇ ਕੀ ਸਹੀ ਹੈ?"

ਹਰ shard ਦੇ ਅੰਦਰ ਰੈਪਲਿਕੇਸ਼ਨ

ਜ਼ਿਆਦਾਤਰ ਸਿਸਟਮ ਹਰ shard ਦੇ ਅੰਦਰ ਰੈਪਲਿਕੇਸ਼ਨ ਕਰਦੇ ਹਨ: ਇੱਕ ਪ੍ਰਾਇਮਰੀ ਲੀਡਰ ਲਿਖਤਾਂ ਨੂੰ ਮਨਜ਼ੂਰ ਕਰਦਾ ਹੈ ਅਤੇ ਇਕ ਜਾਂ ਵੱਧ ਰੈਪਲਿਕਾ ਉਹਨਾਂ ਨੂੰ ਨਕਲ ਕਰਦੇ ਹਨ। ਜੇ ਪ੍ਰਾਇਮਰੀ ਫੇਲ ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾੰ ਸਿਸਟਮ ਇੱਕ ਰੈਪਲਿਕਾ ਨੂੰ ਪ੍ਰਮੋਟ ਕਰਦਾ ਹੈ (failover). ਰੈਪਲਿਕਾ ਪੜ੍ਹਨਾਂ ਲਈ ਵੀ ਸੇਵਾ ਦੇ ਸਕਦੀਆਂ ਹਨ ਤਾਂ ਕਿ ਲੋਡ ਘਟੇ।

ਟਰੇਡ-ਆਫ ਸਮੇਂ 'ਤੇ ਹੈ: ਇਕ ਰੀਡ ਰੈਪਲਿਕਾ ਕੁਝ ਮਿਲੀ-ਸੈਕਿੰਡ ਜਾਂ ਸਕਿੰਟ ਪਿੱਛੇ ਹੋ ਸਕਦੀ ਹੈ। ਇਹ ਫਰਕ ਆਮ ਹੈ ਪਰ ਜਦੋਂ ਯੂਜ਼ਰ ਉਮੀਦ ਕਰਦਾ ਹੈ "ਮੈਂ ਹੁਣੀ ਅਪਡੇਟ ਕੀਤਾ, ਮੈਨੂੰ ਵੇਖਣਾ ਚਾਹੀਦਾ" ਤਾਂ ਮਹੱਤਵਪੂਰਨ ਹੋ ਜਾਂਦਾ ਹੈ।

ਕਨਸਿਸਟੈਂਸੀ ਮਾਡਲ ਸਧਾਰਨ ਸ਼ਬਦਾਂ ਵਿੱਚ

ਮਜਬੂਤ (Strong) consistency: ਜਦੋਂ ਇੱਕ ਲਿਖਤ ਸਫਲ ਹੋ ਜਾਵੇ, ਤਦ ਉਨ੍ਹਾਂ ਪੜ੍ਹਨ ਇੱਕੇ ਫਿਜ਼ੀਕਲ ਥਾਂ ਤੋਂ ਉਹਨਾਂ ਨੂੰ ਦਰਸਾਵੇਗਾ—ਇਹ ਆਮ ਤੌਰ 'ਤੇ ਲੀਡਰ ਤੋਂ ਪੜ੍ਹਨ ਜਾਂ ਰੈਪਲਿਕਾਜ਼ ਦੀ ਪੁਸ਼ਟੀ ਦੀ ਉਡੀਕ ਕਰਨ ਨਾਲ ਮਿਲਦਾ ਹੈ।
ਅੰਤਮਕ (Eventual) consistency: ਸਿਸਟਮ ਅਖੀਰਕਾਰ ਰੁਪਾਂਤਰਿਤ ਹੋ ਜਾਵੇਗਾ, ਪਰ ਇੱਕ ਪੜ੍ਹਨ ਅਸਥਾਈ ਤੌਰ 'ਤੇ ਪੁਰਾਣਾ ਡੇਟਾ ਦਿਖਾ ਸਕਦਾ ਹੈ।

ਸ਼ਾਰਡਡ ਸੈਟਅਪ ਵਿੱਚ, ਤੁਸੀਂ ਅਕਸਰ ਇੱਕ shard ਦੇ ਅੰਦਰ strong consistency ਅਤੇ ਸ਼ਾਰਡਾਂ ਵਿਚਕਾਰ ਕਮਜ਼ੋਰ ਗਾਰੰਟੀਜ਼ ਦੇ ਨਾਲ ਜਾਵੋਗੇ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਮਲਟੀ-ਸ਼ਾਰਡ ਓਪਰੇਸ਼ਨ ਸ਼ਾਮਿਲ ਹੋਣ।

"ਇੱਕ ਸੂਤਰ-ਇਨ-ਤੱਥ" ਜਦ ਡੇਟਾ ਵੰਡਿਆ ਹੋਵੇ

ਸ਼ਾਰਡਿੰਗ ਵਿੱਚ, "ਇੱਕ ਸੂਤਰ-ਇਨ-ਤੱਥ" ਅਕਸਰ ਇਸਦਾ ਮਤਲਬ ਹੁੰਦਾ ਹੈ: ਹਰ ਇੱਕ ਡੇਟਾ ਟੁਕੜੇ ਲਈ ਇੱਕ ਅਧਿਕਾਰਕ ਲਿਖਣੀ ਥਾਂ ਹੁੰਦੀ ਹੈ (ਆਮ ਤੌਰ 'ਤੇ shard ਦਾ ਲੀਡਰ). ਪਰ ਗਲੋਬਲ ਤੌਰ 'ਤੇ, ਕੋਈ ਐਸੀ ਮਸ਼ੀਨ ਨਹੀਂ ਜਿਸਨੂੰ ਪੂਰੇ ਸਿਸਟਮ ਦੀ ਤੁਰੰਤ ਸਥਿਤੀ ਦੀ ਪੁਸ਼ਟੀ ਹੋਵੇ। ਤੁਹਾਡੇ ਕੋਲ ਕਈ ਲੋਕਲ ਸੱਚਾਈਆਂ ਹੁੰਦੀਆਂ ਹਨ ਜੋ ਰੈਪਲਿਕੇਸ਼ਨ ਰਾਹੀਂ ਸਮਨਵਿਤ ਕੀਤੀਆਂ ਜਾਣੀਆਂ ਚਾਹੀਦੀਆਂ ਹਨ।

ਗਲੋਬਲ ਬੰਧਨ: ਯੂਨੀਕਨੈਸ, ਫੋਰਿਨ ਕੀਜ਼, ਕਾਉਂਟਰ

ਜਦੋਂ ਡੇਟਾ ਵੱਖ-ਵੱਖ shards 'ਤੇ ਹੋਵੇ, ਤਾਂ ਬੰਧਨਾਂ ਦੀਆਂ ਪੁਸ਼ਟੀਆਂ ਮੁਸ਼ਕਿਲ ਹੋ ਜਾਂਦੀਆਂ ਹਨ:

ਯੂਨੀਕਨੈਸ (ਉਦਾਹਰਣ: username): "ਕੋਈ ਡੁਪਲਿਕੇਟ ਨਹੀਂ" ਕਹਿਣ ਲਈ ਕੇਂਦਰੀ ਇੰਡੈਕਸ, ਇਕ ਸਮਰਪਿਤ "ਕਨਸਟਰੈਂਟ shard", ਜਾਂ ਐਪ-ਪੱਧਰੀ ਰਿਜ਼ਰਵੇਸ਼ਨ ਵਰਕਫਲੋ ਹੋ ਸਕਦਾ ਹੈ।
ਫੋਰਿਨ ਕੀਜ਼: ਜੇ ਪਰੈਂਟ ਅਤੇ ਚਾਈਲਡ ਰੋਜ਼ ਵੱਖ-ਵੱਖ shards 'ਤੇ ਹਨ, ਡੇਟਾਬੇਸ ਅਸਾਨੀ ਨਾਲ referential integrity ਨਹੀਂ ਲਗਾ ਸਕਦਾ ਬਿਨਾਂ ਕ੍ਰਾਸ-ਸ਼ਾਰਡ ਕੋਆਰਡੀਨੇਸ਼ਨ ਦੇ।
ਕਾਉਂਟਰ (ਗਲੋਬਲ ਟੋਟਲ, ਸੀਕਵੇੰਸ਼ਲ IDs): ਸਧਾਰਨ ਤਰੀਕੇ ਬੋਂਤਲਨੈਕ ਬਣਾਉਂਦੇ ਹਨ। ਆਮ ਸੁਧਾਰਾਂ ਵਿੱਚ per-shard ਰੇਂਜ, ਬੈਚਿੰਗ, ਜਾਂ ਅਨੁਮਾਨੀ ਗਿਣਤੀ ਮਨਜ਼ੂਰ ਕਰਨਾ ਸ਼ਾਮਿਲ ਹੈ।

ਇਹ ਚੋਣਾਂ ਸਿਰਫ ਇੰਪਲਿਮੈਂਟੇਸ਼ਨ ਦੇ ਵਿਸਥਾਰ ਨਹੀਂ ਹਨ—ਉਹ ਤੁਹਾਡੇ ਉਤਪਾਦ ਲਈ "ਸਹੀ" ਕੀ ਹੈ, ਇਹ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦੀਆਂ ਹਨ।

ਡਾਉਨਟਾਈਮ ਬਿਨਾਂ ਰੀਬੈਲੈਂਸ ਅਤੇ ਰੀਸ਼ਾਰਡਿੰਗ

ਰੀਬੈਲੈਂਸਿੰਗ ਉਹ ਹੈ ਜੋ ਧੀਰੇ-ਧੀਰੇ ਇੱਕ ਸ਼ਾਰਡਡ ਡੇਟਾਬੇਸ ਨੂੰ ਵਰਤਣਯੋਗ ਬਣਾਈ ਰੱਖਦੀ ਹੈ। ਡੇਟਾ ਅਸਮਾਨ ਵਧਦਾ ਹੈ, shard-key ਸਕਿਊ ਹੋ ਸਕਦੀ ਹੈ, ਤੁਸੀਂ ਨਵੇਂ ਨੋਡ ਜੋੜਦੇ ਹੋ, ਜਾਂ ਹਾਰਡਵੇਅਰ retire ਕਰਨਾ ਪੈਂਦਾ—ਇਹ ਸਾਰਾ ਕੁੱਝ ਕਿਸੇ ਵੀ ਸਮੇਂ ਇੱਕ shard ਨੂੰ ਬੌਤਲਨੈਕ ਬਣਾ ਸਕਦਾ ਹੈ—ਭਾਵੇਂ ਅੰਦਰੋਂ ਡਿਜ਼ਾਈਨ ਸ਼ੁਰੂ ਵਿੱਚ ਠੀਕ ਦਿੱਸਦਾ ਹੋਵੇ।

ਇਹ ਮੁਸ਼ਕਿਲ ਕਿਉਂ ਹੈ

ਇੱਕ ਸਿੰਗਲ ਡੇਟਾਬੇਸ ਦੇ ਉਲਟ, ਸ਼ਾਰਡਿੰਗ ਰੂਟਿੰਗ ਲਾਜਿਕ ਵਿੱਚ ਡੇਟਾ ਦੀ ਟਿਕਾਣਾ ਬੇ ਵਿਚਾਰ ਰੱਖਦੀ ਹੈ। ਜਦੋਂ ਤੁਸੀਂ ਡੇਟਾ ਮੂਵ ਕਰਦੇ ਹੋ, ਤੁਸੀਂ ਸਿਰਫ ਬਾਈਟ ਨਹੀਂ ਕਾਪੀ ਕਰ ਰਹੇ—ਤੁਸੀਂ ਇਹ ਬਦਲ ਰਹੇ ਹੋ ਕਿ ਕਿਵੇਂ ਬੇਨਤੀਆਂ ਨੂੰ ਭੇਜਿਆ ਜਾਵੇ। ਇਸ ਲਈ ਰੀਬੈਲੈਂਸਿੰਗ metadata ਅਤੇ ਕਲਾਇੰਟਸ ਬਾਰੇ ਵੀ ਹੋਰ ਹੈ।

ਆਨਲਾਈਨ ਮਾਈਗ੍ਰੇਸ਼ਨ ਪੈਟਰਨ (ਕਾਪੀ → ਓਵਰਲੈਪ → ਕਟਓਵਰ)

ਜ਼ਿਆਦਾਤਰ ਟੀਮਾਂ ਇੱਕ ਆਨਲਾਈਨ ਵਰਕਫਲੋ ਚਾਹੁੰਦੀਆਂ ਹਨ ਜੋ ਇੱਕ ਵੱਡੇ "stop the world" ਜ਼ਮਾਨੇ ਨੂੰ ਟਾਲੇ:

ਕਾਪੀ: ਸਰੋਤ shard ਤੋਂ ਟਾਰਗੇਟ shard ਨੂੰ ਬੈਕਫਿੱਲ ਕਰੋ ਜਦੋਂ ਸਿਸਟਮ ਚਲ ਰਿਹਾ ਹੋਵੇ।
ਡੂਅਲ-ਰਾਈਟ (ਕਦੇ-ਕਦੇ ਡੂਅਲ-ਰੀਡ): ਟ੍ਰਾਂਜ਼ੀਸ਼ਨ ਦੌਰਾਨ ਨਵੀਆਂ ਬਦਲੀਆਂ ਦੋਹਾਂ ਥਾਵਾਂ ਲਿਖੋ। ਰੀਡ ਦੋਹਾਂ ਨੂੰ ਦੇਖ ਸਕਦੇ ਹਨ (ਜਾਂ "ਨਵਾਂ ਜਿੱਤਦਾ" ਨਿਯਮ)।
ਕਟਓਵਰ: shard ਮੈਪ ਨੂੰ ਅਪਡੇਟ ਕਰੋ ਤਾਂ ਕਿ ਰਾਊਟਰ/ਕਲਾਇੰਟ ਨਵੀਂ ਜਗ੍ਹਾ ਨੂੰ ਭੇਜਣ।
ਕਲੀਨਅਪ: ਡੂਅਲ-ਰਾਈਟ ਰੋਕੋ, ਪੁਰਾਣੀ ਕਾਪੀ ਹਟਾਓ, ਅਤੇ ਸਪੇਸ ਰੀਕਲੇਮ ਕਰੋ।

shard ਮੈਪਸ ਅਤੇ ਕਲਾਇੰਟ ਦਾ ਖੁਲ੍ਹਾ ਬਿਵਹਾਰ

ਜੇ ਕਲਾਇੰਟ ਰੂਟਿੰਗ ਫੈਸਲਿਆਂ ਨੂੰ cache ਕਰਦਾ ਹੈ, ਤਾਂ shard ਮੈਪ تبدیلی ਏਕ ਬ੍ਰੇਕਿੰਗ ਇਵੈਂਟ ਹੋ ਸਕਦੀ ਹੈ। ਚੰਗੇ ਸਿਸਟਮ ਰੂਟਿੰਗ metadata ਨੂੰ configuration ਵਾਂਗ ਵਰਤਦੇ ਹਨ: ਉਸਨੂੰ ਵਰਜ਼ਨ ਕਰੋ, ਅਕਸਰ ਰਿਫ੍ਰੇਸ਼ ਕਰੋ, ਅਤੇ ਇਸ ਗੱਲ 'ਤੇ ਸਪੱਸ਼ਟ ਰਹੋ ਕਿ ਜਦੋਂ ਕਲਾਇੰਟ moved key 'ਤੇ ਲੱਗਦਾ ਹੈ ਤਾਂ ਕੀ ਹੁੰਦਾ ਹੈ (redirect, retry, ਜਾਂ proxy)।

ਓਪਰੇਸ਼ਨਲ ਖਤਰਿਆਂ ਦੀ ਯੋਜਨਾ ਬਣਾਉ

ਰੀਬੈਲੈਂਸਿੰਗ ਅਕਸਰ ਅਸਥਾਈ ਪੈਰਫਾਰਮੈਂਸ ਡਿੱਪ (ਵਾਧੂ ਲਿਖਤ, cache churn, ਬੈਕਗਰਾਊਂਡ ਕਾਪੀ ਲੋਡ) ਦਾ ਕਾਰਨ ਬਣਦੀ ਹੈ। ਹਿੱਸੇ-ਹਿੱਸੇ moves ਆਮ ਹਨ—ਕੁਝ ਰੇਂਜ ਪਹਿਲਾਂ migrate ਹੁੰਦੀਆਂ ਹਨ—ਇਸ ਲਈ ਤੁਹਾਨੂੰ ਸਪੱਸ਼ਟ ਦਰਸ਼ਕਤਾ ਅਤੇ ਰੋਲਬੈਕ ਯੋਜਨਾ ਚਾਹੀਦੀ ਹੈ (ਉਦਾਹਰਣ: ਮੈਪ ਨੂੰ ਵਾਪਸ ਫਲਿੱਪ ਕਰਨਾ ਅਤੇ ਡ੍ਰੇਨਿੰਗ dual-writes) ਪਹਿਲਾਂ cuts over ਸ਼ੁਰੂ ਕਰਨ ਤੋਂ।

ਹਾਟਸਪੌਟ ਅਤੇ ਸਕਿਊ: ਜਦੋਂ "ਬਰਾਬਰ ਵੰਡ" ਟੁੱਟਦੀ ਹੈ

ਸ਼ਾਰਡਿੰਗ ਇਹ ਮੰਨ ਕੇ ਚਲਦੀ ਹੈ ਕਿ ਕੰਮ ਫੈਲ ਜਾਵੇਗਾ। ਹੈਰਾਨੀ ਇਹ ਹੈ ਕਿ ਕਲੱਸਟਰ ਕਾਗਜ਼ਾਂ 'ਤੇ "ਬਰਾਬਰ" ਦਿਖਾਈ ਦੇ ਸਕਦਾ ਹੈ (ਹਰ shard 'ਤੇ ਇੱਕੋ ਰੋਜ਼ ਦੀ ਗਿਣਤੀ), ਪਰ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਬਹੁਤ ਅਸਮਾਨ ਵਿਹਾਰ ਕਰ ਸਕਦਾ ਹੈ।

ਹਾਟ ਪਾਰਟੀਸ਼ਨ (ਹਾਟ ਕੀਜ਼)

ਹਾਟਸਪੌਟ ਉਸ ਵੇਲੇ ਹੁੰਦਾ ਹੈ ਜਦੋਂ ਤੁਹਾਡੇ ਕੀ-ਸਪੇਸ ਦਾ ਇਕ ਛੋਟਾ ਹਿੱਸਾ ਜ਼ਿਆਦਾਤਰ ਟ੍ਰੈਫਿਕ ਪ੍ਰਾਪਤ ਕਰ ਲੈਂਦਾ ਹੈ—ਚੁਣੋ ਇੱਕ ਪ੍ਰਸਿੱਧ ਖਾਤਾ, ਇੱਕ ਬੇਚ ਜੋ ਭਾਰੀ ਹੈ, ਜਾਂ ਉਹ ਟਾਈਮ-ਅਧਾਰਿਤ ਕੁੰਜੀ ਜਿੱਥੇ "ਅੱਜ" ਸਾਰੀਆਂ ਲਿਖਤਾਂ ਖਿੱਚਦਾ ਹੈ. ਜੇ ਉਹ keys ਇੱਕ shard 'ਤੇ ਹੋਣ, ਤਾਂ ਉਹ shard ਬੌਤਲਨੈਕ ਬਣ ਜਾਦਾ ਹੈ ਭਲੇ ਬਾਕੀ ਸਾਰੇ shards ਸੁੱਥਰੇ ਹੋਣ।

ਸਕਿਊ: ਡੇਟਾ ਆਕਾਰ ਵਰਸੁ ਟ੍ਰੈਫਿਕ

"ਸਕਿਊ" ਇਕੋ ਚੀਜ਼ ਨਹੀਂ ਹੈ:

ਡੇਟਾ ਸਕਿਊ: ਇੱਕ shard ਤੇ ਵੱਧ ਬਾਈਟ/ਰੋਜ਼ (ਸਟੋਰੇਜ ਦਬਾਅ, ਵੱਡੇ ਬੈਕਅੱਪ, ਸਲੋ ਸਕੈਨ)
ਟ੍ਰੈਫਿਕ ਸਕਿਊ: ਇੱਕ shard ਵੱਧ QPS ਜਾਂ ਭਾਰੀ ਕਵੈਰੀਆਂ ਸੰਭਾਲਦਾ ਹੈ (CPU ਸੈਚੁਰੇਸ਼ਨ, ਕੁਤਰੇ ਹੋਏ ਰਿਕਵੇਸਟ)

ਉਹਨਾਂ ਦੋਹਾਂ ਦੇ ਮਿਲਣ ਦੀ ਜ਼ਰੂਰਤ ਨਹੀਂ—ਇੱਕ shard ਘੱਟ ਡੇਟਾ ਰੱਖ ਕੇ ਵੀ ਸਭ ਤੋਂ ਹਾਟ ਹੋ ਸਕਦਾ ਹੈ ਜੇ ਉਹ ਸਭ ਤੋਂ ਮੰਗ ਵਾਲੀਆਂ ਕੁੰਜੀਆਂ ਦਾ ਮਾਲਕ ਹੋਵੇ।

ਜਲਦੀ ਪਤਾ ਲਾਓ

ਫੈਂਸੀ ਟ੍ਰੇਸਿੰਗ ਦੀ ਲੋੜ ਨਹੀਂ—per-shard ਡੈਸ਼ਬੋਰਡ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ:

p95 latency ਪ੍ਰਤੀ shard (ਜੇ ਇਕ shard ਦੀ p95 ਵੱਖ ਹੋ ਰਹੀ ਹੈ, ਚੇਤਾਵਨੀ)
QPS (ਅਤੇ ਲਿਖਤ QPS) ਪ੍ਰਤੀ shard
ਸਟੋਰੇਜ ਵਰਤੋਂ / ਟੇਬਲ ਸਾਈਜ਼ ਪ੍ਰਤੀ shard

ਜੇ ਇੱਕ shard ਦੀ ਲੇਟੈਂਸੀ ਉਸਦੇ QPS ਨਾਲ ਵੱਧਦੀ ਹੈ ਜਦਕਿ ਹੋਰਾਂ ਦੀ ਕਦੇ ਨਹੀਂ, ਤਾਂ ਤੁਹਾਨੂੰ ਹਾਟਸਪੌਟ ਦਾ ਸਾਹਮਣਾ ਹੈ।

ਨਿਵਾਰਨ措

ਠੀਕ ਕਰਨ ਵਾਲੇ ਹਲ ਸਧਾਰਣਤਾ ਨੂੰ ਬੈਲੈਂਸ ਦੇਣਗੇ:

ਟ੍ਰੈਫਿਕ ਫੈਲਾਉਣ ਲਈ shard ਕੀ ਚੁਣੋ, ਨਾ ਕੇਵਲ ਰਿਕਾਰਡ ਵੰਡਣ ਲਈ
ਹਾਟ ਕੀਜ਼ ਲਈ bucketing/salting ਵਰਤੋ
ਰੀਡ-ਹੈਵੀ ਆਈਟਮ ਲਈ cache ਵਰਤੋ
ਕਲੱਸਟਰ ਦੀ ਰੱਖਿਆ ਲਈ rate limits ਜਾਂ per-tenant quota ਲਗਾਓ
ਜਦੋਂ ਲੋੜ ਹੋਵੇ shard ਨੂੰ ਸਪਲਿਟ ਕਰੋ ਜਾਂ ਹਟਾਓ

ਸ਼ਾਰਡਡ ਸਿਸਟਮ ਵਿੱਚ ਫੇਲਯੂਰ ਮੋਡ ਅਤੇ ਡੀਬੱਗਿੰਗ

ਕ੍ਰਾਸ-ਸ਼ਾਰਡ ਲਿਖਤਾਂ ਦੀ ਜਾਂਚ ਕਰੋ

ਛੋਟੀ ਸੇਵਾ ਵਿੱਚ idempotency ਕੀਜ਼ ਅਤੇ retry-safe ਲਿਖਤਾਂ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੋ ਜੋ ਤੁਸੀਂ ਬਾਅਦ ਵਿੱਚ ਫੇંક ਸਕਦੇ ਹੋ।

ਪ੍ਰੋਟੋਟਾਈਪ ਬਣਾਓ

ਸ਼ਾਰਡਿੰਗ ਕੇਵਲ ਹੋਰ ਸਰਵਰਾਂ ਨਹੀਂ ਜੋੜਦੀ—ਇਹ ਹੋਰ ਤਰੀਕੇ ਜੋ ਚੀਜ਼ਾਂ ਗਲਤ ਹੋ ਸਕਦੀਆਂ ਹਨ ਅਤੇ ਹੋਰ ਥਾਵਾਂ ਜਿਥੇ ਵੇਖਣਾ ਪੈਂਦਾ ਹੈ, ਜੋੜਦੀ ਹੈ। ਕਈ ਘਟਨਾਵਾਂ "ਡੇਟਾਬੇਸ ਡਾਊਨ ਹੈ" ਤੋਂ ਵੱਖ-ਵੱਖ ਹੁੰਦੀਆਂ ਹਨ—"ਇੱਕ shard ਡਾਊਨ ਹੈ" ਜਾਂ "ਸਿਸਟਮ ਇਹਨੂੰ ਨਹੀਂ ਜਾਣਦਾ ਕਿ ਡੇਟਾ ਕਿੱਥੇ ਹੈ"।

ਆਮ ਫੇਲਯੂਰ ਮੋਡ

ਕੁਝ ਆਮ ਪੈਟਰਨ:

ਇੱਕ shard ਉਪਲਬਧ ਨਹੀਂ (ਕ੍ਰੈਸ਼, ਡਿਸਕ ਭਰ ਗਿਆ, ਲੰਬਾ GC ਜ਼ਮਾਨਾ), ਜੋ ਹਿਸਸਾਈ ਆਊਟੇਜ ਬਣਾਉਂਦਾ ਹੈ: ਕੁਝ ਗਾਹਕ ਕੰਮ ਕਰਦੇ ਹਨ, ਹੋਰ ਫੇਲ ਹੁੰਦੇ ਹਨ।
ਰਾਊਟਰ ਗਲਤ ਥਾਂ ਭੇਜਦਾ ਹੈ, ਕਈ ਵਾਰੀ ਕਾਨਫਿਗ ਬਦਲਣ ਜਾਂ ਬਦ ਡਿਪਲੋਈ ਦੇ ਬਾਅਦ. ਰੀਡਸ ਖਾਲੀ ਨਤੀਜੇ ਵਾਪਸ ਕਰ ਸਕਦੀਆਂ ਹਨ ਜੇ ਉਹ ਗਲਤ shard ਤੇ ਭੇਜੇ ਜਾਂ।
ਸਟੇਲ ਜਾਂ ਅਨਕਨਸਿਸਟੈਂਟ ਮੈਟਾਡੇਟਾ (ਜਿਵੇਂ shard ਮੈਪ, ਡਾਇਰੈਕਟਰੀ ਟੇਬਲ). ਮੂਵ ਜਾਂ ਸਪਲਿਟ ਦੌਰਾਨ, ਵੱਖ-ਵੱਖ ਕੰਪੋਨੈਂਟ ਇੱਕੋ ਕੀ ਲਈ ਵੱਖ-ਵੱਖ ਰਾਹ ਦਿਖਾ ਸਕਦੇ ਹਨ।
ਹਿੱਸਾਈ ਨੈਟਵਰਕ ਮੁੱਦੇ: ਰਾਊਟਰ ਅਤੇ ਕੁਝ shards ਦਰਮਿਆਨ timeout ਜਾਂ ਗਲਤੀਆਂ ਜੋ ਰੀਟ੍ਰਾਈਆਂ ਨੂੰ ਵਧਾਉਂਦੀਆਂ ਹਨ ਅਤੇ ਲੋਡ ਅੰਕੜਾ ਕਰਦੀਆਂ ਹਨ।

ਡੀਬੱਗਿੰਗ ਕਿਵੇਂ ਬਦਲਦੀ ਹੈ

ਇੱਕ-ਨੋਡ ਡੇਟਾਬੇਸ ਵਿੱਚ ਤੁਸੀਂ ਇਕ ਲੋਗ ਟੇਲ ਕਰਦੇ ਹੋ ਅਤੇ metrics ਵੇਖਦੇ ਹੋ। ਇੱਕ ਸ਼ਾਰਡਡ ਸਿਸਟਮ ਵਿੱਚ, ਤੁਹਾਨੂੰ ਇੱਕ ਬੇਨਤੀ ਨੂੰ shards ਦੇ ਆਲੇ-ਦੁਆਲੇ follow ਕਰਨ ਵਾਲੀ observability ਚਾਹੀਦੀ ਹੈ।

ਹਰ ਬੇਨਤੀ ਵਿੱਚ correlation IDs ਰੱਖੋ ਅਤੇ ਉਹਨਾਂ ਨੂੰ API ਲੇਅਰ ਤੋਂ ਰਾਊਟਰਾਂ ਅਤੇ ਹਰ shard ਤੱਕ propagate ਕਰੋ। ਇਸਨੂੰ distributed tracing ਨਾਲ ਜੋੜੋ ਤਾਂ ਕਿ ਇੱਕ scatter-gather ਕਵੈਰੀ ਇਹ ਦਿਖਾ ਸਕੇ ਕਿ ਕਿਹੜਾ shard ਸੁਸਤ ਸੀ ਜਾਂ ਫੇਲ ਹੋਇਆ। ਮੈਟਰਿਕਸ ਪ੍ਰਤੀ shard (ਲੇਟੈਂਸੀ, ਕਤਾਰ ਡੈਪਥ, ਐਰਰ ਦਰ) ਵਰਗੇ ਟੁੱਟੇ ਹੋਏ ਵਿਸ਼ਲੇਸ਼ਣ ਨਹੀਂ ਵਰਗੇ, ਨਹੀਂ ਤਾਂ ਹਾਟ shard ਫਲੀਟ-ਸਰਸਤ ਵਿੱਚ ਲੁਕ ਜਾਵੇਗਾ।

ਡੇਟਾ ਸਹੀਪਣ ਘਟਨਾਵਾਂ

ਸ਼ਾਰਡਿੰਗ ਫੇਲਯੂਰ ਆਮ ਤੌਰ 'ਤੇ correctness ਬੱਗਾਂ ਵਜੋਂ ਸਾਹਮਣੇ ਆਉਂਦੀਆਂ ਹਨ:

ਡੁਪਲੀਕੇਟ ਰੀਟ੍ਰਾਈਆਂ ਜਾਂ ਗੈਰ-idempotent ਲਿਖਤਾਂ ਤੋਂ
ਗਾਇਬ ਰੋਜ਼ ਜਦੋਂ migration ਨੇ ਡੇਟਾ ਨੂੰ ਮੂਵ ਕੀਤਾ ਪਰ ਰੂਟਿੰਗ ਹਾਲੇ ਪੁਰਾਣੀ ਥਾਂ ਵੱਲ ਵਾਰੀ ਰਹੀ
ਸਪਲਿਟ-ਬ੍ਰੇਨ ਲਿਖਤਾਂ ਜੇ ਦੋ metadata views ਇੱਕੋ key range ਲਈ ਲਿਖਤਾਂ ਮੰਨ ਲੈਂ

ਬੈਕਅੱਪ, ਰਿਸਟੋਰ, ਅਤੇ ਡੀ-ਆਰ

"ਡੇਟਾਬੇਸ ਦੁਬਾਰਾ ਬਹਾਲ ਕਰੋ" ਹੁਣੋਂ ਬਣ ਜਾਂਦਾ ਹੈ "ਕਈ ਹਿੱਸਿਆਂ ਨੂੰ ਸਹੀ ਕ੍ਰਮ ਵਿੱਚ ਰੀਸਟੋਰ ਕਰੋ"। ਤੁਹਾਨੂੰ ਸ਼ਾਇਦ ਪਹਿਲਾਂ ਮੈਟਾਡੇਟਾ ਨੂੰ ਰੀਸਟੋਰ ਕਰਨਾ ਪਵੇ, ਫਿਰ ਹਰ shard ਨੂੰ, ਫਿਰ ਯਕੀਨੀ ਬਣਾਉਣਾ ਕਿ shard ਬਾਊਂਡਰੀਆਂ ਅਤੇ ਰੂਟਿੰਗ ਨਿਯਮ ਬਹਾਲ ਪੁਆਇੰਟ-ਇਨ-ਟਾਈਮ ਨਾਲ ਮਿਲਦੇ ਹਨ। DR ਯੋਜਨਾਵਾਂ ਵਿੱਚ ਅਭਿਆਸ ਵੀ ਸ਼ਾਮਿਲ ਹੋਣ: ਇਹ ਸਾਬਤ ਕਰਨਾ ਕਿ ਤੁਸੀਂ ਇਕ ਸੰਗਠਿਤ ਕਲੱਸਟਰ ਬਣਾਕੇ ਵਾਪਸ ਲਿਆ ਸਕਦੇ ਹੋ—ਸਿਰਫ ਅਲੱਗ ਨੋਡਾਂ ਨੂੰ recover ਕਰਨ ਨਾਲ ਕਾਮ ਨਹੀਂ ਚੱਲਦਾ।

ਕਦੋਂ ਸ਼ਾਰਡ ਨਾ ਕਰੋ: ਵਿਆਹਿਕ ਵਿਕਲਪ ਅਤੇ ਫੈਸਲਾ-ਚੈਕਲਿਸਟ

ਸ਼ਾਰਡਿੰਗ ਨੂੰ ਅਕਸਰ "ਸਕੇਲਿੰਗ ਸਵਿੱਚ" ਵਾਂਗ ਲਿਆ ਜਾਂਦਾ ਹੈ, ਪਰ ਇਹ ਇਕ ਸਥਾਈ ਵਾਧਾ ਹੈ ਸਿਸਟਮ ਦੀ ਜਟਿਲਤਾ ਵਿੱਚ। ਜੇ ਤੁਸੀਂ ਆਪਣੇ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਲਕੜਾਂ ਨੂੰ ਵੰਡੇ ਬਿਨਾਂ ਪੂਰੇ-ਸਿਸਟਮ ਦੇ ਭੀਤਰੀ ਹਿੱਸੇ ਨੂੰ ਵਿਭਾਜਿਤ ਕੀਤੇ ਹੱਲ ਕਰ ਸਕਦੇ ਹੋ, ਤਾਂ ਆਮ ਤੌਰ 'ਤੇ ਤੁਸੀਂ ਇੱਕ ਸਧਾਰਣ ਆਰਕੀਟੈਕਚਰ, ਆਸਾਨ ਡੀਬੱਗਿੰਗ, ਅਤੇ ਘੱਟ ਓਪਰੇਸ਼ਨਲ ਐਜ ਕੇਸ ਪ੍ਰਾਪਤ ਕਰੋਗੇ।

ਅਮਲੀ ਵਿਕਲਪ ਜੋ ਅਕਸਰ ਕਾਫ਼ੀ ਹੈ

ਸ਼ਾਰਡਿੰਗ 'ਤੇ ਜਾਉਣ ਤੋਂ ਪਹਿਲਾਂ, ਉਹ ਵਿਕਲਪ ਅਜ਼ਮਾਓ ਜੋ ਇਕੋ ਲੌਜਿਕਲ ਡੇਟਾਬੇਸ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦੇ ਹਨ:

ਚੰਗੀ ਇੰਡੈਕਸਿੰਗ + ਕਵੈਰੀ ਟਿਊਨਿੰਗ: ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਸੁਸਤ ਪਾਥ ਠੀਕ ਕਰੋ—ਗੁੰਮ ਇੰਡੈਕਸ, ਅਣਸੀਮਿਤ ਕਵੈਰੀ, ਮਹਿੰਗੇ ਜੋਇਨ, N+1 ਪੈਟਰਨ
ਕੇਸ਼ਿੰਗ: ਪੜ੍ਹਨ-ਹੈਵੀ, ਸਥਿਰ ਜਵਾਬਾਂ ਨੂੰ cache ਦੇ ਪਿੱਛੇ ਰੱਖੋ (ਐਪ-ਲੇਵਲ cache, CDN ਜਨਰਲ ਸਮਗਰੀ ਲਈ, ਜਾਂ ਮੈਮੋਰੀ cache ਹਾਟ ਕੀਜ਼ ਲਈ)
ਰੀਡ ਰੈਪਲਿਕਾਜ਼: ਰੀਡ ਟਰੈਫਿਕ ਨੂੰ ਆਫਲੋਡ ਕਰੋ ਬਿਨਾਂ ਰਾਈਟ ਪਾਥ ਬਦਲੇ (ਜਿੱਥੇ ਰੈਪਲਿਕਾ ਲੈਗ ਠੀਕ ਹੋ)
ਇੱਕ ਨੋਡ 'ਤੇ ਪਾਰਟੀਸ਼ਨਡ ਟੇਬਲ: ਬਹੁਤ ਸਾਰੇ ਡੇਟਾਬੇਸਾਂ ਵਿੱਚ ਟੇਬਲ ਪਾਰਟੀਸ਼ਨਿੰਗ ਹੈ ਜੋ ਮੇਨਟੇਨੈਂਸ ਅਤੇ ਕਵੈਰੀ ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰਦੀ ਹੈ ਬਿਨਾਂ ਨੋਡ-ਬਾਹਰ ਰੂਟਿੰਗ ਦੇ

ਟੂਲ ਕਦੋਂ ਮਦਦ ਕਰਦੇ ਹਨ: shard-aware ਸਰਵਿਸਾਂ ਦਾ ਪ੍ਰੋਟੋਟਾਈਪ ਬਿਨਾਂ ਬਹੁਤ ਵੱਡੇ ਦਾਅਵੇ

ਸ਼ਾਰਡਿੰਗ ਦਾ ਜੋਖਮ ਘਟਾਉਣ ਲਈ ਇੱਕ ਪ੍ਰਯੋਗਤਮਕ ਤਰੀਕਾ ਪਲੰਬਿੰਗ (routing boundaries, idempotency, migration workflows, observability) ਦਾ ਪ੍ਰੋਟੋਟਾਈਪ ਬਣਾਉਣਾ ਹੈ।

ਉਦਾਹਰਣ ਵਜੋਂ, Koder.ai ਦੇ ਨਾਲ ਤੁਸੀਂ ਛੇਤੀ ਇੱਕ ਛੋٽي, ਹਕੀਕਤੀ ਸੇਵਾ ਚੈਟ ਤੋਂ ਸਪਿਨ ਅੱਪ ਕਰ ਸਕਦੇ ਹੋ—ਅਕਸਰ ਇੱਕ React ਐਡਮਿਨ UI ਨਾਲ Go ਬੈਕਐਂਡ ਅਤੇ PostgreSQL—ਅਤੇ shard-key-aware APIs, idempotency keys, ਅਤੇ "cutover" ਵਿਹਾਰਾਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਸੈਂਡਬਾਕਸ ਵਿੱਚ ਪ੍ਰਯੋਗ ਕਰ ਸਕਦੇ ਹੋ। Koder.ai planning mode, snapshots/rollback, ਅਤੇ source code export ਸਹਾਇਤਾ ਦਿੰਦਾ ਹੈ ਤਾਂ ਤੁਸੀਂ ਸ਼ਾਰਡਿੰਗ-ਸਬੰਧੀ ਡਿਜ਼ਾਈਨ ਫੈਸਲੇ (ਜਿਵੇਂ ਰੂਟਿੰਗ ਅਤੇ ਮੈਟਾਡੇਟਾ ਆਕਾਰ) 'ਤੇ ਇਟਰੈਟ ਕਰ ਸਕੋ ਅਤੇ ਫਿਰ ਨਤੀਜਾ ਕੋਡ ਅਤੇ ਰਨਬੁੱਕ ਆਪਣੀ ਮੁੱਖ ਸਟੈੱਕ ਵਿੱਚ ਲੈ ਜਾ ਸਕੋ ਜਦੋਂ ਤੁਸੀਂ ਨਿਸ਼ਚਿਤ ਹੋਵੋ।

ਕਦੋਂ ਸ਼ਾਰਡਿੰਗ ਫਿੱਟ ਹੁੰਦੀ ਹੈ (ਅਤੇ ਕਦੋਂ ਨਹੀਂ)

ਸ਼ਾਰਡਿੰਗ ਉਸ ਵੇਲੇ ਬਿਹਤਰ ਫਿੱਟ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਤੁਹਾਡਾ ਡੇਟਾਸੈੱਟ ਜਾਂ ਲਿਖਤ throughput ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਇਕ ਨੋਡ ਦੀਆਂ ਸੀਮਾਵਾਂ ਤੋਂ ਵੱਧ ਚਲਾ ਗਿਆ ਹੋਵੇ ਅਤੇ ਤੁਹਾਡੇ ਅਹਿਮ ਕਵੈਰੀ ਪੈਟਰਨ shard key ਦੁਆਰਾ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਰੂਟ ਹੋ ਸਕਦੇ ਹੋ (ਘੱਟ ਕ੍ਰਾਸ-ਸ਼ਾਰਡ ਜੋਇਨ, ਘੱਟ scatter-gather ਕਵੈਰੀਆਂ).

ਇਹ ਉਹਨਾਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਚੰਗਾ ਫਿੱਟ ਨਹੀਂ ਜਦੋਂ:

ਪ੍ਰੋਡਕਟ ਨੂੰ ਬਹੁਤ ਸਾਰੇ ad-hoc ਕਵੈਰੀਆਂ ਦੀ ਲੋੜ ਹੋਵੇ
ਅਕਸਰ multi-entity ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਹੋਣ
ਗਲੋਬਲ ਯੂਨੀਕਨੈਸ constraints ਹੋਣ
ਟੀਮ ਓਪਰੇਸ਼ਨਲ ਭਾਰ ਨੂੰ ਸਮਭਾਲ ਨਹੀਂ ਸਕਦੀ (ਰੀਬੈਲੈਂਸਿੰਗ, ਰੀਸ਼ਾਰਡਿੰਗ, INCIDENT RESPONSE)

ਇੱਕ ਛੋਟਾ ਫੈਸਲਾ ਚੈਕਲਿਸਟ

ਪੂਛੋ:

ਵਰਕਲੋਡ: ਬੋਤਲਨੈਕ CPU, I/O, ਮੈਮੋਰੀ, ਜਾਂ ਲਾਕ contention ਹੈ—ਕੀ ਇਸਨੂੰ ਬਿਨਾਂ ਸ਼ਾਰਡਿੰਗ ਦੇ ਠੀਕ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ?
ਕਵੈਰੀ ਪੈਟਰਨ: ਕੀ 90%+ ਅਹਿਮ ਕਵੈਰੀਜ਼ shard key ਦੁਆਰਾ ਰੂਟ ਕੀਤੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ?
ਟੀਮ ਸਮਰੱਥਾ: ਕੌਣ shard mapping, on-call runbooks, ਅਤੇ ਕ੍ਰਾਸ-ਸ਼ਾਰਡ ਟਰਾਂਜ਼ੈਕਸ਼ਨ ਵਰਤਾਂ ਦੀ ਦੇਖਭਾਲ ਕਰੇਗਾ?
SLOs: ਕੀ ਤੁਸੀਂ ਹਿੱਸਾਈ ਗਿਰਾਵਟ (ਇੱਕ shard ਡਾਊਨ) ਅਤੇ ਲੰਬੇ ਟੇਲ ਲੇਟੈਂਸੀ ਸਹਿ ਸਕਦੇ ਹੋ?

ਵੱਧ ਵਧਣ ਲਈ ਯੋਜਨਾ ਬਣਾਓ, ਸਿਰਫ਼ ਡਾਇਗ੍ਰਾਮ ਨਹੀਂ

ਚਾਹੇ ਤੁਸੀਂ ਸ਼ਾਰਡਿੰਗ ਨੂੰ ਡਿਲੇ ਕਰੋ, ਇੱਕ ਮਾਈਗ੍ਰੇਸ਼ਨ ਪਾਥ ਤਿਆਰ ਕਰੋ: ਉਹ identifiers ਚੁਣੋ ਜੋ ਭਵਿੱਖ ਦੇ shard key ਵਿੱਚ ਰੁਕਾਵਟ ਨਾ ਬਣਣ, single-node ਧਾਰਣਾ ਨੂੰ ਹਾਰਡ-ਕੋਡ ਨਾ ਕਰੋ, ਅਤੇ ਅਭਿਆਸ ਕਰੋ ਕਿ ਤੁਸੀਂ ਡਾਟਾ ਕਿਵੇਂ ਘੱਟ ਡਾਊਨਟਾਈਮ ਨਾਲ ਮੂਵ ਕਰੋਗੇ। ਸਭ ਤੋਂ ਵਧੀਆ ਸਮਾਂ resharding ਦੀ ਯੋਜਨਾ ਬਣਾਉਣ ਲਈ ਉਹ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਅਜੇ ਤਿਆਰ ਹੋ।

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

What is database sharding, and how is it different from replication?

ਸ਼ਾਰਡਿੰਗ (ਹੋਰਾਈਜ਼ਾਂਟਲ ਪਾਰਟੀਸ਼ਨਿੰਗ) ਇੱਕ ਹੀ ਲੌਜਿਕਲ ਡੇਟਾਸੈੱਟ ਨੂੰ ਕਈ ਮਸ਼ੀਨਾਂ ("ਸ਼ਾਰਡ") ਵਿੱਚ ਵੰਡ ਦਿੰਦੀ ਹੈ, ਜਿੱਥੇ ਹਰ ਸ਼ਾਰਡ ਵੱਖਰੇ ਰਿਕਾਰਡ ਰੱਖਦਾ ਹੈ.

ਇਸ ਦੇ ਉਲਟ, ਰੈਪਲਿਕੇਸ਼ਨ ਇੱਕੋ ਡੇਟਾ ਦੀਆਂ ਨਕਲਾਂ ਕਈ ਨੋਡਾਂ 'ਤੇ ਰੱਖਦੀ ਹੈ—ਜ਼ਿਆਦਾਤਰ ਉਪਲਬਧਤਾ ਅਤੇ ਰੀਡ ਸਕੇਲਿੰਗ ਲਈ।

Why not just scale up one database instead of sharding?

ਵਰਟਿਕਲ ਸਕੇਲਿੰਗ ਦਾ ਮਤਲਬ ਹੈ ਇੱਕ ਹੀ ਡੇਟਾਬੇਸ ਸਰਵਰ ਨੂੰ ਅੱਪਗ੍ਰੇਡ ਕਰਨਾ (ਵਧੇਰੇ CPU/RAM/ਤੇਜ਼ ਡਿਸਕ). ਇਹ ਆਪਰੇਸ਼ਨਲ ਤੌਰ `ਤੇ ਸਧਾਰਣ ਹੈ, ਪਰ ਅੱਡੇ ਸੀਮਾਵਾਂ ਵਿਚ ਪਹੁੰਚ ਜਾਂਤੀ ਹੈ (ਅਤੇ ਮਹਿੰਗਾ ਹੋ ਸਕਦਾ ਹੈ).

ਸ਼ਾਰਡਿੰਗ ਮਸ਼ੀਨਾਂ ਨੂੰ ਵਧਾ ਕੇ ਆਊਟਸਕੇਲ ਕਰਦੀ ਹੈ, ਪਰ ਇਹ ਰੂਟਿੰਗ, ਰੀਬੈਲੈਂਸਿੰਗ ਅਤੇ ਕ੍ਰਾਸ-ਸ਼ਾਰਡ ਸਹੀਪਣ ਸਮੱਸਿਆਵਾਂ ਲਿਆਉਂਦੀ ਹੈ।

What problems does sharding actually solve?

ਟੀਮਾਂ ਆਮ ਤੌਰ 'ਤੇ ਸ਼ਾਰਡ ਕਰਦੀਆਂ ਹਨ ਜਦੋਂ ਇੱਕ ਨੋਡ ਮੁੜ-ਮੁੜ ਬੋਤਲਨੈਕ ਬਣ ਜਾਂਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ:

ਡਿਸਕ ਅਤੇ ਇੰਡੈਕਸ ਵਧ ਕੇ ਬੈਕਅੱਪ/ਮੇਟੇਨੈਂਸ ਧੀਮੇ ਹੋ ਜਾਣ
ਲਿਖਾਈ ਦੀ throughput CPU/WAL/ਲਾਕ contention ਨਾਲ ਰੁਕਣਾ
ਪੜ੍ਹਨ ਦਾ ਬੋਝ ਪ੍ਰਾਇਮਰੀ/ਰੈਪਲਿਕਾਸ ਨੂੰ ਓਵਰਵਹੈਲਮ ਕਰਨਾ
"ਨੌਜ਼ੀ ਨੇਬਰ" ਟੀਨੈਂਟ ਸਾਰਿਆਂ ਲਈ ਰਿਸੋਰਸ ਲੈ ਲੈਣਾ

ਸ਼ਾਰਡਿੰਗ ਡੇਟਾ ਅਤੇ ਟ੍ਰੈਫਿਕ ਫੈਲਾਉਂਦੀ ਹੈ ਤਾਂ ਕਿ ਸਮਰੱਥਾ ਮਸ਼ੀਨਾਂ ਜੋੜ ਕੇ ਵਧੇ।

What are the core components of a sharded database system?

ਇੱਕ ਆਮ ਸ਼ਾਰਡਿੰਗ ਸਿਸਟਮ ਵਿੱਚ ਸ਼ਾਮਿਲ ਹੁੰਦਾ ਹੈ:

ਸ਼ਾਰਡਸ: ਆਪਣੀ ਸਟੋਰੇਜ ਅਤੇ ਇੰਡੈਕਸਾਂ ਵਾਲੇ ਸੁਤੰਤਰ ਹਿੱਸੇ
ਰਾਊਟਰ/ਕੋਰਡੀਨੇਟਰ: ਇਹ ਫੈਸਲਾ ਕਰਦੇ ਹਨ ਕਿ ਕਿਹੜਾ ਸ਼ਾਰਡ(ਸ) ਕਵੈਰੀ ਸੰਭਾਲਣਗੇ
ਮੈਟਾਡੇਟਾ/ਕੰਫਿਗ ਸਰਵਿਸ: ਸ਼ਾਰਡ ਮੈਪ, ਮਲਕੀਅਤ, ਹੈਲਥ, ਮੈਂਬਰਸ਼ਿਪ
ਬੈਕਗਰਾਊਂਡ ਜਾਬਜ਼: ਰੀਬੈਲੈਂਸਿੰਗ, ਮਾਈਗ੍ਰੇਸ਼ਨ, ਬੈਕਅੱਪ/ਰਿਸਟੋਰ ਵਰਕਫਲੋਜ਼

ਪੈਰਫਾਰਮੈਂਸ ਅਤੇ ਸਹੀਪਣ ਇਸ ਗੱਲ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ ਕਿ ਇਹ ਹਿੱਸੇ ਇਕੱਠੇ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ।

What is a shard key, and why does it matter so much?

ਸ਼ਾਰਡ ਕੀ ਉਹ ਫੀਲਡ(ਜਾਂ ਫੀਲਡਾਂ ਦੀ ਜੋੜੀ) ਹੁੰਦੀ ਹੈ ਜੋ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ ਕਿ ਇਕ ਰੋ ਕਿੱਥੇ ਰਹੇਗੀ. ਇਹ ਬਹੁਤ ਹੱਦ ਤੱਕ ਨਿਰਧਾਰਿਤ ਕਰਦੀ ਹੈ ਕਿ ਬੇਨਤੀ ਇਕ.shard ਤੇ ਜਾਏਗੀ (ਤੇਜ਼ ਰਸਤਾ) ਜਾਂ ਕਈ ਸ਼ਾਰਡਸ ਨੂੰ ਫੈਨ-ਆਉਟ ਕਰੇਗੀ (ਧੀਮੀਆਂ ਕਵੈਰੀਆਂ).

ਚੰਗੀ shard ਕੁੰਜੀ ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਗੁਣ ਰੱਖਦੀ ਹੈ:

ਉੱਚ ਕਾਰਡੀਨੈਲਟੀ: ਕਈ ਸੰਭਵ ਮੁੱਲ (ਉਦਾਹਰਣ ਲਈ user_id)
ਬਰਾਬਰ ਵੰਡ: ਲਿਖਤਾਂ ਅਤੇ ਪੜ੍ਹਨ ਨੂੰ ਸ਼ਾਰਡਸ 'ਤੇ ਮੰਡੀ ਨਾ ਹੋਣ ਦੇ ਲਈ

What makes a shard key “bad,” and what failures does it cause?

ਕੁਝ shard ਕੁੰਜੀਆਂ ਨੁਕਸਾਨ ਦੇਣ ਵਾਲੀਆਂ ਹੁੰਦੀਆਂ ਹਨ:

ਟਾਇਮ-ਅਧਾਰਿਤ monotonic ਕੁੰਜੀਆਂ (ਟਾਈਮਸਟੈਂਪ, ਆਟੋ-ਇਨਕ੍ਰੀਮੈਂਟ ID): ਨਵਾਂ ਡੇਟਾ "ਲੀਟਸ" shard 'ਤੇ ਇਕੱਠਾ ਹੋ ਜਾਂਦਾ ਹੈ → ਲਿਖਾਈ ਦਾ ਹਾਟਸਪੌਟ
ਘੱਟ ਕਾਰਡੀਨੈਲਟੀ ਵਾਲੇ ਫੀਲਡ (status, plan_tier, country): ਬਹੁਤ ਘੱਟ ਵੱਖ-ਵੱਖ ਮੁੱਲ → ਕੁਝ shards ਵੱਧ ਕੰਮ ਲੈਂਦੇ ਹਨ
ਬਦਲਣਯੋਗ ਆਈਡੇਂਟੀਫਾਇਰ (email, mutable usernames): ਕੁੰਜੀ ਬਦਲੇ ਤਾਂ ਡੇਟਾ ਮੁਵ ਕਰਨਾ ਮਹਿੰਗਾ ਤੇ ਖਤਰਨਾਕ ਹੁੰਦਾ ਹੈ

ਇਹਨਾਂ ਕਾਰਨਾਂ ਨਾਲ ਰੁਟੀਨ ਕਵੈਰੀਆਂ scatter-gather ਫੈਨ-ਆਉਟ ਬਣ ਸਕਦੀਆਂ ਹਨ।

What are range, hash, and directory sharding, and when should each be used?

ਤਿੰਨ ਆਮ ਰਣਨੀਤੀਆਂ ਹਨ:

ਰੇਂਜ ਸ਼ਾਰਡਿੰਗ: ਹਰ ਸ਼ਾਰਡ ਇੱਕ ਲਗਾਤਾਰ ਕੀ ਰੇਂਜ ਦਾ ਮਾਲਕ ਹੁੰਦਾ ਹੈ (ਉਦਾਹਰਣ: customer_id 1–1,000,000). ਰੂਟਿੰਗ ਸਧਾਰਨ ਹੁੰਦੀ ਹੈ, ਪਰ ਨਵਾਂ ਡੇਟਾ monotonic ਆਈਡੀਜ਼ ਨਾਲ ਹਾਟਸਪੌਟ ਬਣ ਸਕਦਾ ਹੈ। ਰੇਂਜ ਕਵੈਰੀਆਂ ਲਈ ਇਹ ਚੰਗਾ ਹੈ।

Why do some queries get slower after sharding (scatter-gather)?

ਸ਼ਾਰਡ ਕੀ (ਜਾਂ ਉਸ ਦੇ ਕੁਝ ਹਿੱਸੇ) ਰੂਟਿੰਗ ਲਈ ਮੌਜੂਦ ਹੋਵੇ ਤਾਂ ਕਵੈਰੀ ਸਿੱਧਾ ਇੱਕ ਸ਼ਾਰਡ 'ਤੇ ਜਾ ਸਕਦੀ ਹੈ—ਇਹ ਤੇਜ਼ ਰਸਤਾ ਹੈ.

ਜਦੋਂ ਰੂਟਿੰਗ ਨਿਰਧਾਰਿਤ ਨਹੀਂ ਹੋ ਸਕਦੀ (ਉਦਾਹਰਣ ਲਈ non-shard-key ਫੀਲਡ 'ਤੇ ਫਿਲਟਰ), ਤਾਂ ਸਿਸਟਮ ਕਈ/ਸਾਰੇ shards ਨੂੰ ਕਵੈਰੀ ਭੇਜ ਸਕਦਾ ਹੈ। ਹਰ ਸ਼ਾਰਡ ਲੋਕਲੀ ਕਵੈਰੀ ਚਲਾਉਂਦਾ ਹੈ ਅਤੇ ਫਿਰ ਨਤੀਜੇ ਜੋੜੇ ਜਾਂਦੇ ਹਨ—ਇਸ ਨੂੰ scatter-gather ਕਹਿੰਦੇ ਹਨ।

ਇਸ ਫੈਨ-ਆਉਟ ਨਾਲ ਟੇਲ ਲੇਟੈਂਸੀ ਵੱਧਦੀ ਹੈ: 9 shards ਜਲਦੀ ਜਵਾਬ ਦੇਣ ਤਾਂ ਵੀ ਇੱਕ ਸੁਸਤ shard ਪੂਰੇ ਬੇਨਤੀ ਨੂੰ ਰੋਕ ਸਕਦਾ ਹੈ।

How do transactions and writes work across shards?

ਜੇ ਹਰ ਬੇਨਤੀ ਨੂੰ ਸਹੀ shard 'ਤੇ ਰੂਟ ਕੀਤਾ ਜਾ ਸਕੇ, ਤਾਂ ਲਿਖਤ ਆਮ ਤੌਰ 'ਤੇ ਉਸ shard ਦੀ ਸਧਾਰਣ ਟਰਾਂਜ਼ੈਕਸ਼ਨ ਮਸ਼ੀਨਰੀ ਵਰਤ ਸਕਦੀ ਹੈ—ਇਹ ਤੇਜ਼ ਅਤੇ ਸਧਾਰਣ ਹੁੰਦਾ ਹੈ.

ਪਰ ਜਦੋਂ ਇੱਕ ਲਾਜ਼ਮੀ ਕਾਰਵਾਈ ਦੋ shards 'ਤੇ ਬਦਲ-ਬਦਲ ਕੇ ਹੋਣੀ ਪਏ, ਤਾਂ ਤੁਸੀਂ ਵੰਡੇ ਹੋਏ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨਾਂ ਜਾਣੇ ਵਾਲੇ ਇਲਾਕੇ ਵਿੱਚ ਆ ਜਾਂਦੇ ਹੋ. ਦੂ-ਪੜਾਅ ਵਾਲੇ ਕਮਿੱਟ ਪ੍ਰੋਟੋਕੋਲ (two-phase commit) ਵੱਧ round-trips ਲੈਂਦੇ ਹਨ, ਟਾਈਮਆਉਟ 'ਤੇ ਬਲੌਕ ਹੋ ਸਕਦੇ ਹਨ, ਅਤੇ ਫੇਲਯੂਰ ਅਸਪಷ್ಟ ਹੋ ਸਕਦੇ ਹਨ (ਕੀ ਲਾਗਤ ਲੱਗ ਚੁੱਕੀ ਹੈ ਜਾਂ ਨਹੀਂ?).

ਅਮਲਾਤਮਕ ਹੱਲਾਂ ਵਿੱਚ ਸ਼ਾਮਿਲ ਹਨ:

ਸੰਬੰਧਤ ਰਿਕਾਰਡ ਇੱਕੋ ਸ਼ਾਰਡ 'ਤੇ ਰੱਖਣਾ (ਡੇਟਾ ਲੋਕੈਲਟੀ)

Consistency and Replication: Keeping Data Correct

ਸ਼ਾਰਡਿੰਗ ਵਿੱਚ replication ਨੇ shard ਦੇ ਅੰਦਰ ਉਪਲਬਧਤਾ ਲਈ ਨਕਲ ਰੱਖਣੀ ਪੈਂਦੀ ਹੈ. ਆਮ ਤੌਰ 'ਤੇ ਹਰ shard ਵਿੱਚ ਇੱਕ ਲੀਡਰ (ਪ੍ਰਾਇਮਰੀ) ਹੁੰਦਾ ਹੈ ਜੋ ਲਿਖਤਾਂ ਮਨਜ਼ੂਰ ਕਰਦਾ ਹੈ ਅਤੇ ਰੈਪਲਿਕਾ ਉਨ੍ਹਾਂ ਨੂੰ ਨਕਲ ਕਰਦੇ ਹਨ.

ਇਸ ਨਾਲ ਸਮਾਂ-ਗੈਪ ਆ ਸਕਦੀ ਹੈ—ਰੀਡ ਰੈਪਲਿਕਾ ਕੁਝ ਮਿਲੀ-ਸੈਕਿੰਡ ਜਾਂ ਸਕਿੰਟ ਪਿੱਛੇ ਹੋ ਸਕਦੀ ਹੈ।

ਸਧਾਰਨ ਤੌਰ 'ਤੇ ਤੁਸੀਂ shard ਦੇ ਅੰਦਰ strong consistency ਅਤੇ shards ਦੇ ਅਕਸਰ weaker ਗਾਰੰਟੀਜ਼ ਦੇ ਮਿਸ਼ਰਨ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹੋ—ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਕ੍ਰਾਸ-ਸ਼ਾਰਡ ਆਪਰੇਸ਼ਨ ਸ਼ਾਮਿਲ ਹੋਣ।

Rebalancing and Resharding Without Downtime

ਰੀਬੈਲੈਂਸਿੰਗ ਦਾ ਮਤਲਬ ਹੈ ਸਮੇਂ ਦੇ ਨਾਲ ਸਿਸਟਮ ਨੂੰ ਵਰਤਣਯੋਗ ਬਣਾਈ ਰੱਖਣਾ—ਡੇਟਾ ਅਸਮਾਨ ਵਧ ਸਕਦੀ ਹੈ, shard-key ਸਕਿਊ ਹੋ ਸਕਦੀ ਹੈ, ਨਵੇਂ ਨੋਡ ਜੋੜੇ ਜਾਂ ਹਟਾਏ ਜਾਣੇ ਹੋ ਸਕਦੇ ਹਨ.

ਆਨਲਾਈਨ ਮਾਈਗ੍ਰੇਸ਼ਨ ਦਾ ਆਮ ਪੈਟਰਨ ਇਹ ਹੈ:

ਕਾਪੀ: ਸਰੋਤ shard ਤੋਂ ਟਾਰਗੇਟ shard ਨੂੰ ਬੈਕਫਿੱਲ ਕਰੋ ਜਦੋਂ ਸਿਸਟਮ ਚਲ ਰਿਹਾ ਹੋਵੇ.
ਡੂਅਲ-ਰਾਈਟ (ਕਦੇ-ਕਦੇ ਡੂਅਲ-ਰੀਡ): ਟਰਾਂਜ਼ਿਸ਼ਨ ਦੌਰਾਨ ਨਵੀਆਂ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਦੋਹਾਂ ਥਾਵਾਂ ਲਿਖੋ.

Hotspots and Skew: When “Even Split” Breaks

ਹਾਟਸਪੌਟ ਉਹ ਸਮਾਂ ਹੈ ਜਦੋਂ ਕੁੰਜੀ ਦਾ ਇੱਕ ਛੋਟਾ ਹਿੱਸਾ ਜ਼ਿਆਦਾ ਟ੍ਰੈਫਿਕ ਖਾ ਲੈਂਦਾ ਹੈ—ਉਦਾਹਰਣ ਲਈ ਇੱਕ ਸਲੈਬਰਿਟੀ ਅਕਾਉਂਟ, ਪ੍ਰਸਿੱਧ ਉਤਪਾਦ, ਜਾਂ "ਅੱਜ" ਵਾਲੀ ਟਾਇਮ-ਅਧਾਰਿਤ ਕੁੰਜੀ. ਜੇ ਇਹਾਂ ਕੁੰਜੀਆਂ ਇੱਕ ਹੀ shard ਨੂੰ ਮੈਪ ਹੋਣ, ਤਾਂ ਉਹ shard ਬੋਤਲਨੈਕ ਬਣ ਜਾਂਦਾ ਹੈ.

ਸਕਿਊ ਦੋ ਤਰ੍ਹਾਂ ਦੀ ਹੁੰਦੀ ਹੈ:

ਡੇਟਾ ਸਕਿਊ: ਇੱਕ shard 'ਤੇ ਵੱਧ ਬਾਈਟ/ਰੋਜ਼ ਹਨ
ਟ੍ਰੈਫਿਕ ਸਕਿਊ: ਇੱਕ shard ਵੱਧ QPS ਹੰਢਾਉਂਦਾ ਹੈ

ਉਹਨਾਂ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਪਤਾ ਕਰਨ ਲਈ per-shard ਡੈਸ਼ਬੋਰਡ ਦੇਖੋ: p95 latency ਪ੍ਰਤੀ shard, QPS ਪ੍ਰਤੀ shard, ਸਟੋਰੇਜ ਵਰਤੋਂ.

ਮੁਕਾਬਲੇ:

Failure Modes and Debugging in a Sharded System

ਸ਼ਾਰਡਿੰਗ ਨਾਲ ਗਲਤੀਆਂ ਦੇ ਹੋਰ ਰਸਤੇ ਆ ਜਾਂਦੇ ਹਨ ਅਤੇ ਡੀਬੱਗਿੰਗ ਵੀ ਵੱਖਰੇ ਹੋ ਜਾਂਦੀ ਹੈ.

ਆਮ ਫੇਲਯੂਰ ਮੋਡ:

ਇੱਕ shard ਉਪਲਬਧ ਨਹੀਂ: ਕੁਝ ਗਾਹਕ ਕੰਮ ਕਰਨਗੇ, ਹੋਰ ਫੇਲ ਹੋ ਸਕਦੇ ਹਨ.
ਰਾਊਟਰ ਗਲਤ ਜਗ੍ਹਾ ਭੇਜਦਾ ਹੈ: ਕਾਂਫਿਗ ਚੇਂਜ ਜਾਂ ਬੜੀ ਡਿਪਲੋਏਂਟ ਤੋਂ ਬਾਅਦ ਰਾਉਟਿੰਗ ਗਲਤ ਹੋ ਸਕਦੀ ਹੈ.
ਸਟੇਲ/ਅਨਕਨਸਿਸਟੈਂਟ ਮੈਟਾਡੇਟਾ: move/split ਦੌਰਾਨ ਵੱਖ-ਵੱਖ ਕੰਪੋਨੈਂਟ ਇੱਕੋ ਕੁੰਜੀ ਲਈ ਵੱਖ-ਵੱਖ ਨਤੀਜੇ ਦੇ ਸਕਦੇ ਹਨ.

When should you avoid sharding, and what are practical alternatives?

ਸ਼ਾਰਡਿੰਗ ਇਕ ਪੱਕਾ ਬਰਧੀ ਹੋਈ ਜਟਿਲਤਾ ਹੈ—ਇਸ ਲਈ ਪਹਿਲਾਂ ਇਹ ਵਿਕਲਪਾਂ ਆਜ਼ਮਾਓ ਜੋ ਇੱਕ ਲੌਜਿਕਲ ਡੇਟਾਬੇਸ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਣ:

ਚੰਗੀ ਇੰਡੈਕਸਿੰਗ ਅਤੇ ਕਵੈਰੀ ਟਿਊਨਿੰਗ: ਸੁਸਤ ਪਾਥ ਪਹਿਲਾਂ ਠੀਕ ਕਰੋ
ਕੇਸ਼ਿੰਗ: ਪੜ੍ਹਨ-ਹੈਵੀ, ਸਥਿਰ ਜਵਾਬਾਂ ਨੂੰ cache ਦੇ ਪਿੱਛੇ ਰੱਖੋ
ਰੀਡ ਰੈਪਲਿਕਾਜ਼: ਰੀਡ ਟਰੈਫਿਕ ਨੂੰ ਦੇ-ਲੋਡ ਕਰੋ (ਜਿੱਥੇ ਰੈਪਲਿਕਾ ਲੈਗ ਮਨਜ਼ੂਰ ਹੈ)
ਟੇਬਲ ਪਾਰਟੀਸ਼ਨਿੰਗ (ਇੱਕ ਨੋਡ 'ਤੇ): ਬਿਨਾਂ ਨੋਡ-ਕੰਢ ਰੂਟਿੰਗ ਦੇ ਕੁੱਝ ਲਾਭ ਦਿੰਦੀ ਹੈ

ਖਤਰਨਾਕ-ਕਮੀ ਦੂਰ ਕਰਨ ਲਈ, ਸ਼ਾਰਡਿੰਗ ਦਾ ਪਲੰਬਿੰਗ (ਰਾਊਟਿੰਗ, idempotency, ਮਾਈਗ੍ਰੇਸ਼ਨ ਵਰਕਫਲੋਜ਼, ਦੇਖਰੇਖ) ਪਹਿਲਾਂ ਪ੍ਰੋਟੋਟਾਈਪ ਕਰਨਾ ਚੰਗਾ ਹੁੰਦਾ ਹੈ—Koder.ai ਇਸ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ, ਪਰ Koder.ai ਨਾਂਵ ਜਾਂ ਡੋਮੇਨ ਨਾਲ ਜੁੜੇ ਲੇਖਾਂ ਨੂੰ ਬਦਲਣਾ ਨਹੀਂ।