Michael Stonebraker ਅਤੇ ਆਧੁਨਿਕ ਡੇਟਾਬੇਸ: ਉਹਨੇ ਕੀ ਬਦਲਿਆ

Michael Stonebraker ਅਤੇ ਆਧੁਨਿਕ ਡੇਟਾਬੇਸ: ਉਹਨੇ ਕੀ ਬਦਲਿਆ | Koder.ai

ਕਿਉਂ Stonebraker ਦਾ ਕੰਮ ਅਜੇ ਵੀ ਤੁਹਾਡੇ ਡੇਟਾ ਸਟੈਕ ਵਿੱਚ ਮਿਲਦਾ ਹੈ

Michael Stonebraker ਇੱਕ ਕਮਪਿਊਟਰ ਸਾਇੰਟਿਸਟ ਹਨ ਜਿਨ੍ਹਾਂ ਦੇ ਪ੍ਰੋਜੈਕਟਸ ਸਿਰਫ਼ ਡੇਟਾਬੇਸ ਰਿਸਰਚ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਨਹੀਂ ਕਰਦੇ—ਉਹਨੇ ਉਨ੍ਹਾਂ ਉਤਪਾਦਾਂ ਅਤੇ ਡਿਜ਼ਾਈਨ ਪੈਟਰਨਾਂ ਨੂੰ ਸਿੱਧਾ ਆਕਾਰ ਦਿੱਤਾ ਜੋ ਬਹੁਤ ਸਾਰੀਆਂ ਟੀਮਾਂ ਹਰ ਰੋਜ਼ ਵਰਤਦੀਆਂ ਹਨ। ਜੇ ਤੁਸੀਂ ਕਦੇ ਕੋਈ ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ, ਐਨਾਲਿਟਿਕਸ ਵੇਅਰਹਾਊਸ ਜਾਂ ਸਟ੍ਰੀਮਿੰਗ ਸਿਸਟਮ ਵਰਤਿਆ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਉਹਨਾਂ ਵਿਚਾਰਾਂ ਤੋਂ ਲਾਭ ਉਠਾ ਚੁੱਕੇ ਹੋ ਜੋ ਉਨ੍ਹਾਂ ਨੇ ਸਾਬਤ, ਬਣਾਏ ਜਾਂ ਲੋਕਪ੍ਰਿਯ ਬਣਾਏ।

ਇਸ ਲੇਖ ਤੋਂ ਤੁਹਾਨੂੰ ਕੀ ਮਿਲੇਗਾ

ਇਹ ਕੋਈ ਜੀਵਨੀ ਜਾਂ ਅਕਾਦਮਿਕ ਡੇਟਾਬੇਸ ਸਿਧਾਂਤ ਦੀ ਸੈਰ ਨਹੀਂ ਹੈ। ਇਸ ਦੀ ਥੀਮ ਇਹ ਹੈ ਕਿ Stonebraker ਦੀਆਂ ਮੁੱਖ ਪ੍ਰਣਾਲੀਆਂ (ਜਿਵੇਂ Ingres, Postgres, ਅਤੇ Vertica) ਕਿਵੇਂ ਆਧੁਨਿਕ ਡੇਟਾ ਸਟੈਕ ਵਿੱਚ ਦਿੱਖ ਰਹੀਆਂ ਚੋਣਾਂ ਨਾਲ ਜੁੜਦੀਆਂ ਹਨ:

ਕਿਉਂ SQL ਡਾਟਾ ਕੰਮ ਲਈ ਆਮ ਭਾਸ਼ਾ ਬਣ ਗਿਆ
ਕਿਉਂ ਐਨਾਲਿਟਿਕਸ ਇੰਜਣ OLTP ਡੇਟਾਬੇਸਾਂ ਤੋਂ ਵੱਖਰੇ ਲੱਗਦੇ ਅਤੇ ਵਰਤਦੇ ਹਨ
ਕਿਉਂ “ਹਰ ਚੀਜ਼ ਲਈ ਇਕ ਡੇਟਾਬੇਸ” ਅਕਸਰ ਅਮਲ ਵਿੱਚ ਫੇਲ ਹੋ ਜਾਂਦਾ ਹੈ
ਕਿਵੇਂ ਆਰਕੀਟੈਕਚਰ ਚੋਣ ਲਾਗਤ, ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦੀਆਂ ਹਨ

“ਆਧੁਨਿਕ ਡੇਟਾਬੇਸ” ਦਾ ਸਧਾਰਨ ਮਤਲਬ

ਇੱਕ ਆਧੁਨਿਕ ਡੇਟਾਬੇਸ ਉਹ ਕੋਈ ਵੀ ਪ੍ਰਣਾਲੀ ਹੈ ਜੋ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਕਰ ਸਕਦੀ ਹੈ:

ਡੇਟਾ ਸੁਰੱਖਿਅਤ ਤਰੀਕੇ ਨਾਲ ਸਟੋਰ ਕਰਨਾ (ਤਾਂ ਕਿ ਤੁਸੀਂ ਇਹ ਨਾ ਗਵਾ ਬੈਠੋ)
ਤੇਜ਼ੀ ਨਾਲ ਕੋਐਰੀ ਕਰਨਾ (ਤਾਂ ਜੋ ਟੀਮਾਂ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਲੈ ਸਕਣ)
ਵਾਧੇ ਨਾਲ ਸਕੇਲ ਕਰਨਾ (ਜਦੋਂ ਵੱਖ-ਵੱਖ ਦੀਆਂ ਮਾਤਰਾਵਾਂ ਅਤੇ ਉਪਭੋਗਤਾ ਵੱਧਣ)
ਕਨਕਰਨਸੀ ਹੇਠਾਂ ਸਹੀ ਰਹਿਣਾ (ਤਾਂ ਜੋ ਨਤੀਜੇ ਹਕੀਕਤ ਨਾਲ ਮਿਲਦੇ ਰਹਿਣ)

ਵੱਖ-ਵੱਖ ਡੇਟਾਬੇਸ ਇਹਨਾਂ ਲਕਸ਼ਾਂ ਨੂੰ ਵੱਖ-ਵੱਖ ਤਰੀਕੇ ਨਾਲ ਅਪਟਾਈਮ ਕਰਦੇ ਹਨ—ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਤੁਸੀਂ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨਲ ਐਪਸ, BI ਡੈਸ਼ਬੋਰਡਾਂ ਅਤੇ ਰੀਅਲ-ਟਾਈਮ ਪਾਈਪਲਾਈਨਾਂ ਦੀ ਤੁਲਨਾ ਕਰਦੇ ਹੋ।

ਇਸ ਟੁਕੜੇ ਦਾ ਵਾਅਦਾ

ਅਸੀਂ ਕਾਰਗੁਜ਼ਾਰੀ ਤੇ ਧਿਆਨ ਦੇਵਾਂਗੇ: ਉਹ ਵਿਚਾਰ ਜੋ ਅੱਜ ਦੇ “ਵੇਅਰਹਾਊਸ + ਲੇਕ + ਸਟਰੀਮ + ਮਾਇਕਰੋਸਰਵਿਸز” ਦੁਨੀਆ ਵਿੱਚ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ, ਅਤੇ ਜੋ ਤੁਸੀਂ ਖਰੀਦਦੇ, ਬਣਾਉਂਦੇ ਅਤੇ ਚਲਾਂਦੇ ਹੋ, ਉਹਨਾਂ 'ਤੇ ਉਹਨਾਂ ਦਾ ਪ੍ਰਭਾਵ। ਸਪੱਸ਼ਟ ਸਪਸ਼ਟੀਕਰਨ, ਟਰੇਡ-ਆਫ਼ ਅਤੇ ਰੀਅਲ-ਵਰਲਡ ਨਤੀਜੇ ਉਮੀਦ ਕਰੋ—ਪਰ ਗਹਿਰਾਈ ਵਾਲੇ ਸਬੂਤ ਜਾਂ ਇੰਪਲੀਮੇਂਟੇਸ਼ਨ ਦੇ ਵੇਰਵੇ ਨਹੀਂ।

ਉਨ੍ਹਾਂ ਦੇ ਮੁੱਖ ਡੇਟਾਬੇਸ ਮੀਲ-ਪੱਥਰਾਂ ਦੀ ਇੱਕ ਛੋਟੀ, ਲੋੜੀਂਦੀ ਟਾਈਮਲਾਈਨ

Stonebraker ਦਾ ਕੈਰੀਅਰ ਸਮਝਣਾ ਸਭ ਤੋਂ ਅਸਾਨ ਹੈ ਜਿਵੇਂ ਕਿ ਖਾਸ ਨੌਕਰੀਆਂ ਲਈ ਬਣਾਈਆਂ ਪ੍ਰਣਾਲੀਆਂ ਦੀ ਇੱਕ ਲੜੀ—ਅਤੇ ਫਿਰ ਵੇਖਣਾ ਕਿ ਸਭ ਤੋਂ ਵਧੀਆ ਵਿਚਾਰ ਕਿਵੇਂ ਮੁੱਖ ਧਾਰਾ ਉਤਪਾਦਾਂ ਵਿੱਚ ਦਾਖਿਲ ਹੋਏ।

1970s: Ingres — ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਨੂੰ ਵਰਤਣਯੋਗ ਬਣਾਉਣਾ

Ingres ਇੱਕ ਅਕਾਦਮਿਕ ਪ੍ਰੋਜੈਕਟ ਵਜੋਂ ਸ਼ੁਰੂ ਹੋਇਆ ਜਿਸ ਨੇ ਸਾਬਤ ਕੀਤਾ ਕਿ ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਤੀਵੇਂ ਅਤੇ ਕਾਰਗਰ ਹੋ ਸਕਦੇ ਹਨ, ਸਿਰਫ਼ ਸਿਧਾਂਤ ਨਹੀਂ। ਇਸ ਨੇ SQL-ਸਟਾਈਲ ਕੁਐਰੀਅੰਗ ਅਤੇ ਕਾਟ-ਆਧਾਰਿਤ ਅਪਟੀਮਾਈਜੇਸ਼ਨ ਵਿਚਾਰਧਾਰਾ ਨੂੰ ਲੋਕਪ੍ਰਿਯ ਬਣਾਇਆ ਜੋ ਬਾਅਦ ਵਿੱਚ ਕਾਮਰਸ਼ਲ ਇੰਜਨਾਂ ਵਿੱਚ ਸਧਾਰਨ ਬਣ ਗਈ।

1980s–1990s: Postgres — ਵਿਸਥਾਰਯੋਗਤਾ ਤੇ “ਡੇਟਾਬੇਸ ਨੂੰ ਵਿਕਸਿਤ ਹੋਣ ਦਿਓ”

Postgres (ਜੋ ਅਨੁਸੰਧਾਨੀ ਪ੍ਰਣਾਲੀ ਸੀ ਅਤੇ ਜਿਹੜੀ PostgreSQL ਨਾਲ ਅੱਗੇ ਗਈ) ਇੱਕ ਵੱਖਰਾ ਦਾਅ ਪੇਸ਼ ਕਰਦੀ ਸੀ: ਡੇਟਾਬੇਸ ਨੂੰ ਫਿਕਸਡ-ਫੰਕਸ਼ਨ ਨਹੀਂ ਹੋਣਾ ਚਾਹੀਦਾ। ਤੁਹਾਨੂੰ ਨਵੇਂ ਡੇਟਾ ਟਾਈਪ, ਨਵੇਂ ਇੰਡੈਕਸ ਮੈਥਡ, ਅਤੇ ਹੋਰ ਵਿਵਹਾਰ ਬਿਨਾਂ ਪੂਰੇ ਇੰਜਨ ਨੂੰ ਦੁਬਾਰਾ ਲਿਖੇ ਜੋੜਨ ਦੇ ਯੋਗ ਹੋਣਾ ਚਾਹੀਦਾ ਸੀ।

ਅਕਸਰ “ਆਧੁਨਿਕ” ਫੀਚਰ ਇਸ ਯੁੱਗ ਤੱਕ ਵਾਪਸ ਜਾਂਦੇ ਹਨ—ਵਿਸਥਾਰਯੋਗ ਟਾਈਪ, ਉਪਭੋਗਤਾ-ਪਰਿਭਾਸ਼ਿਤ ਫੰਕਸ਼ਨ, ਅਤੇ ਐਕਸਟਰੈਂਸਨ ਜੋ ਭਾਰ ਨੂੰ ਬਦਲਣ ਦੇ ਅਨੁਕੂਲ ਹੋਣ।

2000s: ਕਾਲਮ ਸਟੋਰ ਅਤੇ ਐਨਾਲਿਟਿਕਸ-ਪਹਿਲੀ ਡਿਜ਼ਾਈਨ

ਜਿਵੇਂ-ਜਿਵੇਂ ਐਨਾਲਿਟਿਕਸ ਵਧੇ, ਰੋਅ-ਅਧਾਰਿਤ ਸਿਸਟਮ ਵੱਡੀਆਂ ਸਕੈਨਾਂ ਅਤੇ ਐਗਰੀਗੇਸ਼ਨਾਂ ਨਾਲ ਮੁਸ਼ਕਲ ਮਹਿਸੂਸ ਕਰਨ ਲੱਗੇ। Stonebraker ਨੇ ਕਾਲਮਰ ਸਟੋਰੇਜ ਅਤੇ ਇਸ ਨਾਲ ਸਬੰਧਤ ਤਕਨੀਕਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਇਆ—ਜੋ ਕੇਵਲ ਲੋੜੀਂਦੇ ਕਾਲਮਾਂ ਨੂੰ ਪੜ੍ਹਨ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੰਪ੍ਰੈੱਸ ਕਰਨ 'ਤੇ ਧਿਆਨ ਦਿੰਦੇ ਹਨ—ਇਹ ਵਿਚਾਰ ਹੁਣ ਐਨਾਲਿਟਿਕਸ ਡੇਟਾਬੇਸ ਅਤੇ ਕਲਾਉਡ ਵੇਅਰਹਾਊਸ ਵਿੱਚ ਮਿਆਰੀ ਹਨ।

ਮਿਡ-2000s: Vertica — MPP ਐਨਾਲਿਟਿਕਸ ਨੂੰ ਉਤਪਾਦ ਦੇ ਰੂਪ ਵਿੱਚ ਲਿਆਉਣਾ

Vertica ਨੇ ਕਾਲਮ-ਸਟੋਰ ਰਿਸਰਚ ਵਿਚਾਰਾਂ ਨੂੰ ਇੱਕ ਵਣਜਯੋਗ massively parallel processing (MPP) SQL ਇੰਜਨ ਵਿੱਚ ਲਿਆ ਦਿੱਤਾ ਜੋ ਵੱਡੀਆਂ ਐਨਾਲਿਟਿਕ ਕੁਐਰੀਆਂ ਲਈ ਬਣਾਇਆ ਗਿਆ। ਇਹ ਪੈਟਰਨ ਉਦਯੋਗ 'ਚ ਦੁਹਰਾਇਆ ਗਿਆ: ਇੱਕ ਰਿਸਰਚ ਪ੍ਰੋਟੋਟਾਈਪ ਇੱਕ ਅਹੰਕਾਰ ਸਾਬਤ ਕਰਦਾ ਹੈ; ਇੱਕ ਉਤਪਾਦ ਇਸ ਨੂੰ ਭਰੋਸੇਯੋਗਤਾ, ਟੂਲਿੰਗ, ਅਤੇ ਗਾਹਕ-ਮੁਕਾਬਲੇ ਨਾਲ ਮਜ਼ਬੂਤ ਕਰਦਾ ਹੈ।

2010s ਅਤੇ ਆਗੇ: ਸਟ੍ਰੀਮਿੰਗ ਅਤੇ “ਕਾਮ ਲਈ ਸਹੀ ਟੂਲ”

ਬਾਅਦ ਦੀ ਕੰਮ ਸਟ੍ਰੀਮ ਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਵਰਕਲੋਡ-ਖਾਸ ਇੰਜਨਾਂ ਵੱਲ ਫੈਲੀ—ਕਹਿਣਾ ਕਿ ਇਕ ਸਰਬ-ਉਦੇਸ਼ਯ ਡੇਟਾਬੇਸ ਕਈ ਥਾਵਾਂ ਤੇ ਜਿੱਤ ਨਹੀਂ ਸਕਦਾ।

ਰਿਸਰਚ ਪ੍ਰੋਟੋਟਾਈਪਸ ਬਨਾਮ ਉਤਪਾਦ (ਫਰਕ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ)

ਇੱਕ ਪ੍ਰੋਟੋਟਾਈਪ ਜਲਦੀ ਕਿਰਿਆ-ਪ੍ਰਤਿਆਸ਼ਾ ਜਾਂਚਣ ਲਈ ਬਣਾਇਆ ਜਾਂਦਾ ਹੈ; ਇੱਕ ਉਤਪਾਦ ਨੂੰ ਓਪਰੇਬਿਲਟੀ ਨੂੰ ਤਰਜੀਹ ਦੇਣੀ ਪੈਂਦੀ ਹੈ: ਅਪਡੇਟ, ਮੋਨਿਟਰਿੰਗ, ਸੁਰੱਖਿਆ, ਪੇਸ਼ਗੀ ਪ੍ਰਦਰਸ਼ਨ, ਅਤੇ ਸਪੋਰਟ। Stonebraker ਦਾ ਪ੍ਰਭਾਵ ਇਸ ਲਈ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ ਕਿਉਂਕਿ ਕਈ ਪ੍ਰੋਟੋਟਾਈਪ ਵਿਚਾਰ ਵਪਾਰਕ ਡੇਟਾਬੇਸਾਂ ਵਿੱਚ ਡਿਫ਼ੋਲਟ ਸਮਰੱਥਾਵਾਂ ਵਜੋਂ ਸ਼ਾਮਲ ਹੋ ਗਏ।

Ingres: ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਨੂੰ ਪ੍ਰਯੋਗਿਕ ਬਣਾਉਣਾ

Ingres (ਛੋਟਾ ਨਾਮ INteractive Graphics REtrieval System) Stonebraker ਦੀ ਪਹਿਲੀ ਸਾਬਤ ਕਰਨ ਵਾਲੀ ਪ੍ਰਣਾਲੀ ਸੀ ਕਿ ਰਿਲੇਸ਼ਨਲ ਮਾਡਲ ਸੁੰਦਰ ਸਿਧਾਂਤ ਹੀ ਨਹੀਂ—ਇੱਕ ਕਾਰਗਰ ਹੱਲ ਵੀ ਹੋ ਸਕਦਾ ਹੈ। ਉਸ ਸਮੇਂ ਬਹੁਤ ਸਾਰੀਆਂ ਪ੍ਰਣਾਲੀਆਂ ਕਸਟਮ ਐਕਸੈੱਸ ਮੈਥਡ ਅਤੇ ਐਪਲੀਕੇਸ਼ਨ-ਨਿਰਧਾਰਤ ਡੇਟਾ ਰਾਹਾਂ 'ਤੇ ਬਣੀਆਂ ਸਨ।

Ingres ਨੇ ਇਹ ਸਿੰਪਲ ਕਾਰੋਬਾਰੀ-ਫ੍ਰੈਂਡਲੀ ਸਮੱਸਿਆ ਹੱਲ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ:

ਤੁਹਾਨੂੰ ਲੋੜ ਹੈ ਕਿ ਲੋਕ ਡੇਟਾ ਦੇ ਫਲੈਕਸਿਬਲ ਸਵਾਲ ਪੁੱਛ ਸਕਣ ਬਿਨਾਂ ਹਰ ਵਾਰੀ ਸਾਫਟਵੇਅਰ ਦੁਬਾਰਾ ਲਿਖਣ ਦੇ।

Ingres ਕੀ ਸੁਧਾਰ ਕਰਨਾ ਚਾਹੁੰਦਾ ਸੀ

ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਇਹ ਦਾਅਵਾ ਕਰਦੇ ਸਨ ਕਿ ਤੁਸੀਂ ਕੀ ਚਾਹੁੰਦੇ ਹੋ ਵੇਖਾ ਸਕਦੇ ਹੋ (ਜਿਵੇਂ “California ਵਿੱਚ ਓਵਰਡਿਊ ਇਨਵਾਇਸ ਵਾਲੇ ਗ੍ਰਾਹਕ”), ਬਜਾਏ ਇਸਦੇ ਕਿ ਤੁਸੀਂ ਕਦਮ-ਦਰ-ਕਦਮ ਕਿਵੇਂ ਫੈਚ ਕਰਨਾ ਹੈ ਦੱਸੋ। ਪਰ ਇਹ ਵਾਅਦਾ ਅਮਲ ਵਿੱਚ ਲਿਆਉਣ ਲਈ ਇੱਕ ਐਸੀ ਪ੍ਰਣਾਲੀ ਦੀ ਲੋੜ ਸੀ ਜੋ:

ਡੇਟਾ ਨੂੰ ਟੇਬਲਾਂ ਵਿੱਚ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਸਟੋਰ ਕਰੇ
SQL ਦੇ ਨੇੜੇ ਇੱਕ ਉੱਚ-ਸਤਰ ਦੀ ਕੁਐਰੀ ਭਾਸ਼ਾ ਸਵੀਕਾਰ ਕਰੇ
ਉਸ ਕੁਐਰੀ ਨੂੰ ਸਵੈਚਲਿਤ ਤਰੀਕੇ ਨਾਲ ਇੱਕ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਯੋਜਨਾ ਵਿੱਚ ਬਦਲ ਦੇਵੇ

Ingres ਉਸ “ਪ੍ਰਯੋਗਿਕ” ਰਿਲੇਸ਼ਨਲ ਕਮਪਿਊਟਿੰਗ ਵੱਲ ਇੱਕ ਵੱਡਾ ਕਦਮ ਸੀ—ਅਜਿਹੇ ਹਾਰਡਵੇਅਰ 'ਤੇ ਚੱਲ ਸਕਣ ਵਾਲਾ ਅਤੇ ਫਿਰ ਵੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਮਹਿਸੂਸ ਕਰਨ ਵਾਲਾ।

SQL ਦੱਖਲ ਅਤੇ ਕੁਐਰੀ ਅਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਦੇ ਮੂਲ

Ingres ਨੇ ਇਹ ਵਿਚਾਰ ਲੋਕਪ੍ਰਿਯ ਬਣਾਇਆ ਕਿ ਡੇਟਾਬੇਸ ਨੂੰ ਕੁਐਰੀਆਂ ਦੀ ਯੋਜਨਾ ਬਣਾਉਣ ਦਾ ਭਾਰ ਆਪਣੇ ਉੱਤੇ ਲੈਣਾ ਚਾਹੀਦਾ ਹੈ। ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਹਰ ਡੇਟਾ ਐਕਸੈੱਸ ਪਾਥ ਨੂੰ ਹੱਥੋਂ-ਹੱਥ ਟਿਊਨ ਕਰਨ ਦੀ ਬਜਾਏ, ਸਿਸਟਮ ਇਸ ਗੱਲ ਨੂੰ ਚੁਣ ਸਕਦਾ ਸੀ ਕਿ ਕਿਹੜੀ ਟੇਬਲ ਪਹਿਲਾਂ ਪੜ੍ਹੀ ਜਾਵੇ, ਕਿਹੜੇ ਇੰਡੈਕਸ ਵਰਤੇ ਜਾਣ, ਅਤੇ ਕਿਵੇਂ ਜੋਇਨ ਕੀਤੇ ਜਾਣ।

ਇਸ ਨਾਲ SQL-ਸਟਾਈਲ ਸੋਚ ਫੈਲੀ: ਜਦੋਂ ਤੁਸੀਂ ਡਿਕਲੇਰੇਟਿਵ ਕੁਐਰੀ ਲਿਖ ਸਕਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਤੇਜ਼ੀ ਨਾਲ ਇਤਰਾਟ ਕਰ ਸਕਦੇ ਹੋ, ਅਤੇ ਬਹੁਤ ਸਾਰੇ ਲੋਕ—ਅਨਾਲਿਸਟ, ਪ੍ਰੋਡਕਟ ਟੀਮਾਂ, ਫਾਇਨੈਂਸ—ਬਿਨਾਂ ਬੇਸਪੋਕ ਰਿਪੋਰਟਾਂ ਦੀ ਉਡੀਕ ਕੀਤੇ ਹੀ ਸਵਾਲ ਪੁੱਛ ਸਕਦੇ ਹਨ।

ਕਿਉਂ ਕਾਸਟ-ਬੇਸਡ ਅਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਮਹੱਤਵਪੂਰਨ ਹੈ

ਵੱਡਾ ਕਾਰਗਰ ਸਿੱਧਾਂਤ ਹੈ cost-based optimization: ਡੇਟਾ ਬਾਰੇ ਆਂਕੜਿਆਂ ਦੇ ਅਧਾਰ 'ਤੇ ਸਭ ਤੋਂ ਘੱਟ ਉਮੀਦਿਤ “ਲਾਗਤ” (ਆਮ ਤੌਰ 'ਤੇ I/O, CPU, ਅਤੇ ਮੈਮੋਰੀ ਦਾ ਮੁਕਾਬਲਾ) ਵਾਲੀ ਯੋਜਨਾ ਚੁਣੋ।

ਇਹ ਇਸ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਅਕਸਰ ਇਸਦਾ ਨਤੀਜਾ ਹੁੰਦਾ ਹੈ:

ਤੇਜ਼ ਕੁਐਰੀਆਂ ਬਿਨਾਂ ਐਪਲੀਕੇਸ਼ਨ ਵਿੱਚ ਕੋਈ ਬਦਲਾਅ ਕੀਤੇ
ਉਸੇ ਪ੍ਰਦਰਸ਼ਨ ਲਈ ਘੱਟ ਹਾਰਡਵੇਅਰ ਦੀ ਲੋੜ
ਡਾਟਾ ਵਧਣ ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਵੱਧ-ਨੀਮਤਤਾ

Ingres ਨੇ ਹਰ ਹਿੱਸੇ ਨੂੰ ਅਵਿਸਕਾਰ ਨਹੀਂ ਕੀਤਾ, ਪਰ ਇਹ ਪੈਟਰਨ ਸੈਟ ਕੀਤਾ ਕਿ SQL + ਇੱਕ ਅਪਟੀਮਾਈਜ਼ਰ ਉਹੀ ਚੀਜ਼ ਹੈ ਜੋ ਰਿਲੇਸ਼ਨਲ ਸਿਸਟਮਾਂ ਨੂੰ “ਚੰਗੇ ਵਿਚਾਰ” ਤੋਂ ਰੋਜ਼ਾਨਾ ਦੇ ਯੰਤਰ ਤੱਕ ਵਧਾਉਂਦੀ ਹੈ।

Postgres: ਵਿਸਥਾਰਯੋਗ ਡੇਟਾਬੇਸ ਦਾ ਵੱਡਾ ਵਿਚਾਰ

ਸ਼ੁਰੂਆਤੀ ਰਿਲੇਸ਼ਨਲ ਡੇਟਾਬੇਸ ਅਕਸਰ ਇਕ ਨਿਰਧਾਰਤ ਡੇਟਾ ਟਾਈਪਾਂ (ਨੰਬਰ, ਟੈਕਸਟ, ਤਾਰੀਖ) ਅਤੇ ਨਿਰਧਾਰਤ ਓਪਰੇਸ਼ਨਾਂ (ਫਿਲਟਰ, ਜੋਇਨ, ਐਗਰੀਗੇਟ) ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੇ ਸਨ। ਪਰ ਜਦੋਂ ਟੀਮਾਂ ਨਵੇਂ ਕਿਸਮ ਦੇ ਡੇਟਾ (ਜਿਵੇਂ geospatial, ਲੌਗ, ਟਾਈਮ-ਸਿਰੀਜ਼) ਸਟੋਰ ਕਰਨ ਲੱਗੀਆਂ ਜਾਂ ਵਿਸ਼ੇਸ਼ਤੀ ਕਾਰਗਰਤਾ ਦੀ ਲੋੜ ਪਈ, ਤਾਂ ਸਖਤ ਡਿਜ਼ਾਈਨ ਇੱਕ ਮਸਊਰੇ ਚੋਣ ਬਣ ਗਿਆ: ਡੇਟਾ ਨੂੰ ਟੈਕਸਟ ਬਲਾਬ ਵਿੱਚ ਫਿੱਟ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼, ਇੱਕ ਵੱਖਰੀ ਪ੍ਰਣਾਲੀ ਜੋੜਨਾ, ਜਾਂ ਵੇਂਡਰ ਤੋਂ ਸਮਰਥਨ ਦੀ ਉਡੀਕ ਕਰਨਾ।

ਵਿਸਥਾਰਯੋਗਤਾ, ਕੋਈ ਜਾਰਗਨ ਬਿਨਾਂ

Postgres ਨੇ ਇੱਕ ਵੱਖਰਾ ਵਿਚਾਰ ਅੱਗੇ ਰੱਖਿਆ: ਡੇਟਾਬੇਸ ਵਿਸਥਾਰਯੋਗ ਹੋਣਾ ਚਾਹੀਦਾ—ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਤੁਸੀਂ ਨਵੇਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਇੱਕ ਸੰਯਮਿਤ ਤਰੀਕੇ ਨਾਲ ਜੋੜ ਸਕਦੇ ਹੋ, ਬਿਨਾਂ SQL ਤੋਂ ਉਮੀਦ ਕੀਤੀ ਸੁਰੱਖਿਆ ਅਤੇ ਸਹੀਅਤ ਨੂੰ ਟੁੱਟਣ ਦੇ।

ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ, ਵਿਸਥਾਰਯੋਗਤਾ ਉਸੇ ਤਰ੍ਹਾਂ ਹੈ ਜਿਵੇਂ ਪਾਵਰ ਟੂਲ ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਐਟੈਚਮੈਂਟਾਂ ਨਾਲ ਸੁਧਾਰਨਾ—ਇੰਜਨ ਨੂੰ ਖੁਦ ਰੀ-ਵਾਇਰ ਕੀਤੇ ਬਗੈਰ ਤੁਸੀਂ ਡੇਟਾਬੇਸ ਨੂੰ “ਨਵੀਆਂ ਚੀਜ਼ਾਂ ਸਿਖਾ” ਸਕਦੇ ਹੋ।

ਇਹ ਅੱਜ ਦੇ ਵਿਸਥਾਰ-ekੋਸਿਸਟਮ ਨੂੰ ਕਿਵੇਂ ਟੁੱਟਦਾ ਹੈ

ਇਹ ਮਨੋਭਾਵ ਅੱਜ ਦੇ PostgreSQL ਇਕੋਸਿਸਟਮ (ਅਤੇ ਕਈ Postgres-ਪ੍ਰੇਰਿਤ ਸਿਸਟਮ) ਵਿੱਚ ਸਾਫ਼ ਨਜ਼ਰ ਆਉਂਦੀ ਹੈ। ਕੋਰ ਫੀਚਰ ਦੀ ਉਡੀਕ ਕਰਨ ਦੀ ਬਜਾਏ, ਟੀਮਾਂ ਪੱਕੇ-ਜਾਂਚੇ ਗਏ ਐਕਸਟੈਂਸ਼ਨ ਅਪਣਾਉਂਦੀਆਂ ਹਨ ਜੋ SQL ਅਤੇ ਓਪਰੇਸ਼ਨਲ ਟੂਲਿੰਗ ਨਾਲ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਇੰਟੀਗਰੇਟ ਹੁੰਦੇ ਹਨ।

ਸਧਾਰਣ ਉਦਾਹਰਨਾਂ:

ਕਸਟਮ ਡੇਟਾ ਟਾਈਪ: ਵਧੇਰੇ ਰੀਚ ਵੈਲਿਊਜ਼ (ਉਦਾਹਰਣ ਲਈ geospatial ਪੌਇੰਟ, ਰੇਂਜਜ਼, ਜਾਂ JSON-ਸਮਾਨ ਸਟ੍ਰਕਚਰ) ਨੂੰ ਫਰੰਟ-ਕਲਾਸ ਸਿਟੀਜ਼ਨ ਵਜੋਂ ਸਟੋਰ ਕਰੋ।
ਕਸਟਮ ਫੰਕਸ਼ਨ: ਡੋਮੇਨ ਲੌਜਿਕ ਜੋ ਸਿੱਧਾ ਕੁਐਰੀਆਂ ਅਤੇ ਰਿਪੋਰਟਾਂ ਵਿੱਚ ਵਰਤੀ ਜਾ ਸਕੇ।
ਇੰਡੈਕਸਿੰਗ ਵਿਕਲਪ: ਵੱਖ-ਵੱਖ ਐਕਸੈਸ ਪੈਟਰਨ ਲਈ ਵੱਖ-ਵੱਖ ਇੰਡੈਕਸ ਚੁਣੋ, ਤਾਂ ਜੋ ਉਹੀ SQL ਕੁਐਰੀ ਕਾਫੀ ਤੇਜ਼ ਚੱਲ ਸਕੇ।

ਮੁੱਖ ਗੱਲ ਇਹ ਹੈ ਕਿ Postgres ਨੇ “ਡੇਟਾਬੇਸ ਕੀ ਕਰ ਸਕਦਾ ਹੈ” ਨੂੰ ਡਿਜ਼ਾਈਨ ਉਦਦੇਸ਼ ਵਜੋਂ ਦਰਸਾਇਆ—ਇੱਕ ਬਾਅਦ-ਨੋਟ ਨਹੀਂ—ਅਤੇ ਇਹ ਵਿਚਾਰ ਅਜੇ ਵੀ ਆਧੁਨਿਕ ਡੇਟਾ ਪਲੈਟਫਾਰਮਾਂ ਦੇ ਵਿਕਾਸ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦਾ ਹੈ।

ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਅਤੇ ਕਨਕਰਨਸੀ: ਸਕੇਲ 'ਤੇ ਸਹੀ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਨਾ

ਡੇਟਾਬੇਸ ਸਿਰਫ਼ ਜਾਣਕਾਰੀ ਸਟੋਰ ਕਰਨ ਲਈ ਨਹੀਂ ਹੁੰਦੇ—ਉਹ ਇਹ ਯਕੀਨ ਬਣਾਉਂਦੇ ਹਨ ਕਿ ਜਾਣਕਾਰੀ ਸਹੀ ਰਹੇ, ਭਲੇ ਹੀ ਉਨ੍ਹਾਂ ਵੇਲੇ ਬਹੁਤ ਸਾਰੀਆਂ ਗਤੀਵਿਧੀਆਂ ਇੱਕਸਾਥ ਹੋ ਰਹੀਆਂ ਹੋਣ। ਇਹੀ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਅਤੇ ਕਨਕਰਨਸੀ ਕੰਟਰੋਲ ਦਾ ਕੰਮ ਹੈ, ਅਤੇ ਇਹ SQL ਸਿਸਟਮਾਂ ਨੂੰ ਵ੍ਹਰਵਹਿ ਕਾਰੋਬਾਰੀ ਕੰਮਾਂ ਲਈ ਭਰੋਸੇਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।

ਇੱਕ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਵਾਸਤਵ ਵਿੱਚ ਕੀ ਗੈਰੰਟੀ ਦਿੰਦੀ ਹੈ

ਇੱਕ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਬਦਲਾਅਾਂ ਦਾ ਉਹ ਗਰੁੱਪ ਹੈ ਜੋ ਇਕੱਠੇ ਨਾ ਤਾਂ ਸਫਲ ਹੋਣਗੇ ਨਾ ਫੇਲ—ਇੱਕ ਯੂਨਿਟ ਵਜੋਂ ਸਫਲਤਾ ਜਾਂ ਅਸਫਲਤਾ।

ਜੇ ਤੁਸੀਂ ਖਾਤਿਆਂ ਵਿਚੋਂ ਪੈਸੇ ਟ੍ਰਾਂਸਫਰ ਕਰ ਰਹੇ ਹੋ, ਇੱਕ ਆਰਡਰ ਰੱਖ ਰਹੇ ਹੋ, ਜਾਂ ਇਨਵੈਂਟਰੀ ਅਪਡੇਟ ਕਰ ਰਹੇ ਹੋ, ਤਾਂ “ਅਧੂਰੇ” ਨਤੀਜੇ ਕਬੂਲਯੋਗ ਨਹੀਂ। ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਇਹ ਯਕੀਨ ਦਿਲਾਉਂਦੇ ਹਨ ਕਿ ਤੁਸੀਂ ਅਧੂਰਾ ਨਤੀਜਾ ਨਹੀਂ ਮਿਲਿਆ।

ਅਮਲੀ ਤੌਰ 'ਤੇ, ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਤੁਹਾਨੂੰ ਦਿੰਦੇ ਹਨ:

ਵਿਆਖਿਆਯੋਗ ਸਥਿਰਤਾ: ਡੇਟਾਬੇਸ "ਅਰਧ" ਤੌਰ ਤੇ ਬਦਲਾਅ ਨਹੀਂ ਕਰਦਾ।
ਰੀਕਵਰੀ ਬਰਕਤਾਵਾਂ: ਜੇ ਕੁਝ ਦਰਮਿਆਨ ਕਰੈਸ਼ ਹੋ ਜਾਂਦਾ ਹੈ, ਸਿਸਟਮ ਸੁਰੱਖਿਅਤ ਸਥਿਤੀ 'ਤੇ ਵਾਪਸ ਲਿਆ ਸਕਦਾ ਹੈ।

ਕਨਕਰਨਸੀ: ਅਸਲ ਸੰਸਾਰ ਦੀ ਗੜਬੜ ਜਿਹੜੀ ਡੇਟਾਬੇਸ ਨੂੰ ਨਿਭਾਣੀ ਪੈਂਦੀ ਹੈ

ਕਨਕਰਨਸੀ ਦਾ ਮਤਲਬ ਹੈ ਬਹੁਤ ਸਾਰੇ ਲੋਕ (ਅਤੇ ਐਪ) ਇਕੱਠੇ ਡੇਟਾ ਪੜ੍ਹਨਾ ਅਤੇ ਬਦਲ ਰਹੇ ਹੋਣ: ਕਸਟਮਰ ਚੈਕਆਊਟ, ਸਹਾਇਤਾ ਏਜੰਟਾਂ ਦੇਖ-ਭਾਲ, ਬੈਕਗ੍ਰਾਊਂਡ ਜੌਬਸ, ਅਤੇ ਅਨਾਲਿਸਟਿਕ ਰਿਪੋਰਟ।

ਬਿਨਾਂ ਧਿਆਨ ਦੇ, ਕਨਕਰਨਸੀ ਨਾਲ ਸਮੱਸਿਆਵਾਂ ਪੈਦਾ ਹੁੰਦੀਆਂ ਹਨ ਜਿਵੇਂ:

ਲੌਸਟ ਅਪਡੇਟਸ: ਦੋ ਯੂਜ਼ਰ ਇਕੋ ਰਿਕਾਰਡ ਨੂੰ ਸੋਧਦੇ ਹਨ; ਇੱਕ ਦੂਜੇ ਨੂੰ ਓਵਰਰਾਈਟ ਕਰ ਦੇਂਦਾ ਹੈ।
ਡਰਟੀ ਰੀਡਸ: ਕੋਈ ਐਸਾ ਡੇਟਾ ਵੇਖਦਾ ਹੈ ਜੋ ਬਾਅਦ ਵਿੱਚ ਰੋਲਬੈਕ ਹੋ ਜਾਂਦਾ ਹੈ।
ਅਸਮੰਜਸ ਰਿਪੋਰਟਸ: ਇਕ ਕੁਐਰੀ "ਪਹਿਲਾਂ" ਅਤੇ "ਬਾਅਦ" ਦੀਆਂ ਮਿਲੀ-ਜੁਲੀ ਹਾਲਤਾਂ ਵੇਖ ਲੈਂਦੀ ਹੈ।

MVCC ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ

ਇੱਕ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕਾ ਹੈ MVCC (Multi-Version Concurrency Control)। ਧਾਰਣਾ ਅਨੁਸਾਰ, MVCC ਕੁਝ ਸਮੇਂ ਲਈ ਇੱਕ ਰੋਅ ਦੀਆਂ ਕਈ ਵਰਜਨਾਂ ਰੱਖਦਾ ਹੈ, ਤਾਂ ਜੋ ਪੜ੍ਹਨ ਵਾਲੇ ਲੋਕ ਇੱਕ ਸਥਿਰ ਸਨੇਪਸ਼ਾਟ ਵੇਖ ਸਕਣ ਜਦੋਂ ਲਿਖਤ ਹੋ ਰਹੀ ਹੁੰਦੀ ਹੈ।

ਵੱਡਾ ਫਾਇਦਾ ਇਹ ਹੈ ਕਿ ਰੀਡਜ਼ ਲਿਖਤਾਂ ਨੂੰ ਅਕਸਰ ਬਲੌਕ ਨਹੀਂ ਕਰਦੀਆਂ, ਅਤੇ ਲਿਖਤ ਲੰਬੇ ਸੰਮੇਲਨ ਵਾਲੇ ਕੁਐਰੀਆਂ ਪਿੱਛੇ ਘੁਟ ਨਹੀਂ ਪੈਂਦੇ। ਤੁਸੀਂ ਅਜੇ ਵੀ ਸਹੀਅਤ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹੋ, ਪਰ ਘੱਟ ਇੰਤਜ਼ਾਰ ਨਾਲ।

ਆਧੁਨਿਕ SQL ਵਰਕਲੋਡਾਂ ਵਿੱਚ ਇਸਦਾ ਮਹੱਤਵ

ਅੱਜ ਦੇ ਡੇਟਾਬੇਸ ਅਕਸਰ ਮਿਕਸਡ ਵਰਕਲੋਡ ਘਰੇਲੂ ਹੁੰਦੇ ਹਨ: ਉੱਚ-ਮਾਤਰਾ ਵਾਲੀਆਂ ਐਪ ਲਿਖਤਾਂ ਨਾਲ ਨਾਲ ਡੈਸ਼ਬੋਰਡ ਲਈ ਬਾਰ-ਬਾਰ ਪੜ੍ਹਨ। ਆਧੁਨਿਕ SQL ਸਿਸਟਮ MVCC, ਸਮਾਰਟ ਲਾਕਿੰਗ ਅਤੇ ਆਈਸੋਲੇਸ਼ਨ ਲੈਵਲ ਵਰਗੀਆਂ ਤਕਨੀਕਾਂ ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ ਤਾਂ ਕਿ ਰਫ਼ਤਾਰ ਅਤੇ ਸਹੀਅਤ ਵਿਚ ਸੰਤੁਲਨ ਬਣਿਆ ਰਹੇ—ਤਾਂ ਜੋ ਤੁਸੀਂ ਸਰਗਰਮੀ ਵਧਾ ਸਕੋ ਬਿਨਾਂ ਡੇਟਾ 'ਤੇ ਭਰੋਸਾ ਘੱਟ ਕੀਤੇ।

ਕਾਲਮ ਸਟੋਰ: ਐਨਾਲਿਟਿਕਸ ਪ੍ਰਦਰਸ਼ਨ ਲਈ ਇੱਕ ਮੋੜ

Start Small, Scale Later

ਫ੍ਰੀ ਟੀਅਰ 'ਤੇ ਪਲੇਟਫਾਰਮ ਨੂੰ ਖੋਜੋ ਅਤੇ ਪ੍ਰੋਜੈਕਟ ਵਧਣ 'ਤੇ ਹੀ ਅਪਗਰੇਡ ਕਰੋ।

Start Free

ਰੋਅ-ਅਧਾਰਿਤ ਡੇਟਾਬੇਸ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਪ੍ਰੋਸੈਸਿੰਗ ਲਈ ਬਣੇ ਸਨ: ਬਹੁਤ ਸਾਰੇ ਛੋਟੇ ਪੜ੍ਹਨ ਤੇ ਲਿਖਤ, ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਗ੍ਰਾਹਕ, ਇੱਕ ਆਰਡਰ ਜਾਂ ਇੱਕ ਅਕਾਊਂਟ ਨੂੰ ਛੂਹਦੇ ਹੋਏ। ਇਹ ਡਿਜ਼ਾਈਨ ਉਨ੍ਹਾਂ ਹਾਲਤਾਂ ਵਿੱਚ ਬਹੁਤ ਚੰਗਾ ਹੈ ਜਦੋਂ ਤੁਹਾਨੂੰ ਇੱਕ ਰਿਕਾਰਡ ਪੂਰਾ ਲੈਣਾ ਹੋਵੇ।

ਰੋਅਜ਼ ਬਨਾਮ ਕਾਲਮ (ਇੱਕ ਰੋਜ਼ਾਨਾ ਉਦਾਹਰਨ)

ਇੱਕ spreadsheet ਨੂੰ ਸੋਚੋ। ਇੱਕ row store ਹਰ ਕਤਾਰ ਨੂੰ ਆਪਣੀ ਫੋਲਡਰ ਵਾਂਗ ਰੱਖਣ ਵਰਗਾ ਹੈ: ਜਦੋਂ ਤੁਹਾਨੂੰ "Order #123 ਬਾਰੇ ਸਭ ਕੁਝ" ਚਾਹੀਦਾ, ਤੁਸੀਂ ਇੱਕ ਫੋਲਡਰ ਖਿੱਚ ਲੈਂਦੇ ਹੋ। ਇੱਕ column store ਕਾਲਮ ਅਨੁਸਾਰ ਫਾਇਲ ਕਰਦਾ ਹੈ: ਇੱਕ ਦਰਾਜ਼ "order_total" ਲਈ, ਦੂਜਾ "order_date" ਲਈ, ਹੋਰ "customer_region" ਲਈ।

ਐਨਾਲਿਟਿਕਸ ਲਈ, ਤੁਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਪੂਰਾ ਫੋਲਡਰ ਨਹੀਂ ਚਾਹੁੰਦੇ—ਤੁਹਾਡਾ ਸਵਾਲ ਅਕਸਰ ਇਹ ਹੁੰਦਾ ਹੈ "ਪਿਛਲੇ ਕਵੈਰਟਰ ਵਿੱਚ ਖੇਤਰ ਅਨੁਸਾਰ ਕੁੱਲ ਆਮਦਨ ਕੀ ਸੀ?"। ਇਹ ਕੁਐਰੀ ਲੱਗਭਗ ਹਮੇਸ਼ਾ ਮਿਲੀਅਨਾਂ ਰਿਕਾਰਡਾਂ 'ਚੋਂ ਸਿਰਫ਼ ਕੁਝ ਖੇਤਰ ਬੋਲਦੀ ਹੈ।

ਕਿਉਂ ਐਨਾਲਿਟਿਕਸ ਵਰਕਲੋਡ ਕਾਲਮ ਨੂੰ ਪਸੰਦ ਕਰਦੇ ਹਨ

ਐਨਾਲਿਟਿਕਸ ਕੁਐਰੀਆਂ ਅਕਸਰ:

ਇੱਕ ਟੇਬਲ ਦੇ ਵੱਡੇ ਹਿੱਸੇ ਨੂੰ ਸਕੈਨ ਕਰਦੀਆਂ ਹਨ
ਸਿਰਫ਼ ਕੁਝ ਕਾਲਮ ਵਰਤਦੀਆਂ ਹਨ
ਭਾਰੀ ਐਗਰੀਗੇਟ (SUM/AVG/COUNT) ਅਤੇ ਫਿਲਟਰ ਕਰਦੀਆਂ ਹਨ

ਕਾਲਮਰ ਸਟੋਰੇਜ ਨਾਲ, ਇੰਜਨ ਸਿਰਫ਼ ਉਹੀ ਕਾਲਮ ਪੜ੍ਹ ਸਕਦਾ ਹੈ ਜੋ ਕੁਐਰੀ ਵਿੱਚ ਜ਼ਿਕਰ ਕੀਤੇ ਗਏ ਹਨ, ਬਾਕੀ ਨੂੰ ਸਕਿੱਪ ਕਰਕੇ। ਡਿਸਕ ਤੋਂ ਘੱਟ ਡੇਟਾ ਪੜ੍ਹਨਾ (ਅਤੇ ਮੈਮੋਰੀ ਰਾਹੀਂ ਘੱਟ ਡੇਟਾ ਮੂਵ) ਅਕਸਰ ਸਭ ਤੋਂ ਵੱਡਾ ਪ੍ਰਦਰਸ਼ਨ ਫਾਇਦਾ ਹੁੰਦਾ ਹੈ।

ਕੰਪ੍ਰੈਸ਼ਨ ਸਿਰਫ਼ ਜਗ੍ਹਾ ਬਚਾਉਣ ਲਈ ਨਹੀਂ

ਕਾਲਮਾਂ ਵਿੱਚ ਮੁੱਲ ਆਮ ਤੌਰ 'ਤੇ ਦੁਹਰਾਏ ਜਾਂਦੇ ਹਨ (ਖੇਤਰ, ਸਥਿਤੀਆਂ, ਵਰਗ). ਇਸ ਨਾਲ ਉਹਨਾਂ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੰਪ੍ਰੈੱਸ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ—ਅਤੇ ਕੰਪ੍ਰੈਸ਼ਨ ਤੇਜ਼ੀ ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਸਿਸਟਮ ਘੱਟ ਬਾਈਟ ਪੜ੍ਹਦਾ ਹੈ ਅਤੇ ਕਈ ਵਾਰੀ ਕੰਪ੍ਰੈੱਸਡ ਡੇਟਾ 'ਤੇ ਹੀ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ।

ਵੱਡਾ ਬਦਲਾਅ

ਕਾਲਮ ਸਟੋਰ ਨੇ OLTP-ਪਹਿਲੇ ਡੇਟਾਬੇਸਾਂ ਤੋਂ ਐਨਾਲਿਟਿਕਸ-ਪਹਿਲੇ ਇੰਜਨਾਂ ਵੱਲ ਮੂੰਹ ਘੁਮਾਇਆ, ਜਿੱਥੇ ਸਕੈਨਿੰਗ, ਕੰਪ੍ਰੈਸ਼ਨ, ਅਤੇ ਤੇਜ਼ ਐਗਰੀਗੇਸ਼ਨ ਮੁੱਖ ਡਿਜ਼ਾਈਨ ਲਕਸ਼ ਬਣ ਗਏ।

Vertica ਅਤੇ MPP ਐਨਾਲਿਟਿਕਸ: ਵੱਡੀਆਂ ਕੁਐਰੀਆਂ ਲਈ SQL ਨੂੰ ਸਕੇਲ ਕਰਨਾ

Vertica ਇੱਕ ਚਮਕਦਾਰ ਉਦਾਹਰਣ ਹੈ ਕਿ Stonebraker ਦੇ ਐਨਾਲਿਟਿਕਸ-ਕੇਂਦਰਤ ਵਿਚਾਰ ਕਿਵੇਂ ਇਕ ਪ੍ਰੋਡਕਟ ਬਣ ਕੇ ਟੀਮਾਂ ਦੁਆਰਾ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਚਲਾਏ ਜਾ ਸਕਦੇ ਹਨ। ਇਸ ਨੇ ਕਾਲਮਰ ਸਟੋਰੇਜ ਦੇ ਪਾਠਾਂ ਨੂੰ ਡਿਸਟ੍ਰਿਬਿਊਟ ਕੀਤੇ ਡਿਜ਼ਾਈਨ ਨਾਲ ਜੋੜਿਆ ਜੋ ਇੱਕ ਖਾਸ ਸਮੱਸਿਆ—ਵੱਡੀਆਂ ਐਨਾਲਿਟਿਕ SQL ਕੁਐਰੀਆਂ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਜਵਾਬ ਦੇਣ— ਲਈ ਬਣਾਇਆ ਗਿਆ।

MPP ਦਾ ਸਧਾਰਨ ਮਤਲਬ

MPP ਦਾ ਮਤਲਬ ਹੈ massively parallel processing. ਸਭ ਤੋਂ ਸਧਾਰਨ ਢੰਗ ਨਾਲ ਸੋਚੋ: ਬਹੁਤੀਆਂ ਮਸ਼ੀਨਾਂ ਇੱਕ SQL ਕੁਐਰੀ 'ਤੇ ਇਕੱਠੇ ਕੰਮ ਕਰ ਰਹੀਆਂ ਹਨ।

ਇਕ ਇਕੱਲੇ ਡੇਟਾਬੇਸ ਸਰਵਰ ਦੀ ਥਾਂ, ਡੇਟਾ ਨੋਡਾਂ 'ਤੇ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ। ਹਰ ਨੋਡ ਆਪਣੀ ਸਲਾਈਸ 'ਤੇ ਸਮਾਨ-ਸਮਾਂਨ ਪ੍ਰੋਸੈਸ ਕਰਦਾ ਹੈ, ਅਤੇ ਫਿਰ ਸਿਸਟਮ ਹਿੱਸਵਾਰ ਨਤੀਜੇ ਇਕੱਠੇ ਕਰਕੇ ਅੰਤਿਮ ਜਵਾਬ ਬਣਾਂਦਾ ਹੈ।

ਇਸ ਤਰ੍ਹਾਂ ਉਹ ਕੁਐਰੀ ਜੋ ਇਕ ਬਕਸੇ 'ਤੇ ਮਿੰਟ ਲੈਂਦੀ ਸੀ, ਕਲਸਟਰ 'ਤੇ ਸਕਿੰਟਾਂ ਵਿੱਚ ਆ ਸਕਦੀ ਹੈ—ਜੇ ਡੇਟਾ ਚੰਗੀ ਤਰ੍ਹਾਂ ਵੰਡਿਆ ਗਿਆ ਹੋਵੇ ਅਤੇ ਕੁਐਰੀ ਪੈਰਲਲাইজ ਕੀਤਾ ਜਾ ਸਕੇ।

ਅਮਲੀ ਤੌਰ 'ਤੇ ਇਹ ਕੀ ਯੋਗ ਬਣਾਂਦਾ ਹੈ

Vertica-ਸ਼ੈਲੀ MPP ਐਨਾਲਿਟਿਕਸ ਸਿਸਟਮ ਉਹਨਾਂ ਹਾਲਤਾਂ 'ਚ ਚਮਕਦੇ ਹਨ ਜਿੱਥੇ ਤੁਹਾਡੇ ਕੋਲ ਬਹੁਤ سارੀਆਂ ਰੋਅ ਹਨ ਅਤੇ ਤੁਸੀਂ ਉਨ੍ਹਾਂ ਨੂੰ ਸਕੈਨ, ਫਿਲਟਰ ਅਤੇ ਐਗਰੀਗੇਟ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ। ਆਮ ਇਸਤੇਮਾਲ ਦੇ ਕੇਸ:

ਡੈਸ਼ਬੋਰਡ ਜੋ ਵੱਡੇ fact ਟੇਬਲਾਂ ਨੂੰ ਪੜ੍ਹਦੇ ਹਨ (ਉਤਪਾਦ ਐਨਾਲਿਟਿਕਸ, ਮਾਰਕੇਟਿੰਗ ਪ੍ਰਦਰਸ਼ਨ, ਓਪਰੇਸ਼ਨਲ ਮੈਟ੍ਰਿਕਸ)
ਨਿਯਤ ਰਿਪੋਰਟਿੰਗ ਅਤੇ ਐਡ-ਹਾਕ SQL ਵਿਸ਼ਲੇਸ਼ਣ
ਵੱਡੇ ਐਗਰੀਗੇਸ਼ਨ (ਦੈਨਿਕ ਕੋਹੋਰਟਸ, ਫਨਲ, ਕਈ ਡਾਇਮੈਨਸ਼ਨਾਂ 'ਤੇ ਰੋਲਅਪ)

ਟਰੇਡ-ਆਫ਼ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨਲ ਡੇਟਾਬੇਸਾਂ ਨਾਲੋਂ

MPP ਐਨਾਲਿਟਿਕਸ ਇੰਜਨਾਂ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨਲ (OLTP) ਸਿਸਟਮਾਂ ਲਈ ਸਿੱਧਾ ਬਦਲ ਨਹੀਂ ਹਨ। ਇਹ ਕਈ ਰੋਅ ਪੜ੍ਹਨ ਅਤੇ ਸੰਖੇਪ ਗਣਨਾ ਲਈ ਅਨੁਕੂਲ ਹਨ, ਨਾ ਕਿ ਛੋਟੇ-ਛੋਟੇ ਅਪਡੇਟਸ ਲਈ।

ਮੁਢਲੇ ਟਰੇਡ-ਆਫ਼:

ਤਾਜ਼ਗੀ: ਡੇਟਾ ਅਕਸਰ ਬੈਚ ਜਾਂ ਮਾਈਕ੍ਰੋ-ਬੈਚ ਵਿੱਚ ਆਉਂਦਾ ਹੈ ਬਜਾਏ ਰੋਅ-ਦਰ-ਰੋਅ
ਅਪਡੇਟਸ: ਮੁਕੱਦਮਾ ਇੱਕਲ-ਰੋਅ ਅਪਡੇਟ/ਡਿਲੀਟ ਆਮ ਤੌਰ 'ਤੇ ਸਲੋ ਜਾਂ ਓਪਰੇਸ਼ਨਲ ਤੌਰ 'ਤੇ ਜ਼ਿਆਦਾ ਜਟਿਲ ਹੁੰਦੇ ਹਨ
ਲੇਟੈਂਸੀ: ਸਕਿੰਟਾਂ-ਤੱਕ-ਮਿੰਟਾਂ ਵਾਲੇ ਐਨਾਲਿਟਿਕਲ ਕੁਐਰੀਆਂ ਲਈ ਉਤਕ੍ਰਿਸ਼ਟ; ਮਿਲੀ-ਸੈਕੰਡ ਯੂਜ਼ਰ-ਮੁੱਖ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨਾਂ ਲਈ ਉਚਿਤ ਨਹੀਂ

ਕੁੰਜੀ ਵਿਚਾਰ ਇਹ ਹੈ: ਫੋਕਸ—Vertica ਅਤੇ ਉਸ ਦੀਆਂ ਸਮਾਨ ਪ੍ਰਣਾਲੀਆਂ ਸਟੋਰੇਜ, ਕੰਪ੍ਰੈਸ਼ਨ, ਅਤੇ ਪੈਰਲਲ ਐਗਜ਼ੈਕਿਊਸ਼ਨ ਨੂੰ ਐਨਾਲਿਟਿਕਸ ਲਈ ਟਿਊਨ ਕਰਕੇ ਆਪਣੀ ਗਤੀ ਹਾਸਲ ਕਰਦੀਆਂ ਹਨ—ਫਿਰ ਉਹ ਸੀਮਾਵਾਂ ਮਨਜ਼ੂਰ ਕਰ ਲੈਂਦੀਆਂ ਹਨ ਜੋ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨਲ ਸਿਸਟਮ ਟਾਲਦੇ ਹਨ।

ਕੁਐਰੀ ਐਗਜ਼ੈਕਿਊਸ਼ਨ ਨਵੀਨਤਾਂ ਜਿਨ੍ਹਾਂ ਨੇ ਐਨਾਲਿਟਿਕਸ ਨੂੰ ਤੇਜ਼ ਬਣਾਇਆ

ਇੱਕ ਡੇਟਾਬੇਸ "ਸਟੋਰ ਅਤੇ ਕੁਐਰੀ" ਕਰ ਸਕਦਾ ਹੈ ਪਰ ਫਿਰ ਵੀ ਐਨਾਲਿਟਿਕਸ ਲਈ ਧੀਮਾ ਮਹਿਸੂਸ ਹੋ ਸਕਦਾ ਹੈ। ਫਰਕ ਅਕਸਰ ਤੁਹਾਡੇ ਦੁਆਰਾ ਲਿਖੀ SQL ਨਹੀਂ, ਬਲਕਿ ਇਹ ਹੈ ਕਿ ਇੰਜਨ ਇਸਨੂੰ ਕਿਵੇਂ ਚਲਾਉਂਦਾ ਹੈ: ਕਿਵੇਂ ਉਹ ਪੇਜਜ਼ ਪੜ੍ਹਦਾ ਹੈ, ਡੇਟਾ CPU ਰਾਹੀਂ ਕਿਵੇਂ ਘੁਮਦਾ ਹੈ, ਮੈਮੋਰੀ ਕਿਵੇਂ ਵਰਤੀ ਜਾਂਦੀ ਹੈ, ਅਤੇ ਬੇਕਾਰ ਕੰਮ ਕਿਵੇਂ ਘਟਾਇਆ ਜਾਂਦਾ ਹੈ।

Stonebraker ਦੇ ਐਨਾਲਿਟਿਕਸ-ਕੇਂਦਰਤ ਪ੍ਰੋਜੈਕਟਾਂ ਨੇ ਇਹ ਵਿਚਾਰ ਅੱਗੇ ਧੱਕਿਆ ਕਿ ਕੁਐਰੀ ਪ੍ਰਦਰਸ਼ਨ ਇਕ ਸਟੋਰੇਜ ਮਸਲੇ ਦੇ ਨਾਲ ਨਾਲ ਇੱਕ ਐਗਜ਼ੈਕਿਊਸ਼ਨ ਸਮੱਸਿਆ ਵੀ ਹੈ। ਇਹ ਸੋਚ ਟੀਮਾਂ ਨੂੰ ਇੱਕ-ਰੋਅ ਲੁਕਅਪ ਨੂੰ ਅਪਟਾਈਮ ਕਰਨ ਤੋਂ ਲੰਬੇ ਸਕੈਨ, ਜੋਇਨ ਅਤੇ ਐਗਰੀਗੇਸ਼ਨ 'ਤੇ ਧਿਆਨ ਮੋੜਨ ਦੀ ਪ੍ਰੇਰਨਾ ਦਿੱਤੀ।

ਵੇਕਟੋਰਾਈਜ਼ਡ ਐਗਜ਼ੈਕਿਊਸ਼ਨ (ਇਕ-ਰੋਅ ਦੀ ਬਜਾਏ ਬੈਚ ਵਿੱਚ ਕੰਮ)

ਕਈ ਪੁਰਾਣੇ ਇੰਜਨਾਂ "tuple-at-a-time" (ਰੋਅ-ਬਾਈ-ਰੋਅ) ਪ੍ਰੋਸੈਸ ਕਰਦੇ ਸਨ, ਜੋ ਬਹੁਤ ਸਾਰੀ ਫੰਕਸ਼ਨ ਕਾਲ ਅਤੇ ਓਵਰਹੈਡ ਪੈਦਾ ਕਰਦਾ ਸੀ। ਵੇਕਟੋਰਾਈਜ਼ਡ ਐਗਜ਼ੈਕਿਊਸ਼ਨ ਉਸ ਮਾਡਲ ਨੂੰ ਉਲਟ ਦਿੰਦਾ ਹੈ: ਇੰਜਨ ਇੱਕ ਬੈਚ (vector) ਦੀਆਂ ਵੈਲਿਊਜ਼ ਨੂੰ ਇੱਕ ਕਸਰਤ ਚੱਕਰ ਵਿੱਚ ਪ੍ਰਕਿਰਿਆ ਕਰਦਾ ਹੈ।

ਸਧਾਰਨ ਤੌਰ 'ਤੇ, ਇਹ ਕਾਰਟ ਨਾਲ ਕਿਰਾਨਕ ਸਮਾਨ ਸਮਾਨ ਚੀਜ਼ਾਂ ਲਿਜਾਣ ਵਰਗਾ ਹੈ—ਇਕ-ਇਕ ਆਈਟਮ ਲਿਜਾਣ ਦੀ ਥਾਂ ਬੈਚ-ਮੋਡ ਘੱਟ ਓਵਰਹੈਡ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਆਧੁਨਿਕ CPUs ਨੂੰ ਉਹ ਕੰਮ ਕਰਨ ਦਿੰਦਾ ਹੈ ਜੋ ਉਹ ਵਧੀਆ ਤਰੀਕੇ ਨਾਲ ਕਰਦੇ ਹਨ: ਪੇਸ਼ਗੋਈਯੋਗ ਲੂਪ, ਘੱਟ ਬ੍ਰਾਂਚ, ਅਤੇ ਬੇਹਤਰ ਕੈਸ਼ ਵਰਤੋਂ।

ਮੈਮੋਰੀ-ਦਰਸਤੀ ਐਨਾਲਿਟਿਕਸ ਡਿਜ਼ਾਈਨ

ਤੇਜ਼ ਇੰਜਨ CPU ਅਤੇ cache-ਦਰਸਤ ਹੇਠਾਂ ਰਹਿਣ 'ਤੇ ਜ਼ੋਰ ਦਿੰਦੇ ਹਨ। ਐਗਜ਼ੈਕਿਊਸ਼ਨ ਨਵੀਨਤਾਂ ਆਮ ਤੌਰ 'ਤੇ ਇਸ 'ਤੇ ਧਿਆਨ ਦਿੰਦੀਆਂ ਹਨ:

ਫ਼ੌਰੀ ਅਣਜ਼ਰੂਰੀ ਮੈਟੀਰੀਅਲਾਈਜ਼ੇਸ਼ਨ ਤੋਂ ਬਚਣਾ (ਜੇ ਸੰਭਵ ਹੋਵੇ ਤਾਂ ਵੱਡੇ ਇੰਟਰਮੀਡੀਏਟ ਟੇਬਲਾਂ ਨੂੰ ਨਾ ਬਣਾਓ)
ਸੰਭਵ ਹੋਵੇ ਤਾਂ ਕੰਪ੍ਰੈੱਸਡ ਡੇਟਾ 'ਤੇ ਕੰਮ ਕਰਨਾ (ਘੱਟ ਮੈਮੋਰੀ ਬੈਂਡਵਿਡਥ, ਘੱਟ ਬਾਈਟ ਮੂਵ)
ਹੌਟ ਡੇਟਾ ਨੂੰ ਕੈਸ਼ ਵਿੱਚ ਰੱਖਣਾ (ਲੇਆਊਟ ਅਤੇ ਬੈਚਿੰਗ ਜੋ CPUs ਦੀ ਐਕਸੈਸ ਸੂਚੀ ਨਾਲ ਮੇਲ ਖਾਂਦੀ ਹੋ)

ਇਹ ਵਿਚਾਰ ਮਹੱਤਵਪੂਰਨ ਹਨ ਕਿਉਂਕਿ ਐਨਾਲਿਟਿਕਲ ਕੁਐਰੀਆਂ ਅਕਸਰ ਮੈਮੋਰੀ ਬੈਂਡਵਿਡਥ ਅਤੇ ਕੈਸ਼-ਮਿਸਜ਼ ਦੁਆਰਾ ਸੀਮਤ ਹੁੰਦੀਆਂ ਹਨ, ਨਾ ਕਿ ਕੇਵਲ ਡਿਸਕ ਸਪੀਡ ਦੁਆਰਾ।

ਅੱਜ ਤੁਸੀਂ ਇਹ ਕਿੱਥੇ ਵੇਖਦੇ ਹੋ

ਆਧੁਨਿਕ ਡੇਟਾ ਵੇਅਰਹਾਊਸ ਅਤੇ SQL ਇੰਜਨਾਂ—ਕਲਾਉਡ ਵੇਅਰਹਾਊਸ, MPP ਸਿਸਟਮ, ਅਤੇ ਤੇਜ਼ ਇਨ-ਪ੍ਰੋਸੈਸ ਐਨਾਲਿਟਿਕਸ ਟੂਲ—ਅਕਸਰ ਵੇਕਟोरਾਈਜ਼ਡ ਐਗਜ਼ੈਕਿਊਸ਼ਨ, ਕੰਪ੍ਰੈਸ਼ਨ-ਸਹਿਤ ਆਪਰੇਟਰਾਂ, ਅਤੇ ਕੈਸ਼-ਫ੍ਰੈਂਡਲੀ ਪਾਈਪਲਾਈਨਾਂ ਨੂੰ ਮਿਆਰੀ ਅਮਲ ਮੰਨਦੇ ਹਨ।

ਜਦੋਂ ਵੈਂਡਰ “autoscaling” ਜਾਂ “storage ਅਤੇ compute ਦੀ ਵੱਖਰੀਕਰਨ” ਵਰਗੀਆਂ ਫੀਚਰਾਂ ਦਾ ਪ੍ਰਚਾਰ ਕਰਦੇ ਹਨ, ਦਿਨ-ਪਰ-ਦਿਨ ਦੀ ਗਤੀ ਅਜੇ ਵੀ ਭਾਰੀ ਹੱਦ ਤੱਕ ਇਨ੍ਹਾਂ ਐਗਜ਼ੈਕਿਊਸ਼ਨ ਚੋਣਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ।

ਜੇ ਤੁਸੀਂ ਪਲੇਟਫਾਰਮਾਂ ਦੀ ਮੁਲਾਂਕਣ ਕਰ ਰਹੇ ਹੋ, ਤਾਂ ਸਿਰਫ਼ ਇਹ ਨਾ ਪੁੱਛੋ ਕਿ ਉਹ ਕੀ ਸਟੋਰ ਕਰਦੇ ਹਨ—ਪਰ ਇਹ ਵੀ ਪੁੱਛੋ ਕਿ ਉਹ ਜੋਇਨ ਅਤੇ ਐਗਰੀਗੇਸ਼ਨ ਨੂੰ ਅੰਦਰੋਂ ਕਿਵੇਂ ਚਲਾਉਂਦੇ ਹਨ ਅਤੇ ਕੀ ਉਨ੍ਹਾਂ ਦਾ ਐਗਜ਼ੈਕਿਊਸ਼ਨ ਮਾਡਲ ਐਨਾਲਿਟਿਕਸ ਲਈ ਬਣਿਆ ਹੈ।

ਸਟ੍ਰੀਮਿੰਗ ਸਿਸਟਮ: ਬੈਚ ਸੋਚ ਤੋਂ ਰੀਅਲ-ਟਾਈਮ ਡੇਟਾ ਤੱਕ

Validate With Real Usage

ਇੱਕ ਛੋਟਾ ਆੰਤਰੀਕ ਡੈਸ਼ਬੋਰਡ ਘੁੰਮਾਉ ਕੇ ਕੁਐਰੀਆਂ, ਇਕੱਠਤਤਾ ਅਤੇ ਡੇਟਾ ਦੀ ਸਹੀਅਤ ਦੀ ਜਾਂਚ ਕਰੋ।

Create App

ਸਟ੍ਰੀਮਿੰਗ ਡੇਟਾ ਸਾਦਾ ਸ਼ਬਦਾਂ ਵਿੱਚ ਉਹ ਡੇਟਾ ਹੈ ਜੋ ਲਗਾਤਾਰ ਘਟਨਾਵਾਂ ਦੇ ਰੂਪ ਵਿੱਚ ਆਉਂਦਾ ਹੈ—ਸੋਚੋ “ਨਵੀਂ ਘਟਨਾ ਹੁਣੀ ਹੋਈ” ਸੁਨੇਹੇ। ਇੱਕ ਕਰੈਡਿਟ-ਕਾਰਡ ਸਵਾਈਪ, ਇੱਕ ਸੈਂਸਰ ਪੜ੍ਹਾਈ, ਇੱਕ ਪ੍ਰੋਡਕਟ ਪੇਜ 'ਤੇ ਕਲਿੱਕ, ਇੱਕ ਪੈਕੇਜ ਸਕੈਨ, ਇੱਕ ਲੌਗ ਲਾਈਨ: ਇਹ ਸਭ ਤੁਰੰਤ ਆਉਂਦੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ।

ਕਿਉਂ ਬੈਚ ਡੇਟਾਬੇਸ ਜਿਊਂਦੇ ਕੰਮ ਲਈ ਧੀਮੇ ਮਹਿਸੂਸ ਹੁੰਦੇ ਹਨ

ਪਾਰੰਪਰਿਕ ਡੇਟਾਬੇਸ ਅਤੇ ਬੈਚ ਪਾਈਪਲਾਈਨਾਂ ਓਸ ਵੇਲੇ ਵਧੀਆ ਹਨ ਜਦੋਂ ਤੁਸੀਂ ਰੁਕ ਸਕਦੇ ਹੋ: ਕੱਲ੍ਹ ਦਾ ਡੇਟਾ ਲੋਡ ਕਰੋ, ਰਿਪੋਰਟ ਚਲਾਓ, ਡੈਸ਼ਬੋਰਡ ਪ੍ਰਕਾਸ਼ਿਤ ਕਰੋ। ਪਰ ਰੀਅਲ-ਟਾਈਮ ਲੋੜਾਂ ਲਈ ਹੋਰ ਇੰਤਜ਼ਾਰ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ।

ਜੇ ਤੁਸੀਂ ਕੇਵਲ ਬੈਚ ਵਿੱਚ ਪ੍ਰਕਿਰਿਆ ਕਰਦੇ ਹੋ, ਤਾਂ ਅਕਸਰ ਨਤੀਜੇ ਹੁੰਦੇ ਹਨ:

ਪੁਰਾਣੇ ਮੈਟ੍ਰਿਕਸ (ਨੰਬਰ ਘਟਿਆ ਹੋਇਆ)
ਦੇਰੀ ਨਾਲ ਅਲਰਟ (ਤੁਸੀਂ ਨੁਕਸਾਨ ਹੋ ਜਾਣ ਤੋਂ ਬਾਅਦ ਹੀ ਪਤਾ ਲਗਦਾ)
ਅਟਪਟੀ ਉਪਾਇ (ਟੇਬਲ ਪਾਲਿੰਗ, ਲਗਾਤਾਰ ਕੁਐਰੀਆਂ ਫੇਰ-ਫੇਰ ਚਲਾਉਣਾ)

ਸਟ੍ਰੀਮਿੰਗ ਸਿਸਟਮ ਇਸ ਵਿਚਾਰ ਦੇ ਆਧਾਰ 'ਤੇ ਬਣੇ ਹੁੰਦੇ ਹਨ ਕਿ ਗਣਨਾਤਮਕ ਕਾਰਜ ਘਟਨਾਵਾਂ ਦੇ ਆਉਣ ਨਾਲ ਲਗਾਤਾਰ ਚੱਲ ਸਕਦੇ ਹਨ।

ਮੂਲ ਵਿਚਾਰ: ਲਗਾਤਾਰ ਕੁਐਰੀਆਂ ਅਤੇ ਵਿੰਡੋਜ਼

ਇੱਕ ਲਗਾਤਾਰ ਕੁਐਰੀ ਇੱਕ ਐਸੀ SQL ਕੁਐਰੀ ਵਰਗੀ ਹੈ ਜੋ ਕਦੇ "ਮੁੱਕਦੀ" ਨਹੀਂ। ਇਹ ਇਕ ਨਤੀਜਾ ਇਕ ਵਾਰੀ ਵਾਪਸ ਨਹੀਂ ਕਰਦੀ; ਬਲਕਿ ਜਿਵੇਂ-ਜਿਵੇਂ ਨਵੇਂ ਘਟਨਾ ਆਉਂਦੇ ਹਨ, ਨਤੀਜੇ ਅਪਡੇਟ ਹੁੰਦੇ ਰਹਿੰਦੇ ਹਨ।

ਕਿਉਂਕਿ ਸਟ੍ਰੀਮਾਂ ਅਨੰਤ ਹਨ (ਉਹ ਖਤਮ ਨਹੀਂ ਹੁੰਦੀਆਂ), ਸਟ੍ਰੀਮਿੰਗ ਸਿਸਟਮ ਵਿੰਡੋਜ਼ ਵਰਤਦੇ ਹਨ ताकि ਗਣਨਾ ਸੰਭਾਲਯੋਗ ਰਹੇ। ਇਕ ਵਿੰਡੋ ਸਮਾਂ ਜਾਂ ਘਟਨਾਵਾਂ ਦੀ ਗਿਣਤੀ ਹੋ ਸਕਦੀ ਹੈ, ਉਦਾਹਰਣ ਲਈ "ਉ posled 5 ਮਿੰਟ" ਜਾਂ "ਹਰੇਕ ਮਿੰਟ" ਜਾਂ "ਆਖਰੀ 1,000 ਘਟਨਾਵਾਂ"। ਇਸ ਨਾਲ ਤੁਸੀਂ rolling counts, averages ਜਾਂ top-N ਸੂਚੀਆਂ ਗਿਣ ਸਕਦੇ ਹੋ ਬਿਨਾਂ ਸਾਰਾ ਡੇਟਾ ਮੁੜ-ਪ੍ਰੋਸੈਸ ਕੀਤੇ।

ਤੁਰੰਤ ਕਾਰੋਬਾਰਕ ਉਦਾਹਰਨ ਜਿਹੜਿਆਂ ਨੂੰ ਤੁਰੰਤ ਲਾਹਾ ਹੈ

ਰੀਅਲ-ਟਾਈਮ ਸਟ੍ਰੀਮਿੰਗ ਉਹਨਾਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ ਕੀਮਤੀ ਹੁੰਦੀ ਹੈ ਜਿੱਥੇ ਸਮਾਂ ਮਾਮਲਾ ਹੈ:

ਧੋਖਾਧੜੀ ਮਾਨੀਟਰਿੰਗ: ਸਕਿੰਟਾਂ ਵਿੱਚ ਅਸਧਾਰਨ ਖਰੀਦ ਨੋਟ ਕਰਨ
ਓਪਰੇਸ਼ਨਲ ਅਲਰਟ: ਜਿਵੇਂ ਹੀ ਏਰਰ spike ਹੁੰਦਾ ਹੈ, ਪਤਾ ਲਗ ਜਾਣਾ
ਲਾਈਵ ਉਤਪਾਦ ਮੈਟ੍ਰਿਕਸ: ਸਾਈਨਅਪ, ਰੂਪਾਂਤਰ, ਜਾਂ ਇਨਵੈਂਟਰੀ ਦੇ ਤੁਰੰਤ ਅਪਡੇਟ ਵੇਖਣਾ
ਲੋਜਿਸਟਿਕਸ ਵਿਜ਼ੀਬਿਲਿਟੀ: ਲਗਾਤਾਰ ਸਕੈਨ ਤੋਂ ਅਨੁਮਾਨਿਤ ਡਿਲਿਵਰੀ ਸਮਾਂ ਅਪਡੇਟ ਕਰਨਾ

ਵਰਕਲੋਡ-ਚਲਿਤ ਆਰਕੀਟੈਕਚਰ: ਕੰਮ ਲਈ ਸਹੀ ਇੰਜਨ ਵਰਤਣਾ

Stonebraker ਨੇ ਸਦੀਆਂ ਤੱਕ ਦਲੀਲ ਕੀਤੀ ਹੈ ਕਿ ਡੇਟਾਬੇਸ ਸਭ ਨੂੰ ਇੱਕ ਜੇਹਾ ਬਣਾਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਨਹੀਂ ਕਰਨੇ ਚਾਹੀਦੇ। ਕਾਰਣ ਸਧਾਰਨ ਹੈ: ਵੱਖ-ਵੱਖ ਵਰਕਲੋਡ ਵੱਖ-ਵੱਖ ਡਿਜ਼ਾਈਨ ਚੋਣਾਂ ਨੂੰ ਇਨਾਮ ਦਿੰਦੀਆਂ ਹਨ। ਜੇ ਤੁਸੀਂ ਇੱਕ ਕੰਮ ਲਈ ਬਹੁਤ ਤੇਜ਼ੀ ਨਾਲ ਅਪਟਾਈਮ ਹੋ, ਤਾਂ ਅਕਸਰ ਤੁਸੀਂ ਕਿਸੇ ਹੋਰ ਕੰਮ ਨੂੰ ਹੌਂਟੇਗਾ।

ਟੀਮਾਂ ਕਿਉਂ ਕਈ ਪ੍ਰਣਾਲੀਆਂ ਵਰਤਦੀਆਂ ਹਨ

ਅਧਿਕਤਰ ਆਧੁਨਿਕ ਸਟੈਕ ਇੱਕ ਤੋਂ ਵੱਧ ਡੇਟਾ ਸਿਸਟਮ ਵਰਤਦੇ ਹਨ ਕਿਉਂਕਿ ਕਾਰੋਬਾਰ ਵੱਖ-ਵੱਖ ਕਿਸਮ ਦੇ ਸਵਾਲ ਮੰਗਦਾ ਹੈ:

OLTP ਡੇਟਾਬੇਸ (ਐਪ ਡੇਟਾਬੇਸ): ਤੇਜ਼ ਇਨਸਰਟ/ਅਪਡੇਟ, ਕਠੋਰ ਸਹੀਅਤ, ਬਹੁਤ ਸਾਰੇ ਇਕੱਠੇ ਉਪਭੋਗਤਾ
ਵੇਅਰਹਾਊਸ / ਐਨਾਲਿਟਿਕਸ ਡੇਟਾਬੇਸ: ਵੱਡੇ ਡੇਟਾ 'ਤੇ ਤੇਜ਼ ਪੜ੍ਹਾਈ, ਭਾਰੀ ਐਗਰੀਗੇਸ਼ਨ, ਲੰਬੇ ਸਕੈਨ
ਕੈਸ਼ / ਕੀ-ਵੈਲਯੂ ਸਟੋਰ: "ਹੌਟ" ਡੇਟਾ ਲਈ ਬਹੁਤ ਤੇਜ਼ ਪੜ੍ਹਾਈ (ਸੈਸ਼ਨ, ਕਾਊਂਟਰ, ਫੀਚਰ ਫਲੈਗ)
ਸਟ੍ਰੀਮ ਪ੍ਰੋਸੈਸਿੰਗ + ਲੌਗ: ਲਗਾਤਾਰ ਘਟਨਾਵਾਂ (ਕਲਿੱਕ, ਭੁਗਤਾਨ, IoT), ਨਿਊਨ-ਲੈਟੈਂਸੀ ਪਾਈਪਲਾਈਨ, ਰੀਅਲ-ਟਾਈਮ ਮੈਟ੍ਰਿਕਸ

ਇਹ ਅਮਲ ਵਿੱਚ "ਇੱਕ ਸਾਈਜ਼ ਸਾਰੀਆਂ ਲਈ ਨਹੀਂ" ਦਾ ਉਦਾਹਰਨ ਹੈ: ਤੁਸੀਂ ਉਹਨਾਂ ਇੰਜਨਾਂ ਨੂੰ ਚੁਣਦੇ ਹੋ ਜੋ ਕੰਮ ਦੀ ਸ਼ਕਲ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ।

ਇੱਕ ਸੌਖਾ ਫੈਸਲਾ-ਗਾਈਡ

ਚੁਣਨ ਵੇਲੇ (ਜਾਂ ਇਕ ਹੋਰ ਸਿਸਟਮ ਨੂੰ ਜਸਟਿਫਾਈ ਕਰਦੇ ਸਮੇਂ) ਇਸ ਤੇਜ਼ ਛਾਣ-ਬੀਨ ਵਰਤੋਂ:

ਜੇ ਤੁਹਾਨੂੰ ਬਹੁਤ ਸਾਰੇ ਛੋਟੇ ਪੜ੍ਹਨ/ਲਿਖਤ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਚਾਹੀਦੇ ਹਨ (ਆਰਡਰ, ਯੂਜ਼ਰ ਪ੍ਰੋਫਾਈਲ): OLTP DB ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ।
ਜੇ ਤੁਹਾਨੂੰ ਵੱਡੀਆਂ ਕੁਐਰੀਆਂ ਅਤੇ ਐਗਰੀਗੇਸ਼ਨ ਚਾਹੀਦੇ ਹਨ (ਹਫਤਾਵਾਰ ਰੇਵਨਿਊ, ਕੋਹੋਰਟ ਵਿਸ਼ਲੇਸ਼ਣ): ਇੱਕ ਐਨਾਲਿਟਿਕਸ ਵੇਅਰਹਾਊਸ ਜੋੜੋ।
ਜੇ ਤੁਹਾਨੂੰ ਦੋਹਾਂ-ਵਾਰ ਤੇਜ਼ ਜਵਾਬ ਚਾਹੀਦੇ ਹਨ (ਆਵੇਂ-ਜਾਵੇਂ lookup): ਇੱਕ ਕੈਸ਼ ਲਗਾਓ।
ਜੇ ਤੁਹਾਨੂੰ ਇਵੈਂਟਾਂ 'ਤੇ ਤੁਰੰਤ ਪ੍ਰਤੀਕਿਰਿਆ ਚਾਹੀਦੀ ਹੈ (ਧੋਖਾਧੜੀ ਨਿਯਮ, ਲਾਈਵ ਡੈਸ਼ਬੋਰਡ): ਸਟ੍ਰੀਮਿੰਗ ਜੋੜੋ।

ਟੂਲ ਸਪ੍ਰੌਲ ਤੋਂ ਬਚੋ

ਕਈ ਇੰਜਨ ਸਿਹਤਮੰਦ ਹੋ ਸਕਦੇ ਹਨ, ਪਰ ਸਿਰਫ ਉਹਨਾਂ ਵਰਗੇ ਜਦੋਂ ਹਰ ਇਕ ਦਾ ਇੱਕ ਸਾਫ਼ ਵਰਕਲੋਡ ਹੋਵੇ। ਨਵਾਂ ਟੂਲ ਆਪਣੀ ਜਗ੍ਹਾ ਕਮਾਉਣ ਲਈ ਲਾਗਤ, ਲੇਟੈਂਸੀ ਜਾਂ ਜੋਖਮ ਘਟਾ ਕੇ ਇਸ ਦੀ ਵਜ੍ਹਾ ਦਿਖਾਏ— ਨਾ ਕਿ ਸਿਰਫ ਨਵਾਂपन ਦਿਖਾ ਕੇ।

ਘੱਟ ਟੂਲਾਂ ਨੂੰ ਤਰਜੀਹ ਦਿਓ ਜਿਨ੍ਹਾਂ ਦੀ ਮਜ਼ਬੂਤ ਓਪਰੇਸ਼ਨਲ ਮਾਲਕੀਅਤ ਹੋਵੇ, ਅਤੇ ਉਹ ਕੰਪੋਨੈਂਟਸ ਜਿਨ੍ਹਾਂ ਦਾ ਸਪਸ਼ਟ, ਮਾਪਯੋਗ ਉਦੇਸ਼ ਨਹੀਂ, ਉਹਨਾਂ ਨੂੰ ਰਿਟਾਇਰ ਕਰੋ।

ਇਹ ਵਿਚਾਰ ਆਧੁਨਿਕ ਡੇਟਾ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਕਿਵੇਂ ਨਜ਼ਰ ਆਉਂਦੇ ਹਨ

Iterate Without Fear

ਮਾਡਲਾਂ ਅਤੇ ਕੁਐਰੀਆਂ ਨੂੰ ਟਿਊਨ ਕਰਦੇ ਸਮੇਂ ਸੁਰੱਖਿਅਤ ਪ੍ਰਯੋਗ ਲਈ ਸਨੇਪਸ਼ਾਟ ਅਤੇ ਰੋਲਬੈਕ ਵਰਤੋਂ।

Rollback

Stonebraker ਦੀਆਂ ਖੋਜ ਥਰੇਡ—ਰਿਲੇਸ਼ਨਲ ਬੁਨਿਆਦ, ਵਿਸਥਾਰਯੋਗਤਾ, ਕਾਲਮ ਸਟੋਰ, MPP ਐਗਜ਼ੈਕਿਊਸ਼ਨ, ਅਤੇ "ਕਾਮ ਲਈ ਸਹੀ ਟੂਲ"—ਆਧੁਨਿਕ ਡੇਟਾ ਪਲੇਟਫਾਰਮਾਂ ਦੀਆਂ ਡਿਫ਼ਾਲਟ ਰੂਪ-ਰੇਖਾਵਾਂ ਵਿੱਚ ਦਿਸਦੀਆਂ ਹਨ।

ਜਾਣੇ-ਪਛਾਣੇ ਆਰਕੀਟੈਕਚਰ ਪੈਟਰਨ (ਅਤੇ ਕਿਉਂ ਉਹ ਇਸ ਤਰ੍ਹਾਂ ਦਿਖਦੇ ਹਨ)

ਵੇਅਰਹਾਊਸ SQL ਅਪਟੀਮਾਈਜ਼ੇਸ਼ਨ, ਕਾਲਮਰ ਸਟੋਰੇਜ, ਅਤੇ ਪੈਰਲਲ ਐਗਜ਼ੈਕਿਊਸ਼ਨ 'ਤੇ ਸਦੀਆਂ ਦੇ ਕੰਮ ਦੀ ਪਰਛਾਂਵ ਹੈ। ਜਦੋਂ ਤੁਸੀਂ ਵੱਡੀਆਂ ਟੇਬਲਾਂ 'ਤੇ ਤੇਜ਼ ਡੈਸ਼ਬੋਰਡ ਵੇਖਦੇ ਹੋ, ਅਕਸਰ ਤੁਸੀਂ ਕਾਲਮ-ਅਧਾਰਿਤ ਫਾਰਮੈਟਸ, ਵੇਕਟੋਰਾਈਜ਼ਡ ਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ MPP-ਸ਼ੈਲੀ ਸਕੇਲਿੰਗ ਵੇਖ ਰਹੇ ਹੁੰਦੇ ਹੋ।

ਲੇਕਹਾਊਸ ਵੇਅਰਹਾਊਸ ਵਿਚਾਰ (ਸਕੀਮਾਂ, ਅੰਕੜੇ, ਕੈਸ਼ਿੰਗ, cost-based optimization) ਨੂੰ ਖੁਲੇ ਫਾਈਲ ਫਾਰਮੈਟ ਅਤੇ objekਟ ਸਟੋਰੇਜ 'ਤੇ ਰੱਖਦਾ ਹੈ। "ਸਟੋਰੇਜ ਸਸਤਾ, ਕੰਪਿਊਟ ਇਲਾਸਟਿਕ" ਦਾ ਤਬਦੀਲੀ ਨਵਾਂ ਹੈ; ਪਰ ਅਧਾਰ 'ਤੇ ਕੁਐਰੀ ਅਤੇ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਸੋਚ ਨਵੀਂ ਨਹੀਂ।

MPP ਐਨਾਲਿਟਿਕਸ ਸਿਸਟਮ (shared-nothing ਕਲਸਟਰ) ਉਹੀ ਸੀਧੇ ਵੰਸ਼ਜ ਹਨ ਜਿਹੜਿਆਂ ਨੇ ਦਿਖਾਇਆ ਕਿ ਤੁਸੀਂ ਡਾਟਾ ਪਾਰਟਿਸ਼ਨ ਕਰਕੇ, ਕੰਪਿਊਟ ਨੂੰ ਡੇਟਾ ਕੋਲ ਲੈ ਕੇ, ਅਤੇ ਜੋਇਨ/ਐਗਰੀਗੇਸ਼ਨ ਦੌਰਾਨ ਡੇਟਾ ਮੂਵਮੈਂਟ ਨੂੰ ਸਾਵਧਾਨੀ ਨਾਲ ਮੈਨੇਜ ਕਰਕੇ SQL ਨੂੰ ਸਕੇਲ ਕਰ ਸਕਦੇ ਹੋ।

ਅੱਜ SQL ਦਾ ਸਥਾਨ

SQL ਨੇ ਵੇਅਰਹਾਊਸ, MPP ਇੰਜਨਾਂ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ "ਲੇਕ" ਕੁਐਰੀ ਲੇਅਰ ਦੇ ਪਾਰਮੁੱਖ ਇੰਟਰਫੇਸ ਦੇ ਰੂਪ ਵਿੱਚ ਆਪਣੀ ਥਾਂ ਬਣਾਈ ਹੈ। ਟੀਮਾਂ ਇਸਨੂੰ ਵਰਤਦੀਆਂ ਹਨ:

BI ਟੂਲ ਅਤੇ ਅਨਾਲਿਸਟਾਂ ਲਈ ਇੱਕ ਮਜ਼ਬੂਤ ਸੌਦਾ
ਜਦੋਂ ਇੰਜਨਾਂ ਬਦਲਦੇ ਹਨ ਤਾਂ ਪੋਰਟੇਬਿਲਿਟੀ ਲੇਅਰ
ਗਵਰਨੈਂਸ ਦਾ ਸਤਹੁ (views, permissions, audited access)

ਭਾਵੇਂ ਐਗਜ਼ੈਕਿਊਸ਼ਨ ਵੱਖਰੇ ਇੰਜਨਾਂ ਵਿੱਚ ਹੋਵੇ (ਬੈਚ, ਇੰਟਰਐਕਟਿਵ, ਸਟ੍ਰੀਮਿੰਗ), SQL ਅਕਸਰ ਉਪਭੋਗਤਾ-ਮੁਹੱਈਆ ਭਾਸ਼ਾ ਰਹਿੰਦੀ ਹੈ।

ਡੇਟਾ ਮਾਡਲਿੰਗ ਅਤੇ ਗਵਰਨੈਂਸ: ਸਕੀਮਾਂ ਹਜੇ ਵੀ ਮਾਇਨੇ ਰੱਖਦੀਆਂ ਹਨ

ਲਚਕੀਲੇ ਸਟੋਰੇਜ ਨਾਲ ਸਟ੍ਰਕਚਰ ਦੀ ਲੋੜ ਦੂਰ ਨਹੀਂ ਹੋ ਜਾਂਦੀ। ਸਾਫ਼ ਸਕੀਮਾਂ, ਦਸਤਾਵੇਜ਼ੀ ਅਰਥ, ਅਤੇ ਨਿਯੰਤ੍ਰਿਤ ਵਿਕਾਸ ਨਾਲ਼ downstream ਉਲਟ-ਪਲਟ ਘਟਦੇ ਹਨ।

ਚੰਗੀ ਗਵਰਨੈਂਸ ਕਿਸੇ ਬਿਊਰੋਕਰੇਸੀ ਬਾਰੇ ਨਹੀਂ, ਬਲਕਿ ਡੇਟਾ ਨੂੰ ਭਰੋਸੇਯੋਗ ਬਣਾਉਣ ਬਾਰੇ ਹੈ: ਸੰਪਰਿਚਿਤ ਪਰਿਭਾਸ਼ਾਵਾਂ, ਮਾਲਕੀਅਤ, ਗੁਣਵੱਤਾ ਚੈੱਕ, ਅਤੇ ਐਕਸੈਸ ਨਿਯੰਤਰਣ।

ਪਲੇਟਫਾਰਮ ਚੁਣਨ ਲਈ ਇੱਕ ਕੋਈ-ਹਾਇਪ ਚੈੱਕਲਿਸਟ

ਜਦੋਂ ਤੁਸੀਂ ਪਲੇਟਫਾਰਮਾਂ ਦੀ ਮੁਲਾਂਕਣ ਕਰ ਰਹੇ ਹੋ, ਤਾਂ ਪੁੱਛੋ:

ਵਰਕਲੋਡ ਫਿੱਟ: ਕੀ ਇਹ ਮੁੱਖ ਤੌਰ 'ਤੇ BI ਡੈਸ਼ਬੋਰਡ, ਐਡ-ਹਾਕ ਐਕਸਪਲੋਰੇਸ਼ਨ, ML ਫੀਚਰ ਬਣਾਉਣ, ਜਾਂ ਓਪਰੇਸ਼ਨਲ ਵਰਕਲੋਡ ਹੈ?
ਲੇਟੈਂਸੀ ਦੀ ਲੋੜ: ਸਕਿੰਟ, ਮਿੰਟ, ਜਾਂ ਘੰਟੇ? ਕੀ ਤੁਹਾਨੂੰ ਸਟ੍ਰੀਮਿੰਗ ਤਾਜ਼ਗੀ ਚਾਹੀਦੀ ਹੈ?
ਡੇਟਾ ਦੀ ਸ਼ਕਲ: ਵਧੇਰੇ ਵਾਇਡ ਇਵੈਂਟ ਲੌਗ (ਕਾਲਮਰ ਲਈ ਵਧੀਆ) ਜਾਂ ਬਹੁਤ ਸਾਰੇ ਪੌਇੰਟ ਲੁਕਅਪ (ਅਕਸਰ ਹੋਰ ਥਾਂ ਲਈ ਵਧੀਆ)?
ਕਨਕਰਨਸੀ: ਇੱਕੋ ਸਮੇਂ ਕਿੰਨੇ ਯੂਜ਼ਰ/ਕੁਐਰੀਆਂ, ਅਤੇ ਉਹ ਕਿੰਨੇ ਪੇਸ਼ਗੋਈਯੋਗ ਹਨ?
ਸਥਿਰਤਾ ਦੀ ਲੋੜ: ਕੀ ਤੁਹਾਨੂੰ ਮਜ਼ਬੂਤ ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ ਚਾਹੀਦੇ ਹਨ, ਜਾਂ eventual consistency ਠੀਕ ਹੈ?
ਓਪਰੇਸ਼ਨਲ ਹਕੀਕਤ: ਕੌਣ ਚਲਾਏਗਾ, ਕਿਹੜੀਆਂ ਕੁਸ਼ਲਤਾਵਾਂ ਮੌਜੂਦ ਹਨ, ਅਤੇ 2 ਵਜੇ ਸਵੇਰੇ ਫੇਲ੍ਹ ਹੋਣ 'ਤੇ ਨੁਕਸਾਨ ਕੀ ਹੈ?

ਜੇ ਕੋਈ ਵੇਂਡਰ ਆਪਣਾ ਉਤਪਾਦ ਇਨ੍ਹਾਂ ਬੁਨਿਆਦੀ ਗੱਲਾਂ ਨੂੰ ਸਪੱਸ਼ਟ ਭਾਸ਼ਾ ਵਿੱਚ ਨਾ ਬਤਾ ਸਕੇ, ਤਾਂ "ਨਵੀਨੀਕਰਨ" ਬਹੁਤ ਹੱਦ ਤੱਕ ਪੈਕੇਜਿੰਗ ਹੋ ਸਕਦੀ ਹੈ।

ਟੀਮਾਂ ਲਈ ਮੁੱਖ ਨਤੀਜੇ ਜੇ ਉਹ ਡੇਟਾ ਪਲੇਟਫਾਰਮ ਬਣਾ ਰਹੇ ਜਾਂ ਖਰੀਦ ਰਹੇ ਹਨ

Stonebraker ਦੀ ਲੜੀ ਸਧਾਰਨ ਹੈ: ਡੇਟਾਬੇਸ ਉਹਨਾਂ ਕੰਮਾਂ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਹੁੰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਲਈ ਉਹ ਡਿਜ਼ਾਈਨ ਕੀਤੇ ਗਏ ਹਨ—ਅਤੇ ਜਦੋਂ ਉਹ ਉਸ ਕੰਮ ਦੇ ਬਦਲਣ ਦੀ ਬਨਾਵਟ ਰੱਖ ਸਕਦੇ ਹਨ।

1) ਸਿਸਟਮ ਨੂੰ ਵਰਕਲੋਡ ਨਾਲ ਮੇਲ ਕਰੋ (ਇੱਕ ਇੰਜਨ ਤੋਂ ਹਰ ਗੱਲ ਦੀ ਉਮੀਦ ਨਾ ਕਰੋ)

ਫੀਚਰਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਲਿਖੋ ਕਿ ਤੁਸੀਂ ਅਸਲ ਵਿੱਚ ਕੀ ਕਰਨਾ ਹੈ:

ਐਨਾਲਿਟਿਕਸ: ਲੰਬੇ ਸਕੈਨ, ਵੱਡੇ ਐਗਰੀਗੇਸ਼ਨ, ਬਹੁਤ ਪੜ੍ਹਾਈ
ਟ੍ਰਾਂਜ਼ੈਕਸ਼ਨ: ਬਹੁਤ ਛੋਟੇ ਅਪਡੇਟ, ਕਠੋਰ ਸਹੀਅਤ, ਤੇਜ਼ ਜਵਾਬ
ਮਿਕਸਡ ਵਰਕਲੋਡ: ਦੋਹਾਂ, ਪਰ ਅਕਸਰ ਦਿਓ ਧਿਆਨ ਅਤੇ ਸਾਫ਼ ਤਰਜੀਆਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ
ਰੀਅਲ-ਟਾਈਮ ਫੀਡ: ਲਗਾਤਾਰ ਇਨਜੇਸ਼ਨ ਅਤੇ ਇੰਕ੍ਰੀਮੈਂਟਲ ਗਣਨਾ

ਇੱਕ ਉਪਯੋਗੀ ਨਿਯਮ: ਜੇ ਤੁਸੀਂ ਆਪਣੀ ਵਰਕਲੋਡ ਇੱਕ-ਦੋ ਵਾਕਾਂ ਵਿੱਚ ਵੇਰਵਾ ਨਹੀਂ ਕਰ ਸਕਦੇ, ਤਾਂ ਤੁਸੀਂ ਬਜ਼ਵਰਡਸ ਦੇ ਆਧਾਰ 'ਤੇ ਖਰੀਦਦਾਰੀ ਕਰ ਲਵੋਗੇ।

2) ਅੱਜ ਦੇ ਸਕੀਮਾ ਲਈ ਨਹੀਂ, ਬਦਲਾਅ ਲਈ ਡਿਜ਼ਾਈਨ ਕਰੋ

ਟੀਮਾਂ ਅਕਸਰ ਇਹ ਅੰਦਾਜ਼ਾ ਘੱਟ ਲਾਉਂਦੀਆਂ ਹਨ ਕਿ ਲੋੜ ਕਿੰਨੀ ਵਾਰ ਬਦਲੇਗੀ: ਨਵੇਂ ਡੇਟਾ ਟਾਈਪ, ਨਵੇਂ ਮੈਟ੍ਰਿਕਸ, ਨਵੇਂ ਕੰਪਲਾਇੰਸ ਨਿਯਮ, ਨਵੇਂ ਉਪਭੋਗੀ।

ਉਹ ਪਲੇਟਫਾਰਮ ਅਤੇ ਡੇਟਾ ਮਾਡਲ ਚੁਣੋ ਜੋ ਬਦਲਾਅ ਨੂੰ ਰੋਜ਼ਾਨਾ ਰੂਟੀਨ ਬਣਾਉਂਦੇ ਹਨ, ਨਾ ਕਿ ਖਤਰਨਾਕ ਕੰਮ:

ਸਟੋਰੇਜ, ਕੁਐਰੀਿੰਗ, ਅਤੇ ਐਕਸਟੈਂਸ਼ਨ ਪੁਆਇੰਟਸ ਦੇ ਵਿੱਚ ਸਾਫ਼ ਵੱਖਰਾ
ਸਕੀਮਾ ਅਤੇ ਨਵੀਂ ਲੌਜਿਕ ਨੂੰ ਸੁਰੱਖਿਅਤ ਤਰੀਕੇ ਨਾਲ ਵਿਕਸਿਤ ਕਰਨ ਦੇ ਤਰੀਕੇ
ਮਾਪਯੋਗ ਪ੍ਰਦਰਸ਼ਨ ਜੋ ਸੰਗਠਿਤ ਵਾਧੇ ਨਾਲ ਨਾ ਡਿੱਗੇ

3) ਸਹੀਅਤ ਇੱਕ ਉਤਪਾਦੀ ਫੀਚਰ ਹੈ

ਤੇਜ਼ ਜਵਾਬ ਤਦ ਹੀ ਕੀਮਤੀ ਹੁੰਦੇ ਹਨ ਜਦੋਂ ਉਹ ਸਹੀ ਹੋ। ਵਿਕਲਪਾਂ ਮੁਲਾਂਕਣ ਕਰਦੇ ਸਮੇਂ ਪੁੱਛੋ ਕਿ ਸਿਸਟਮ ਹੇਠ ਲਿਖੇ ਢੰਗ ਨਾਲ ਕਿਵੇਂ ਨਿਭਾਂਦਾ ਹੈ:

ਕਨਕਰਨਟ ਲਿਖਤਾਂ (ਜਦੋਂ ਦੋ ਲੋਕ/ਪ੍ਰਕਿਰਿਆ ਇਕੋ ਰਿਕਾਰਡ ਅਪਡੇਟ ਕਰ ਰਹੇ ਹੋ)
ਆਈਸੋਲੇਸ਼ਨ ਅਤੇ ਸਥਿਰਤਾ (ਤੁਹਾਨੂੰ ਕਿਹੜੀਆਂ ਗਾਰੰਟੀਜ਼ ਮਿਲਦੀਆਂ ਹਨ, ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਤੁਸੀ ਕੀ ਤਿਆਗਦੇ ਹੋ)
ਓਪਰੇਸ਼ਨਲ ਫੇਲ੍ਹ ਮੋਡਜ਼ (ਰੀਸਟਾਰਟ, ਹਿੱਸੇਵਾਰ ਆਊਟੇਜ, ਬੈਕਫਿਲ)

4) ਗੈਰ-ਸਪੈਸ਼ਲਿਸਟਾਂ ਲਈ ਕਾਰਗਰ ਮੁਲਾਂਕਣ ਚੈੱਕਲਿਸਟ

ਇੱਕ ਛੋਟਾ "ਤੁਹਾਡੇ ਡੇਟਾ ਨਾਲ ਪ੍ਰੂਫ" ਚਲਾਓ, ਸਿਰਫ਼ ਡੈਮੋ ਨਹੀਂ:

3–5 ਪ੍ਰਤਿਨਿਧੀ ਕੁਐਰੀਆਂ ਕੋਸ਼ਿਸ਼ ਕਰੋ ਅਤੇ ਸਮਾਂ ਅਤੇ ਖ਼ਰਚ ਮਾਪੋ।
ਪੀਕ ਕਨਕਰਨਸੀ (Monday-morning spike) ਦੀ ਜਾਂਚ ਕਰੋ।
ਡੇਟਾ ਤਾਜ਼ਗੀ, ਰਿਕਵਰੀ ਕਦਮ ਅਤੇ ਦਿਨ-ਪ੍ਰਤੀ-ਦਿਨ ਕੌਣ ਚਲਾ ਸਕਦਾ ਹੈ, ਯਕੀਨੀ ਬਣਾਓ।

5) ਆਰਕੀਟੈਕਚਰ ਫੈਸਲਿਆਂ ਨੂੰ ਖੇਡ ਵੇਖਾਉਣ ਵਾਲੇ ਸੌਫਟਵੇਅਰ ਤੱਕ ਲਿਆਂਦੇ ਜਾਣਾ

ਬਹੁਤ ਸਾਰੀਆਂ ਡੇਟਾਬੇਸ ਸਲਾਹਾਂ "ਸਹੀ ਇੰਜਨ ਚੁਣੋ" ਤੱਕ ਹੀ ਰੁਕ ਜਾਂਦੀਆਂ ਹਨ, ਪਰ ਟੀਮਾਂ ਨੂੰ ਉਸ ਇੰਜਨ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਐਪ ਅਤੇ ਅੰਦਰੂਨੀ ਟੂਲ ਵੀ ਸ਼ਿਪ ਕਰਨੇ ਪੈਂਦੇ ਹਨ: ਐਡਮਿਨ ਪੈਨਲ, ਮੈਟ੍ਰਿਕਸ ਡੈਸ਼ਬੋਰਡ, ਇੰਜੈਸ਼ਨ ਸਰਵਿਸਿਜ਼, ਅਤੇ ਬੈਕ-ਆਫ਼ਿਸ ਵਰਕਫਲੋਜ਼।

ਜੇ ਤੁਸੀਂ ਇਨ੍ਹਾਂ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਪ੍ਰੋਟੋਟਾਈਪ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ ਬਿਨਾਂ ਪੂਰੇ ਪਾਈਪਲਾਈਨ ਨੂੰ ਦੁਬਾਰਾ ਬਣਾਏ, ਤਾਂ ਇੱਕ vibe-coding ਪਲੇਟਫਾਰਮ ਜਿਵੇਂ Koder.ai ਤੁਹਾਡੀ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ: React ਲਈ ਵੈੱਬ ਐਪ, backend ਸਰਵਿਸਿਜ਼ (Go + PostgreSQL), ਅਤੇ ਮੋਬਾਈਲ ਕਲਾਇੰਟ (Flutter) ਨੂੰ chat-ਚਾਲਿਤ ਵਰਕਫਲੋ ਵਿੱਚ ਤਿਆਰ ਕਰਨਾ। ਇਹ ਅਕਸਰ ਵਰਤੋਂਯੋਗ ਹੁੰਦਾ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਸਕੀਮਾ ਡਿਜ਼ਾਈਨ 'ਤੇ ਤੁਰੰਤ ਪ੍ਰਯੋਗ ਕਰ ਰਹੇ ਹੋ, ਇੱਕ ਛੋਟਾ ਅੰਦਰੂਨੀ "ਡੇਟਾ ਉਤਪਾਦ" ਬਣਾਉਂਦੇ ਹੋ, ਜਾਂ ਲੰਬੇ ਸਮੇਂ ਦੀ ਢੇਰ ਸਟ੍ਰਕਚਰ 'ਤੇ ਰੋਕਥਾਮ ਤੋਂ ਪਹਿਲਾਂ ਵਰਕਲੋਡ ਦੀ ਅਸਲ ਵਿਵਹਾਰਤਾ ਸਾਬਤ ਕਰਨੀ ਹੁੰਦੀ ਹੈ।

ਅਗਲੇ ਪੜ੍ਹਾਈ (ਸਿੱਧਾਂਤ ਨੂੰ ਸਮਝਣ ਲਈ)

ਜੇ ਤੁਸੀਂ ਹੋਰ ਗਹਿਰਾਈ ਵਿੱਚ ਜਾਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ "ਕਾਲਮਰ ਸਟੋਰੇਜ", "MVCC", "MPP execution", ਅਤੇ "stream processing" ਬਾਰੇ ਪੜ੍ਹੋ। ਹੋਰ ਸਮਝਾਉਣ ਵਾਲੇ ਲੇਖ /blog ਵਿੱਚ ਮੌਜੂਦ ਹਨ।

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

Why does Michael Stonebraker matter to modern data teams?

ਉਨ੍ਹਾਂ ਦੀਆਂ ਖੋਜ-ਅਧਾਰਿਤ ਪ੍ਰਣਾਲੀਆਂ ਵਾਕਈ ਉਤਪਾਦਿਕ ਡੀਐਨਏ ਬਣ ਗਈਆਂ। Ingres (SQL + ਕੁਐਰੀ ਅਪਟੀਮਾਈਜੇਸ਼ਨ), Postgres (extensibility + MVCC ਵਿਚਾਰ) ਅਤੇ Vertica (ਕਾਲਮਰ + MPP ਐਨਾਲਿਟਿਕਸ) ਵਿੱਚ ਸਾਬਤ ਕੀਤੀਆਂ ਗਈਆਂ ਵਿਚਾਰਧਾਰਾਵਾਂ ਅੱਜ ਵੀ ਵੇਅਰਹਾਊਸ, OLTP ਡੇਟਾਬੇਸ ਅਤੇ ਸਟ੍ਰੀਮਿੰਗ ਪਲੇਟਫਾਰਮਾਂ ਦੇ ਬਣਤਰ ਅਤੇ ਮਾਰਕੀਟਿੰਗ 'ਚ ਨਜ਼ਰ ਆਉਂਦੀਆਂ ਨੇ।

Why did SQL become the common language across so many data systems?

SQL ਨੇ ਇਸ ਲਈ ਜਿੱਤਿਆ ਕਿ ਇਸ ਨਾਲ ਤੁਸੀਂ ਇਹ ਵੇਖਾ ਸਕਦੇ ਹੋ ਕਿ ਤੁਸੀਂ ਕੀ ਚਾਹੁੰਦੇ ਹੋ, ਜਦੋਂ ਕਿ ਡੇਟਾਬੇਸ ਇਹ ਤੈਅ ਕਰਦਾ ਹੈ ਕਿ ਉਨ੍ਹਾਂ ਨਤੀਜਿਆਂ ਨੂੰ ਲਭਣ ਲਈ ਕਿਵੇਂ। ਇਹ ਵੱਖ-ਵੱਖ ਫਾਇਦੇ ਦਿੰਦਾ ਹੈ:

ਤੇਜ਼ ਇਤਰਾਟ (ਹਰ ਰਿਪੋਰਟ ਲਈ ਕਸਟਮ ਕੋਡ ਘੱਟ)
ਵਿਸ਼ਾਲ ਪਹੁੰਚ (ਅਨਾਲਿਸਟ ਅਤੇ ਗੈਰ-ਇੰਜੀਨੀਅਰ ਵੀ ਕੁਐਰੀ ਕਰ ਸਕਦੇ ਹਨ)
ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਦੁਬਾਰਾ ਲਿਖਣ ਦੀ ਬਜਾਏ, ਅਪਟੀਮਾਈਜ਼ਰਾਂ ਨੂੰ ਬਦਲਣ ਦੀ ਆਸਾਨੀ

What is cost-based query optimization, and why should I care?

ਇਕ cost-based optimizer ਟੇਬਲ ਦੇ ਅੰਕੜਿਆਂ ਤੋਂ ਸੰਭਾਵਿਤ ਕੁਐਰੀ ਯੋਜਨਾਵਾਂ ਦੀ ਤੁਲਨਾ ਕਰਕੇ ਸਭ ਤੋਂ ਘੱਟ ਉਮੀਦਿਤ "ਲਾਗਤ" (I/O, CPU, ਮੈਮੋਰੀ) ਵਾਲੀ ਯੋਜਨਾ ਚੁਣਦਾ ਹੈ।ਅਮਲ ਵਿਚ ਇਹ ਤੁਹਾਨੂੰ:

ਹੱਥੋਂ-ਹੱਥ ਜੋਇਨ-ਕ੍ਰਮ ਅਤੇ ਇੰਡੈਕਸ ਸੈਟਿੰਗ ਤੋਂ ਮੁਕਤੀ
ਡੇਟਾ ਵਧਣ ਨਾਲ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਸਥਿਰ ਰੱਖਣਾ
ਇੱਕੋ ਕੁਐਰੀ ਲਈ ਘੱਟ ਕੰਮ ਕਰਕੇ ਖ਼ਰਚ ਬਚਾਉਣਾ

What is MVCC in plain English, and what problem does it solve?

MVCC (Multi-Version Concurrency Control) ਕਿਛੇ ਸਮੇਂ ਲਈ ਇੱਕ ਰੋਅ ਦੀਆਂ ਕਈ ਵਰਜਨਾਂ ਨੂੰ ਰੱਖਦਾ ਹੈ ਤਾਂ ਜੋ ਪੜ੍ਹਨ ਵਾਲੇ ਇੱਕ ਸਥਿਰ ਸਨੇਪਸ਼ਾਟ ਵੇਖ ਸਕਣ ਜਦੋਂ ਲਿਖਣ ਵਾਲੇ ਅੱਪਡੇਟ ਕਰ ਰਹੇ ਹੁੰਦੇ ਹਨ।ਰੋਜ਼ਾਨਾ ਜੀਵਨ ਵਿੱਚ ਇਸਦਾ ਫਾਇਦਾ ਇਹ ਹੈ:

ਡੈਸ਼ਬੋਰਡ ਅਤੇ ਪੜ੍ਹਨ ਵਾਲੀਆਂ ਪਰਕਿਰਿਆਵਾਂ ਲਿਖਤਾਂ ਨੂੰ ਘੱਟ ਬਲੌਕ ਕਰਦੀਆਂ ਨੇ
ਲੰਬੇ ਪੜ੍ਹਨ ਕਾਰਜ ਉੱਚ-ਲਿਖਤ ਐਪਸ ਨੂੰ ਆਮ ਤੌਰ 'ਤੇ ਫ੍ਰੀਜ਼ ਨਹੀਂ ਕਰਦੇ
ਪੁਰਾਣੀਆਂ ਵਰਜਨਾਂ ਦੇ ਇਕੱਠੇ ਹੋਣ ਲਈ ਸਫਾਈ/ਮੈਂਟੇਨੈਂਸ ਦੀ ਯੋਜਨਾ ਲੋੜੀਂਦੀ ਹੁੰਦੀ ਹੈ

How does “extensible databases” (Postgres) affect what I can build today?

Extensibility ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਡੇਟਾਬੇਸ ਨਵੀਆਂ ਸਮਰੱਥਾਵਾਂ — ਟਾਈਪ, ਫੰਕਸ਼ਨ, ਇੰਡੈਕਸ — ਨੂੰ ਸੁਰੱਖਿਅਤ ਤਰੀਕੇ ਨਾਲ ਜੋੜ ਸਕਦਾ ਹੈ ਬਿਨਾਂ ਇੰਜਨ ਨੂੰ ਫੋਰਕ ਕੀਤੇ।ਇਸਦੇ ਫਾਇਦੇ:

ਵਧੇਰੇ ਰੀਚ ਡੇਟਾ ਸੰਭਾਲੋ (ਜਿਵੇਂ geospatial, JSON-ਅਧਾਰਿਤ ਸਟ੍ਰਕਚਰ)
ਡੋਮੇਨ ਲੌਜਿਕ ਨੂੰ ਡੇਟਾ ਕੋਲ ਧੱਕੋ (UDFs)
ਨਵੇਂ ਐਕਸੈਸ ਪੈਟਰਨ ਲਈ ਵਿਸ਼ੇਸ਼ ਇੰਡੈਕਸਿੰਗ

ਆਪਰੇਸ਼ਨਲ ਨਿਯਮ: ਐਕਸਟੈਂਸ਼ਨਜ਼ ਨੂੰ ਡਿਪੈਂਡੇੰਸੀ ਵਾਂਗ ਵਰਤੋ—ਵਰਜ਼ਨਿੰਗ, ਟੈਸਟਿੰਗ ਅਤੇ ਕਿਸ ਨੂੰ ਇੰਸਟਾਲ ਕਰਨ ਦੀ ਆਗਿਆ ਹੈ, ਇਹ ਨਿਯੰਤਰਿਤ ਰੱਖੋ।

When should I use a column store instead of a row-oriented database?

ਰੋਅ ਸਟੋਰ ਉਹਨਾਂ ਸਥਿਤੀਆਂ ਲਈ ਵਧੀਆ ਹੁੰਦੇ ਹਨ ਜਿੱਥੇ ਤੁਸੀਂ ਅਕਸਰ ਪੂਰੇ ਰਿਕਾਰਡ ਨੂੰ ਪੜ੍ਹਦੇ ਜਾਂ ਲਿਖਦੇ ਹੋ (OLTP). ਕਾਲਮ ਸਟੋਰ ਉਨ੍ਹਾਂ ਹਾਲਤਾਂ ਵਿੱਚ ਚਮਕਦੇ ਹਨ ਜਦੋਂ ਤੁਸੀਂ ਬਹੁਤ ਸਾਰੇ ਰੋਅ ਨੂੰ ਸਕੈਨ ਕਰਦੇ ਹੋ ਪਰ ਸਿਰਫ਼ ਕੁਝ ਖੇਤਰਾਂ ਨੂੰ ਛੂਹਦੇ ਹੋ (ਐਨਾਲਿਟਿਕਸ)।

ਸਧਾਰਨ ਨਿਯਮ:

ਅਕਸਰ ਸਿੰਗਲ-ਰੋਅ ਅਪਡੇਟਸ + ਪੋਇੰਟ ਲੁਕਅਪ → ਰੋਅ-ਅਧਾਰਿਤ OLTP
ਵੱਡੇ ਸਕੈਨ + ਐਗਰੀਗੇਸ਼ਨ (SUM/COUNT, group by) → ਕਾਲਮਰ ਵੇਅਰਹਾਊਸ/ਇੰਜਨ

What does MPP mean, and when is it worth the complexity?

MPP (massively parallel processing) ਡਾਟਾ ਨੂੰ ਨੋਡਾਂ ਵਿਚ ਵੰਡ ਕੇ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਇਕੋ ਵੇਲੇ ਬਹੁਤ ਸਾਰੇ ਮਸ਼ੀਨ ਇੱਕ SQL ਕੁਐਰੀ 'ਤੇ ਕੰਮ ਕਰਨ।ਇਹ ਮਹੱਤਵਪੂਰਨ ਹੈ ਜਦੋਂ:

ਬਹੁਤ ਵੱਡੇ ਫੈਕਟ ਟੇਬਲ ਹਨ
ਭਾਰੀ ਜੋਇਨ/ਐਗਰੀਗੇਸ਼ਨ ਹੁੰਦੇ ਹਨ
ਬਹੁਤ ਸਾਰੇ ਸੰਯੁਕਤ BI ਕੁਐਰੀਆਂ ਚੱਲਦੀਆਂ ਹਨ

ਟਰੇਡ-ਆਫ਼ ਅੰਦਰ: ਡੈਟਾ ਵਿਤਰਨ ਚੋਣਾਂ, ਜੋਇਨ ਦੌਰਾਨ ਸ਼ੁਫਲਿੰਗ ਲਾਗਤਾਂ, ਅਤੇ ਇਕੱਲੇ-ਰੋਅ ਅਪਡੇਟਸ ਲਈ ਘੱਟ ਸੁਵਿਧਾ।

What is vectorized execution, and why do analytics engines use it?

Vectorized execution ਡੇਟਾ ਨੂੰ ਬੈਚਾਂ (vectors) ਵਿੱਚ ਪ੍ਰਕਿਰਿਆ ਕਰਦਾ ਹੈ ਨਾਕਿ ਇਕ-ਇਕ ਰੋਅ ਅਨੁਸਾਰ, ਇਸ ਨਾਲ ਓਵਰਹੈਡ ਘਟਦਾ ਹੈ ਅਤੇ CPU cache ਬਿਹਤਰ ਤਰੀਕੇ ਨਾਲ ਵਰਤੀ ਜਾਂਦੀ ਹੈ।ਆਮ ਤੌਰ 'ਤੇ ਤੁਸੀਂ ਇਹ ਤਰੀਕਾਂ ਅਨੁਭਵ ਕਰੋਗੇ:

ਤੇਜ਼ ਸਕੈਨ, ਫਿਲਟਰ ਅਤੇ ਐਗਰੀਗੇਸ਼ਨ
ਵਿਆਪਕ ਐਨਾਲਿਟਿਕਲ ਕੁਐਰੀਆਂ 'ਤੇ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ
ਭਾਰੀ BI ਵਰਕਲੋਡ ਹੇਠਾਂ ਜ਼ਿਆਦਾ ਸਥਿਰ throughput

When do I need streaming instead of batch pipelines?

ਬੈਚ ਸਿਸਟਮ ਪੀਰੀਆਡਿਕ ਜੌਬਾਂ ਚਲਾਉਂਦੇ ਹਨ, ਇਸ ਲਈ ਡੇਟਾ "ਤਾਜ਼ਾ" ਹੋਣ ਵਿੱਚ ਦੇਰੀ ਹੋ ਸਕਦੀ ਹੈ।ਸਟ੍ਰੀਮਿੰਗ ਸਿਸਟਮ ਘਟਨਾਵਾਂ ਨੂੰ ਲਗਾਤਾਰ ਇਨਪੁੱਟ ਵਜੋਂ ਲੈਂਦੇ ਹਨ ਅਤੇ ਨਤੀਜੇ ਨੂੰ ਇੰਕ੍ਰੀਮੈਂਟਲ ਤਰੀਕੇ ਨਾਲ ਨਵੀਨਤ ਕਰਦੇ ਹਨ।

ਜਿੱਥੇ ਸਟ੍ਰੀਮਿੰਗ ਤੁਰੰਤ ਲਾਭਦਾਇਕ ਹੁੰਦੀ ਹੈ:

ਧੋਖਾਧੜੀ/ਦੁਰਵਿਵਹਾਰ ਖੋਜ ਸਕਿੰਟਾਂ ਦੇ ਅੰਦਰ
ਓਪਰੇਸ਼ਨਲ ਅਲਰਟਿੰਗ ਜਦੋਂ ਏਰਰ spike ਹੋਵੇ
ਲਾਈਵ ਉਤਪਾਦ ਮੈਟ੍ਰਿਕਸ

ਸਟ੍ਰੀਮਿੰਗ ਵਿੱਚ ਨਤੀਜਿਆਂ ਨੂੰ ਸਿਮਤ ਰੱਖਣ ਲਈ ਵਿੰਡੋਜ਼ ਵਰਤੀ ਜਾਂਦੀਆਂ ਹਨ (ਉਦਾਹਰਣ: ਆਖਰੀ 5 ਮਿੰਟ)।

How do I avoid “one database for everything” without ending up with tool sprawl?

ਜਦੋਂ ਹਰ ਇਕ ਟੂਲ ਦਾ ਇੱਕ ਕਲੀਅਰ ਵਰਕਲੋਡ ਬਾਉਂਡਰੀ ਅਤੇ ਮਾਪਯੋਗ ਲਾਭ ਹੋਵੇ, ਤਾਂ ਕਈ ਸਿਸਟਮ ਵਰਤਣਾ ਠੀਕ ਹੈ (ਲਾਗਤ, ਲੇਟੈਂਸੀ, ਭਰੋਸਾ)।ਸਪ੍ਰੌਲ ਤੋਂ ਬਚਣ ਲਈ:

ਹਰ ਟੂਲ ਲਈ ਮੁੱਖ ਵਰਕਲੋਡ ਲਿਖੋ (OLTP, BI, cache, streaming)
ਮਾਲਕੀਅਤ ਅਤੇ ਆਨ-ਕੌਲ ਜ਼ਿੰਮੇਵਾਰੀ ਪਰਿਭਾਸ਼ਤ ਕਰੋ
ਉਹ ਟੂਲ ਰਿਟਾਇਰ ਕਰੋ ਜਿਨ੍ਹਾਂ ਦਾ ਸਪਸ਼ਟ ਉਦੇਸ਼ ਨਹੀਂ ਹੈ
ਆਪਣੇ ਡੇਟਾ 'ਤੇ ਛੋਟੀ ਪ੍ਰੂਫ਼ ਦੇ ਕੇ ਫੈਸਲੇ ਵੈਰਿਫਾਈ ਕਰੋ (ਨੇਮੂਨਾ ਕੁਐਰੀਆਂ + concurrency)

ਪੋਸਟ ਵਿੱਚ ਦਿੱਤੇ ਚੈੱਕਲਿਸਟ ਵਿਚਾਰ ਨੂੰ ਦੁਹਰਾਓ ਜੇ ਤੁਹਾਨੂੰ ਚੋਣ ਫਰੇਮਵਰਕ ਚਾਹੀਦਾ ਹੈ।