ਕਿਵੇਂ ਕਾਲਮ-ਅਧਾਰਤ ਡੇਟਾਬੇਸ ਐਨਾਲਿਟਿਕਸ ਅਤੇ ਰਿਪੋਰਟਿੰਗ ਨੂੰ ਤੇਜ਼ ਕਰਦੇ ਹਨ

Q: What’s the simplest way to explain row stores vs. column stores?

ਸਰਲ لفظਾਂ ਵਿੱਚ: - ਇੱਕ row store ਵਿੱਚ ਇੱਕੋ ਰੋ ਦੀਆਂ ਵੈਲ੍ਯੂਜ਼ ਇਕੱਠੇ ਡਿਸਕ 'ਤੇ ਰਹਿੰਦੀਆਂ ਹਨ — ਇਹ ਇੱਕ ਰਿਕਾਰਡ ਨੂੰ ਲੱਭਣ ਜਾਂ ਅਪਡੇਟ ਕਰਨ ਲਈ ਵਧੀਆ ਹੈ। - ਇੱਕ column store ਵਿੱਚ ਇੱਕੋ ਕਾਲਮ ਦੀਆਂ ਵੈਲ੍ਯੂਜ਼ ਇਕੱਠੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ — ਜਦੋਂ ਕੁਇਰੀਆਂ ਬਹੁਤ ਸਾਰੀਆਂ ਪੰਗਤੀਆਂ 'ਚੋਂ ਕੇਵਲ ਕੁਝ ਕਾਲਮ ਪੜ੍ਹਦੀਆਂ ਹਨ ਤਾਂ ਇਹ ਵਧੀਆ ਹੁੰਦਾ ਹੈ। ਜੇਕਰ ਤੁਹਾਡੀ ਰਿਪੋਰਟ ਨੂੰ ਕੇਵਲ ਅਤੇ ਦੀ ਜ਼ਰੂਰਤ ਹੈ, ਤਾਂ column store ਬੇਸਰੋ-ਪੈਰ ਜਾਂ ਵਰਗੀਆਂ ਗੈਰ-ਲੋੜੀਂਦੀਆਂ ਕਾਲਮਾਂ ਨੂੰ ਪੜ੍ਹਨ ਤੋਂ ਬਚ ਸਕਦਾ ਹੈ।

Q: How should I model data for column-oriented analytics?

Star schema columnar analytics ਲਈ ਕੁਦਰਤੀ ਤੌਰ 'ਤੇ ਮੈਚ ਕਰਦੀ ਹੈ: ਇੱਕ ਵੱਡੀ fact table ਤੇ ਕਈ ਛੋਟੀਆਂ dimension tables। - fact table: ਉੱਚ ਵਰਦੰਤ ਵਾਲੀਆਂ event-ਲੈਵਲ records (ਮਾਪ ਅਤੇ foreign keys)। - dimension table: ਘੱਟ ਵਰਦੰਤ ਵਾਲੀਆਂ ਵੇਰਵਾ-ਆਧਾਰਿਤ attributes, ਜੋ filter/grouping ਲਈ ਵਰਤੀ ਜਾਂਦੀਆਂ ਹਨ। ਫਾਇਦੇ: - queries ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਚੌੜੇ fact table ਦੇ ਕੇਵਲ ਕੁਝ ਕਾਲਮ ਪੜ੍ਹਦੀਆਂ ਹਨ। ਮਾਡਲਿੰਗ ਸੁਝਾਵ: - surrogate integer keys ਦੀ ਵਰਤੋਂ ਕਰੋ (joins ਤੇ grouping ਤੇਜ਼ ਅਤੇ compressible)। - fact table ਦਾ consistent grain ਰੱਖੋ (ਇੱਕ row = ਇੱਕ event)। - partition facts by time, ਅਤੇ ਸਾਰਥਕ filter keys ਨਾਲ sort/cluster ਕਰੋ (ਜਿਵੇਂ ਫਿਰ ) ਤਾਂ ਕਿ skip ਅਤੇ compression ਚੰਗੀ ਹੋਵੇ।

ਲੌਗ ਇਨ ਸ਼ੁਰੂ ਕਰੋ

ਕਿਵੇਂ ਕਾਲਮ-ਅਧਾਰਤ ਡੇਟਾਬੇਸ ਐਨਾਲਿਟਿਕਸ ਅਤੇ ਰਿਪੋਰਟਿੰਗ ਨੂੰ ਤੇਜ਼ ਕਰਦੇ ਹਨ | Koder.ai

ਐਨਾਲਿਟਿਕਸ ਅਤੇ ਰਿਪੋਰਟਿੰਗ ਕੁਇਰੀਆਂ ਕੀ ਵੱਖਰੀਆਂ ਹੁੰਦੀਆਂ ਹਨ

ਐਨਾਲਿਟਿਕਸ ਅਤੇ ਰਿਪੋਰਟਿੰਗ ਕੁਇਰੀਆਂ BI ਡੈਸ਼ਬੋਰਡ, ਹਫਤਾਵਾਰੀ KPI ਈਮੇਲ, “ਅਸੀਂ ਪਿਛਲੇ ਤਿਮਾਹੀ ਵਿੱਚ ਕਿਵੇਂ ਕੀਆ?” ਵਾਂਗ ਦੇ ਰਿਵਿਊਂ ਅਤੇ ad‑hoc ਸਵਾਲਾਂ (ਜਿਵੇਂ “ਜਰਮਨੀ ਵਿੱਚ ਕਿਸ ਮਾਰਕੀਟਿੰਗ ਚੈਨਲ ਨੇ ਸਭ ਤੋਂ ਵੱਧ lifetime value ਦਿੱਤੀ?”) ਨੂੰ ਚਲਾਉਂਦੀਆਂ ਹਨ। ਇਹ ਆਮ ਤੌਰ 'ਤੇ ਪੜ੍ਹਨ-ਭਾਰ ਵਾਲੀਆਂ ਹੁੰਦੀਆਂ ਹਨ ਅਤੇ ਬੜੇ ਇਤਿਹਾਸਕ ਡੇਟਾ ਦਾ ਸਰਲੰਸ਼ ਕਰਨ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਹੁੰਦੀਆਂ ਹਨ।

ਇਹ ਵਰਕਲੋਡ ਕਿਸ ਤਰ੍ਹਾਂ ਦੇਖਦੇ ਹਨ

ਇੱਕ ਸਧਾਰਣ ਰਿਕਾਰਡ ਲੱਭਣ ਦੀ ਥਾਂ, ਐਨਾਲਿਟਿਕਸ ਕੁਇਰੀਆਂ ਅਕਸਰ:

ਟੇਬਲ ਦੇ ਵੱਡੇ ਹਿੱਸਿਆਂ ਨੂੰ ਸਕੈਨ ਕਰਦੀਆਂ ਹਨ (ਲੱਖਾਂ ਤੋਂ ਕਰੋੜਾਂ ਰੋਜ਼)
aggregates (SUM, COUNT, AVG), grouping, percentiles, ਅਤੇ ਸਮੇ-ਆਧਾਰਿਤ ਤੁਲਨਾਵਾਂ ਗਣਨਾ ਕਰਦੀਆਂ ਹਨ
fact ਟੇਬਲਾਂ ਨੂੰ dimension ਨਾਲ join ਕਰਦੀਆਂ ਹਨ (orders + customers + products)
dataset ਦੇ ਕਈ ਕਾਲਮਾਂ ਨੂੰ ਛੇੜਦਿਆਂ ਹਨ ਅਤੇ ਫਿਰ ਛੋਟਾ ਨਤੀਜਾ ਵਾਪਿਸ ਕਰਦੀਆਂ ਹਨ (ਉਦਾਹਰਨ ਲਈ ਇੱਕ ਚਾਰਟ ਲਈ ~20 rows)

ਇਹ ਡੇਟਾਬੇਸ ਨੂੰ ਕਿਉਂ ਤਪਾਉਂਦਾ ਹੈ

ਦੋ ਚੀਜ਼ਾਂ ਇੱਕ ਪਰੰਪਰਾਗਤ ਡੇਟਾਬੇਸ ਇੰਜਣ 'ਤੇ ਐਨਾਲਿਟਿਕਸ ਨੂੰ ਮੁਸ਼ਕਲ ਬਣਾਉਂਦੀਆਂ ਹਨ:

ਵੱਡੇ ਸਕੈਨ ਮਹਿੰਗੇ ਹੁੰਦੇ ਹਨ। ਬਹੁਤ ਸਾਰੀਆਂ ਰੋਅਜ਼ ਪੜ੍ਹਨਾ ਮਤਲਬ ਬਹੁਤ ਸਾਰਾ ਡਿਸਕ ਅਤੇ ਮੈਮੋਰੀ ਐਕਟਿਵਿਟੀ, ਭਾਵੇਂ ਆਖਰੀ ਆਉਟਪੁੱਟ ਛੋਟਾ ਹੋਵੇ।
Concurrency ਇੱਕ ਹਕੀਕਤ ਹੈ। ਇੱਕ ਡੈਸ਼ਬੋਰਡ "ਇੱਕ ਕੁਇਰੀ" ਨਹੀਂ ਹੁੰਦਾ—ਇਹ ਕਈ ਚਾਰਟ ਹਨ ਜੋ ਇਕੱਠੇ ਲੋਡ ਹੁੰਦੇ ਹਨ, ਕਈ ਉਪਭੋਗਤਾਵਾਂ ਦੇ ਨਾਲ ਗੁਣਾ ਕਰਕੇ, ਨਾਲ ਹੀ ਨਿਯਤ ਰਿਪੋਰਟਾਂ ਅਤੇ تلاشਕਾਰੀ ਪੁੱਛਗਿੱਛ parallel ਚਲ ਰਹੀਆਂ ਹੁੰਦੀਆਂ ਹਨ।

ਉਮੀਦਾਂ ਸੈੱਟ ਕਰਨਾ (ਗਤੀ, ਲਾਗਤ, concurrency, ਤਾਜਗੀ)

ਕਾਲਮ-ਉਦਮਿਤ ਸਿਸਟਮ ਸਕੈਨ ਅਤੇ aggregates ਨੂੰ ਤੇਜ਼ ਅਤੇ ਪੇਸ਼ਗੋਈਯੋਗ ਬਣਾਉਣ ਦਾ ਉਦੇਸ਼ ਰੱਖਦੇ ਹਨ—ਅਕਸਰ ਪ੍ਰਤੀ ਕੁਇਰੀ ਘੱਟ ਲਾਗਤ 'ਤੇ—ਜਦ ਕਿ ਡੈਸ਼ਬੋਰਡ ਲਈ ਉੱਚ concurrency ਨੂੰ ਸਮਰਥਨ ਵੀ ਦਿੰਦੇ ਹਨ।

ਤਾਜਗੀ ਇੱਕ ਵੱਖਰਾ ਪਹਿਲੂ ਹੈ। ਬਹੁਤ ਸਾਰੇ ਐਨਾਲਿਟਿਕਸ ਸੈਟਅਪਜ਼ ਤੇਜ਼ ਰਿਪੋਰਟਿੰਗ ਲਈ ਡੇਟਾ ਨੂੰ ਬੈਚਾਂ ਵਿੱਚ ਲੋਡ ਕਰਕੇ (ਕੁਝ ਮਿੰਟਾਂ ਜਾਂ ਘੰਟਿਆਂ 'ਚ) sub-second ਅੱਪਡੇਟਾਂ ਦਾ ਤਿਆਗ ਕਰ ਦਿੰਦੇ ਹਨ। ਕੁਝ ਪਲੇਟਫਾਰਮ ਨੀਅਰ-ਰੀਅਲ-ਟਾਈਮ ingestion ਸਮਰਥਨ ਕਰਦੇ ਹਨ, ਪਰ updates ਅਤੇ deletes ਵਪਾਰਕ (transactional) ਸਿਸਟਮਾਂ ਦੇ ਮੁਕਾਬਲੇ ਵਧੇਰੇ ਜਟਿਲ ਹੋ ਸਕਦੇ ਹਨ।

OLAP vs OLTP ਸਧਾਰਨ ਅੱਖਰਾਂ ਵਿੱਚ

OLTP (online transaction processing) ਦਿਨ-ਭਰ ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਲਈ ਹੁੰਦਾ ਹੈ: ਇੱਕ order insert ਕਰੋ, ਇੱਕ ਪਤਾ update ਕਰੋ, ਇੱਕ user ਲੱਭੋ—ਛੋਟੀਆਂ, ਸਹੀ ਕੁਇਰੀਆਂ।
OLAP (online analytical processing) ਕਾਰੋਬਾਰ ਨੂੰ ਸਮਝਣ ਲਈ ਹੁੰਦਾ ਹੈ: ਸੁੰਨਖੇਪ ਕਰੋ, ਕਟੋਰੀਆਂ ਬਣਾਓ, ਅਤੇ ਬਹੁਤ ਸਾਰੇ ਡੇਟਾ ਉੱਤੇ ਤੁਲਨਾ ਕਰੋ।

ਕਾਲਮ-ਉਦਮਿਤ ਡੇਟਾਬੇਸ ਮੁੱਖ ਤੌਰ 'ਤੇ OLAP-ਸਟਾਈਲ ਕਾਰਜਾਂ ਲਈ ਬਣਾਏ ਜਾਂਦੇ ਹਨ।

ਰੋ-ਸਟੋਰਸ vs ਕਾਲਮ-ਸਟੋਰਸ: ਮੁੱਖ ਵਿਚਾਰ

ਕਾਲਮ-ਉਦਮਿਤ ਡੇਟਾਬੇਸ ਨੂੰ ਸਮਝਣ ਦਾ ਸਭ ਤੋਂ ਸਿੱਧਾ ਤਰੀਕਾ ਇਹ ਦਿਖਾਉਣਾ ਹੈ ਕਿ ਇੱਕ ਟੇਬਲ ਡਿਸਕ 'ਤੇ ਕਿਵੇਂ ਰੱਖੀ ਜਾਂਦੀ ਹੈ।

ਰੋ-ਅਧਾਰਤ ਸਟੋਰੇਜ (ਪਰੰਪਰਾਗਤ OLTP ਅੰਦਾਜ਼)

ਇੱਕ ਟੇਬਲ orders ਦੀ ਕਲਪਨਾ ਕਰੋ:

order_id	customer_id	order_date	status	total
1001	77	2025-01-03	shipped	120.50
1002	12	2025-01-03	pending	35.00
1003	77	2025-01-04	shipped	89.99

ਇੱਕ row store ਵਿੱਚ ਡੇਟਾਬੇਸ ਇਕੋ row ਤੋਂ ਆਉਣ ਵਾਲੀਆਂ ਵੈਲਿਊਜ਼ ਨੂੰ ਨਜ਼ਦੀਕ ਰੱਖਦਾ ਹੈ। ਇਹ ਇਸ ਤਰ੍ਹਾਂ ਹੈ:

Row 1001: (1001, 77, 2025-01-03, shipped, 120.50)
Row 1002: (1002, 12, 2025-01-03, pending, 35.00)

ਜੇ ਤੁਹਾਡੀ ਐਪ ਅਕਸਰ ਪੂਰੇ ਰਿਕਾਰਡ ਨੂੰ ਲੱਭਦੀ ਜਾਂ update ਕਰਦੀ ਹੈ (ਉਦਾਹਰਨ ਵਜੋਂ “order 1002 ਲੱਭੋ ਅਤੇ ਉਸਦਾ status update ਕਰੋ”), ਤਾਂ ਇਹ ਬਿਹਤਰ ਹੁੰਦਾ ਹੈ।

ਕਾਲਮ-ਅਧਾਰਤ ਸਟੋਰੇਜ (ਐਨਾਲਿਟਿਕਸ/OLAP ਅੰਦਾਜ਼)

ਇੱਕ column store ਵਿੱਚ ਇੱਕੇ ਕਾਲਮ ਦੀਆਂ ਵੈਲ੍ਯੂਜ਼ ਇਕੱਠੀਆਂ ਰੱਖੀਆਂ ਜਾਂਦੀਆਂ ਹਨ:

order_id: 1001, 1002, 1003, …
status: shipped, pending, shipped, …
total: 120.50, 35.00, 89.99, …

ਮੁੱਖ ਫਰਕ: ਸਿਰਫ ਉਹੀ ਪੜ੍ਹੋ ਜੋ ਲੋੜੀਂਦਾ ਹੋਵੇ

ਐਨਾਲਿਟਿਕਸ ਕੁਇਰੀਆਂ ਆਮ ਤੌਰ 'ਤੇ ਕੁਝ ਹੀ ਕਾਲਮ ਛੇੜਦੀਆਂ ਹਨ ਪਰ ਕਈ ਰੋਅਜ਼ ਸਕੈਨ ਕਰਦੀਆਂ ਹਨ। ਉਦਾਹਰਨ:

SUM(total) ਦਿਵਸ ਦੇ ਮੁਤਾਬਕ
AVG(total) ਗਾਹਕ ਮੁਤਾਬਕ
GROUP BY status ਕਰਕੇ orders ਦੀ ਗਿਣਤੀ

ਕਾਲਮਰ ਸਟੋਰੇਜ ਨਾਲ, “total revenue per day” ਵਰਗੀ ਕੁਇਰੀ ਸਿਰਫ order_date ਅਤੇ total ਨੂੰ ਪੜ੍ਹ ਸਕਦੀ ਹੈ, ਬਿਨਾਂ ਹਰ ਰੋਅ ਲਈ customer_id ਅਤੇ status ਨੂੰ ਮੈਮੋਰੀ ਵਿੱਚ ਲਿਆਉਣ ਦੇ। ਘੱਟ ਡਾਟਾ ਪੜ੍ਹਿਆ ਜਾਣਾ ਤੇਜ਼ ਸਕੈਨ ਦਾ ਮੁੱਖ ਫਾਇਦਾ ਹੈ।

ਕਾਲਮਰ ਸਟੋਰੇਜ ਕਿਵੇਂ ਸਕੈਨ ਤੇਜ਼ ਬਣਾਉਂਦੀ ਹੈ

ਕਾਲਮਰ ਸਟੋਰੇਜ ਤੇਜ਼ ਹੈ ਕਿਉਂਕਿ ਜ਼ਿਆਦਾਤਰ ਰਿਪੋਰਟਾਂ ਨੂੰ ਤੁਹਾਡੇ ਬਹੁਤ ਸਾਰੇ ਡੇਟਾ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ। ਜੇ ਇਕ ਕੁਇਰੀ ਕੇਵਲ ਕੁਝ ਫੀਲਡਾਂ ਵਰਤੇ, ਤਾਂ ਕਾਲਮ-ਉਦਮਿਤ ਡੇਟਾਬੇਸ ਉਹੀ ਕਾਲਮ ਡਿਸਕ ਤੋਂ ਪੜ੍ਹ ਸਕਦਾ ਹੈ—ਪੂਰੀਆਂ ਰੋਅਜ਼ ਨਹੀਂ।

ਘੱਟ ਬਾਈਟ ਪੜ੍ਹਨਾ ਹੀ ਖੇਡ ਹੈ

ਡੇਟਾ ਸਕੈਨ ਕਰਨ ਦੀ ਰਫਤਾਰ ਅਕਸਰ ਇਸ ਗੱਲ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਕਿ ਤੁਸੀਂ ਸਟੋਰੇਜ ਤੋਂ ਮੈਮੋਰੀ ਵਿੱਚ ਬਾਈਟ ਕਿੰਨੀ ਤੇਜ਼ੀ ਨਾਲ ਘੁੰਮਾਉਂਦੇ ਹੋ। ਇੱਕ ਰੋ-ਸਟੋਰ ਆਮ ਤੌਰ 'ਤੇ ਪੂਰੀਆਂ ਰੋਅਜ਼ ਪੜ੍ਹਦਾ ਹੈ, ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਤੁਸੀਂ ਬਹੁਤ ਸਾਰੀਆਂ “ਵਾਧੂ” ਵੈਲ੍ਯੂਜ਼ ਲਿਆਉਂਦੇ ਹੋ।

ਕਾਲਮਰ ਸਟੋਰੇਜ ਵਿੱਚ ਹਰ ਕਾਲਮ ਆਪਣੀ ਲਗਾਤਾਰ ਥਾਂ 'ਚ ਹੁੰਦਾ ਹੈ। ਇਸ ਲਈ “total revenue by day” ਵਰਗੀ ਕੁਇਰੀ ਸਿਰਫ:

date
revenue
ਅਗਰ ਕਿਸੇ ਫਿਲਟਰ ਲਈ ਲੋੜ ਹੋਵੇ ਤਾਂ ਉਹ ਕਾਲਮ

ਪੜ੍ਹਦੀ ਹੈ। ਬਾਕੀ ਸਬ (ਨਾਂਵ, ਪਤੇ, ਨੋਟਸ, ਸੈਂਕੜੇ ਘੱਟ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਅੈਟਰਿਬਿਫ਼) ਡਿਸਕ 'ਤੇ ਰਹਿੰਦੇ ਹਨ।

ਚੌੜੀਆਂ ਟੇਬਲਾਂ ਅਤੇ sparse ਰਿਪੋਰਟਾਂ ਲਈ ਇਹ ਕਿਉਂ ਮਹੱਤਵਪੂਰਣ ਹੈ

ਐਨਾਲਿਟਿਕਸ ਟੇਬਲ ਵਕਤ ਦੇ ਨਾਲ ਚੌੜੀਆਂ ਹੋਨ ਲੱਗਦੀਆਂ ਹਨ: ਨਵੇਂ ਪ੍ਰੋਡਕਟ ਗੁਣ, ਮਾਰਕੀਟਿੰਗ ਟੈਗ, ਆਪਰੇਸ਼ਨ ਫਲੈਗ ਆਦਿ। ਪਰ ਰਿਪੋਰਟਾਂ ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਛੋਟਾ subset ਛੇੜਦੀਆਂ ਹਨ—ਅਕਸਰ 5–20 ਕਾਲਮ 100+ ਵਿੱਚੋਂ।

ਕਾਲਮਰ ਸਟੋਰੇਜ ਇਸ ਹਕੀਕਤ ਨਾਲ ਮਿਲਦੀ ਹੈ। ਇਹ ਵਾਰਦਾਤੀ ਕਾਲਮਾਂ ਨੂੰ ਸਕੈਨ ਕਰਕੇ ਮਹਿੰਗਾ ਬਣਨ ਤੋਂ ਰੋਕਦੀ ਹੈ।

Column pruning, ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ

“Column pruning” ਦਾ ਅਰਥ ਹੈ ਕਿ ਡੇਟਾਬੇਸ ਉਹਨਾਂ ਕਾਲਮਾਂ ਨੂੰ ਛੱਡ ਦਿੰਦਾ ਜੋ ਕੁਇਰੀ ਨੇ ਹਵਾਲਾ ਨਹੀਂ ਦਿੱਤੇ। ਇਸ ਨਾਲ ਘਟਦਾ ਹੈ:

I/O ਕੰਮ: ਡਿਸਕ ਤੋਂ ਘੱਟ ਬਾਈਟ ਪੜ੍ਹੇ ਜਾਂਦੇ ਹਨ
CPU ਕੰਮ: ਘੱਟ ਵੈਲ੍ਯੂਜ਼ decode, process ਅਤੇ aggregate ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ

ਨਤੀਜਾ ਤੇਜ਼ ਸਕੈਨ ਅਤੇ ਵੱਡੇ ਡੇਟਾਸੈਟਾਂ 'ਤੇ ਖ਼ਾਸ ਤੌਰ 'ਤੇ ਬੇਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਹੁੰਦਾ ਹੈ ਜਿੱਥੇ ਅਨਵਾਂਢਾ ਡਾਟਾ ਲੋੜ ਤੋਂ ਵੱਧ ਹੋ।

ਕੰਪ੍ਰੈਸ਼ਨ: ਛੋਟਾ ਡੇਟਾ, ਤੇਜ਼ ਰਿਪੋਰਟਿੰਗ

ਕੰਪ੍ਰੈਸ਼ਨ ਕਾਲਮ-ਉਦਮਿਤ ਡੇਟਾਬੇਸ ਦਾ ਇੱਕ ਸ਼ਾਂਤ ਪਰ ਸ਼ਕਤੀਸ਼ਾਲੀ ਹਥਿਆਰ ਹੈ। ਜਦੋਂ ਡੇਟਾ ਕਾਲਮ-ਅਨੁਸਾਰ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ, ਹਰ ਕਾਲਮ ਅਕਸਰ ਇੱਕੋ ਕਿਸਮ ਦੀਆਂ ਮੁੱਲਾਂ ਰੱਖਦਾ ਹੈ (ਤਾਰੀਖਾਂ, ਦੇਸ਼, status ਕੋਡ), ਅਤੇ ਇਹ ਇੱਕ-ਜਿਹੇ ਪੈਟਰਨ ਬਹੁਤ ਢੰਗ ਨਾਲ ਕੰਪ੍ਰੈੱਸ ਹੁੰਦੇ ਹਨ—ਇਹੋ same data row-by-row ਰੱਖਣ ਨਾਲੋਂ ਬਿਹਤਰ ਹੁੰਦਾ ਹੈ।

ਕਾਲਮ ਕਿਉਂ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੰਪ੍ਰੈਸ਼ ਹੁੰਦੇ ਹਨ

ਸੋਚੋ ਇੱਕ order_status ਕਾਲਮ ਜੋ ਜ਼ਿਆਦਾਤਰ shipped, processing, ਜਾਂ returned ਵਾਪਸ ਦਿੰਦਾ ਹੈ। ਜਾਂ ਇੱਕ timestamp ਕਾਲਮ ਜਿੱਥੇ ਮੁੱਲ ਲਗਾਤਾਰ ਵੱਧ ਰਹੀ ਹੋਵੇ। ਕਾਲਮ ਸਟੋਰ ਵਿੱਚ ਇਹ ਰੀਪਟੀਟਿਵ ਜਾਂ predictable ਪੈਟਰਨ ਇਕੱਠੇ ਹੁੰਦੇ ਹਨ, ਇਸ ਲਈ ਡੇਟਾਬੇਸ ਉਹਨਾਂ ਨੂੰ ਘੱਟ ਬਿੱਟਾਂ 'ਚ ਦਰਸਾ ਸਕਦਾ ਹੈ।

ਆਮ ਕੰਪ੍ਰੈਸ਼ਨ ਤਕਨੀਕਾਂ (ਉੱਚ-ਸਤਹ)

ਅਨੇਕ ਤਕਨੀਕਾਂ ਮਿਲ ਕੇ ਵਰਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, ਉਦਾਹਰਨ:

Dictionary encoding: ਦੁਹਰਾਏ strings (ਸ਼ਹਿਰਾਂ ਦੇ ਨਾਮ) ਨੂੰ ਛੋਟੇ integer IDs ਨਾਲ ਬਦਲਨਾ।
Run-length encoding (RLE): ਦੁਹਰਾਏ ਕ੍ਰਮਾਂ ਨੂੰ “value + count” ਵਜੋਂ ਰੱਖਨਾ।
Delta encoding: ਮੁੱਲਾਂ ਦਰਮਿਆਨ ਫਰਕ ਸਟੋਰ ਕਰਨਾ (ਟਾਈਮਸਟੈਂਪ/ਨੰਬਰ ਲੜੀ ਲਈ)।

ਨਤੀਜਾ: ਘੱਟ ਸਟੋਰੇਜ ਅਤੇ ਤੇਜ਼ ਪੜ੍ਹਾਈ

ਘੱਟ ਡੇਟਾ ਮਤਲਬ ਡਿਸਕ ਜਾਂ object storage ਤੋਂ ਘੱਟ ਬਾਈਟ ਖਿੱਚਣੇ, ਅਤੇ ਮੈਮੋਰੀ/CPU caches ਵਿੱਚ ਘੱਟ ਡਾਟਾ ਭੇਜਣਾ। ਰਿਪੋਰਟਿੰਗ ਕੁਇਰੀਆਂ ਜੋ ਬਹੁਤ ਸਾਰੀਆਂ ਰੋਅਜ਼ ਸਕੈਨ ਕਰਦੀਆਂ ਹਨ ਪਰ ਕੇਵਲ ਕੁਝ ਕਾਲਮ ਲੈਂਦੀਆਂ ਹਨ, ਕੰਪ੍ਰੈਸ਼ਨ I/O ਨੂੰ ਨਿਰਣਾਦੇ ਤੌਰ 'ਤੇ ਘਟਾ ਦਿੰਦੀ ਹੈ।

ਇੱਕ ਵਧੀਆ ਬੋਨਸ: ਕਈ ਸਿਸਟਮ ਕੰਪ੍ਰੈਸ਼ਡ ਡੇਟਾ 'ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ (ਜਾਂ ਵੱਡੇ ਬੈਚਾਂ ਵਿੱਚ decompress ਕਰਕੇ), ਜਿਸ ਨਾਲ aggregates ਜਿਵੇਂ sums, counts ਅਤੇ group-bys ਤੇਜ਼ ਰਹਿੰਦੇ ਹਨ।

ਟਰੇਡ-ਆਫ਼

ਕੰਪ੍ਰੈਸ਼ਨ ਮੁਫ਼ਤ ਨਹੀਂ ਹੁੰਦੀ। ਡੇਟਾਬੇਸ ingestion ਦੌਰਾਨ ਡੇਟਾ compress ਕਰਨ ਅਤੇ query ਦੌਰਾਨ decompress ਕਰਨ ਲਈ CPU ਵਰਤਦਾ ਹੈ। ਹਕੀਕਤ ਵਿੱਚ, ਐਨਾਲਿਟਿਕਸ ਵਰਕਲੋਡ ਅਕਸਰ ਅਜੇ ਵੀ ਜਿੱਤਦੇ ਹਨ ਕਿਉਂਕਿ I/O बचਤ CPU overhead ਨਾਲੋਂ ਵੱਧ ਹੁੰਦੀ ਹੈ—ਪਰ ਬਹੁਤ CPU-bound ਕੁਇਰੀਆਂ ਜਾਂ ਬਹੁਤ ਹੀ ਤਾਜ਼ਾ ਡੇਟਾ ਲਈ ਸੰਤੁਲਨ ਬਦਲ ਸਕਦਾ ਹੈ।

ਵੇਕਟਰਾਈਜ਼ਡ ਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਬੈਚ ਐਗਜ਼ੀਕਿਊਸ਼ਨ

ਕਾਲਮਰ ਸਟੋਰੇਜ ਤੁਹਾਨੂੰ ਘੱਟ ਬਾਈਟ ਪੜ੍ਹਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ। ਵੇਕਟਰਾਈਜ਼ਡ ਪ੍ਰੋਸੈਸਿੰਗ ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰਦੀ ਹੈ ਕਿ ਜਦੋਂ ਉਹ ਬਾਈਟ ਮੈਮੋਰੀ ਵਿੱਚ ਆ ਜਾਂਦੇ ਹਨ ਤਾਂ ਤੁਸੀਂ ਤੇਜ਼ ਗਣਨਾ ਕਰੋ।

ਰੋ-ਬਾਇ-ਰੋ ਬਣਾਮ ਬੈਚ-ਬਾਈ-ਬੈਚ

ਪਰੰਪਰਾਗਤ ਇੰਜਣ ਅਕਸਰ ਇਕ ਕੁਇਰੀ ਨੂੰ ਇੱਕ ਰੋ ਅਨੁਸਾਰ ਮੂਲਾਂਕਣ ਕਰਦੇ ਹਨ: ਇੱਕ ਰੋ ਲੋਡ ਕਰੋ, ਇੱਕ ਸ਼ਰਤ ਚੈੱਕ ਕਰੋ, ਇੱਕ aggregate update ਕਰੋ, ਅਗਲੀ ਰੋ 'ਤੇ ਜਾਓ। ਇਹ ਹਰ ਰੋਅ ਲਈ ਛੋਟੇ ਓਪਰੇਸ਼ਨ ਬਣਾਉਂਦਾ ਹੈ ਅਤੇ constant branching ਰਚਦਾ ਹੈ, ਜਿਸ ਨਾਲ CPU overhead ਵੱਧਦੀ ਹੈ।

ਵੇਕਟਰਾਈਜ਼ਡ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਮਾਡਲ ਨੂੰ ਬਦਲ ਦਿੰਦਾ ਹੈ: ਡੇਟਾਬੇਸ ਵੈਲ੍ਯੂਜ਼ ਨੂੰ ਬੈਚਾਂ (ਅਕਸਰ ਲੱਖਾਂ ਨਾਂਹੀਂ, ਪਰ ਹਜ਼ਾਰਾਂ) 'ਚ ਪ੍ਰੋਸੈਸ ਕਰਦਾ ਹੈ। ਬਜਾਏ ਹਰ ਰੋਅ ਲਈ ਵਾਰ-ਵਾਰ ਲਾਜਿਕ ਚਲਾਏ ਜਾਣ ਦੇ, ਇੰਜਣ tight loops 'ਚ arrays ਉੱਤੇ ਕੰਮ ਕਰਦਾ ਹੈ।

CPUs 'ਤੇ ਬੈਚ ਕਿਉਂ ਤੇਜ਼ ਹੁੰਦੇ ਹਨ

ਬੈਚ ਪ੍ਰੋਸੈਸਿੰਗ ਇਹਨਾਂ ਕਾਰਨਾਂ ਕਰਕੇ CPU ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਬਿਹਤਰ ਬਣਾਉਂਦੀ ਹੈ:

ਚੰਗੀ cache ਵਰਤੋਂ: ਲਗਾਤਾਰ arrays 'ਤੇ ਕੰਮ ਕਰਨ ਨਾਲ cache misses ਘੱਟ ਹੁੰਦੇ ਹਨ।
ਘੱਟ function calls ਅਤੇ branches: CPU ਹੋਰ ਮਸਲੇ ਬਿਨਾਂ pipeline ਅਤੇ prediction ਨਾਲ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ।
SIMD ਨਿਰਦੇਸ਼: ਬਹੁਤ ਸਾਰੇ CPUs ਇੱਕੋ ਸਮੇਂ ਕਈ ਸੰਖਿਆਵਾਂ 'ਤੇ ਇੱਕੋ ਓਪਰੇਸ਼ਨ ਲਗਾ ਸਕਦੇ ਹਨ।

ਸਧਾਰਣ ਉਦਾਹਰਨ: ਪਹਿਲਾਂ filter, ਫਿਰ aggregate

ਕਲਪਨਾ ਕਰੋ: “2025 ਵਿੱਚ category = 'Books' ਲਈ ਕੁੱਲ ਰੇਵਨਿਊ।”

ਇੱਕ ਵੇਕਟਰਾਈਜ਼ਡ ਇੰਜਣ:

category ਦੀਆਂ ਬੈਚ ਵੈਲ੍ਹਯੂਜ਼ ਲੋਡ ਕਰਦਾ ਹੈ ਅਤੇ boolean mask ਬਣਾਉਂਦਾ ਹੈ ਜਿੱਥੇ category "Books" ਹੈ।
order_date ਦੀਆਂ ਬੈਚ ਵੈਲ੍ਹਯੂਜ਼ ਲੋਡ ਕਰਕੇ mask ਨੂੰ 2025 ਲਈ ਅੱਗੇ ਸੰਕੁਚਿਤ ਕਰਦਾ ਹੈ।
matching revenue ਵੈਲ੍ਯੂਜ਼ ਲੋਡ ਕਰਕੇ mask ਦੀ ਵਰਤੋਂ ਨਾਲ ਜੋੜ ਕਰਦਾ ਹੈ—ਅਕਸਰ SIMD ਨਾਲ ਇੱਕੋ ਚੱਕਰ ਵਿੱਚ ਕਈ ਨੰਬਰ ਜੋੜੇ ਜਾਂਦੇ ਹਨ।

ਕਿਉਂਕਿ ਇਹ ਕਾਲਮ ਅਤੇ ਬੈਚਾਂ 'ਤੇ ਕੰਮ ਕਰਦਾ ਹੈ, ਇੰਜਣ ਅਣ-ਸੰਬੰਧਿਤ ਫੀਲਡਾਂ ਨੂੰ ਛੇੜਨ ਤੋਂ ਬਚਦਾ ਹੈ ਅਤੇ per-row overhead ਘੱਟ ਰਹਿੰਦਾ ਹੈ—ਇਸੇ ਲਈ ਕਾਲਮ-ਉਦਮਿਤ ਸਿਸਟਮ ਐਨਾਲਿਟਿਕਸ ਵਿੱਚ ਬਹੁਤ ਵਧੀਆ ਹਨ।

ਮੈਟਾਡੇਟਾ, ਸੋਰਟਿੰਗ ਅਤੇ ਪਾਰਟੀਸ਼ਨ ਨਾਲ ਡੇਟਾ ਸਕਿੱਪ ਕਰਨਾ

ਇਕ ਐਨਾਲਿਟਿਕਸ ਹੱਬ ਬਣਾਓ

ਵੇਰਵਾ-ਭਰਤੇ ਕੁਇਰੀਆਂ ਨੂੰ ਚੈਟ ਤੋਂ ਬਣੇ ਸੁਰੱਖਿਅਤ ਅੰਦਰੂਨੀ ਪੋਰਟਲ ਵਿੱਚ ਬਦਲੋ।

ਬਿਲਡ ਕਰਨ ਲਈ ਸ਼ੁਰੂ ਕਰੋ

ਐਨਾਲਿਟਿਕਸ ਕੁਇਰੀਆਂ ਅਕਸਰ ਬਹੁਤ ਸਾਰੀ ਰੋਅਜ਼ ਨੂੰ ਛੇੜਦੀਆਂ ਹਨ: “ਮਹੀਨਾ ਮੁਤਾਬਕ ਰੇਵਨਿਊ ਦਿਖਾਓ”, “ਦੇਸ਼ ਮੁਤਾਬਕ ਇਵੈਂਟਾਂ ਦੀ ਗਿਣਤੀ”, “ਟਾਪ 100 ਪ੍ਰੋਡਕਟ ਲੱਭੋ” ਆਦਿ। OLTP ਸਿਸਟਮਾਂ ਵਿੱਚ indexes ਆਮ ਹਥਿਆਰ ਹਨ ਕਿਉਂਕਿ queries ਆਮ ਤੌਰ 'ਤੇ ਥੋੜੇ ਰੋਅਜ਼ ਫੈਚ ਕਰਦੀਆਂ ਹਨ। ਐਨਾਲਿਟਿਕਸ ਲਈ ਬਹੁਤ ਸਾਰੇ indexes ਬਣਾਉਣਾ ਅਤੇ ਬਰਕਰਾਰ ਰੱਖਣਾ ਮਹਿੰਗਾ ਹੋ ਸਕਦਾ ਹੈ, ਅਤੇ ਫਿਰ ਵੀ ਕਈ queries ਵੱਡੇ ਹਿੱਸੇ ਸਕੈਨ ਕਰਦੀਆਂ ਹਨ—ਇਸ ਲਈ column stores ਸਕੈਨਾਂ ਨੂੰ ਸਿਆਣਾ ਅਤੇ ਤੇਜ਼ ਬਣਾਉਣ 'ਤੇ ਧਿਆਨ ਦਿੰਦੇ ਹਨ।

Zone maps (min/max metadata): ਇੱਕ ਹਲਕਾ-ਫੁਲਕਾ shortcut

ਕਈ column-ਉਦਮਿਤ ਡੇਟਾਬੇਸ ਹਰ data block (ਕਦੇ 'stripe', 'row group', ਜਾਂ 'segment' ਕਿਹਾ ਜਾਂਦਾ ਹੈ) ਲਈ ਸਧਾਰਨ metadata ਰੱਖਦੇ ਹਨ—ਜਿਵੇਂ ਉਸ ਬਲਾਕ ਵਿੱਚ ਘੱਟ ਤੋਂ ਘੱਟ ਅਤੇ ਵੱਧ ਤੋਂ ਵੱਧ ਮੁੱਲ।

ਜੇ ਤੁਹਾਡੀ ਕੁਇਰੀ amount > 100 ਫਿਲਟਰ ਕਰਦੀ ਹੈ, ਅਤੇ ਇੱਕ ਬਲਾਕ ਦਾ metadata ਦੱਸਦਾ ਹੈ ਕਿ max(amount) = 80, ਤਾਂ ਇੰਜਣ ਉਸ ਪੂਰੇ ਬਲਾਕ ਨੂੰ amount ਕਾਲਮ ਲਈ ਪੜ੍ਹਨ ਤੋਂ ਛੱਡ ਦੇਵੇਗਾ—ਪਾਰੰਪਰਿਕ index ਦੀ ਲੋੜ ਨਹੀਂ। ਇਹ zone maps ਸਟੋਰ ਕਰਨ ਲਈ ਸਸਤੇ ਅਤੇ ਜਾਂਚਣ ਲਈ ਤੇਜ਼ ਹਨ, ਅਤੇ ਉਹ ਕਾਫੀ ਅਚਛੇ ਨਤੀਜੇ ਦਿੰਦੇ ਹਨ ਜਦੋਂ columns ਕੁਦਰਤੀ ਤੌਰ 'ਤੇ ਆਰਡਰਡ ਹੁੰਦੇ ਹਨ।

Partition pruning: ਪੂਰੇ ਚੰਕਾਂ ਨੂੰ ਛੱਡ ਦਿਓ

Partitioning ਟੇਬਲ ਨੂੰ ਵੱਖ-ਵੱਖ ਹਿੱਸਿਆਂ ਵਿੱਚ ਵੰਡ ਦਿੰਦਾ ਹੈ, ਆਮ ਤੌਰ 'ਤੇ date ਮੁਤਾਬਕ। ਮੰਨੋ events date ਦੁਆਰਾ partition ਕੀਤੇ ਗਏ ਹਨ ਅਤੇ ਤੁਹਾਡੀ ਰਿਪੋਰਟ WHERE event_date BETWEEN '2025-10-01' AND '2025-10-31' ਮੰਗਦੀ ਹੈ। ਡੇਟਾਬੇਸ ਅਕਸਰ ਅਕਸਰ October ਤੋਂ ਬਾਹਰ ਵਾਲੇ ਸਾਰੇ partitions ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਸਿਰਫ਼ ਸੰਬੰਧਤ partitions ਸਕੈਨ ਕਰੇਗਾ।

ਇਸ ਨਾਲ I/O ਵਿੱਚ ਵੱਡਾ ਕਟੋਤੀ ਆ ਸਕਦੀ ਹੈ ਕਿਉਂਕਿ ਤੁਸੀਂ ਨਾ صرف blocks ਬਲਕਿ ਫਾਇਲਾਂ ਜਾਂ ਟੇਬਲ ਦੇ ਵੱਡੇ ਭਾਗ ਛੱਡ ਰਹੇ ਹੋ।

Sorting ਅਤੇ clustered storage: filters ਨੂੰ predictable ਬਣਾਓ

ਜੇ ਡੇਟਾ ਆਮ filter keys (ਜਿਵੇਂ event_date, customer_id, ਜਾਂ country) ਨਾਲ sort ਜਾਂ cluster ਕੀਤਾ ਗਿਆ ਹੈ, ਤਾਂ ਮਿਲਦੇ ਮੁੱਲ ਇਕੱਠੇ ਰਹਿਣਗੇ। ਇਸ ਨਾਲ partition pruning ਅਤੇ zone-map ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੁੰਦੇ ਹਨ, ਕਿਉਂਕਿ ਗੈਰ-ਮੈਚਿੰਗ ਬਲਾਕ ਤੁਰੰਤ min/max ਚੈੱਕ 'ਚ fail ਕਰ ਜਾਂਦੇ ਹਨ ਅਤੇ skip ਹੋ ਜਾਂਦੇ ਹਨ।

ਪੈਰਲੈਲਿਜ਼ਮ: ਕੋਰਸ ਅਤੇ ਨੋਡਸ 'ਤੇ ਐਨਾਲਿਟਿਕਸ ਸਕੇਲ ਕਰਨਾ

ਕਾਲਮ-ਉਦਮਿਤ ਡੇਟਾਬੇਸ ਤੇਜ਼ ਹਨ ਨਾਂ صرف ਇਸ ਲਈ ਕਿ ਉਹ ਪ੍ਰਤੀ ਕੁਇਰੀ ਘੱਟ ਡੇਟਾ ਪੜ੍ਹਦੇ ਹਨ, ਬਲਕਿ ਇਸ ਲਈ ਵੀ ਕਿ ਉਹ ਇਸਨੂੰ parallel ਢੰਗ ਨਾਲ ਪੜ੍ਹ ਸਕਦੇ ਹਨ।

ਇਕ ਹੀ ਮਸ਼ੀਨ 'ਤੇ parallel scans

ਇੱਕ single query (ਉਦਾਹਰਨ: "ਮਹੀਨਾ ਮੁਤਾਬਕ ਰੇਵਨਿਊ ਜੋੜੋ") ਅਕਸਰ ਮਿਲੀਅਨ ਜਾਂ ਬਿਲੀਅਨ ਵੈਲ੍ਯੂਜ਼ ਸਕੈਨ ਕਰਨ ਦੀ ਲੋੜ ਰੱਖਦੀ ਹੈ। Column stores ਆਮ ਤੌਰ 'ਤੇ ਕੰਮ ਨੂੰ CPU cores ਵਿੱਚ ਵੰਡਦੇ ਹਨ: ਹਰ ਕੋਰ column ਦੇ ਇੱਕ ਵੱਖੇ ਚੰਕ (ਜਾਂ partitions) ਨੂੰ ਸਕੈਨ ਕਰਦਾ ਹੈ।

ਕਾਲਮਰ ਡੇਟਾ ਵੱਡੇ, contiguous blocks ਵਿੱਚ ਸਟੋਰ ਹੁੰਦਾ ਹੈ, ਇਸ ਲਈ ਹਰ ਕੋਰ ਆਪਣੇ block ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ stream ਕਰ ਸਕਦਾ ਹੈ—ਇਸ ਨਾਲ CPU caches ਅਤੇ disk bandwidth ਦੀ ਵਧੀਆ ਵਰਤੋਂ ਹੁੰਦੀ ਹੈ।

ਨੋਡਾਂ 'ਤੇ distributed execution

ਜਦੋਂ ਡੇਟਾ ਇੱਕ ਮਸ਼ੀਨ ਲਈ ਬਹੁਤ ਵੱਧ ਹੋ ਜਾਵੇ, ਡੇਟਾਬੇਸ ਇਸਨੂੰ ਕਈ ਸਰਵਰਾਂ 'ਤੇ ਵੰਡ ਸਕਦਾ ਹੈ। ਹਰ ਨੋਡ ਨੂੰ ਉਹ ਕੁਇਰੀ ਭੇਜੀ ਜਾਂਦੀ ਹੈ ਜਿਸ ਵਿੱਚ ਉਸ ਦੇ ਕੋਲ ਸੰਬੰਧਤ ਚੰਕ ਹਨ, ਅਤੇ ਹਰ ਨੋਡ ਆਪਣਾ local scan ਅਤੇ partial computation ਕਰਦਾ ਹੈ।

ਇੱਥੇ data locality ਮਹੱਤਵਪੂਰਣ ਹੁੰਦੀ ਹੈ: ਅਕਸਰ compute to the data ਕਰਨਾ ਤੇਜ਼ ਹੁੰਦਾ ਹੈ, ਬਜਾਏ raw rows ਨੈਟਵਰਕ ਤੇ ਭੇਜਣ ਦੇ। ਨੈਟਵਰਕ ਸਾਂਝਾ ਅਤੇ ਮੈਮੋਰੀ ਤੋਂ ਹੌਲੀ ਹੁੰਦੀ ਹੈ ਅਤੇ ਜੇ intermediate results ਵੱਧ ਜਾਂ ਪਠਾਏ ਜਾਣ ਤਾਂ ਇਹ ਬੋਟਲਨੇਕ ਬਣ ਸਕਦੀ ਹੈ।

Split-and-merge aggregations

ਕਈ aggregates ਕੁਦਰਤੀ ਤੌਰ 'ਤੇ parallel ਹੁੰਦੇ ਹਨ:

Split: ਹਰ ਕੋਰ/ਨੋਡ ਆਪਣੇ slice 'ਤੇ partial sums, counts, mins/maxes ਜਾਂ approximate sketches ਗਣਨਾ ਕਰਦਾ ਹੈ।
Merge: ਇੱਕ coordinator ਉਹ partial ਨਤੀਜੇ ਮਿਲਾ ਕੇ ਅੰਤਿਮ ਜਵਾਬ ਬਣਾਉਂਦਾ ਹੈ (sum-of-sums, count-of-counts, sketches merge ਆਦਿ)।

ਡੈਸ਼ਬੋਰਡਾਂ ਲਈ concurrency

ਡੈਸ਼ਬੋਰਡ ਉੱਤੇ ਬਹੁਤ ਸਾਰੀਆਂ ਇੱਕੋ ਜਿਹੀਆਂ ਕੁਇਰੀਆਂ ਇੱਕੱਠੇ ਚਲ ਸਕਦੀਆਂ ਹਨ—ਖਾਸ ਕਰਕੇ ਘੰਟੇ ਦੀ ਸ਼ੁਰੂਆਤ 'ਤੇ ਜਾਂ ਮੀਟਿੰਗਾਂ ਦੌਰਾਨ। Column stores ਆਮ ਤੌਰ 'ਤੇ parallelism ਨੂੰ ਸਮਾਰਟ scheduling (ਉਤਪਾਦਕ caching ਦੇ ਨਾਲ) ਨਾਲ ਮਿਲਾ ਕੇ latency predictable ਰੱਖਦੇ ਹਨ ਜਦੋਂ ਦਰਜਨ ਤੋਂ ਸੈਂਕੜੇ ਉਪਭੋਗਤਾ ਚਾਰਟ ਰੀਫ੍ਰੈਸ਼ ਕਰਦੇ ਹਨ।

ਲਿਖਣ ਦੇ ਪੈਟਰਨ, ਅਪਡੇਟ ਅਤੇ ਡੇਟਾ ਤਾਜਗੀ

ਇਕ ਐਨਾਲਿਟਿਕਸ API ਸ਼ਾਮਲ ਕਰੋ

OLAP ਲਈ caching, auth ਅਤੇ exports ਲਈ ਇਕ ਥਿਨ Go ਸਰਵਿਸ ਲਗਾਓ।

API ਜਨਰੇਟ ਕਰੋ

ਕਾਲਮ-ਉਦਮਿਤ ਡੇਟਾਬੇਸ ਉਹਨਾਂ ਸਥਿਤੀਆਂ 'ਚ ਮਹਾਰਤ ਰੱਖਦੇ ਹਨ ਜਿੱਥੇ ਤੁਸੀਂ ਬਹੁਤ ਸਾਰੀਆਂ ਰੋਅਜ਼ ਪੜ੍ਹਦੇ ਹੋ ਪਰ صرف ਕੁਝ ਕਾਲਮਾਂ ਨੂੰ। ਇਸ ਦਾ ਟਰੇਡ-ਆਫ਼ ਇਹ ਹੈ ਕਿ ਉਹਨਾਂ ਨੂੰ ਉਹ ਕਾਰਜ ਸਹਲ ਨਹੀਂ ਹੁੰਦੇ ਜਿੱਥੇ ਵਾਰ-ਵਾਰ ਇਕਲ-ਰੋਅ ਅਪਡੇਟ ਹੋ ਰਹੇ ਹੋਣ।

ਇਕਲ-ਰੋਅ ਅਪਡੇਟ ਕਿਉਂ ਮੁਸ਼ਕਲ ਹੁੰਦਾ ਹੈ

ਇੱਕ row store ਵਿੱਚ, ਇੱਕ ਗਾਹਕ ਦਾ ਰਿਕਾਰਡ update ਕਰਨਾ ਅਕਸਰ ਇੱਕ ਛੋਟੇ contiguous ਟੁਕੜੇ ਨੂੰ ਦੁਬਾਰਾ ਲਿਖ ਕੇ ਹੋ ਜਾਂਦਾ ਹੈ। ਕਾਲਮ store ਵਿੱਚ, ਉਹ "ਇੱਕ ਰੋਅ" ਕਈ ਅਲੱਗ-ਅਲੱਗ ਕਾਲਮ ਫਾਇਲਾਂ/ਸੈਗਮੈਂਟਾਂ ਵਿੱਚ ਫੈਲਿਆ ਹੁੰਦਾ ਹੈ। ਇੱਕ ਵੈਲ੍ਯੂ ਬਦਲਣ ਲਈ ਕਈ ਥਾਵਾਂ 'ਤੇ ਛੇੜਛਾੜ ਕਰਨੀ ਪੈਂਦੀ ਹੈ ਅਤੇ—ਕਾਂਪ੍ਰੈਸ਼ਨ ਅਤੇ ਠੋਸ ਬਲਾਕਾਂ ਕਰਕੇ—ਇਨ-ਪਲੇਸ ਚੇਂਜ ਵੱਡੇ ਚੰਕਾਂ ਨੂੰ ਦੁਬਾਰਾ ਲਿਖਣ ਦਾ ਕਾਰਨ ਬਣ ਸਕਦਾ ਹੈ।

ਲਿਖਣ ਸੰਭਾਲਣ ਲਈ ਆਮ ਰਣਨੀਤੀਆਂ

ਜ਼ਿਆਦਾਤਰ ਐਨਾਲਿਟਿਕਲ column stores ਇੱਕ ਦੂ-ਹਿੱਸੇ ਵਾਲੀ ਪਹੁੰਚ ਵਰਤਦੇ ਹਨ:

Write-optimized buffers (delta stores): ਨਵੀਆਂ rows ਅਤੇ ਕੁਝ update ਪਹਿਲਾਂ ਇੱਕ ਛੋਟੀ, ਲਿਖਣ-ਮਿੱਤਰ ਇਲਾਕੇ ਵਿੱਚ ਆਉਂਦੀਆਂ ਹਨ।
Micro-batches: ਬਦਲਾਅ ਇਕ-ਇਕ ਕਰਨ ਦੀ ਥਾਂ ਛੋਟੀਆਂ ਬੈਚਾਂ (ਕੁਝ ਸਕਿੰਟ/ਮਿੰਟ) ਵਿੱਚ ਲਗਦੇ ਹਨ।
Merge/compaction steps: ਬੈਕਗ੍ਰਾਊਂਡ ਪ੍ਰਕਿਰਿਆਵਾਂ ਸਮੇਂ ਸਮੇਂ 'ਤੇ buffered ਡੇਟਾ ਨੂੰ ਮੁੱਖ compressed column segments ਵਿੱਚ ਮਿਲਾਉਂਦੀਆਂ ਹਨ, ਤੇਜ਼ ਸਕੈਨ ਪ੍ਰਦਰਸ਼ਨ ਬਹਾਲ ਕਰਨ ਲਈ।

ਇਸ ਲਈ ਅਕਸਰ ਤੁਸੀਂ ਸ਼ਬਦਾਂ ਵੇਖਦੇ ਹੋ: “delta + main”, “ingestion buffer”, “compaction”, ਜਾਂ “merge”。

ਤਾਜਗੀ ਚੋਣ: ਰੀਅਲ-ਟਾਈਮ ਵਿਰੁੱਧ ਨੇਅਰ-ਰੀਅਲ-ਟਾਈਮ

ਜੇ ਤੁਹਾਨੂੰ ਡੈਸ਼ਬੋਰਡਾਂ 'ਤੇ ਤਬਦੀਲੀਆਂ ਤੁਰੰਤ ਵੇਖਣੀਆਂ ਹਨ ਤਾਂ ਇੱਕ ਪਿਊਰ column store ਕੁਝ ਹਦ ਤੱਕ ਧੀਰਜੀ ਜਾਂ ਮਹਿੰਗੀ ਮਹਿਸੂਸ ਹੋ ਸਕਦਾ ਹੈ। ਬਹੁਤ ਟੀਮਾਂ nearly real-time (ਜਿਵੇਂ 1–5 ਮਿੰਟ) ਕਬੂਲ ਕਰ ਲੈਂਦੀਆਂ ਹਨ ਤਾਂ ਕਿ merges ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਹੋ ਸਕਣ ਅਤੇ ਕੁਇਰੀਆਂ ਤੇਜ਼ ਰਹਿਣ।

ਅਪਡੇਟ/ਡਿਲੀਟ ਅਤੇ ਰਖ-ਰਖਾਅ overhead

ਬਾਰ-ਬਾਰ ਅਪਡੇਟਾਂ ਅਤੇ ਡਿਲੀਟਾਂ "tombstones" (ਹਟਾਏ/ਪੁਰਾਣੇ ਮੁੱਲਾਂ ਲਈ ਨਿਸ਼ਾਨ) ਅਤੇ fragmented segments ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ। ਇਸ ਨਾਲ ਸਟੋਰੇਜ ਵਧਦੀ ਹੈ ਅਤੇ ਜਦ ਤੱਕ maintenance jobs (vacuuming/compaction) ਉਨ੍ਹਾਂ ਨੂੰ ਸਾਫ਼ ਨਹੀਂ ਕਰਦੀਆਂ, queries ਹੌਲੀ ਹੋ ਸਕਦੀਆਂ ਹਨ। maintenance ਦੀ ਯੋਜਨਾ—ਟਾਈਮਿੰਗ, ਸਰੋਤ ਸੀਮਾਵਾਂ, ਅਤੇ retention ਨੀਤੀਆਂ—ਰਿਪੋਰਟਿੰਗ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪੇਸ਼ਗੋਈਯੋਗ ਰੱਖਣ ਦਾ ਅہم ਹਿੱਸਾ ਹੈ।

ਕਾਲਮ-ਉਦਮਿਤ ਐਨਾਲਿਟਿਕਸ ਲਈ ਡੇਟਾ ਮਾਡਲਿੰਗ

ਚੰਗੀ ਮਾਡਲਿੰਗ ਇੰਜਣ ਦੇ ਬਰਾਬਰ ਹੀ ਮਹੱਤਵਪੂਰਣ ਹੈ। ਕਾਲਮਰ ਸਟੋਰੇਜ ਤੇਜ਼ ਸਕੈਨ ਅਤੇ aggregate ਕਰ ਸਕਦਾ ਹੈ, ਪਰ ਤੁਸੀਂ ਟੇਬਲਾਂ ਨੂੰ ਕਿਵੇਂ ਸੰਰਚਿਤ ਕਰਦੇ ਹੋ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ ਕਿ ਡੇਟਾਬੇਸ ਕਿੰਨੀ ਵਾਰ ਅਣ-ਲੋੜੀਂਦੀਆਂ ਕਾਲਮਾਂ ਤੋਂ ਬਚ ਸਕਦਾ ਹੈ, ਡੇਟਾ ਚੰਕਾਂ ਨੂੰ ਕਿਵੇਂ skip ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਅਤੇ GROUP BYs ਕਿਵੇਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋ ਸਕਦੇ ਹਨ।

Star schema: columnar analytics ਲਈ ਕੁਦਰਤੀ

ਇੱਕ star schema ਇੱਕ ਕੇਂਦਰੀ fact table ਨੂੰ ਚੁਣਦੀ ਹੈ ਜੋ ਛੋਟੀਆਂ dimension tables ਨਾਲ ਘਿਰੀ ਹੁੰਦੀ ਹੈ। ਇਹ ਐਨਾਲਿਟਿਕਸ ਲਈ ਸੁਟਦਾ ਹੈ ਕਿਉਂਕਿ ਜ਼ਿਆਦਾਤਰ ਰਿਪੋਰਟਾਂ:

ਕੁਝ ਵੇਰਵਾ-ਅਧਾਰਿਤ ਫੀਲਡਾਂ (dimensions) 'ਤੇ filter ਕਰਦੀਆਂ ਹਨ, ਅਤੇ
ਅੰਕਗਣਨ (facts) ਨੂੰ aggregate ਕਰਦੀਆਂ ਹਨ।

ਕਾਲਮਰ ਸਿਸਟਮਾਂ ਨੂੰ ਲਾਭ ਹੁੰਦਾ ਹੈ ਕਿਉਂਕਿ queries ਆਮ ਤੌਰ 'ਤੇ ਚੌੜੇ fact table ਦੇ ਛੋਟੇ subset ਕਾਲਮਾਂ ਨੂੰ ਛੇੜਦੀਆਂ ਹਨ।

Fact tables vs dimension tables (ਉਦਾਹਰਨ)

Fact table: ਉੱਚ ਵੋਲਿਯਮ, event-ਲੈਵਲ records ਜਿਸ ਵਿੱਚ measures ਅਤੇ foreign keys ਹੁੰਦੇ ਹਨ।
Dimension table: ਘੱਟ ਵੋਲਿਯਮ, ਵਰਣਨਾਤਮਕ attributes ਜੋ filter/grouping ਲਈ ਵਰਤੇ ਜਾਂਦੇ ਹਨ।

ਉਦਾਹਰਨ:

fact_orders: order_id, order_date_id, customer_id, product_id, quantity, net_revenue
dim_customer: customer_id, region, segment
dim_product: product_id, category, brand
dim_date: date_id, month, quarter, year

ਜੇਕਰ ਰਿਪੋਰਟ "ਮਹੀਨਾ ਅਤੇ ਖੇਤਰ ਮੁਤਾਬਕ net_revenue" ਹੈ, ਤਾਂ ਇਹ fact_orders ਤੋਂ net_revenue aggregate ਕਰਦੀ ਹੈ ਅਤੇ dim_date ਅਤੇ dim_customer ਦੇ attributes ਨਾਲ ਗ੍ਰੁੱਪ ਕਰਦੀ ਹੈ।

Joins, denormalization ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ trade-offs

Star schemas joins 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਬਹੁਤ ਸਾਰੇ column-ਉਦਮਿਤ ਡੇਟਾਬੇਸ joins ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਭਾਲਦੇ ਹਨ, ਪਰ join ਲਾਗਤ ਡੇਟਾ ਮਾਪ ਅਤੇ concurrency ਦੇ ਨਾਲ ਵਧਦੀ ਹੈ।

Denormalization ਮਦਦ ਕਰ ਸਕਦੀ ਹੈ ਜਦੋਂ ਕੋਈ dimension attribute ਬਾਰ-ਬਾਰ ਵਰਤੀ ਜਾਂਦੀ ਹੋ (ਉਦਾਹਰਨ ਲਈ region ਨੂੰ fact_orders ਵਿੱਚ ਨਕਲ ਕਰਨਾ)। ਇਸਦਾ trade-off ਵੱਡੇ fact rows, duplicated values, ਅਤੇ attribute ਬਦਲਣ 'ਤੇ ਵੱਧ ਕੰਮ ਹੈ। ਇੱਕ ਆਮ ਸਮਝੌਤਾ ਇਹ ਹੈ ਕਿ dimension normalized ਰੱਖੋ ਪਰ ਜੇ ਕੋਈ attribute ਵੱਡੀ dashboards ਲਈ ਲਗਾਤਾਰ ਹਿਸਾ ਹੈ ਤਾਂ ਉਸਨੂੰ fact ਵਿੱਚ cache ਕਰ ਲੋ—ਬੱਸ ਜਦੋਂ ਇਹ ਵਾਸਤਵ ਵਿੱਚlepší ਪ੍ਰਦਰਸ਼ਨ ਦਿਉਂਦਾ ਹੋਵੇ।

GROUP BY ਅਤੇ filters ਲਈ ਮਾਡਲਿੰਗ ਸੁਝਾਵ

joins ਲਈ surrogate integer keys ਪ੍ਰਾਥਮਿਕਤਾ ਦਿਓ; ਇਹ ਚੰਗੀ ਤਰ੍ਹਾਂ compress ਹੁੰਦੇ ਹਨ ਅਤੇ grouping ਤੇਜ਼ ਹੁੰਦੀ ਹੈ।
fact table ਇੱਕ consistent grain 'ਤੇ ਰੱਖੋ (ਹਰ event ਲਈ ਇੱਕ ਰੋਅ)। raw events ਨਾਲ summary rows ਮਿਲਾਉਣ ਤੋਂ ਬਚੋ।
ਅਕਸਰ filtered columns ਨੂੰ dimensions ਵਿੱਚ ਰੱਖੋ (jਿਵੇਂ region, category) ਅਤੇ ਸੰਭਵ ਹੋਵੇ ਤਾਂ ਉਹਨਾਂ ਨੂੰ low-to-medium cardinality ਰੱਖੋ।
ਆਪਣੀ ਭੌਤਿਕ ਡਿਜ਼ਾਈਨ ਨਾਲ modeling ਨੂੰ align ਕਰੋ: facts ਨੂੰ time ਨਾਲ partition ਕਰੋ, ਅਤੇ ਸਕਾਰਤੀ filter keys ਨਾਲ sort/cluster ਕਰੋ (date_id, ਫਿਰ customer_id) ਤਾਂ ਕਿ filters ਅਤੇ GROUP BYs ਸਸਤੇ ਪੈਂ।

ਆਮ ਵਰਤੋਂ ਦੇ ਮਾਮਲੇ (ਅਤੇ ਜਦੋਂ ਕਾਲਮ stores ਆਦর্শ ਨਹੀਂ)

ਕਾਲਮ-ਉਦਮਿਤ ਡੇਟਾਬੇਸ ਉਹਨਾਂ ਹਾਲਾਤਾਂ 'ਚ ਜ਼ਿਆਦਾ ਫਾਇਦਾ ਦਿੰਦੇ ਹਨ ਜਿੱਥੇ ਤੁਹਾਡੇ ਸਵਾਲ ਬਹੁਤ ਸਾਰੀਆਂ ਰੋਅਜ਼ ਨੂੰ ਛੇੜਦੇ ਹਨ ਪਰ ਕੇਵਲ ਕੁਝ ਕਾਲਮਾਂ; ਖ਼ਾਸ ਕਰਕੇ ਜਦ ਜਵਾਬ ਇੱਕ aggregate (sum, average, percentiles) ਜਾਂ grouped report (day/by region/by customer segment) ਹੋਵੇ।

ਜਿੱਥੇ column stores ਚਮਕਦੇ ਹਨ

Time-series metrics: CPU utilization, app latency, IoT sensor readings—ਇਹਨਾਂ queries ਆਮ ਤੌਰ 'ਤੇ ਸਮੇਂ ਦੀ ਰੇਂਜ ਸਕੈਨ ਕਰਦੀਆਂ ਅਤੇ hourly/weekly rollups ਕਰਦੀਆਂ ਹਨ।
Event logs ਅਤੇ clickstream: analysts ਆਮ ਤੌਰ 'ਤੇ date, campaign, ਜਾਂ user segment ਨਾਲ filter ਕਰਕੇ counts, funnels, ਅਤੇ conversion rates compute ਕਰਦੇ ਹਨ।
Finance ਅਤੇ business reporting: ਮਹੀਨਾਵਾਰ ਰੈਵਨਿਊ, cohort retention, budget vs actuals—ਜਦ ਕਿ ਟੇਬਲਾਂ ਚੌੜੀਆਂ ਹੋਣ, columnar storage scans ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਰੱਖਦਾ ਹੈ।

ਜਦੋਂ row store ਬਿਹਤਰ ਹੋ ਸਕਦਾ ਹੈ

ਜੇ ਤੁਹਾਡਾ ਵਰਕਲੋਡ high-rate point lookups (ਇੱਕ user record ID ਦੁਆਰਾ ਲੱਭਣਾ) ਜਾਂ ਛੋਟੇ transactional updates (ਪੂਰਾ-ਵੇਲੇ order status update) ਨਾਲ ਭਰਪੂਰ ਹੈ, ਤਾਂ ਇੱਕ row-oriented OLTP ਡੇਟਾਬੇਸ ਆਮ ਤੌਰ 'ਤੇ ਵਧੀਆ ਫਿੱਟ ਹੋਵੇਗਾ।

ਕਾਲਮ stores inserts ਅਤੇ ਕੁਝ updates ਸਮਰਥਨ ਕਰ ਸਕਦੇ ਹਨ, ਪਰ ਬਾਰ-ਬਾਰ row-level changes ਦਾ ਕਾਰੋਬਾਰ ਜ਼ਿਆਦਾ ਢੀਲਾ ਜਾਂ ਓਪਰੇਸ਼ਨਲ ਤੌਰ 'ਤੇ ਜ਼ਿਆਦਾ ਜਟਿਲ ਹੋ ਸਕਦਾ ਹੈ (ਉਦਾਹਰਨ: write amplification, merge ਪ੍ਰਕਿਰਿਆਵਾਂ, ਜਾਂ visibility ਵਿੱਚ ਦੇਰ)।

ਪ੍ਰਾਇਕਟਿਕ ਸਲਾਹ: ਜਿਵੇਂ ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ, ਓਦਾਂ ਟੈਸਟ ਕਰੋ

ਕਮਿਟ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ benchmark ਕਰੋ:

ਆਪਣੀਆਂ ਅਸਲ ਕੁਇਰੀਆਂ (ਡੈਸ਼ਬੋਰਡ, ਨਿਯਤ ਰਿਪੋਰਟ, ad-hoc analysis)
ਹਕੀਕਤੀ ਡੇਟਾ ਮਾਪ ਅਤੇ retention (30/90/365 ਦਿਨ)
concurrency patterns (ਇੱਕ analyst ਵਿਰੁੱਧ ਬਹੁਤ ਸਾਰੇ ਡੈਸ਼ਬੋਰਡ)

ਇੱਕ ਛੋਟਾ PoC ਜੋ production-ਸ਼ੇਪਡ ਡੇਟਾ ਵਰਤੇ ਉਹ synthetic tests ਜਾਂ vendor comparisons ਤੋਂ ਜ਼ਿਆਦਾ ਸੱਚੇ ਨਤੀਜੇ ਦਿਖਾਏਗਾ।

ਸਹੀ ਕਾਲਮ-ਉਦਮਿਤ ਡੇਟਾਬੇਸ ਕਿਵੇਂ ਚੁਣੀਏ

ਵਾਧੂ ਟੂਲਿੰਗ ਬਿਨਾਂ ਡਿਪਲੋਇ ਕਰੋ

ਇਨਬਲਟ ਡਿਪਲੋਇਮੈਂਟ ਅਤੇ ਹੋਸਟਿੰਗ ਨਾਲ ਆਪਣਾ ਰਿਪੋਰਟਿੰਗ ਐਪ ਲਾਂਚ ਕਰੋ।

ਐਪ ਡਿਪਲੋਇ ਕਰੋ

ਡੇਟਾਬੇਸ ਚੁਣਨਾ benchmaks ਦੇ ਪਿਛੇ ਭੱਜਣ ਤੋਂ ਵੱਧ, ਤੁਹਾਡੇ ਰਿਪੋਰਟਿੰਗ ਹਕੀਕਤ ਨਾਲ ਸਿਸਟਮ ਨੂੰ ਮੈਚ ਕਰਨ ਬਾਰੇ ਹੈ: ਕੌਣ ਇਸਨੂੰ ਕੁਇਰੀ ਕਰਦਾ ਹੈ, ਕਿੰਨੀ ਵਾਰੀ, ਅਤੇ ਸਵਾਲ ਕਿੰਨੇ predictable ਹਨ।

ਉਹ ਮਾਪਦੰਡ ਜਿਨ੍ਹਾਂ ਤੇ ਧਿਆਨ ਦਿਓ

Query latency: ਡੈਸ਼ਬੋਰਡ ਅਤੇ ad-hoc analysis ਲਈ ਕੀ "ਤੇਜ਼" ਹੈ (seconds v. minutes)? ਸਧਾਰਨ BI ਕੁਇਰੀ ਅਤੇ ਇੱਕ messy exploratory ਕੁਇਰੀ ਦੋਹਾਂ ਦਾ ਟੈਸਟ ਕਰੋ।
Concurrency: ਬਿਨਾਂ timeout ਦੇ ਕਿੰਨੇ analysts, scheduled reports ਅਤੇ BI refreshes ਇਕੱਠੇ ਚੱਲ ਸਕਦੇ ਹਨ?
Cost: storage, compute, data transfer; ਹੌਟ cluster ਰੱਖਣ ਦੀ ਲਾਗਤ v. demand 'ਤੇ scale ਕਰਨ ਦਾ ਖਰਚ।
Ease of operations: backups, upgrades, monitoring, access control, incident response।

vendors ਦੀ ਤੁਲਨਾ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਪ੍ਰਸ਼ਨ ਪੁੱਛੋ

ਕੁਝ ਛੋਟੇ ਪਰ ਮੱਤਵਪੂਰਨ ਪ੍ਰਸ਼ਨ:

ਤੁਹਾਡਾ ਡੇਟਾ ਆਕਾਰ ਕਿੰਨਾ ਤੇਜ਼ ਵੱਧੇਗਾ ਅਤੇ ਤੁਸੀਂ retention policy ਕੀ ਰੱਖਦੇ ਹੋ (30 ਦਿਨ, 1 ਸਾਲ, 7 ਸਾਲ)?
ਤੁਹਾਡੇ SLA ਕੀ ਹਨ: ਡੈਸ਼ਬੋਰਡ 15 ਮਿੰਟ ਵਿੱਚ ਰੀਫ੍ਰੈਸ਼, ਰੋਜ਼ਾਨਾ ਰਿਪੋਰਟ ਸਵੇਰੇ 8 ਵਜੇ, ਜਾਂ ਸੱਚੀ near-real-time?
ਤੁਹਾਨੂੰ governance ਦੀ ਲੋੜ ਹੈ: row-level security, audit logs, encryption, data masking ਜਾਂ ਕਠੋਰ ਰੋਲ ਵੰਡ?

ਇੰਟਿਗ੍ਰੇਸ਼ਨ ਫਿੱਟ ਚੈੱਕ ਕਰੋ

ਬਹੁਤ ਟੀਮ ਸਿੱਧੇ ਡੇਟਾਬੇਸ ਨੂੰ query ਨਹੀਂ ਕਰਦੀਆਂ। ਯਕੀਨੀ ਬਣਾਓ:

ਤੁਸੀਂ ਜੋ ETL/ELT ਤਰੀਕਾ ਵਰਤਦੇ ਹੋ (batch loads, streaming, CDC) ਅਤੇ orchestration ਟੂਲ ਨਾਲ compatibility ਹੈ।
ਤੁਹਾਡੇ BI ਟੂਲਸ ਨਾਲ ਮੈਚ ਕਰਦਾ ਹੋਵੇ।
Data catalogs ਅਤੇ lineage/governance tooling ਜੇ ਤੁਸੀਂ ਉਹਨਾਂ 'ਤੇ ਨਿਰਭਰ ਹੋ।

ਇੱਕ ਸادہ PoC ਚਲਾਓ

ਛੋਟਾ ਪਰ ਹਕੀਕਤੀ ਰੱਖੋ:

ਇੱਕ ਪ੍ਰਤিনিধਿ ਸਲਾਇਸ ਲੋਡ ਕਰੋ (ਉਦਾਹਰਨ: 2–8 ਹਫ਼ਤਿਆਂ ਦਾ ਡੇਟਾ + "ਵਾਇਡ" event tables)।
10–20 ਅਸਲ ਕੁਇਰੀਆਂ ਦੁਹਰਾਓ: ਮੁੱਖ ਡੈਸ਼ਬੋਰਡ, ਫਾਈਨੈਂਸ ਰਿਪੋਰਟ, ਅਤੇ ਕੁਝ ad-hoc joins।
ਮੈਜ਼ਰ ਕਰੋ: p50/p95 query time, peak concurrency, load time, storage footprint, ਅਤੇ ਰੋਜ਼ਾਨਾ ਲਾਗਤ।

ਜੇ ਕੋਈ ਉਮੀਦਵਾਰ ਉਹਨਾਂ ਮੈਟਰਿਕਸ 'ਤੇ ਜਿੱਤਦਾ ਹੈ ਅਤੇ ਤੁਹਾਡੇ ਓਪਰੇਸ਼ਨਲ ਆਰਾਮ ਦੀ ਪੱਧਰੀ 'ਚ ਫਿੱਟ ਬੈਠਦਾ ਹੈ, ਤਾਂ ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਠੀਕ ਚੋਣ ਹੁੰਦੀ ਹੈ।

ਪ੍ਰਾਇਕਟਿਕ ਨਤੀਜੇ ਅਤੇ ਅਗਲੇ ਕਦਮ

ਕਾਲਮ-ਉਦਮਿਤ ਸਿਸਟਮ ਐਨਾਲਿਟਿਕਸ ਲਈ ਤੇਜ਼ ਮਹਿਸੂਸ ਹੁੰਦੇ ਹਨ ਕਿਉਂਕਿ ਉਹ ਉਹ ਕੰਮ ਨਹੀਂ ਕਰਦੇ ਜੋ ਤੁਹਾਨੂੰ ਨਹੀਂ ਚਾਹੀਦਾ। ਉਹ ਘੱਟ ਬਾਇਟ ਪੜ੍ਹਦੇ ਹਨ (ਕੇਵਲ ਜਿਹੜੇ ਕਾਲਮ refer ਕੀਤੇ ਗਏ), ਉਹਨਾਂ ਬਾਈਟਾਂ ਨੂੰ ਬਹੁਤ ਅਚਛੀ ਤਰ੍ਹਾਂ ਕੰਪ੍ਰੈੱਸ ਕਰਦੇ ਹਨ (ਇਸ ਲਈ ਡਿਸਕ ਅਤੇ ਮੈਮੋਰੀ ਟ੍ਰੈਫਿਕ ਘੱਟ ਹੁੰਦਾ ਹੈ), ਅਤੇ ਉਹ ਬੈਚਾਂ ਵਿੱਚ ਐਗਜ਼ੀਕਿਊਟ ਕਰਦੇ ਹਨ ਜੋ CPU caches ਲਈ ਅਨੁਕੂਲ ਹੁੰਦੀਆਂ ਹਨ। ਇਸਨੂੰ ਕੋਰਾਂ ਅਤੇ ਨੋਡਾਂ 'ਤੇ parallelism ਮਿਲਾ ਦਿਓ, ਅਤੇ ਜੋ ਰਿਪੋਰਟਿੰਗ ਕੁਇਰੀਆਂ pehle slowly ਚੱਲਦੀਆਂ ਸਨ, ਉਹ ਸੈਕੰਡਾਂ 'ਚ ਮੁਕੰਮਲ ਹੋ ਸਕਦੀਆਂ ਹਨ।

ਇੱਕ ਪ੍ਰਾਇਕਟਿਕ ਚੈੱਕਲਿਸਟ

Analytics ਲਈ ਮਾਡਲ ਕਰੋ: ਉਹ wide fact tables ਜੋ ਤੁਸੀਂ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ aggregate ਕਰਦੇ ਹੋ ਉਹਨਾਂ ਨੂੰ ਰੱਖੋ, ਅਤੇ dimensions ਸੁਥਰੀਆਂ ਰੱਖੋ (star/snowflake ਜਿੱਥੇ ਲੋੜ)। "ਇਕ ਵੱਡਾ ਹਰ-ਚੀਜ਼ ਟੇਬਲ" ਸਿਰਫ਼ ਤਾਂ ਵਰਤੋ ਜੇ ਇਹ ਸਥਿਰ ਅਤੇ ਚੰਗੀ ਤਰ੍ਹਾਂ partitioned ਹੋ।
ਪਾਰਟੀਸ਼ਨਿੰਗ ਦੀ ਸੋਚ-ਸਮਝ ਕੇ ਚੋਣ ਕਰੋ: ਜੇ ਜ਼ਿਆਦਾਤਰ ਰਿਪੋਰਟਾਂ time-bound ਹਨ ਤਾਂ time (day/week/month) ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ, ਫਿਰ ਦੂਸਰੇ ਕੀ ਨਾਲ ਸੁਧਾਰ ਤਦ ਹੀ ਜੋੜੋ।
ਸੰਗਰੰਥ/ਕ੍ਰਮ ਨੂੰ filters ਨਾਲ ਮਿਲਾਓ: ਆਪਣੇ ਸਭ ਤੋਂ ਆਮ WHERE clauses (ਅਕਸਰ time + customer/account/region) ਦੇ ਨਾਲ sort keys align ਕਰੋ—ਇਸ ਨਾਲ data skipping ਅਤੇ compression ਬਿਹਤਰ ਹੁੰਦਾ ਹੈ।
Representative queries ਨਾਲ benchmark ਕਰੋ: ਅਸਲੀ ਡੈਸ਼ਬੋਰਡ ਅਤੇ ਨਿਯਤ ਰਿਪੋਰਟਾਂ ਨੂੰ ਟੈਸਟ ਕਰੋ, ਨਾਂ ਕਿ synthetic scans। latency ਅਤੇ ਲਾਗਤ (CPU, IO, memory) ਦੋਹਾਂ ਟਰੈਕ ਕਰੋ।

ਮਾਨੀਟਰਨਗ ਦੀਆਂ ਮੁੱਖ ਗੱਲਾਂ

ਅਕਸਰ ਇਨ੍ਹਾਂ ਸੰਕੇਤਾਂ ਨੂੰ ਨਿਰੰਤਰ ਦੇਖਣਾ ਲਾਭਕਾਰੀ ਹੈ:

Scan volume per query (bytes/rows read v. returned)
Cache hit rates (ਡੇਟਾ ਅਤੇ metadata)
Top slow queries (wall time ਅਤੇ total bytes scanned)

ਜੇ scans ਵੱਡੇ ਹਨ, ਤਾਂ column selection, partitions, ਅਤੇ sort order ਨੂੰ ਦੁਬਾਰਾ ਵੇਖੋ—ਹਾਰਡਵੇਅਰ ਵਧਾਉਣ ਤੋਂ ਪਹਿਲਾਂ।

ਰਿਪੋਰਟਿੰਗ ਹੌਲੀ-ਹੌਲੀ ਮਾਈਗ੍ਰੇਟ ਕਰੋ

Read-mostly workloads (ਰਾਤ ਦੀਆਂ ਰਿਪੋਰਟਾਂ, BI ਡੈਸ਼ਬੋਰਡ, ad-hoc exploration) ਨੂੰ ਪਹਿਲਾਂ offload ਕਰੋ। transactional ਸਿਸਟਮ ਤੋਂ column store ਵਿੱਚ ਡੇਟਾ replicate ਕਰੋ, ਨਤੀਜੇ side-by-side validate ਕਰੋ, ਫਿਰ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਇੱਕ-ਇੱਕ ਕਰਕੇ ਮੋੜੋ।.rollback path ਰੱਖੋ (ਛੋਟੇ ਸਮੇਂ ਲਈ dual-run), ਅਤੇ ਕੇਵਲ ਉਸ ਵੇਲੇ ਦਾਇਰਾ ਵਧਾਓ ਜਦੋਂ ਮਾਨੀਟਰਨਗ stable scan volumes ਅਤੇ predictable performance ਦਿਖਾਵੇ।

ਰਿਪੋਰਟਿੰਗ ਐਪ ਤੇਜ਼ੀ ਨਾਲ ਬਣਾਉਣੇ (ਜਿੱਥੇ Koder.ai ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ)

ਇੱਕ column store ਕੁਇਰੀ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਸੁਧਾਰਦਾ ਹੈ, ਪਰ ਟੀਮਾਂ ਅਕਸਰ ਉਹ ਸਮਾਂ ਗਵਾ ਦਿੰਦੀਆਂ ਹਨ ਜੋ surrounding reporting experience ਬਣਾਉਣ ਵਿੱਚ ਲੱਗਦਾ ਹੈ: ਇੱਕ ਅੰਦਰੂਨੀ metrics ਪੋਰਟਲ, role-based access, scheduled report delivery, ਅਤੇ "one-off" ਵਿਸਲੇਸ਼ਣ ਟੂਲ ਜੋ ਬਾਅਦ ਵਿੱਚ ਪੱਕੇ ਫੀਚਰ ਬਣ ਜਾਂਦੇ ਹਨ।

ਜੇ ਤੁਸੀਂ ਉਸ ਐਪਲੀਕੇਸ਼ਨ ਲੇਅਰ 'ਤੇ ਤੇਜ਼ੀ ਨਾਲ ਅੱਗੇ ਵਧਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ Koder.ai ਤੁਹਾਡੇ ਲਈ React ਵੈੱਬ ਐਪ, Go backend ਸਰਵਿਸਜ਼, ਅਤੇ PostgreSQL ਇੰਟਰਗ੍ਰੇਸ਼ਨ ਇੱਕ ਚੈਟ-ਅਧਾਰਿਤ ਯੋਜਨਾ ਤੋਂ ਜਨਰੇਟ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਪ੍ਰਯੋਗਿਕ ਢੰਗ ਨਾਲ ਲਾਭਦਾਇਕ ਹੈ ਜਿਵੇਂ ਕਿ:

ਇੱਕ ਅੰਦਰੂਨੀ “analytics hub” ਜੋ parameterized queries ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਚਲਾਂਦਾ ਹੈ (ਸਪਰੇਡਸ਼ੀਟਾਂ ਵਿੱਚ ਕੱਚੇ SQL ਦੀ ਥਾਂ)
dimensions, retention windows, ਅਤੇ report schedules ਲਈ admin ਸਕ੍ਰੀਨਾਂ
dashboards ਅਤੇ exports ਲਈ warehouse/OLAP ਸਿਸਟਮ ਦੇ ਸਾਹਮਣੇ ਇੱਕ ਹਲਕਾ APIs

Koder.ai ਕੋਡ ਨਿਰਯਾਤ, ਡਿਪਲੋਇਮੈਂਟ/ਹੋਸਟਿੰਗ, ਅਤੇ rollback snapshots ਸਮਰਥਨ ਕਰਦਾ ਹੈ, ਇਸ ਲਈ ਤੁਸੀਂ ਰਿਪੋਰਟਿੰਗ ਫੀਚਰਾਂ 'ਤੇ iterate ਕਰ ਸਕਦੇ ਹੋ ਤੇ ਬਦਲਾਅ ਨਿਯੰਤਰਿਤ ਰੱਖ ਸਕਦੇ ਹੋ—ਜਦੋਂ ਕਈ stakeholder ਇੱਕੋ ਜਿਹੇ ਡੈਸ਼ਬੋਰਡਾਂ ਤੇ ਨਿਰਭਰ ਹੋਣ।

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

What is an analytics/reporting query, and how is it different from a transactional query?

ਐਨਾਲਿਟਿਕਸ ਅਤੇ ਰਿਪੋਰਟਿੰਗ ਕੁਇਰੀਆਂ ਵੱਡੀ ਮਾਤਰਾ ਦੇ ਇਤਿਹਾਸਕ ਡੇਟਾ ਨੂੰ ਸੰਖੇਪ ਵਿੱਚ ਪੇਸ਼ ਕਰਨ ਵਾਲੀਆਂ ਪੜ੍ਹਨ-ਭਾਰਿਤ ਪੁੱਛਗਿੱਛਾਂ ਹਨ—ਜਿਵੇਂ ਮਹੀਨੇ ਮੁਤਾਬਕ ਰੈਵਨੂੰ, ਮੁਹਿੰਮ ਮੁਤਾਬਕ ਕੰਵਰਜ਼ਨ, ਜਾਂ ਕੋਹੋਰਟ ਰੀਟੇਨਸ਼ਨ। ਇਹ ਆਮ ਤੌਰ 'ਤੇ ਕਈ ਪੰਗਤੀਆਂ ਨੂੰ ਸਕੈਨ ਕਰਦੀਆਂ ਹਨ, ਕੁਝ ਕਾਲਮਾਂ ਨੂੰ ਛੂਹਦੀਆਂ ਹਨ, ਸਾਰਾਂਸ਼ (aggregates) ਗਣਨਾ ਕਰਦੀਆਂ ਹਨ, ਅਤੇ ਚਾਰਟਾਂ ਜਾਂ ਟੇਬਲਾਂ ਲਈ ਛੋਟਾ ਨਤੀਜਾ ਵਾਪਿਸ ਕਰਦੀਆਂ ਹਨ।

Why do analytics workloads “stress” traditional databases?

ਉਹਨਾਂ ਨੇ ਡੇਟਾਬੇਸਾਂ 'ਤੇ ਮੁੱਖ ਤੌਰ 'ਤੇ ਦੋ ਤਰੀਕਿਆਂ ਨਾਲ ਦਬਾਅ ਪਾਇਆ:

ਵੱਡੇ ਸਕੈਨਾਂਣ: ਬਹੁਤ ਸਾਰਾ ਡੇਟਾ ਸਟੋਰੇਜ ਤੋਂ ਮੈਮੋਰੀ/CPU ਵੱਲ ਲਿਆਉਣਾ ਪੈਂਦਾ ਹੈ, ਭਾਵੇਂ ਆਖਰੀ ਨਤੀਜਾ ਛੋਟਾ ਹੋਵੇ।
ਉੱਚ concurrency: ਡੈਸ਼ਬੋਰਡ ਇੱਕ ਹੀ ਨਹੀਂ ਹੁੰਦਾ — ਕਈ ਚਾਰਟ ਇਕੱਠੇ ਲੋਡ ਹੁੰਦੇ ਹਨ, ਕਈ ਉਪਭੋਗਤਾਵਾਂ, ਨਿਯਤ ਰਿਪੋਰਟਾਂ ਅਤੇ ad‑hoc ਪੁੱਛਗਿੱਛ ਇੱਕ ਸਮੇਂ ਚਲ ਰਹੀਆਂ ਹੁੰਦੀਆਂ ਹਨ।

Row-oriented OLTP ਇੰਜਣ ਇਹ ਕਰ ਸਕਦੇ ਹਨ, ਪਰ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਲਾਗਤ ਅਤੇ ਲੇਟੈਂਸੀ ਅਣਪੇਖਿਆ ਹੋ ਸਕਦੇ ਹਨ।

What’s the simplest way to explain row stores vs. column stores?

ਸਰਲ لفظਾਂ ਵਿੱਚ:

ਇੱਕ row store ਵਿੱਚ ਇੱਕੋ ਰੋ ਦੀਆਂ ਵੈਲ੍ਯੂਜ਼ ਇਕੱਠੇ ਡਿਸਕ 'ਤੇ ਰਹਿੰਦੀਆਂ ਹਨ — ਇਹ ਇੱਕ ਰਿਕਾਰਡ ਨੂੰ ਲੱਭਣ ਜਾਂ ਅਪਡੇਟ ਕਰਨ ਲਈ ਵਧੀਆ ਹੈ।
ਇੱਕ column store ਵਿੱਚ ਇੱਕੋ ਕਾਲਮ ਦੀਆਂ ਵੈਲ੍ਯੂਜ਼ ਇਕੱਠੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ — ਜਦੋਂ ਕੁਇਰੀਆਂ ਬਹੁਤ ਸਾਰੀਆਂ ਪੰਗਤੀਆਂ 'ਚੋਂ ਕੇਵਲ ਕੁਝ ਕਾਲਮ ਪੜ੍ਹਦੀਆਂ ਹਨ ਤਾਂ ਇਹ ਵਧੀਆ ਹੁੰਦਾ ਹੈ।

ਜੇਕਰ ਤੁਹਾਡੀ ਰਿਪੋਰਟ ਨੂੰ ਕੇਵਲ ਅਤੇ ਦੀ ਜ਼ਰੂਰਤ ਹੈ, ਤਾਂ column store ਬੇਸਰੋ-ਪੈਰ ਜਾਂ ਵਰਗੀਆਂ ਗੈਰ-ਲੋੜੀਂਦੀਆਂ ਕਾਲਮਾਂ ਨੂੰ ਪੜ੍ਹਨ ਤੋਂ ਬਚ ਸਕਦਾ ਹੈ।

Why does reading fewer columns make such a big difference?

ਕਿਉਂਕਿ ਜ਼ਿਆਦਾਤਰ ਐਨਾਲਿਟਿਕਸ ਕੁਇਰੀਆਂ ਕੇਵਲ ਇਕ ਛੋਟੇ subset ਕਾਲਮਾਂ ਨੂੰ ਪੜ੍ਹਦੀਆਂ ਹਨ। Column stores column pruning ਲਾਗੂ ਕਰ ਸਕਦੇ ਹਨ (ਜਿਹੜੀਆਂ ਕਾਲਮਾਂ ਦੀ ਲੋੜ ਨਹੀਂ, ਉਹ ਛੱਡ ਦਿਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ), ਇਸ ਲਈ ਉਹ ਘੱਟ ਬਾਇਟ ਪੜ੍ਹਦੇ ਹਨ।

ਘੱਟ I/O ਆਮ ਤੌਰ 'ਤੇ ਨਤੀਜੇ ਹਨ:

ਤੇਜ਼ ਸਕੈਨ
ਡੈਸ਼ਬੋਰਡ ਲੇਟੈਂਸੀ ਵੱਧ ਪੇਸ਼ਗੋਈ ਯੋਗ
concurrency ਹੇਠ ਸਧਾਰਣ throughput

How does compression help performance in column-oriented databases?

ਕਾਲਮਰ ਲੇਆ웃 ਇੱਕੋ ਕਿਸਮ ਦੀਆਂ ਵੈਲ੍ਯੂਜ਼ ਨੂੰ ਇਕੱਠੇ ਰੱਖਦਾ ਹੈ (ਤਾਰੀਖਾਂ ਨਾਲ ਤਾਰੀਖਾਂ, ਦੇਸ਼ਾਂ ਨਾਲ ਦੇਸ਼), ਜਿਸ ਨਾਲ ਕੰਪ੍ਰੈਸ਼ਨ ਬਹੁਤ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੁੰਦੀ ਹੈ।

ਆਮ ਤਰੀਕੇ:

dictionary encoding: ਦੁਹਰਾਏ गए strings ਨੂੰ ਛੋਟੇ ਇੰਟੀਜਰ IDs ਨਾਲ ਬਦਲਦੇ ਹਨ।
run-length encoding (RLE): ਇੱਕ ਹੀ ਵੈਲ੍ਯੂ ਦੇ ਲੰਮੇ ਦੌਰਾਂ ਨੂੰ value + count ਦੇ ਰੂਪ ਵਿੱਚ ਸਟੋਰ ਕਰਨਾ।
delta encoding: ਲੜੀਵਾਰ ਮੁੱਲਾਂ ਵਿੱਚੋ ਫਰਕ ਸਟੋਰ ਕਰਨਾ (ਟਾਈਮਸਟੈਂਪ ਲਈ ਆਮ)।

ਕੰਪ੍ਰੈਸ਼ਨ ਸਟੋਰੇਜ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਸਕੈਨ ਤੇਜ਼ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਘੱਟ ਡੇਟਾ ਇ/O ਹੋਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ ingesion ਅਤੇ query ਸਮੇਂ ਕੁਝ CPU ਵੇਖਿਆ ਜਾਂਦਾ ਹੈ (compress/decompress), ਪਰ ਆਮ ਤੌਰ 'ਤੇ I/O ਬਚਤ ਇਸ overhead ਤੋਂ ਵੱਧ ਮੁੱਲ ਦਿੰਦੀ ਹੈ।

What is vectorized processing, and why is it faster than row-by-row execution?

Vectorized execution ਡੇਟਾ ਨੂੰ ਬੈਚਾਂ (ਹਜ਼ਾਰਾਂ ਵੈਲ੍ਯੂਜ਼ ਇੱਕ ਵਾਰੀ) 'ਚ ਸੰਭਾਲਦਾ ਹੈ ਨਾ ਕਿ ਇਕ-ਇਕ ਰੋ 'ਤੇ।

ਇਸ ਦੇ ਫਾਇਦੇ:

contiguous arrays ਉੱਤੇ ਕੰਮ ਕਰਨ ਨਾਲ CPU cache ਵਧੀਆ ਵਰਤਦਾ ਹੈ।
ਘੱਟ function calls ਅਤੇ branches overhead ਘਟਾਉਂਦੀਆਂ ਹਨ।
SIMD ਨਿਰਦੇਸ਼ ਅਨੇਕ ਵੈਲ੍ਯੂਜ਼ 'ਤੇ ਇੱਕੋ ਸਮੇਂ ਓਪਰੇਸ਼ਨ ਲਗਾਉਂਦੇ ਹਨ।

ਇਹ ਵਿਧੀ column stores ਨੂੰ ਉਸ ਸਮੇਂ ਵੀ ਤੇਜ਼ ਬਣਾਉਂਦੀ ਹੈ ਜਦੋਂ ਉਹ ਵੱਡੀ ਰੇਂਜਾਂ ਨੂੰ ਸਕੈਨ ਕਰ ਰਹੇ ਹੁੰਦੇ ਹਨ।

How do column stores skip reading data they don’t need?

ਅਕਸਰ ਇੰਜਨਾਂ ਹਰੇਕ ਡੇਟਾ ਬਲਾਕ (stripe/row group/segment) ਲਈ ਸਿੱਧਾ metadata ਰੱਖਦੇ ਹਨ—ਉਦਾਹਰਨ ਲਈ ਉਸ ਬਲਾਕ ਵਿੱਚ min ਅਤੇ max value।

ਜੇਕਰ ਤੁਹਾਡੀ ਕੁਇਰੀ amount > 100 ਫਿਲਟਰ ਕਰਦੀ ਹੈ ਅਤੇ ਕਿਸੇ ਬਲਾਕ ਦਾ max(amount) = 80 ਹੈ, ਤਾਂ ਇੰਜਣ ਉਸ ਬਲਾਕ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਕਿਪ ਕਰ ਸਕਦਾ ਹੈ।

ਇਹ ਵਿਧੀ ਬਹੁਤ ਸਾਰੀਆਂ ਹੋਰ ਤਕਨੀਕਾਂ ਨਾਲ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੰਬਾਈਨ ਹੁੰਦੀ ਹੈ:

partitioning (ਉਦਾਹਰਨ: date) — ਜੇ ਕੁਇਰੀ ਇੱਕ ਛੋਟੀ ਰੇਂਜ ਮੰਗਦੀ ਹੈ ਤਾਂ ਬੇਲੰਦੇ partition ਛੱਡ ਦਿੱਤੇ ਜਾਂਦੇ ਹਨ।

How do column-oriented databases scale analytics with parallelism?

ਕਾਲਮਰ ਡੇਟਾਬੇਸਜ਼ ਘੱਟ ਡੇਟਾ ਪੜ੍ਹਦੇ ਹਨ ਅਤੇ ਇਸ ਨੂੰ highly parallel ਢੰਗ ਨਾਲ ਕਰਦੇ ਹਨ:

single machine ਉੱਤੇ multi-core parallel scans: ਹਰੇਕ ਕੋਰ column ਦੇ ਵੱਖ-ਵੱਖ ਚੰਕ ਨੂੰ ਸਕੈਨ ਕਰਦਾ ਹੈ।
distributed execution: ਡੇਟਾ ਜੇਕਰ ਕਈ ਨੋਡਾਂ ਤੇ ਵੰਡਿਆ ਹੋਇਆ ਹੈ ਤਾਂ ਹਰ ਨੋਡ ਸਥਾਨਕ ਸਕੈਨ ਅਤੇ ਰੁਟਬਾ ਨਤੀਜੇ ਭੇਜਦਾ ਹੈ।

ਆਮ ਪੈਟਰਨ split-and-merge ਹੁੰਦੀ ਹੈ: ਹਰੇਕ ਸਾਈਟ ਤੇ ਅੰਸ਼ਕਿ ਨਤੀਜੇ ਕੱਢੇ ਜਾਂਦੇ ਹਨ, ਫਿਰ ਉਨ੍ਹਾਂ ਨੂੰ ਇਕੱਠਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ (ਜਿਵੇਂ sums ਨੂੰ ਜੋੜ ਕੇ ਅੰਤਿਮ sum ਮਿਲਦਾ ਹੈ)।

Why are updates/deletes and real-time freshness harder in column stores?

ਇੱਕ ਰੋ-ਸਟੋਰ ਵਿੱਚ ਇੱਕ ਰੋਅ ਅਪਡੇਟ ਅਕਸਰ ਇੱਕ ਛੋਟੇ contiguous ਖੇਤਰ ਨੂੰ ਦੁਬਾਰਾ ਲਿਖਣ ਨਾਲ ਹੋ ਜਾਂਦੀ ਹੈ। ਕਾਲਮ-ਸਟੋਰ ਵਿੱਚ ਇੱਕ 'ਰੋਅ' ਕਈ ਕਾਲਮ ਫਾਇਲ/ਸੈਗਮੈਂਟਾਂ 'ਚ ਫੈਲੀ ਹੁੰਦੀ ਹੈ। ਇੱਕ ਵੈਲ੍ਯੂ ਬਦਲਣ ਲਈ ਕਈ ਥਾਵਾਂ ਨੂੰ ਛੇੜਨਾ ਪੈਂਦਾ ਹੈ ਅਤੇ compress/packed blocks ਦੇ ਕਾਰਨ ਇੱਕ in-place ਚੇੰਜ ਵੱਡੇ ਚੰਕਾਂ ਨੂੰ ਰੀਰਾਈਟ ਕਰਨ ਦੀ ਲੋੜ ਪਾ ਸਕਦੀ ਹੈ।

ਆਮ ਰਣਨੀਤੀਆਂ:

write-optimized buffers (delta stores): ਨਵੇਂ ਰੋਅ ਅਤੇ ਅਪਡੇਟ ਪਹਿਲਾਂ ਇਕ ਛੋਟੀ, ਲਿਖਣ-ਅਨੁਕੂਲ ਥਾਂ 'ਤੇ ਜਾਦੇ ਹਨ।
micro-batches: ਚੇਂਜਜ਼ ਨੂੰ ਗਰੁੱਪ ਵਿੱਚ ਲਿਆਉਣਾ (ਕੁਝ ਸਕਿੰਟ/ਮਿੰਟ ਦੇ ਅੰਦਰ)।
merge/compaction: ਬੈਕਗ੍ਰਾਊਂਡ ਕੰਮ buffered ਡੇਟਾ ਨੂੰ ਮੁੱਖ compressed segments ਵਿੱਚ ਮਿਲਾਉਂਦੇ ਹਨ।

ਇਸ ਲਈ ਬਹੁਤ ਸਾਰੀਆਂ ਟੀਮ ਨੇਅਰ-ਰੀਅਲ-ਟਾਈਮ (ਉਦਾਹਰਨ: 1–5 ਮਿੰਟ ਦੇ ਡੀਲੇ) ਨੂੰ ਕਬੂਲ ਕਰ ਲੈਂਦੀਆਂ ਹਨ ਬਜਾਏ ਕਿ ਸਾਰੇ ਇਨਸਟੈਂਟ ਅੱਪਡੇਟ ਦੇ।

How should I model data for column-oriented analytics?

Star schema columnar analytics ਲਈ ਕੁਦਰਤੀ ਤੌਰ 'ਤੇ ਮੈਚ ਕਰਦੀ ਹੈ: ਇੱਕ ਵੱਡੀ fact table ਤੇ ਕਈ ਛੋਟੀਆਂ dimension tables।

fact table: ਉੱਚ ਵਰਦੰਤ ਵਾਲੀਆਂ event-ਲੈਵਲ records (ਮਾਪ ਅਤੇ foreign keys)।
dimension table: ਘੱਟ ਵਰਦੰਤ ਵਾਲੀਆਂ ਵੇਰਵਾ-ਆਧਾਰਿਤ attributes, ਜੋ filter/grouping ਲਈ ਵਰਤੀ ਜਾਂਦੀਆਂ ਹਨ।

ਫਾਇਦੇ:

queries ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਚੌੜੇ fact table ਦੇ ਕੇਵਲ ਕੁਝ ਕਾਲਮ ਪੜ੍ਹਦੀਆਂ ਹਨ।

ਮਾਡਲਿੰਗ ਸੁਝਾਵ:

When are column stores ideal, and when are they not?

ਜਿੱਥੇ ਤੁਸੀਂ ਕਈ ਰੋਅਜ਼ ਨੂੰ ਛੇੜ ਕੇ ਕੁਝ ਕਾਲਮਾਂ 'ਤੇ aggregates ਜਾਂ GROUP BY ਚਲਾਉਂਦੇ ਹੋ, column stores ਜ਼ਿਆਦਾਤਰ ਮੁਕਾਬਲੇ 'ਚ ਜਿੱਤਦੇ ਹਨ।

ਚੰਗੇ ਉਦੇਸ਼:

time-series metrics (CPU utilization, latency, IoT): ਰੇਂਜ ਸਕੈਨ ਅਤੇ rollups ਲਈ ਬਹੁਤ ਉਤਮ।
event logs / clickstream: campaign/user segment ਦੇ ਅਧਾਰ 'ਤੇ filter ਅਤੇ aggregate ਕਰਨ ਲਈ।
finance/business reporting: ਮਹੀਨਾਵਾਰ ਰੈਵਨੂੰ, retention, ਆਦਿ, ਜਿੱਥੇ tables ਚੌੜੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ ਪਰ ਕੁਇਰੀਆਂ ਕੁਝ ਕਾਲਮਾਂ ਨੂੰ ਹੀ ਛੂਹਦੀਆਂ ਹਨ।

ਕਦੋਂ row store ਚੰਗਾ ਹੈ:

How should I evaluate and choose a column-oriented database for analytics?

ਪੈਮਾਨੇ ਦੇ ਖਿਆਲ ਨਾਲ ਵਰਕਲੋਡ ਦੇ ਨਾਲ ਮਿਲਦੇ-ਜੁਲਦੇ ਮਾਪਦੰਡ ਤੇ ਧਿਆਨ ਦਿਓ:

Query latency: ਡੈਸ਼ਬੋਰਡ ਲਈ seconds ਚਾਹੀਦੇ ਹਨ ਜਾਂ minutes?
Concurrency: ਕਿੰਨੇ ਵਿਉਅਰ/analysts ਇੱਕੱਠੇ queries ਚਲਾਉਂਦੇ ਹਨ?
Cost: storage, compute, data transfer ਅਤੇ ਹੌਟ ਕਲੱਸਟਰ ਰੱਖਣ ਦੀ ਲੱਗਤ।
Ease of operations: backups, upgrades, ਮਾਨੀਟਰਨਗ, access control।

ਪ੍ਰਯੋਗਕਲਾ (PoC) ਦੌਰਾਨ ਆਪਣੀਆਂ ਅਸਲ ਕੁਇਰੀਆਂ ਅਤੇ ਡੇਟਾ ਨਾਲ ਨਾਪੋ—ਇਹ vendor benchmarks ਤੋਂ ਜ਼ਿਆਦਾ ਕੀਮਤੀ ਆਮ ਤੌਰ 'ਤੇ ਸਾਬਤ ਹੁੰਦਾ ਹੈ।

order_date

total

status

customer_id