Sergey Brin ਦੀ ਰਾਹਦਾਰੀ ਦੀ ਜਾਂਚ ਕਰੋ—ਸ਼ੁਰੂਆਤੀ Google ਖੋਜ ਐਲਗੋਰਿਦਮਾਂ ਤੋਂ ਲੈ ਕੇ ਅੱਜ ਦੇ ਜਨਰੇਟਿਵ ਏਆਈ ਤੱਕ—ਸਕੇਲਿੰਗ, ਉਤਪਾਦ ਪ੍ਰਭਾਵ ਅਤੇ ਖੁੱਲ੍ਹੇ ਪ੍ਰਸ਼ਨਾਂ ਬਾਰੇ ਮੁੱਖ ਵਿਚਾਰਾਂ ਨਾਲ।

Sergey Brin ਦੀ ਕਹਾਣੀ ਸਿਰਫ਼ ਪ੍ਰਸਿੱਧੀ ਜਾਂ ਕੰਪਨੀ ਦੀਆਂ ਤੱਥ-ਗੱਥਾਂ ਕਰਕੇ ਮਹੱਤਵਪੂਰਨ ਨਹੀਂ ਹੈ—ਇਸ ਲਈ ਇਹ ਇੱਕ ਸਿੱਧੀ ਲਕੀਰ ਖਿੱਚਦੀ ਹੈ ਜੋ ਕਲਾਸਿਕ ਖੋਜ ਸਮੱਸਿਆਵਾਂ (ਖੁੱਲ੍ਹੇ ਵੈੱਬ 'ਤੇ ਸਭ ਤੋਂ ਵਧੀਆ ਜਵਾਬ ਕਿਵੇਂ ਲਭਣਾ) ਤੋਂ ਲੈ ਕੇ ਅੱਜ ਦੀਆਂ ਆਧੁਨਿਕ ਏਆਈ ਸਮੱਸਿਆਵਾਂ (ਮਦਦਗਾਰ ਨਤੀਜੇ ਬਣਾਉਂਦੇ ਹੋਏ ਸਹੀ, ਤੇਜ਼ ਅਤੇ ਭਰੋਸੇਯੋਗ ਰਹਿ ਸਕਣਾ) ਤੱਕ ਜਾਂਦੀ ਹੈ। ਉਹਨਾਂ ਦਾ ਕੰਮ ਅਲਗੋਰਿਦਮ, ਡੇਟਾ ਅਤੇ ਸਿਸਟਮਾਂ ਦੇ ਮਿਲਾਪ 'ਤੇ ਖੜਾ ਹੈ—ਉਹੀ ਥਾਂ ਜਿੱਥੇ ਖੋਜ ਅਤੇ ਜਨਰੇਟਿਵ ਏਆਈ ਮਿਲਦੇ ਹਨ।
ਇਹ ਇੱਕ ਸੋਚ-ਪਹਿਲਾ ਯਾਤਰਾ ਹੈ: PageRank ਵਰਗੇ ਵਿਚਾਰਾਂ ਨੇ ਪ੍ਰਸੰਗਤਾ ਨੂੰ ਕਿਵੇਂ ਬਦਲਿਆ, ਮਸ਼ੀਨ ਲਰੰਨਿੰਗ ਨੇ ਹੱਥ-ਤਿਆਰ ਨਿਯਮਾਂ ਦੀ ਥਾਂ ਕਿਵੇਂ ਲੈ ਲਈ, ਅਤੇ ਡੀਪ ਲਰਨਿੰਗ ਨੇ ਭਾਸ਼ਾ ਸਮਝ ਨੂੰ ਕਿਵੇਂ ਸੁਧਾਰਿਆ। ਇਹ ਗੋਸਿਪ, ਅੰਦਰੂਨੀ ਨਾਟਕ ਜਾਂ ਸਿਰਫ਼ ਖਬਰਾਂ ਦੀ ਟਾਈਮਲਾਈਨ ਨਹੀਂ ਹੈ। ਉਦੇਸ਼ ਇਹ ਸਮਝਾਉਣਾ ਹੈ ਕਿ ਇਹ ਬਦਲਾਅ ਕਿਉਂ ਮਾਇਨੇ ਰੱਖਦੇ ਸਨ ਅਤੇ ਉਹ ਉਤਪਾਦਾਂ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਭਾਵਤ ਕਰਦੇ ਹਨ ਜੋ ਲੋਕ ਹਰ ਰੋਜ਼ ਵਰਤਦੇ ਹਨ।
ਜਦੋਂ ਜਨਰੇਟਿਵ ਏਆਈ ਨੂੰ ਖੋਜ ਵਾਂਗ ਚਲਾਉਣਾ ਪੈਣਾ ਸ਼ੁਰੂ ਕਰਦਾ ਹੈ—ਲੱਖਾਂ ਯੂਜ਼ਰ, ਘੱਟ ਲੇਟੈਂਸੀ, ਪੇਸ਼ੀਨੀ ਲਾਗਤ ਅਤੇ ਲਗਾਤਾਰ ਗੁਣਵੱਤਾ—ਤਾਂ ਉਹ “ਵੱਡੇ ਪੱਧਰ 'ਤੇ” ਬਣ ਜਾਂਦਾ ਹੈ। ਇਸ ਦਾ ਮਤਲਬ ਸਿਰਫ਼ ਕੋਈ ਚਤੁਰ ਮਾਡਲ ਡੈਮੋ ਨਹੀਂ ਹੁੰਦਾ। ਇਹ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ:
ਅਖੀਰ ਵਿੱਚ, ਤੁਸੀਂ ਖੋਜ ਯੁੱਗ ਨੂੰ ਅੱਜ ਦੇ ਚੈਟ-ਸਟਾਈਲ ਉਤਪਾਦਾਂ ਨਾਲ ਜੋੜ ਸਕੋਗੇ, ਸਮਝ ਸਕੋਗੇ ਕਿ ਰੀਟ੍ਰੀਵਲ ਅਤੇ ਜਨਰੇਸ਼ਨ ਕਿਉਂ ਮਿਲ ਰਹੇ ਹਨ, ਅਤੇ ਉਤਪਾਦ ਟੀਮਾਂ ਲਈ ਮਾਪ, ਪ੍ਰਸੰਗਤਾ, ਸਿਸਟਮ ਡਿਜ਼ਾਈਨ ਅਤੇ ਜਿੰਮੇਵਾਰ ਤਤਬੀਕਰਨ ਜਿਹੇ ਵਿਹਾਰਕ ਸਿਧਾਂਤ ਉਧਾਰ ਲੈ ਸਕੋਗੇ—ਜੋ ਦੋਹਾਂ ਦੁਨੀਆਂ ਵਿੱਚ ਲਾਗੂ ਹੁੰਦੇ ਹਨ।
Sergey Brin ਦੀ ਖੋਜ ਦੀ ਰਾਹਦਾਰੀ ਅਕਾਦਮੀ ਤੋਂ ਸ਼ੁਰੂ ਹੋਈ, ਜਿੱਥੇ ਮੂਲ ਪ੍ਰਸ਼ਨ “ਇੱਕ ਵੈੱਬਸਾਈਟ ਬਣਾਉਣ” ਦੇ ਬਾਵਜੂਦ ਜਾਣਕਾਰੀ ਦੀ ਭੀੜ ਨੂੰ ਸਧਾਰਨ ਕਰਨ ਬਾਰੇ ਸਨ। Google ਕੰਪਨੀ ਬਣਨ ਤੋਂ ਪਹਿਲਾਂ, Brin ਡੇਟਾਬੇਸ ਸਿਸਟਮ, ਡੇਟਾ ਮਾਈਨਿੰਗ ਅਤੇ ਸੂਚਨਾ ਪ੍ਰਾਪਤੀ ਵਰਗੇ ਖੇਤਰਾਂ ਵਿੱਚ ਰਿਸਰਚ ਵਿੱਚ ਗੁੰਜੇਹੇ ਹੋਏ ਸਨ—ਏਹ ਵਿਭਾਗ ਸੋਚਦੇ ਹਨ ਕਿ ਵੱਡੀ ਮਾਤਰਾ 'ਚ ਡੇਟਾ ਨੂੰ ਕਿਵੇਂ ਸਟੋਰ ਕਰਨਾ ਹੈ ਅਤੇ ਤੇਜ਼ੀ ਨਾਲਤੇ ਉਪਯੋਗ ਨਤੀਜੇ ਕਿਵੇਂ ਵਾਪਸ ਦੇਣੇ ਹਨ।
Brin ਨੇ ਅੰਡਰਗ੍ਰੈਜੂਏਟ ਪੜ੍ਹਾਈ ਵਿੱਚ ਗਣਿਤ ਅਤੇ ਕੰਪਿਊਟਰ ਸਾਇੰਸ ਦੀ ਪੜ੍ਹਾਈ ਕੀਤੀ ਅਤੇ ਬਾਅਦ ਵਿੱਚ Stanford 'ਚ ਗ੍ਰੈਜੂਏਟ ਕੰਮ ਕੀਤਾ, ਜੋ ਵੈੱਬ ਦੇ ਉਭਰਦੇ ਪੱਧਰ ਉੱਤੇ ਰਿਸਰਚ ਲਈ ਕੇਂਦਰ ਹੈ। ਖੋਜਕਰਤਾ ਪਹਿਲਾਂ ਹੀ ਉਨ੍ਹਾਂ ਸਮੱਸਿਆਵਾਂ ਨਾਲ ਜੂਝ ਰਹੇ ਸਨ ਜੋ ਅੱਜ ਵੀ ਸੁਣਨ ਵਿੱਚ ਜਾਣਦੇ ਹਨ: ਗੱਢਾ ਡੇਟਾ, ਅਣਿਸ਼ਚਿਤ ਗੁਣਵੱਤਾ, ਅਤੇ ਜੋ ਲੋਕ ਲਿਖਦੇ ਹਨ ਅਤੇ ਉਹ ਅਸਲ ਵਿੱਚ ਕੀ ਮਤਲਬ ਰੱਖਦੇ ਹਨ—ਇਸ ਵਿੱਚ ਕੁਝ ਥਕਾਵਟ ਸੀ।
ਉਸ ਵਕਤ ਖੋਜ ਮੁੱਖ ਤੌਰ 'ਤੇ ਕੀਵਰਡ ਮੈਚਿੰਗ ਅਤੇ ਆਧਾਰਭੂਤ ਰੈਂਕਿੰਗ ਸਿਗਨਲਾਂ 'ਤੇ ਨਿਰਭਰ ਸੀ। ਜਦੋਂ ਵੈੱਬ ਛੋਟਾ ਸੀ ਤਾਂ ਇਹ ਕੰਮ ਕਰਦੀਆਂ ਸਨ, ਪਰ ਪੰਨਿਆਂ ਦੀ ਗਿਣਤੀ ਵਧਣ ਤੇ ਅਤੇ ਰਚਨਾਕਾਰਾਂ ਵੱਲੋਂ ਸਿਸਟਮ ਨੂੰ ਗੇਮ ਕਰਨ ਦੇ ਢੰਗ ਆਉਣ ਕਾਰਨ ਇਹ ਖਰਾਬ ਹੋ ਗਿਆ। ਆਮ ਚੁਣੌਤੀਆਂ ਵਿੱਚ ਸ਼ਾਮਲ ਸਨ:
ਮੂਲ ਵਿਚਾਰ ਸਧਾਰਨ ਸੀ: ਜੇ ਵੈੱਬ ਇਕ ਵੱਡੀ ਲਾਇਬ੍ਰੇਰੀ ਹੈ, ਤਾਂ ਨਤੀਜੇ ਰੈਂਕ ਕਰਨ ਲਈ ਸਿਰਫ਼ ਟੈਕਸਟ-ਮੈਚਿੰਗ ਹੀ ਕਾਫੀ ਨਹੀਂ—ਤੁਹਾਨੂੰ ਉਹਨਾਂ ਸਿਗਨਲਾਂ ਦੀ ਲੋੜ ਹੈ ਜੋ ਸਰੋਤ ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਅਤੇ ਮਹੱਤਤਾ ਦਰਸਾਉਂਦੇ ਹਨ। ਵੈੱਬ ਜਾਣਕਾਰੀ ਨੂੰ ਢਾਂਚਬੱਧ ਕਰਨ ਲਈ ਉਹ ਵਿਧੀਆਂ ਲੋੜੀਂਦੀਆਂ ਸਨ ਜੋ ਸਿਰਫ਼ ਪੰਨੇ 'ਤੇ ਲਿਖੇ ਸ਼ਬਦਾਂ ਤੋਂ ਨਹੀਂ, ਬਲਕਿ ਵੈੱਬ ਦੀ ਬਣਤਰ ਤੋਂ ਵੀ ਉਪਯੋਗਤਾ ਨਿਕਾਲ ਸਕਣ।
ਉਹ ਸ਼ੁਰੂਆਤੀ ਰਿਸਰਚ ਪ੍ਰਾਥਮਿਕਤਾਵਾਂ—ਗੁਣਵੱਤਾ ਮਾਪਣਾ, ਮੈਨਿਪੁਲੇਸ਼ਨ ਦਾ ਵਿਰੋਧ, ਅਤੇ ਅਤਿਅਧਿਕ ਸਕੇਲ 'ਤੇ ਚਲਣ—ਖੋਜ ਅਤੇ ਏਆਈ ਵਿਚ ਬਾਅਦ ਦੇ ਬਦਲਾਅ ਲਈ ਬੁਨਿਆਦ ਬਣਾ ਦਿੰਦੀਆਂ ਹਨ।
ਖੋਜ ਦਾ ਟੀਚਾ ਸਧਾਰਨ ਲੱਗਦਾ ਹੈ: ਜਦੋਂ ਤੁਸੀਂ کوئی ਸਵਾਲ ਟਾਇਪ ਕਰੋ, ਸਭ ਤੋਂ ਉਪਯੋਗ ਪੰਨੇ ਊਪਰ ਆ ਜਾਣ। 1990 ਦੇ ਦਹਾਕੇ ਦੇ ਆਖ਼ਰ ਵਿੱਚ ਇਹ ਹੋਰ ਮੁਸ਼ਕਲ ਸੀ। ਵੈੱਬ ਫੈਲ ਰਿਹਾ ਸੀ ਅਤੇ ਕਈ ਪਹਿਲੇ ਖੋਜ ਇੰਜਣ ਪੰਨੇ ਦੇ ਆਪਣੀਆਂ ਗੱਲਾਂ—ਟੈਕਸਟ, ਕੀਵਰਡ ਅਤੇ ਮੈਟਾ ਟੈਗ—ਤੇ ਬਹੁਤ ਡਿਪੈਂਡ ਕਰਦੇ ਸਨ। ਇਹ ਤੋਂ ਨਤੀਜੇ ਆਸਾਨੀ ਨਾਲ ਗੇਮ ਹੋ ਜਾਂਦੇ ਸਨ ਅਤੇ ਅਕਸਰ ਨਿਰਾਸ਼ਜਨਕ ਹੁੰਦੇ।
Sergey Brin ਅਤੇ Larry Page ਦੀ ਮੁੱਖ ਸੂਝ ਇਹ ਸੀ ਕਿ ਵੈੱਬ ਦੀ ਲਿੰਕ ਬਣਤਰ ਨੂੰ ਇਕ ਸਿਗਨਲ ਵਜੋਂ ਵਰਤਿਆ ਜਾਵੇ। ਜੇ ਇੱਕ ਪੰਨਾ ਦੂਜੇ ਨੂੰ ਲਿੰਕ ਕਰਦਾ ਹੈ, ਤਾਂ ਉਹ ਕਿਸੇ ਤਰ੍ਹਾਂ ਦੀ "ਵੋਟ" ਪਾਂਦਾ ਹੈ। ਸਾਰੀਆਂ ਵੋਟਾਂ ਸamaan ਨਹੀਂ ਹੁੰਦੀਆਂ: ਇੱਕ ਪ੍ਰਤਿਸ਼ਠਤ ਪੰਨੇ ਤੋਂ ਲਿੰਕ ਨੂੰ ਇੱਕ ਅਣਪਛਾਤੇ ਪੰਨੇ ਤੋਂ ਲਿੰਕ ਨਾਲੋਂ ਵਧੇਰੇ ਮਾਣਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ।
ਧਾਰਣਾਤਮਕ ਤੌਰ 'ਤੇ, PageRank ਮਹੱਤਤਾ ਨੂੰ ਇਹ ਪੁੱਛ ਕੇ ਮਾਪਦਾ ਹੈ: ਕਿਹੜੇ ਪੰਨੇ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਪੰਨਿਆਂ ਵੱਲੋਂ ਸੰਦਰਭਿਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ? ਇਹ ਘੁੰਮਾਉਦਾਰ ਸਵਾਲ ਇੱਕ ਗਣਿਤੀ ਅੰਕ-ਸੰਖਿਆਬੱਧ ਰੈਂਕਿੰਗ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਵੈੱਬ ਸਕੇਲ 'ਤੇ ਕੰਪਿਊਟ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਨਤੀজা "ਪ੍ਰਸੰਗਤਾ ਦਾ ਅੰਤਿਮ ਜਵਾਬ" ਨਹੀਂ ਸੀ—ਪਰ ਇਹ ਇਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਨਵਾਂ ਪਦਾਰਥ ਸੀ।
PageRank ਨੂੰ ਪੂਰੀ Google ਸਫਲਤਾ ਦਾ ਸਿਰਫ਼ ਰਾਜ਼ ਮਨ ਲੈਣਾ ਆਸਾਨ ਹੈ। ਅਮਲ ਵਿੱਚ, ਰੈਂਕਿੰਗ ਇੱਕ ਵਿਧੀ ਹੈ: ਅਲਗੋਰਿਦਮ ਕਈ ਸਿਗਨਲ ਮਿਲਾ ਕੇ (ਟੈਕਸਟ ਮੈਚਿੰਗ, ਤਾਜ਼ਗੀ, ਸਥਿਤੀ, ਗਤੀ ਆਦਿ) ਪੇਸ਼ੇਵਰ ਪ੍ਰਾਪਤੀ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦੇ ਹਨ।
ਅਤੇ ਪ੍ਰੇਰਣਾ ਗੜਬੜ ਹੁੰਦੀ ਹੈ। ਜਿਵੇਂ ਹੀ ਰੈਂਕਿੰਗ ਅਹਿਮ ਹੋ ਜਾਂਦੀ ਹੈ, ਸਪੈਮ ਆ ਜਾਂਦਾ ਹੈ—ਲਿੰਕ ਫਾਰਮ, ਕੀਵਰਡ ਭਰਾਈ ਅਤੇ ਹੋਰ ਤਰੀਕੇ ਜੋ ਦਿਖਣ ਵਿੱਚ ਪ੍ਰਸੰਗਿਕ ਪਰ ਅਸਲ ਵਿੱਚ ਉਪਯੋਗ ਨਹੀਂ। ਖੋਜ ਅਲਗੋਰਿਦਮ ਇਕ ਲਗਾਤਾਰ ਵਿਪਰੀਤ-ਖੇਡ ਬਣ ਗਏ: ਪ੍ਰਸੰਗਤਾ ਸੁਧਾਰੋ, ਮੈਨਿਪੁਲੇਸ਼ਨ ਦੀ ਪਹਿਚਾਣ ਕਰੋ, ਅਤੇ ਸਿਸਟਮ ਨੂੰ ਠੀਕ ਕਰੋ।
ਵੈੱਬ ਬਦਲਦਾ ਰਹਿੰਦਾ ਹੈ, ਭਾਸ਼ਾ ਬਦਲਦੀ ਹੈ, ਅਤੇ ਯੂਜ਼ਰਾਂ ਦੀਆਂ ਉਮੀਦਾਂ ਬਦਲਦੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ। ਹਰ ਸੁਧਾਰ ਨਵੇਂ ਏਜ ਕੇਸ ਰਚਦਾ ਹੈ। PageRank ਨੇ ਖੋਜ ਨੂੰ ਮੁਕੰਮਲ ਨਹੀਂ ਕੀਤਾ—ਇਸ ਨੇ ਖੇਤਰ ਨੂੰ ਸਧਾਰਨ ਕੀਵਰਡ ਮਿਲਾਉਣ ਤੋਂ ਆਧੁਨਿਕ ਸੂਚਨਾ ਪ੍ਰਾਪਤੀ ਵੱਲ ਖਿਸਕਾਇਆ, ਜਿੱਥੇ ਪ੍ਰਸੰਗਤਾ ਨਿਰੰਤਰ ਮਾਪੀ, ਟੈਸਟ ਕੀਤੀ ਅਤੇ ਸੁਧਾਰੀ ਜਾਂਦੀ ਹੈ।
ਇੱਕ ਚਤੁਰ ਰੈਂਕਿੰਗ ਵਿਚਾਰ ਤਾਂ ਕਾਫੀ ਨਹੀਂ ਹੁੰਦਾ ਜਦੋਂ ਤੁਹਾਡਾ "ਡੇਟਾਬੇਸ" ਪੂਰਾ ਵੈੱਬ ਹੋਵੇ। ਸ਼ੁਰੂਆਤੀ Google ਖੋਜ ਨੂੰ ਵੱਖਰਾ ਮਹਿਸੂਸ ਕਰਵਾਉਣ ਵਾਲੀ ਗੱਲ ਸਿਰਫ਼ ਪ੍ਰਸੰਗਤਾ ਹੀ ਨਹੀਂ—ਇਹ ਉਸ ਪ੍ਰਸੰਗਤਾ ਨੂੰ ਲੱਖਾਂ ਲੋਕਾਂ ਲਈ ਇਕਸਾਰ ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਪੇਸ਼ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਸੀ।
ਇੰਟਰਨੈੱਟ ਸਕੇਲ 'ਤੇ ਖੋਜ ਕ੍ਰਾਲਿੰਗ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ: ਪੰਨਿਆਂ ਦੀ ਖੋਜ, ਉਨ੍ਹਾਂ ਨੂੰ ਦੁਬਾਰਾ ਵੇਖਣਾ, ਅਤੇ ਇੱਕ ਐਸੇ ਵੈੱਬ ਨਾਲ ਨਿਭਾਉਣਾ ਜੋ ਕਦੇ ਰੁਕਦਾ ਨਹੀਂ। ਫਿਰ ਆਉਂਦਾ ਹੈ ਇੰਡੈਕਸਿੰਗ: ਗੱਢੇ, ਵੱਖ-ਵੱਖ ਸਮੱਗਰੀ ਨੂੰ ਐਸੇ ਢਾਂਚਿਆਂ ਵਿੱਚ ਬਦਲਨਾ ਜੋ ਮਿਲੀਸਕੈਂਡ 'ਚ ਪੁੱਛੇ ਜਾ ਸਕਣ।
ਛੋਟੇ ਪੱਧਰ 'ਤੇ, ਤੁਸੀਂ ਸਟੋਰੇਜ ਅਤੇ ਕੰਪਿਊਟ ਨੂੰ ਇੱਕ ਸਿੰਗਲ ਮਸ਼ੀਨ ਸਮੱਸਿਆ ਵਾਂਗ ਵਰਤ ਸਕਦੇ ਹੋ। ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਹਰ ਚੋਣ ਇੱਕ ਸਿਸਟਮ ਟਰੇਡਆਫ ਬਣ ਜਾਂਦੀ ਹੈ:
ਯੂਜ਼ਰ ਖੋਜ ਗੁਣਵੱਤਾ ਨੂੰ ਇੱਕ ਰੈਂਕ ਸਕੋਰ ਵਜੋਂ ਨਹੀਂ ਵੇਖਦੇ—ਉਹ ਇਸਨੂੰ ਇੱਕ ਐਸੇ ਰਿਜ਼ਲਟ ਪੰਨੇ ਵਜੋਂ ਵੇਖਦੇ ਹਨ ਜੋ ਹਰ ਵਾਰੀ ਤੇਜ਼ੀ ਨਾਲ ਖੁਲ ਜਾਵੇ। ਜੇ ਸਿਸਟਮ ਅਕਸਰ ਫੇਲ ਹੋਣ, ਨਤੀਜੇ ਟਾਈਮਆਉਟ ਹੋਣ ਜਾਂ ਤਾਜ਼ਗੀ ਦੇ ਮਾਮਲੇ ਵਾਂਗ ਕੰਮ ਕਰਨ, ਤਾਂ ਭਲੇ ਹੀ ਰੈਂਕਿੰਗ ਮਾਡਲ ਵਧੀਆ ਹੋਣ, ਪਰ ਅਮਲੀ ਤੌਰ 'ਤੇ ਖਰਾਬ ਪ੍ਰਤੀਤ ਹੁੰਦੇ ਹਨ।
ਇਸ ਲਈ uptime, graceful degradation ਅਤੇ ਸਥਿਰ ਪ੍ਰਦਰਸ਼ਨ ਲਈ ਇੰਜੀਨੀਅਰਿੰਗ ਕਰਨਾ ਰੈਂਕਿੰਗ ਤੋਂ ਅਲੱਗ ਨਹੀਂ। ਥੋੜ੍ਹਾ ਘੱਟ-ਉੱਤਮ ਨਤੀਜਾ ਜੋ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਮਿਲਦਾ ਹੈ, ਉਹ ਇੱਕ ਬਿਹਤਰ ਪਰੰਤੂ ਅਨਿਰਧਾਰਤ ਨਤੀਜੇ ਤੋਂ ਵਧੀਆ ਹੋ ਸਕਦਾ ਹੈ।
ਸਕੇਲ 'ਤੇ, ਤੁਸੀਂ "ਸਿਰਫ਼ ਸ਼ਿਪ" ਨਹੀਂ ਕਰ ਸਕਦੇ। ਖੋਜ ਉਹ ਪਾਈਪਲਾਈਨਾਂ 'ਤੇ ਨਿਰਭਰ ਹੈ ਜੋ ਸਿਗਨਲ (ਕਿਲੱਕ, ਲਿੰਕ, ਭਾਸ਼ਾ ਪੈਟਰਨ) ਇਕੱਠੇ ਕਰਦੀਆਂ ਹਨ, ਮੂਲਯੰਕਨ ਚਲਾਉਂਦੀਆਂ ਹਨ, ਅਤੇ ਬਦਲਾਵਾਂ ਨੂੰ ধੀਰੇ-ਧੀਰੇ ਰੋਲਆਉਟ ਕਰਦੀਆਂ ਹਨ। ਮਕਸਦ ਇਹ ਹੈ ਕਿ ਰਿਗ੍ਰੈਸ਼ਨਜ਼ ਨੂੰ ਝਲਕੋ—ਸਾਡੇ ਸਭ 'ਤੇ ਪ੍ਰਭਾਵ ਪਾਉਣ ਤੋਂ ਪਹਿਲਾਂ।
ਇੱਕ ਲਾਇਬਰੇਰੀ ਕੈਟਾਲੌਗ ਮੰਨਦਾ ਹੈ ਕਿ ਕਿਤਾਬਾਂ ਸਥਿਰ, ਸੰਸੋਧਿਤ ਅਤੇ ਹੌਲੀ-ਹੌਲੀ ਬਦਲਦੀਆਂ ਹਨ। ਵੈੱਬ ਇੱਕ ਐਸੀ ਲਾਇਬਰੇਰੀ ਹੈ ਜਿੱਥੇ ਕਿਤਾਬਾਂ ਖੁਦ ਨੂੰ ਲਿਖ ਲੈਂਦੀਆਂ, ਸ਼ੈਲਫ਼ ਹਿਲਦੇ ਹਨ, ਅਤੇ ਨਵੀਂ ਕਮਰੇ ਏਡ ਹੁੰਦੇ ਰਹਿੰਦੇ ਹਨ। ਇੰਟਰਨੈੱਟ-ਸਕੇਲ ਖੋਜ ਉਹ ਮਸ਼ੀਨਰੀ ਹੈ ਜੋ ਇਸ ਹਿਲਦੇ ਟੀਚੇ ਲਈ ਵਰਤਣਯੋਗ ਕੈਟਾਲੌਗ ਬਨਾਈ ਰੱਖਦੀ ਹੈ—ਤੇਜ਼, ਭਰੋਸੇਯੋਗ ਅਤੇ ਲਗਾਤਾਰ ਅਪਡੇਟ ਹੋਣ ਵਾਲੀ।
ਸ਼ੁਰੂਆਤੀ ਰੈਂਕਿੰਗ ਹੱਥ-ਤਿਆਰ ਨਿਯਮਾਂ 'ਤੇ ਭਾਰੀ ਨਿਰਭਰ ਸੀ: ਜੇ ਪੰਨੇ ਵਿੱਚ ਸਹੀ ਸ਼ਬਦ ਸਨ ਤਦੋਂ ਉਥੇ ਵੱਧ ਵਜ਼ਨ, ਜੇ ਬਹੁਤ ਲਿੰਕ ਸਨ ਤਾਂ ਵਗੈਰਾ। ਐਸੇ ਸਿਗਨਲ ਮਹੱਤਵਪੂਰਨ ਸਨ—ਪਰ ਇਹ ਨਿਰਣਾ ਕਿ ਹਰ ਇਕ ਦਾ "ਕਿੰਨਾ" ਮਤਲਬ ਹੋਵੇ ਆਮ ਤੌਰ 'ਤੇ ਹੱਥੋਂ ਹੁੰਦਾ ਸੀ। ਇੰਜੀਨੀਅਰ ਨੁੰਬਰਾਂ ਸੁਧਾਰ ਸਕਦੇ ਸਨ, ਅਨੁਭਵ ਚਲਾ ਸਕਦੇ ਸਨ, ਅਤੇ ਦੁਹਰਾਅ ਕਰਦੇ ਰਹਿੰਦੇ ਸਨ। ਇਹ ਕੰਮ ਕੀਤਾ ਪਰ ਜਦੋਂ ਵੈੱਬ (ਅਤੇ ਯੂਜ਼ਰ ਉਮੀਦਾਂ) ਵਧੇ ਤਾਂ ਸੀਮਾ ਛੂਹ ਗਈ।
"ਲਰਣਿੰਗ ਟੂ ਰੈਂਕ" ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇੱਕ ਸਿਸਟਮ ਨੂੰ ਬਹੁਤ ਸਾਰੀਆਂ ਉਦਾਹਰਣਾਂ ਦੇ ਕੇ ਇਹ ਸਿਖਾਇਆ ਜਾਵੇ ਕਿ ਚੰਗੇ ਨਤੀਜੇ ਕਿਹੜੇ ਹੁੰਦੇ ਹਨ।\n\nਲੰਮੇ ਰੈਂਕਿੰਗ ਨਿਯਮ ਲਿਖਣ ਦੀ ਥਾਂ, ਤੁਸੀਂ ਮਾਡਲ ਨੂੰ ਪੁਰਾਣੀਆਂ ਖੋਜਾਂ ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਨਤੀਜਿਆਂ—ਜਿਵੇਂ ਕਿ ਲੋਕ ਕਿਸ ਨਤੀਜੇ ਨੂੰ ਚੁਣਦੇ ਸਨ, ਕਿਸ ਤੋਂ ਜਲਦੀ ਬਾਊਂਸ ਹੁੰਦਾ ਸੀ, ਅਤੇ ਮਨੁੱਖੀ ਸਮੀਖਿਆਕਾਰਾਂ ਨੇ ਕਿਹੜੇ ਪੰਨੇ ਮਦਦਗਾਰ ਮੰਨੇ—ਖਿਲਾਓ। ਸਮੇਂ ਦੇ ਨਾਲ, ਮਾਡਲ ਇਹ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਸਿੱਖ ਜਾਂਦਾ ਹੈ ਕਿ ਕਿਹੜੇ ਨਤੀਜੇ ਉੱਚੇ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ।
ਇੱਕ ਸਧਾਰਨ ਤੁਲਨਾ: ਇੱਕ ਅਧਿਆਪਕ ਹਰੇਕ ਕਲਾਸ ਲਈ ਵਿਸ਼ੇਸ਼ ਬੈਠਕ ਦੀ ਯੋਜਨਾ ਲਿਖਣ ਦੀ ਥਾਂ ਵੇਖਦਾ ਹੈ ਕਿ ਕਿਹੜੀ ਬੈਠਕ ਚਰਚਾ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਂਦੀ ਹੈ ਅਤੇ ਆਪਣੇ ਆਪ ਅਨੁਕੂਲਤ ਹੁੰਦਾ ਹੈ।
ਇਹ ਬਦਲਾਅ ਕਲਾਸਿਕ ਸਿਗਨਲਾਂ—ਜਿਵੇਂ ਲਿੰਕ ਜਾਂ ਪੰਨੇ ਦੀ ਗੁਣਵੱਤਾ—ਨੂੰ ਮਿਟਾਉਂਦਾ ਨਹੀਂ; ਇਸਨੇ ਇਹ ਤਰੀਕਾ ਬਦਲ ਦਿੱਤਾ ਕਿ ਉਹਨਾਂ ਨੂੰ ਕਿਵੇਂ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ। "ਚੁੱਪਚਾਪ" ਹਿੱਸਾ ਇਹ ਹੈ ਕਿ ਯੂਜ਼ਰ ਦੇ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਤੋਂ ਖੋਜ ਪੇਜ਼ ਇੱਕੋ ਜਿਹਾ ਰਹਿੰਦਾ। ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ, ਗਰਾਵਿਟੀ ਹੱਥ-ਤਿਆਰ ਸਕੋਰਿੰਗ ਫਾਰਮੂਲ ਤੋਂ ਡੇਟਾ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲਾਂ ਵੱਲ ਖਿਸਕ ਗਈ।
ਜਦੋਂ ਮਾਡਲ ਡੇਟਾ ਤੋਂ ਸਿੱਖਦੇ ਹਨ, ਤਾਂ ਮਾਪੋ-ਚੁਕਾਈ ਮਾਰਗਦਰਸ਼ਕ ਬਣ ਜਾਂਦਾ ਹੈ।\n\nਟੀਮਾਂ ਰਿਲੇਵੈਂਸ ਮੈਟਰਿਕਸ (ਕੀ ਨਤੀਜੇ Sਚਮੁਚ ਪ੍ਰਸ਼ਨ ਨੂੰ ਪੂਰਾ ਕਰਦੇ ਹਨ?), ਆਨਲਾਈਨ A/B ਟੈਸਟ (ਕੀ ਕੋਈ ਬਦਲਾਅ ਅਸਲ ਯੂਜ਼ਰ ਬਿਹੇਵਿਅਰ ਨੂੰ ਸੁਧਾਰਦਾ ਹੈ?), ਅਤੇ ਮਨੁੱਖੀ ਫੀਡਬੈਕ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀਆਂ ਹਨ। ਕੁੰਜੀ ਗੱਲ ਇਹ ਹੈ ਕਿ ਮੁਲਾਂਕਣ ਨੂੰ ਲਗਾਤਾਰ ਰਖੋ—ਕਿਉਂਕਿ ਜੋ ਲੋਕ ਖੋਜਦੇ ਹਨ ਅਤੇ ਕੀ "ਚੰਗਾ" ਹੈ, ਇਹ ਲਗਾਤਾਰ ਬਦਲਦਾ ਰਹਿੰਦਾ ਹੈ।
ਨੋਟ: ਖ਼ਾਸ ਮਾਡਲ ਡਿਜ਼ਾਇਨ ਅਤੇ ਅੰਦਰੂਨੀ ਸਿਗਨਲ ਸਮੇਂ ਨਾਲ ਬਦਲਦੇ ਰਹਿੰਦੇ ਹਨ ਅਤੇ ਜਨਤਕ ਨਹੀਂ ਹੁੰਦੇ; ਮਹੱਤਵਪੂਰਨ ਸਬਕ ਹੈ ਸਿੱਖਣ ਵਾਲੇ ਸਿਸਟਮਾਂ ਅਤੇ ਕਠੋਰ ਟੈਸਟਿੰਗ ਵੱਲ ਮਨੋਭਾਵ ਦਾ ਬਦਲਣਾ।
ਡੀਪ ਲਰਨਿੰਗ ਕਈ-ਤਹੀਂ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਤੋਂ ਬਣਿਆ ਇੱਕ ਪਰਿਵਾਰ ਹੈ। ਇਨ੍ਹਾਂ ਦੇ ਨਾਲ, ਹੱਥ-ਕੋਡ ਕੀਤੀਆਂ ਨਿਯਮਾਂ ("ਜੇ ਪ੍ਰਸ਼ਨ ਵਿੱਚ X ਆਏ ਤਾਂ Y ਨੂੰ ਬੂਸਟ ਕਰੋ") ਦੀ ਥਾਂ ਮਾਡਲ ਵੱਡੀ ਮਾਤਰਾ ਡੇਟਾ ਤੋਂ ਪੈਟਰਨ ਸਿੱਖ ਲੈਂਦੇ ਹਨ। ਇਹ ਬਦਲਾਅ ਖੋਜ ਲਈ ਮਹੱਤਵਪੂਰਨ ਸੀ ਕਿਉਂਕਿ ਭਾਸ਼ਾ ਗੱਢੀ ਹੋ ਸਕਦੀ ਹੈ: ਲੋਕ ਗਲਤੀ ਨਾਲ ਲਿਖਦੇ ਹਨ, ਸੰਦਰਭ ਦਰਸਾਉਂਦੇ ਹਨ, ਅਤੇ ਇੱਕੋ ਸ਼ਬਦ ਨੂੰ ਵੱਖ-ਵੱਖ ਅਰਥਾਂ ਲਈ ਵਰਤਦੇ ਹਨ।
ਪਾਰੰਪਰਿਕ ਰੈਂਕਿੰਗ ਸਿਗਨਲ—ਲਿੰਕ, ਐਂਕਰ, ਤਾਜ਼ਗੀ—ਸ਼ਕਤੀਸ਼ਾਲੀ ਹਨ, ਪਰ ਇਹ "ਸਮਝਦਾਰ" ਨਹੀਂ ਹੁੰਦੇ ਕਿ ਪ੍ਰਸ਼ਨ ਕੀ ਲੱਭਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਿਹਾ ਹੈ। ਡੀਪ ਲਰਨਿੰਗ ਮਾਡਲ ਮੈਂਦਾ ਬਹੁਤ ਚੰਗੇ ਹਨ ਰੈਪਰੇਜ਼ੈਂਟੇਸ਼ਨ ਬਣਾਉਣ ਵਿੱਚ: ਸ਼ਬਦਾਂ, ਵਾਕਾਂ ਅਤੇ ਇਮੇਜਾਂ ਨੂੰ ਸੰਘਣੇ ਵੇਕਟਰਾਂ ਵਿੱਚ ਬਦਲ ਕੇ ਅਰਥ ਅਤੇ ਸਮਾਨਤਾ ਨੂੰ ਪਕੜਦੇ ਹਨ।
ਅਮਲੀ ਤੌਰ 'ਤੇ, ਇਸ ਨਾਲ ਮਿਲਿਆ:
ਡੀਪ ਲਰਨਿੰਗ ਮੁਫਤ ਨਹੀਂ ਹੈ। ਨਿਊਰਲ ਮਾਡਲਾਂ ਦੀ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਸਰਵਿੰਗ ਮਹਿੰਗੀ ਹੋ ਸਕਦੀ ਹੈ, ਖਾਸ ਹਾਰਡਵੇਅਰ ਅਤੇ ਧਿਆਨਦਾਰ ਇੰਜੀਨੀਅਰਿੰਗ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਉਹਨਾਂ ਨੂੰ ਡੇਟਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ—ਸਾਫ਼ ਲੇਬਲ, ਕਿਲੱਕ ਸਿਗਨਲ ਅਤੇ ਮੁਲਾਂਕਣ ਸੈਟ—ਤਾਂ ਜੋ ਗਲਤ ਰਸਤੇ ਸਿੱਖਣ ਤੋਂ ਬਚਿਆ ਜਾ ਸਕੇ।
ਸਮਝਾਉਣਯੋਗਤਾ ਵੀ ਇੱਕ ਚੁਣੌਤੀ ਹੈ। ਜਦੋਂ ਮਾਡਲ ਰੈਂਕਿੰਗ ਨੂੰ ਬਦਲਦਾ ਹੈ, ਤਾਂ ਇਹ ਸਪਸ਼ਟ ਤਰੀਕੇ ਨਾਲ ਸਮਝਾਉਣਾ ਔਖਾ ਹੁੰਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੇ ਨਤੀਜਾ A ਨੂੰ ਕਿਉਂ ਪਸੰਦ ਕੀਤਾ B ਦੇ ਮੁਕਾਬਲੇ—ਜੋ ਡਿਬੱਗ ਅਤੇ ਭਰੋਸਾ ਬਣਾਉਣ ਨੂੰ ਮੁਸ਼ਕਿਲ ਬਣਾਉਂਦਾ ਹੈ।
ਸਭ ਤੋਂ ਵੱਡਾ ਬਦਲਾਅ ਸੰਗਠਨਾਤਮਕ ਸੀ, ਸਿਰਫ਼ ਤਕਨੀਕੀ ਨਹੀਂ: ਨਿਊਰਲ ਮਾਡਲ ਸਾਈਡ ਦੇ ਪ੍ਰਯੋਗ ਨਾ ਰਹਿ ਕੇ ਉਹ ਉਪਭੋਗਤਾ ਦੇ ਤਜਰਬੇ ਦੀ "ਖੋਜ ਗੁਣਵੱਤਾ" ਦਾ ਹਿੱਸਾ ਬਣ ਗਏ। ਪ੍ਰਸੰਗਤਾ ਦਿਹਾੜੇ-ਦਿਹਾੜੇ ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲਾਂ 'ਤੇ ਨਿਰਭਰ ਹੋਣ ਲੱਗੀ—ਮਾਪੀ, ਦੁਹਰਾਈ ਤੇ ships ਕੀਤੀ—ਬਜਾਏ ਸਿਗਨਲਾਂ ਦੇ ਹੱਥੋਂ-ਟਿਊਨ ਹੋਣ ਦੇ।
ਕਲਾਸਿਕ ਖੋਜ ਏਆਈ ਮੁੱਖ ਤੌਰ 'ਤੇ ਰੈਂਕਿੰਗ ਅਤੇ ਭਵਿੱਖਬਾਣੀ ਬਾਰੇ ਹੈ। ਦਿੱਤੇ ਪ੍ਰਸ਼ਨ ਅਤੇ ਡਾਕੁਮੈਂਟਾਂ ਦੇ ਸੈੱਟ ਦੇ ਆਧਾਰ 'ਤੇ, ਸਿਸਟਮ ਅਨੁਮਾਨ ਲਗਾਉਂਦਾ ਹੈ ਕਿ ਕਿਹੜੇ ਨਤੀਜੇ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ ਪ੍ਰਸੰਗਿਕ ਹਨ। ਜਦੋਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨੇ ਹੱਥ-ਤਿਆਰ ਨਿਯਮਾਂ ਦੀ ਥਾਂ ਲਈ, ਟੀਚਾ ਮਿਲਦਾ ਰਿਹਾ: ਸਕੋਰ ਦੇਓ, ਫਿਰ ਛਾਂਟੋ।
ਜਨਰੇਟਿਵ ਏਆਈ ਨਤੀਜੇ ਨੂੰ ਬਦਲ ਦਿੰਦਾ ਹੈ। ਮਾਡਲ ਮੁਕਾਬਲੇ ਵਿੱਚ ਮੌਜੂਦ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚੋਂ ਚੋਣ ਕਰਨ ਦੀ ਬਜਾਏ ਟੈਕਸਟ, ਕੋਡ, ਸੰਖੇਪ ਅਤੇ ਇਮੇਜ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਉਤਪਾਦ ਇੱਕਲ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ, ਈਮੇਲ ਦਾ ਡਰਾਫਟ ਕਰ ਸਕਦਾ ਹੈ, ਜਾਂ ਕੋਡ ਦਾ ਟੁਕੜਾ ਲਿਖ ਸਕਦਾ ਹੈ—ਇਹ ਲਾਭਦਾਇਕ ਹੈ, ਪਰ ਮੂਲ ਤੌਰ 'ਤੇ ਲਿੰਕਾਂ ਵਾਪਸ ਕਰਨ ਤੋਂ ਅਲੱਗ ਹੈ।
Transformers ਨੇ ਉਨ੍ਹਾਂ ਮਾਡਲਾਂ ਨੂੰ ਪ੍ਰਯੋਗਯੋਗ ਬਣਾਇਆ ਜੋ ਪੂਰੇ ਵਾਕਾਂ ਅਤੇ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚ ਰਿਸ਼ਤਿਆਂ 'ਤੇ ਧਿਆਨ ਦੇ ਸਕਦੇ ਹਨ, ਸਿਰਫ਼ ਨੇੜਲੇ ਸ਼ਬਦਾਂ 'ਤੇ ਨਹੀਂ। ਪ੍ਰਯਾਪਤ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਨਾਲ, ਇਹ ਮਾਡਲ ਭਾਸ਼ਾ ਅਤੇ ਤਰਕ-ਸਮਾਨ ਵਿਹਾਰ ਸਿੱਖ ਲੈਂਦੇ ਹਨ: ਪੈਰਾਫਰੇਜ਼, ਅਨੁਵਾਦ, ਨਿਰਦੇਸ਼ਨਾਂ ਦੀ ਪਾਲਣਾ, ਅਤੇ ਵਿਭਿੰਨ ਵਿਸ਼ਿਆਂ ਦੀ ਜਾਣਕਾਰੀ ਜੋੜਨਾ।
ਵੱਡੇ ਮਾਡਲਾਂ ਲਈ, ਵਧੇਰੇ ਡੇਟਾ ਅਤੇ ਕਮਪਿਊਟ ਅਕਸਰ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਦਿੰਦੇ ਹਨ: ਘੱਟ ਸਪਸ਼ਟ ਗਲਤੀਆਂ, ਮਜ਼ਬੂਤ ਲਿਖਾਈ, ਅਤੇ ਬਿਹਤਰ ਨਿਰਦੇਸ਼-ਅਨੁਕੂਲਤਾ। ਪਰ ਵਾਪਸੀ ਹਮੇਸ਼ਾ ਲਾਜ਼ਮੀ ਨਹੀਂ: ਲਾਗਤ ਤੇਜ਼ੀ ਨਾਲ ਵਧਦੀ ਹੈ, ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਦੀ ਗੁਣਵੱਤਾ ਝੰਜਟ ਬਣ ਜਾਂਦੀ ਹੈ, ਅਤੇ ਕੁਝ ਚੁਕਾਂ ਸਿਰਫ਼ ਮਾਡਲ ਨੂੰ ਵੱਡਾ ਕਰਕੇ ਨਹੀਂ ਸੂਧਰਦੀਆਂ।
ਜਨਰੇਟਿਵ ਸਿਸਟਮ "hallucinate" ਕਰ ਸਕਦੇ ਹਨ—ਤੱਥੀਆਂ ਲਈ ਵਿਸ਼ਵਾਸਯੋਗ ਪਰ ਅਸਲ ਤੋਂ ਗਲਤ ਦਾਅਵੇ ਕਰਨ, ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਵਿੱਚ ਪੱਖਪਾਤ ਦਰਸਾਉਂਦੇ ਹੋਏ, ਜਾਂ ਨੁਕਸਾਨਦਾਇਕ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰਨ ਲਈ ਦਬਾਇਆ ਜਾ ਸਕਦੇ ਹਨ। ਉਹ ਇੱਕਸਾਰਤਾ ਵਿੱਚ ਵੀ ਮੁਸ਼ਕਿਲੀ ਹੁੰਦੇ ਹਨ: ਦੋ ਮਿਲਦੇ-ਜੁਲਦੇ ਪ੍ਰੰਪਟ ਵੱਖ-ਵੱਖ ਜਵਾਬ ਦੇ ਸਕਦੇ ਹਨ। ਕਲਾਸਿਕ ਖੋਜ ਨਾਲ ਤੁਲਨਾ ਕਰਕੇ, ਚੁਣੌਤੀ ਹੁੰਦੀ ਹੈ "ਕੀ ਜਨਰੇਟ ਕੀਤੀ ਗਈ ਜਵਾਬ ਸਹੀ, ਗ੍ਰਾਊਂਡਡ ਅਤੇ ਸੁਰੱਖਿਅਤ ਹੈ?"
ਜਨਰੇਟਿਵ ਏਆਈ ਡੈਮੋ ਵਿੱਚ ਜਾਦੂਈ ਲੱਗਦਾ ਹੈ, ਪਰ ਲੱਖਾਂ (ਜਾਂ ਬਿਲੀਅਨ) ਬੇਨਤੀਆਂ ਲਈ ਇਸਨੂੰ ਚਲਾਉਣਾ ਮਹਤਵਪੂਰਕ ਤੌਰ 'ਤੇ ਰੀਸਰਚ ਜਿੰਨਾ ਹੀ ਨਹੀਂ, ਇੱਕ ਗਣਿਤ-ਅਤੇ-ਆਪਰੇਸ਼ਨ ਸਮੱਸਿਆ ਵੀ ਹੈ। ਇਥੇ ਖੋਜ ਯੁੱਗ ਦੇ ਸਬਕ—ਕਾਰਗਰਤਾ, ਭਰੋਸੇਯੋਗਤਾ, ਅਤੇ ਕਾਠਨਾ ਮਿਆਰਾਂ—ਹਾਲੇ ਵੀ ਲਾਗੂ ਹੁੰਦੇ ਹਨ।
ਵੱਡੇ ਮਾਡਲਾਂ ਦੀ ਟ੍ਰੇਨਿੰਗ ਅਸਲ ਵਿੱਚ ਮੈਟ੍ਰਿਕਸ ਗੁਣਾਕਾਰਾਂ ਦੀ ਫੈਕਟਰੀ ਲਾਈਨ ਹੈ। “ਵੱਡੇ ਪੱਧਰ 'ਤੇ” ਆਮ ਤੌਰ 'ਤੇ GPU ਜਾਂ TPU ਦੇ ਬਹੁਤ ਸਾਰੇ ਫਲੀਟਾਂ ਦਾ ਮਤਲਬ ਹੁੰਦਾ ਹੈ, ਜੋ ਵੰਡੇ ਟਰੇਨਿੰਗ ਵਿੱਚ ਇਸ ਤਰ੍ਹਾਂ ਜੋੜੇ ਜਾਂਦੇ ਹਨ ਕਿ ਹਜ਼ਾਰਾਂ ਚਿਪ ਇੱਕ ਸਿਸਟਮ ਵਾਂਗ ਕੰਮ ਕਰਨ।
ਇਸ ਨਾਲ ਵਾਸਤਵਿਕ ਸੀਮਾਵਾਂ ਆਉਂਦੀਆਂ ਹਨ:
ਸਰਵਿੰਗ ਟ੍ਰੇਨਿੰਗ ਤੋਂ ਵੱਖਰਾ ਹੈ: ਯੂਜ਼ਰਾਂ ਨੂੰ ਬੈਂਚਮਾਰਕ 'ਤੇ ਪੀਕ ਸਹੀਤਾ ਨਹੀਂ, ਬਲਕਿ ਜਵਾਬ ਸਮਾਂ ਅਤੇ ਸਥਿਰਤਾ ਚਾਹੀਦੀ ਹੈ। ਟੀਮਾਂ ਇਨ੍ਹਾਂ ਵਿਚਾਲੇ ਸੰਤੁਲਨ ਬਣਾਉਂਦੀਆਂ ਹਨ:
ਕਿਉਂਕਿ ਮਾਡਲ ਦਾ ਵਿਹਾਰ ਸੰਭਾਵਨਾਤਮਕ ਹੁੰਦਾ ਹੈ, ਨਿਗਰਾਨੀ "ਸਰਵਰ ਚੱਲ ਰਹੇ ਹਨ?" ਤਕ ਸੀਮਿਤ ਨਹੀਂ ਰਹਿੰਦੀ। ਇਹ ਗੁਣਵੱਤਾ ਡ੍ਰਿਫਟ, ਨਵੇਂ ਫੇਲ੍ਹ-ਮੋਡ ਅਤੇ ਮਾਡਲ/ਪ੍ਰੰਪਟ ਅਪਡੇਟ ਤੋਂ ਬਾਅਦ ਸੁਖੜਤਾਵਾਂ ਨੂੰ ਟ੍ਰੈਕ ਕਰਦੀ ਹੈ। ਇਸ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਲੂਪਾਂ ਦੇ ਨਾਲ-ਨਾਲ ਆਟੋਮੇਟਿਡ ਟੈਸਟ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ।
ਲਾਗਤ ਨੂੰ ਸੰਭਾਲਣ ਲਈ, ਟੀਮਾਂ ਕੰਪ੍ਰੈਸ਼ਨ, ਡਿਸਟਿੱਲੇਸ਼ਨ (ਵੱਡੇ ਮਾਡਲ ਨੂੰ ਛੋਟੇ ਮਾਡਲ ਨਾਲ ਨਕਲ ਕਰਨ ਲਈ ਸਿਖਾਉਣਾ), ਅਤੇ ਰੂਟਿੰਗ (ਆਸਾਨ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਸਸਤੇ ਮਾਡਲਾਂ 'ਤੇ ਭੇਜ ਕੇ ਔਖੇ ਮਾਮਲੇ ਸਿਰਫ਼ ਮਹਿੰਗੇ ਮਾਡਲਾਂ ਨੂੰ ਭੇਜਣਾ) ਵਰਤਦੀਆਂ ਹਨ। ਇਹ ਉਹ ਅਣਮੁੱਕੀ ਚੀਜ਼ਾਂ ਹਨ ਜੋ ਜਨਰੇਟਿਵ ਏਆਈ ਨੂੰ ਅਸਲ ਉਤਪਾਦਾਂ ਵਿੱਚ ਵਣਜਯੋਗ ਬਣਾਉਂਦੀਆਂ ਹਨ।
ਖੋਜ ਅਤੇ ਚੈਟ ਅਕਸਰ ਮੁਕਾਬਲਾਬਾਜ਼ ਲੱਗਦੇ ਹਨ, ਪਰ ਉਹ ਵਧੀਆ ਤਰੀਕੇ ਨਾਲ ਦੋ ਵੱਖ-ਵੱਖ ਇੰਟਰਫੇਸ ਹਨ ਜੋ ਵੱਖ-ਵੱਖ ਯੂਜ਼ਰ ਟੀਚਿਆਂ ਲਈ ਅਨੁਕੂਲ ਹਨ।
ਕਲਾਸਿਕ ਖੋਜ ਤੇਜ਼, ਪ੍ਰਮਾਣਯੋਗ ਨੈਵੀਗੇਸ਼ਨ ਲਈ ਅਪਟਿਮਾਇਜ਼ ਹੈ: "X ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਸ੍ਰੋਤ ਲੱਭੋ" ਜਾਂ "ਮੈਨੂੰ ਸਹੀ ਪੰਨਾ ਦਿਖਾਓ"। ਯੂਜ਼ਰ ਝੰਡੀਆਂ, ਸਿਰਲੇਖ ਅਤੇ ਸੰਕੇਤ ਦੇਖ ਕੇ ਭਰੋਸਾ ਕਰ ਲੈਂਦੇ ਹਨ।
ਚੈਟ ਸੰਸ਼ਲੇਸ਼ਣ ਅਤੇ ਖੋਜ ਲਈ ਅਨੁਕੂਲ ਹੈ: "ਮੈਨੂੰ ਸਮਝਾਓ", "ਤੁਲਨਾ ਕਰੋ", "ਡਰਾਫਟ ਬਣਾਓ" ਜਾਂ "ਅਗਲਾ ਕੀ ਕਰਨਾਂ ਹੈ?" ਮੂਲ ਕੀਮਤ ਖੋਜ ਪੰਨਾਂ ਨੂੰ ਲੱਭਣ ਤੋਂ ਇਲਾਵਾ ਜਾਣਕਾਰੀ ਨੂੰ ਇੱਕ ਸੰਯੁਕਤ ਜਵਾਬ ਵਿੱਚ ਤਬਦੀਲ ਕਰਨ, ਸਪਸ਼ਟੀਕਰਨ ਪ੍ਰਸ਼ਨ ਪੁੱਛਣ, ਅਤੇ ਕਈ ਪਾਸਿਆਂ ਵਿੱਚ ਸੰਦਰਭ ਰੱਖਣ ਵਿੱਚ ਹੈ।
ਅਧਿਕਤਮ ਪ੍ਰਯੋਗਯੋਗ ਉਤਪਾਦ ਹੁਣ ਦੋਹਾਂ ਨੂੰ ਮਿਲਾਉਂਦੇ ਹਨ। ਆਮ ਤਰੀਕਾ RAG ਹੈ: ਸਿਸਟਮ ਪਹਿਲਾਂ ਇੱਕ ਭਰੋਸੇਯੋਗ ਇੰਡੈਕਸ (ਵੈੱਬ ਪੰਨੇ, ਡੌਕ, ਨੋਲੇਜ ਬੇਸ) ਤੋਂ ਖੋਜ ਕਰਦਾ ਹੈ, ਫਿਰ ਜੋ ਮਿਲਿਆ ਉਸ 'ਤੇ ਆਧਾਰਿਤ ਜਵਾਬ ਤਿਆਰ ਕਰਦਾ ਹੈ।
ਉਹ ਗ੍ਰਾਊਂਡਿੰਗ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਇਹ ਖੋਜ ਦੀਆਂ ਤਾਕਤਾਂ (ਤਾਜ਼ਗੀ, ਕੋਵਰੇਜ, ਟਰੇਸਬਿਲਟੀ) ਅਤੇ ਚੈਟ ਦੀਆਂ ਤਾਕਤਾਂ (ਸੰਖੇਪ, ਤਰਕ, ਗੱਲਬਾਤ ਯੋਗ ਤਰ流) ਨੂੰ ਜੋੜਦਾ ਹੈ।
ਜਦੋਂ ਜਨਰੇਸ਼ਨ ਸ਼ਾਮਲ ਹੁੰਦੀ ਹੈ, UI ਸਿਰਫ਼ "ਇੱਥੇ ਜਵਾਬ" ਪੇਸ਼ ਕਰਨ ਤੋਂ ਆੱਗੇ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਜ਼ਬੂਤ ਡਿਜ਼ਾਈਨ ਵਿੱਚ ਸ਼ਾਮਿਲ ਹਨ:
ਯੂਜ਼ਰ ਤੁਰੰਤ ਨੋਟਿਸ ਕਰ ਲੈਂਦੇ ਹਨ ਜਦੋਂ ਸਹਾਇਕ ਆਪਸ ਵਿੱਚ ਟਕਰਾਅ ਕਰਦਾ ਹੈ, ਰੂਲ ਮਧ ਵਿੱਚ ਬਦਲ ਜਾਂਦੇ ਹਨ, ਜਾਂ ਇਹ ਨਹੀਂ ਦੱਸ ਸਕਦਾ ਕਿ ਜਾਣਕਾਰੀ ਕਿੱਥੋਂ ਆਈ। ਲਗਾਤਾਰ ਵਿਹਾਰ, ਸਪਸ਼ਟ ਸੋর্সਿੰਗ ਅਤੇ ਪੂਰਨ ਨਿਯੰਤਰਣ ਬਿਲਡ ਕੀਤੇ ਨਤੀਜੇ ਨੂੰ ਭਰੋਸੇਯੋਗ ਬਣਾਉਂਦੇ ਹਨ—ਖਾਸਤੌਰ 'ਤੇ ਜਦੋਂ ਜਵਾਬ ਅਸਲ ਫੈਸਲੇ ਤੇ ਅਸਰ ਪਾਉਂਦਾ ਹੈ।
ਜਿੰਮੇਵਾਰ ਏਆਈ ਨੂੰ অপਰੇਸ਼ਨਲ ਟਰਮ ਵਿੱਚ ਸਮਝਣਾ ਅਸਾਨ ਹੁੰਦਾ ਹੈ ਜਦੋਂ ਇਸਨੂੰ ਨਿਸ਼ਚਿਤ ਟੀਚਿਆਂ ਵਜੋਂ ਵੇਖਿਆ ਜਾਵੇ, ਨਾ ਕਿ ਨਾਰੇ ਵਜੋਂ। ਜਨਰੇਟਿਵ ਸਿਸਟਮਾਂ ਲਈ ਇਹ ਆਮ ਤੌਰ 'ਤੇ ਮਤਲਬ ਹੈ: ਸੁਰੱਖਿਆ (ਖ਼ਤਰਨਾਕ ਨਿਰਦੇਸ਼ਾਂ ਜਾਂ ਉਤਪੀੜਨ ਨਾ ਬਣਾਓ), ਗੋਪनीयਤਾ (ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਨਾ ਖੋਲ੍ਹੋ ਜਾਂ ਯਾਦ ਨਾ ਕਰੋ) ਅਤੇ ਨਿਆਂ (ਗਰੁੱਪਾਂ ਨੂੰ ਐਸਾ ਢੰਗ ਨਾਲ ਨਾ ਵਿਵਹਾਰ ਕੀਤਾ ਜਾਵੇ ਜੋ ਨੁਕਸਾਨ ਪਹੁੰਚਾਏ)।
ਕਲਾਸਿਕ ਖੋਜ ਦਾ ਮੁਲਾਂਕਣ ਸਪਸ਼ਟ ਰੂਪ ਨਾਲ ਬਣਦਾ ਸੀ: ਦਿੱਤੇ ਪ੍ਰਸ਼ਨ ਲਈ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਰੈਂਕ ਕਰੋ, ਫਿਰ ਮਾਪੋ ਕਿ ਯੂਜ਼ਰਾਂ ਨੂੰ ਲੋੜ ਲਈ ਕਿੰਨਾ ਮਿਲਿਆ। ਭਾਵੇਂ ਪ੍ਰਸੰਗਤਾ ਵਿਅਕਤਗਤ ਹੋ ਸਕਦੀ, ਨਤੀਜਾ ਸੀਮਿਤ—ਮੌਜੂਦਾ ਸ੍ਰੋਤਾਂ ਦੇ ਲਿੰਕ।
ਜਨਰੇਟਿਵ ਏਆਈ ਅਸੀਮ ਸੰਭਾਵਤ ਜਵਾਬ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਸੁਕਿੰਦਰੀ ਫੇਲ-ਮੋਡਸ ਹਨ:
ਇਸ ਲਈ ਮੁਲਾਂਕਣ ਇਕ ਸਿੰਗਲ ਸਕੋਰ ਦੀ ਥਾਂ ਕਈ ਪਰਖ ਸੈੱਟ ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ: ਤੱਥ-ਜਾਂਚ, ਟਾਕਸੀਜਨ ਅਤੇ ਪੱਖਪਾਤ ਪ੍ਰੋਬ, ਇਨਕਾਰਨ-ਵਿਹਾਰ ਜाँच ਅਤੇ ਖੇਤਰ-ਵਿਸ਼ੇਸ਼ ਉਮੀਦਾਂ (ਸਿਹਤ, ਵਿੱਤੀ, ਕਾਨੂੰਨੀ)।
ਕਾਰਨ edge-cases ਅਨੰਤ ਹਨ, ਟੀਮਾਂ ਅਕਸਰ ਮਨੁੱਖੀ ਇੰਪੁੱਟ ਨੂੰ ਕਈ ਪੜਾਅ 'ਤੇ ਵਰਤਦੀਆਂ ਹਨ:
ਕੁੰਜੀ ਬਦਲਾਅ ਕਲਾਸਿਕ ਖੋਜ ਤੋਂ ਇਹ ਹੈ ਕਿ ਸੁਰੱਖਿਆ ਸਿਰਫ਼ "ਖ਼ਰਾਬ ਪੰਨਿਆਂ ਨੂੰ ਫਿਲਟਰ" ਕਰਨਾ ਨਹੀਂ ਰਹਿ ਗਿਆ। ਇਹ ਸਿਸਟਮ ਦੇ ਵਿਹਾਰ ਨੂੰ ਡਿਜ਼ਾਈਨ ਕਰਨ ਅਤੇ ਇਹ ਸਾਬਤ ਕਰਨ ਦਾ ਮਾਮਲਾ ਹੈ, ਸਬੂਤ ਦੇ ਕੇ, ਕਿ ਉਹ ਵਿਹਾਰ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਟਿਕਦਾ ਹੈ।
Sergey Brin ਦੀ ਸ਼ੁਰੂਆਤੀ Google ਕਹਾਣੀ ਇਹ ਯਾਦ ਦਿਵਾਉਂਦੀ ਹੈ ਕਿ ਪ੍ਰਚੰਡ ਏਆਈ ਉਤਪਾਦ ਅਕਸਰ ਚਮਕਦਾਰ ਡੈਮੋ ਨਾਲ ਸ਼ੁਰੂ ਨਹੀਂ ਹੁੰਦੇ—ਉਹ ਇੱਕ ਸਾਫ਼ ਕੰਮ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੇ ਹਨ ਅਤੇ ਹਕੀਕਤ ਨੂੰ ਮਾਪਣ ਦੀ ਆਦਤ ਨਾਲ। ਇਨ੍ਹਾਂ ਆਦਤਾਂ ਦਾ ਬਹੁਤ ਸਾਰਾ ਹਿੱਸਾ ਅਜੇ ਵੀ ਜਨਰੇਟਿਵ ਏਆਈ ਨਾਲ ਬਣਾਉਂਦੇ ਸਮੇਂ ਲਾਗੂ ਹੁੰਦਾ ਹੈ।
ਖੋਜ ਸਫਲ ਹੋਈ ਕਿਉਂਕਿ ਟੀਮਾਂ ਨੇ ਗੁਣਵੱਤਾ ਨੂੰ ਅਜਿਹੀ ਚੀਜ਼ ਸਮਝਿਆ ਜੋ ਤੁਸੀਂ ਨਿਰੀਖਣ ਕਰ ਸਕਦੇ ਹੋ, ਨਾ ਕਿ ਸਿਰਫ਼ ਵਿਚਾਰ ਕਰ ਸਕਦੇ। ਉਹਨਾਂ ਨੇ ਲਗਾਤਾਰ ਪ੍ਰਯੋਗ ਚਲਾਏ, ਮੰਨਿਆ ਕਿ ਛੋਟੇ ਸੁਧਾਰ ਜੋੜਦੇ ਹਨ, ਅਤੇ ਯੂਜ਼ਰ ਦੇ ਇਰਾਦੇ ਨੂੰ ਕੇਂਦਰ 'ਚ ਰੱਖਿਆ।
ਇੱਕ ਉਪਯੋਗ ਮਾਨਸਿਕ ਮਾਡਲ: ਜੇ ਤੁਸੀਂ ਵਾਰਤਾ ਨਹੀਂ ਦੇ ਸਕਦੇ ਕਿ "ਚੰਗਾ" ਯੂਜ਼ਰ ਲਈ ਕੀ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਇਸ ਨੂੰ ਭਰੋਸੇਯੋਗ ਢੰਗ ਨਾਲ ਸੁਧਾਰ ਨਹੀਂ ਕਰ ਸਕਦੇ। ਇਹ ਰੈਂਕਿੰਗ ਵੈੱਬ ਪੰਨਿਆਂ ਲਈ ਜਿੰਨਾ ਸਹੀ ਹੈ, ਓਥੇ ਮਾਡਲ-ਜਵਾਬਾਂ ਲਈ ਵੀ ਓਨਾ ਹੀ ਸਹੀ ਹੈ।
ਕਲਾਸਿਕ ਖੋਜ ਗੁਣਵੱਤਾ ਨੂੰ ਅਕਸਰ ਪ੍ਰਸੰਗਤਾ ਅਤੇ ਤਾਜ਼ਗੀ ਤੱਕ ਘਟਾਇਆ ਜਾ ਸਕਦਾ ਸੀ। ਜਨਰੇਟਿਵ ਏਆਈ ਨਵੇਂ ਅਕਾਰ ਸ਼ਾਮਿਲ ਕਰਦਾ ਹੈ: ਤੱਥ-ਸਹੀਤਾ, ਟੋਨ, ਪੂਰਨਤਾ, ਸੁਰੱਖਿਆ, ਹਵਾਲੇ ਦੇਣ ਦਾ ਵਿਹਾਰ, ਅਤੇ ਸੰਦਰਭ-ਖਾਸ "ਸਹਾਇਤਾ"। ਦੋ ਜਵਾਬ ਇਕੋ ਵਿਸ਼ੇ 'ਤੇ ਹੋ ਸਕਦੇ ਹਨ ਪਰ ਭਰੋਸੇਯੋਗਤਾ ਵਿੱਚ ਵੱਡਾ ਫ਼ਰਕ ਹੋ ਸਕਦਾ ਹੈ।
ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਤੁਹਾਨੂੰ ਕਈ ਮੁਲਾਂਕਣਾਂ ਦੀ ਲੋੜ ਹੈ—ਆਟੋਮੈਟਿਕ ਚੈੱਕ, ਮਨੁੱਖੀ ਸਮੀਖਿਆ, ਅਤੇ ਅਸਲ ਸੰਸਾਰ ਫੀਡਬੈਕ—ਕਿਉਂਕਿ ਕੋਈ ਇੱਕ ਸਕੋਰ ਪੂਰੀ ਯੂਜ਼ਰ ਅਨੁਭਵ ਨੂੰ ਕੈਪਚਰ ਨਹੀਂ ਕਰਦਾ।
ਖੋਜ ਤੋਂ ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ ਲਾਗੂ ਹੋਣ ਵਾਲਾ ਸਬਕ ਸੰਗਠਨਾਤਮਕ ਹੈ: ਸਕੇਲ 'ਤੇ ਗੁਣਵੱਤਾ ਲਈ ਸਖ਼ਤ ਸਹਿਯੋਗ ਲਾਜ਼ਮੀ ਹੈ। ਪ੍ਰੋਡਕਟ ਇਹ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦਾ ਹੈ ਕਿ "ਚੰਗਾ" ਕੀ ਹੈ, ML ਮਾਡਲਾਂ ਨੂੰ ਸੁਧਾਰਦਾ ਹੈ, ਇੰਫਰਾਸਟਰਕਚਰ ਲਾਗਤ ਅਤੇ ਲੇਟੈਂਸੀ ਨੂੰ ਸੰਭਾਲਦਾ ਹੈ, ਕਾਨੂੰਨੀ ਅਤੇ ਨੀਤੀ ਹੱਦਾਂ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹਨ, ਅਤੇ ਸਹਿਯੋਗ ਵਾਸਤੇ ਰਿਅਲ ਯੂਜ਼ਰ ਦਰਦ ਨੂੰ ਸਾਰਥਕ ਬਣਾਉਂਦਾ ਹੈ।
ਜੇ ਤੁਸੀਂ ਇਨ੍ਹਾਂ ਨੀਤੀਆਂ ਨੂੰ ਅਸਲੀ ਉਤਪਾਦ ਵਿੱਚ ਲਾਉਣ ਦੀ ਸੋਚ ਰਹੇ ਹੋ, ਤਾਂ ਇੱਕ ਵਿਵਹਾਰਕ ਢੰਗ ਇਹ ਹੈ ਕਿ ਪੂਰੇ ਲੂਪ—UI, ਰੀਟ੍ਰੀਵਲ, ਜਨਰੇਸ਼ਨ, ਮੁਲਾਂਕਣ ਹੁੱਕਸ, ਅਤੇ ਡਿਪਲੋਯਮੈਂਟ—ਦਾ پروਟੋਟਾਈਪ ਜਲਦੀ ਬਣਾਓ। Platforms like Koder.ai ਇਸ “ਤੇਜ਼ੀ ਨਾਲ ਬਣਾਓ, ਤੇਜ਼ੀ ਨਾਲ ਮਾਪੋ” ਵਰਕਫਲੋ ਲਈ ਡਿਜ਼ਾਇਨ ਕੀਤੇ ਗਏ ਹਨ: ਤੁਸੀਂ ਚੈਟ ਇੰਟਰਫੇਸ ਰਾਹੀਂ ਵੈੱਬ, ਬੈਕਐਂਡ ਜਾਂ ਮੋਬਾਈਲ ਐਪ ਬਣਾ ਸਕਦੇ ਹੋ, ਯੋਜਨਾ ਮੋਡ ਵਿੱਚ ਦੁਹਰਾਉਣ ਕਰ ਸਕਦੇ ਹੋ, ਅਤੇ ਜਦੋਂ ਪ੍ਰਯੋਗ ਔਖੇ ਹੋਣ ਤਾਂ snapshots/rollback ਵਰਤ ਸਕਦੇ ਹੋ—ਇਹ ਉਨ੍ਹਾਂ ਪ੍ਰੋਡਕਟਾਂ ਲਈ ਮੁਹੱਈਆ ਹੈ ਜੋ ਸੰਭਾਵਨਾਤਮਕ ਸਿਸਟਮ ਹਨ ਅਤੇ ਸੰਭਾਲੇ ਜਾਣ ਵਾਲੇ ਰੋਲਆਉਟਾਂ ਦੀ ਲੋੜ ਹਨ।
Sergey Brin ਦੀ ਕਹਾਣੀ ਇਕ ਸਾਫ਼ ਕਾਹਾਣੀ ਦਿਖਾਉਂਦੀ ਹੈ: ਸੁੰਦਰ ਅਲਗੋਰਿਦਮ (PageRank ਅਤੇ ਲਿੰਕ ਵਿਸ਼ਲੇਸ਼ਣ) ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ, ਫਿਰ ਮਸ਼ੀਨ-ਸਿੱਖਿਆ ਰੈਂਕਿੰਗ ਵੱਲ ਸ਼ਿਫਟ ਕਰੋ, ਅਤੇ ਹੁਣ ਉਹ ਜਨਰੇਟਿਵ ਸਿਸਟਮ ਹਨ ਜੋ ਸਿਰਫ਼ ਸ੍ਰੋਤਾਂ ਨੂੰ ਨਹੀਂ ਬਲਕਿ ਜਵਾਬ ਖੁਦ ਤਿਆਰ ਕਰਦੇ ਹਨ। ਹਰ ਕਦਮ ਨੇ ਸਮਰੱਥਾ ਵਧਾਈ—ਅਤੇ ਫੇਲ-ਸਰਫੇਸ ਨੂੰ ਵੱਧਾਇਆ।
ਕਲਾਸਿਕ ਖੋਜ ਮੁੱਖ ਤੌਰ 'ਤੇ ਤੁਹਾਨੂੰ ਸ੍ਰੋਤ ਲੱਭਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਸੀ। ਜਨਰੇਟਿਵ ਏਆਈ ਅਕਸਰ ਸੰਖੇਪ ਅਤੇ ਫੈਸਲੇ ਕਰਦਾ ਹੈ, ਜੋ ਸਖ਼ਤ ਪ੍ਰਸ਼ਨ ਉਠਾਉਂਦਾ ਹੈ: ਸਚਾਈ ਨੂੰ ਅਸੀਂ ਹੁਣ ਕਿਵੇਂ ਮਾਪਾਂ? ਸਾਨੂੰ ਸ੍ਰੋਤ ਕਿਵੇਂ ਦਿਖਾਉਣੇ ਚਾਹੀਦੇ ਹਨ ਜੋ ਯੂਜ਼ਰ ਸੱਚਮੁਚ ਭਰੋਸਾ ਕਰਨ? ਅਤੇ ਅੰਦੇਹੇ ਸੰਦਰਭ (ਸਿਹਤ, ਕਾਨੂੰਨੀ, ਜਾਂ ਤਾਜ਼ੀ ਖਬਰਾਂ) ਨੂੰ ਕਿਵੇਂ ਸੰਭਾਲੀਏ ਬਿਨਾਂ ਅਣਿਸ਼ਚਿਤਤਾ ਨੂੰ ਪੱਕੇ-ਅਵਾਜ ਵਿੱਚ ਬਦਲਣ ਦੇ?
ਸਕੇਲਿੰਗ ਸਿਰਫ਼ ਇੰਜੀਨੀਅਰਿੰਗ ਸ਼ੋ ਨਹੀਂ; ਇਹ ਆਰਥਿਕ ਪਾਬੰਧ ਵੀ ਹੈ। ਟ੍ਰੇਨਿੰਗ ਦੌਰ ਬਹੁਤ ਵੱਡੇ ਕੰਪਿਊਟ ਦੀ ਮੰਗ ਕਰਦੇ ਹਨ, ਅਤੇ ਸਰਵਿੰਗ ਲਾਗਤ ਹਰ ਯੂਜ਼ਰ ਕਵੈਰੀ ਨਾਲ ਵੱਧਦੀ ਹੈ। ਇਸ ਨਾਲ ਦਬਾਅ ਬਣਦਾ ਹੈ ਕਿ ਕਹਿੰਦੇ-ਕਿਹੜੇ ਕੰਪ੍ਰੋਮਾਈਜ਼ (ਛੋਟਾ ਕਨਟੈਕਸਟ, ਛੋਟੇ ਮਾਡਲ, ਘੱਟ ਸੇਫਟੀ ਚੈੱਕ) ਕਰਨ ਜਾਂ ਸਮਰਥਾ ਕੁਝ ਵੱਡੀਆਂ ਕੰਪਨੀਆਂ ਵਿੱਚ ਕੇਂਦਰਿਤ ਹੋਵੇ।
ਜਦੋਂ ਸਿਸਟਮ ਸਮੱਗਰੀ ਬਣਾਉਂਦੇ ਹਨ, ਤਦ ਸ਼ਾਸਨ ਸਿਰਫ਼ ਸਮੱਗਰੀ ਮਾਡਰੇਸ਼ਨ ਤੋਂ ਵੱਧ ਹੋ ਜਾਂਦਾ ਹੈ। ਇਹ ਸ਼ਾਮਲ ਹੈ: ਪਾਰਦਰਸ਼ਤਾ (ਮਾਡਲ ਨੂੰ ਕਿਸ ਡੇਟਾ ਨੇ ਪ੍ਰਰਿਭਾਵਤ ਕੀਤਾ), ਜ਼ਿੰਮੇਵਾਰੀ (ਨੁਕਸਾਨ ਲਈ ਕੌਣ ਜ਼ਿੰਮੇਵਾਰ ਹੈ), ਅਤੇ ਮੁਕਾਬਲਾਤਮਕ ਗਤਿਵਿਧੀਆਂ (ਖੁੱਲ੍ਹੇ ਵਰੁੱਧ ਬੰਦ ਮਾਡਲ, ਪਲੇਟਫਾਰਮ ਲੌਕ-ਇਨ, ਅਤੇ ਨਿਯਮਾਂ ਜੋ ਬਿਨਾਂ ਇਰਾਦਾ ਕਿਸੇ incumbents ਨੂੰ ਲਾਭ ਦਿੰਦੇ ਹਨ)।
ਜਦੋਂ ਤੁਸੀਂ ਕਿਸੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਡੈਮੋ ਨੂੰ ਵੇਖਦੇ ਹੋ, ਤਾਂ ਪੁੱਛੋ: ਕਠੋਰ ਏਜ ਕੇਸ 'ਤੇ ਕੀ ਹੋਵੇਗਾ? ਕੀ ਇਹ ਸਰੋਤ ਦਿਖਾ ਸਕਦਾ ਹੈ? ਜਦੋਂ ਇਹ ਨਹੀਂ ਜਾਣਦਾ ਤਾਂ ਇਹ ਕਿਸ ਤਰ੍ਹਾਂ ਵਰਤਾਰਾ ਕਰਦਾ ਹੈ? ਪ੍ਰਯੋਗਸ਼ਾਲਾ ਮਿਆਰਾਂ 'ਤੇ ਲੇਟੈਂਸੀ ਅਤੇ ਲਾਗਤ ਕਿਵੇਂ ਹੁੰਦੇ ਹਨ—ਲੈਬ ਵਿੱਚ ਨਹੀਂ?
ਜੇ ਤੁਸੀਂ ਹੋਰ ਗਹਿਰਾਈ ਨਾਲ ਜਾਣਾ ਚਾਹੁੰਦੇ ਹੋ ਤਾਂ ਸਿਸਟਮ ਸਕੇਲਿੰਗ ਅਤੇ ਸੁਰੱਖਿਆ ਵਰਗੇ ਸੰਬੰਧਤ ਵਿਸ਼ਿਆਂ ਦੀ ਖੋਜ ਬਾਰੇ ਸੋਚੋ।
ਉਹ ਇਕ ਵਰਤਣਯੋਗ ਨਜ਼ਰੀਆ ਹੈ ਜੋ ਕਲਾਸਿਕ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤੀ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ (ਪ੍ਰਸੰਗਤਾ, ਸਪੈਮ-ਰੋਕਥਾਮ, ਸਕੇਲ) ਨੂੰ ਅੱਜ ਦੀਆਂ ਜਨਰੇਟਿਵ ਏਆਈ ਸਮੱਸਿਆਵਾਂ (ਗ੍ਰਾਉਂਡਿੰਗ, ਲੇਟੈਂਸੀ, ਸੁਰੱਖਿਆ, ਲਾਗਤ) ਨਾਲ ਜੋੜਦਾ ਹੈ। ਮੁੱਦਾ ਜੀਵਨੀ ਨਹੀਂ—ਇਹ ਇਸ ਗੱਲ ਦਾ ਹੈ ਕਿ ਖੋਜ ਅਤੇ ਆਧੁਨਿਕ ਏਆਈ ਇੱਕੋ ਹੀ ਕੋਰ ਪਾਬੰਧੀਆਂ ਸਾਂਝੀਆਂ ਕਰਦੇ ਹਨ: ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਭਰੋਸੇਯੋਗ ਢੰਗ ਨਾਲ ਕੰਮ ਕਰਨਾ।
ਖੋਜ “ਵੱਡੇ ਪੱਧਰ 'ਤੇ” ਤਾਂ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਉਸਨੂੰ ਲੱਖਾਂ ਕਵੈਰੀਆਂ ਨਿਪਟਾਉਣੀਆਂ ਪੈਂਦੀਆਂ ਹਨ, ਘੱਟ ਲੇਟੈਂਸੀ ਹੁੰਦੀ ਹੈ, ਉੱਚ uptime ਹੁੰਦਾ ਹੈ ਅਤੇ ਡੇਟਾ ਨੂੰ ਲਗਾਤਾਰ ਅਪਡੇਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
ਜਨਰੇਟਿਵ ਏਆਈ “ਵੱਡੇ ਪੱਧਰ 'ਤੇ” ਉਸ ਵੇਲੇ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਇਹ ਉਪਰੋਕਤ ਚੀਜ਼ਾਂ ਕਰਨ ਦੇ ਨਾਲ-ਨਾਲ ਉਤਪਾਦ ਵੀ ਨਿਰਮਾਣ ਕਰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਹੋਰ ਕੀਮਤੀਆਂ ਪਾਬੰਧੀਆਂ ਆਉਂਦੀਆਂ ਹਨ ਜਿਵੇਂ ਕਿ:
1990 ਦੇ ਦਹਾਕੇ ਦੇ ਆਖ਼ਰੀ ਭਾਗ ਦੀਆਂ ਖੋਜ ਸਿਸਟਮਾਂ ਜ਼ਿਆਦਾਤਰ ਕੀਵਰਡ ਮੈਚਿੰਗ ਅਤੇ ਸਧਾਰਨ ਰੈਂਕਿੰਗ ਸਿਗਨਲਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀਆਂ ਸਨ, ਜੋ ਵੈੱਬ ਦੇ ਫੈਲਣ ਨਾਲ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਨਹੀਂ ਰਹੀਆਂ।
ਅਕਸਰ ਨੁਕਸਾਨ ਵਾਲੇ ਮੋਡ ਵੇਚਲੇ ਇਹ ਸਨ:
PageRank ਨੇ ਲਿੰਕਾਂ ਨੂੰ ਇੱਕ ਕਿਸਮ ਦੀ ਭਰੋਸੇ ਦੀ ਵੋਟ ਵਜੋਂ ਦੇਖਣਾ ਸ਼ੁਰੂ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ਵੋਟਾਂ ਨੂੰ ਲਿੰਕ ਕਰਨ ਵਾਲੇ ਪੰਨੇ ਦੀ ਮਹੱਤਤਾ ਅਨੁਸਾਰ ਵਜ਼ਨ ਮਿਲਦਾ ਹੈ।
ਅਮਲ ਵਿੱਚ, ਇਸ ਨੇ ਕਿਹੜੇ ਤਰੀਕੇ ਬਦਲੇ:
ਕਿਉਂਕਿ ਰੈਂਕਿੰਗ ਦਿਓਣ-ਧਰੋਣ ਤੇ ਧਿਆਨ ਅਤੇ ਧਿਆਨ ਆਕਰਸ਼ਣ ਨਾਲ ਜੁੜੀ ਹੈ, ਇਹ ਇਕ ਵਿਰੋਧੀ ਸਿਸਟਮ ਬਣ ਜਾਂਦਾ ਹੈ। ਜਿਵੇਂ ਹੀ ਕੋਈ ਸਿਗਨਲ ਕੰਮ ਕਰਨ ਲੱਗਦਾ ਹੈ, ਲੋਕ ਉਸਨੂੰ ਖ਼ਰਾਬ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਨ।
ਇਸ ਲਈ ਲਗਾਤਾਰ ਦੁਹਰਾਅ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ:
ਵੈੱਬ ਪੱਧਰ 'ਤੇ, “ਗੁਣਵੱਤਾ” ਵਿੱਚ ਸਿਸਟਮ ਪ੍ਰਦਰਸ਼ਨ ਵੀ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ। ਯੂਜ਼ਰਾਂ ਲਈ ਗੁਣਵੱਤਾ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ ਜਿਵੇਂ:
ਇਕ ਥੋੜ੍ਹਾ ਘੱਟ-ਧੁਰੇ ਦਾ ਨਤੀਜਾ ਜੋ ਲਗਾਤਾਰ 200ms ਵਿੱਚ ਆਵੇ, ਇੱਕ ਬਿਹਤਰ ਨਤੀਜੇ ਨਾਲੋਂ ਵਧੀਆ ਹੋ ਸਕਦਾ ਹੈ ਜੋ ਦੇਰ ਨਾਲ ਜਾਂ ਅਣਿਯਮਿਤ ਤਰੀਕੇ ਨਾਲ ਆਉਂਦਾ ਹੈ।
Learning to rank ਦਾ ਸਧਾਰਨ ਅਰਥ ਹੈ ਕਿ ਹੱਥ-ਨਿਰਧਾਰਤ ਨਿਯਮਾਂ ਦੀ ਥਾਂ ਇੱਕ ਸਿਸਟਮ ਨੂੰ ਡਾਟਾ ਦੇ ਕੇ ਇਹ ਸਿਖਾਇਆ ਜਾਏ ਕਿ ਚੰਗੇ ਨਤੀਜੇ ਕਿਹੜੇ ਹੁੰਦੇ ਹਨ।
ਇਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹੈ: ਪੁਰਾਣੀਆਂ ਖੋਜਾਂ ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਨਤੀਜੇ, ਯੂਜ਼ਰਾਂ ਦੀ ਚੋਣ, ਬਾਊਂਸ ਰੇਟ, ਅਤੇ ਮਨੁੱਖੀ ਸਮੀਖਿਆਵਾਂ—ਜਿਨ੍ਹਾਂ ਤੋਂ ਮਾਡਲ ਇਹ ਸਿੱਖਦਾ ਹੈ ਕਿ ਕਿਸ ਨੂੰ ਉਪਰ ਰੱਖਣਾ ਹੈ।
ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਵਿੱਚ, ਇਹ ਸਿਸਟਮ ਨੂੰ ਹੋਰ ਡੇਟਾ-ਚਲਿਤ, ਪ੍ਰਗਟ ਸ਼ਿਕਾਇਤਾਂ ਤੇ ਆਧਾਰਿਤ ਅਤੇ ਲਗਾਤਾਰ ਸੁਧਾਰਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।
ਡੀਪ ਲਰਨਿੰਗ ਨੇ ਭਾਸ਼ਾ ਦੀ ਸਮਝ ਨੂੰ ਬੇਹਤਰ ਬਣਾਇਆ ਕਿਉਂਕਿ ਇਹ ਸ਼ਬਦਾਂ ਅਤੇ ਵਾਕਾਂ ਨੂੰ ਅਰਥਾਤਮਕ ਵੇਕਟਰਾਂ ਵਿੱਚ ਤਬਦੀਲ ਕਰਕੇ ਸਮਾਨਤਾ ਅਤੇ ਸੰਦਰਭ ਪਕੜਨ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਦੀ ਹੈ।
ਇਸ ਨਾਲ ਮਿਲਦੇ-ਜੁਲਦੇ ਫਾਇਦੇ ਹਨ:
ਪਰ ਇਸਦੇ ਖਰਚੇ ਵੀ ਹਨ: ਵੱਧ ਕਮਪਿਊਟ, ਡੇਟਾ ਦੀ ਲੋੜ ਅਤੇ ਸਮਝਾਉਣਯੋਗਤਾ ਦੀ ਘੱਟੀ ਹੋਈ ਪਹੁੰਚ।
ਪਾਰੰਪਰਿਕ ਖੋਜ ਮੁੱਖ ਤੌਰ 'ਤੇ ਮੌਜੂਦਾ ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਚੋਣ ਅਤੇ ਰੈਂਕਿੰਗ ਤੇ ਧਿਆਨ ਦਿੰਦੀ ਹੈ। ਜਨਰੇਟਿਵ ਏਆਈ ਟੈਕਸਟ, ਕੋਡ ਜਾਂ ਸੰਖੇਪ ਉਦਪਾਦਨ ਕਰਦਾ ਹੈ—ਇਸ ਲਈ ਫੇਲਿਯਰ ਮੋਡ ਬਦਲ ਜਾਂਦੇ ਹਨ।
ਨਵੇਂ ਖਤਰੇ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
ਇਸ ਦਾ ਕੇਂਦਰੀ ਸਵਾਲ ਹੁੰਦਾ ਹੈ: “ਕੀ ਨਿਰਧਾਰਿਤ ਜਵਾਬ ਸਹੀ, ਗ੍ਰਾਉਂਡਡ ਅਤੇ ਸੁਰੱਖਿਅਤ ਹੈ?”
Retrieval-augmented generation (RAG) ਪਹਿਲਾਂ ਉਮੀਦਯੋਗ ਸੋਰਸ ਹੱਥੋਂ ਲੈਂਦਾ ਹੈ, ਫਿਰ ਉਨ੍ਹਾਂ 'ਤੇ ਆਧਾਰਿਤ ਜਵਾਬ ਤਿਆਰ ਕਰਦਾ ਹੈ।
ਸਰਗਰਮੀ ਵਾਲੇ ਉਤਪਾਦਾਂ ਲਈ ਆਮ ਤੌਰ 'ਤੇ ਇਹ ਚੀਜ਼ਾਂ ਜੋੜੀਆਂ ਜਾਂਦੀਆਂ ਹਨ: