Demis Hassabis ਦੀ ਸਪਸ਼ਟ ਜੀਵਨੀ—ਉਹਦਾ ਰਸਤਾ ਖੇਡਾਂ ਅਤੇ ਨਿਊਰੋਸਾਇੰਸ ਤੋਂ DeepMind, AlphaGo ਅਤੇ AlphaFold ਤੱਕ—ਅਤੇ ਇਹ ਅਧੁਨਿਕ AI ਬਾਰੇ ਕੀ ਸਿਖਾਉਂਦਾ ਹੈ।

Demis Hassabis ਇੱਕ ਬ੍ਰਿਟਿਸ਼ ਵਿਗਿਆਨੀ ਅਤੇ ਉਦਯੋਗਪਤੀ ਹੈ ਜਿਸਦੀ ਸਭ ਤੋਂ ਵੱਧ ਪਛਾਣ DeepMind—ਉਸ ਰਿਸਰਚ ਲੈਬ—ਦੇ ਕੋ-ਸਥਾਪਕ ਵਜੋਂ ਹੈ, ਜੋ AlphaGo ਅਤੇ AlphaFold ਪਿੱਛੇ ਖੜਾ ਹੈ। ਉਸਦਾ ਕੰਮ ਇਸ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਇਸਨੇ AI ਨੂੰ “ਦਿਲਚਸਪ ਡੈਮੋ” ਤੋਂ ਅਜਿਹੀਆਂ ਪ੍ਰਣਾਲੀਆਂ ਤੱਕ ਲਿਜਾਇਆ ਜੋ ਨਿਰਧਾਰਤ, ਸੰਵੇਦਨਸ਼ੀਲ ਕੰਮਾਂ 'ਚ ਸਭ ਤੋਂ ਵਧੀਆ ਮਨੁੱਖਾਂ ਨੂੰ ਪੀਛੇ ਛੱਡ ਸਕਦੀਆਂ ਹਨ—ਅਤੇ ਫਿਰ ਉਨ੍ਹਾਂ ਵਿਚਾਰਾਂ ਨੂੰ ਬਹੁਤ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਦੁਬਾਰਾ ਵਰਤ ਸਕਿਆ।
ਜਦ ਲੋਕ ਕਹਿੰਦੇ ਹਨ ਕਿ Hassabis ਨੇ AI ਨੂੰ “ਮਨੁੱਖਾਂ ਦੇ ਨਾਲ ਮੁਕਾਬਲਾ ਕਰਨ ਯੋਗ” ਬਣਾਇਆ, ਉਹ ਆਮ ਤੌਰ 'ਤੇ ਟਾਸਕ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ: ਇੱਕ AI ਨਿਰਧਾਰਤ ਲਕੜੀ-ਵਾਲੇ ਮਕਸਦ, ਜਿਵੇਂ ਇੱਕ ਜਟਿਲ ਖੇਡ ਜਿੱਤਣਾ ਜਾਂ ਪ੍ਰੋਟੀਨ ਦੀ ਰਚਨਾ ਦੀ ਪੁਸ਼ਟੀ ਕਰਨਾ, 'ਚ ਮਨੁੱਖਾਂ ਦੇ ਬਰਾਬਰ ਜਾਂ ਉਨ੍ਹਾਂ ਤੋਂ ਵੱਧ ਹੋ ਸਕਦਾ ਹੈ। ਇਹ ਆਮ ਬੁੱਧੀ ਨਹੀਂ ਹੈ।
AlphaGo ਸੰਸਾਰ ਨੂੰ ਉਸ ਤਰ੍ਹਾਂ ਨਹੀਂ ਸਮਝਦਾ ਜਿਵੇਂ ਮਨੁੱਖ ਕਰਦੇ ਹਨ; ਇਸਨੇ Go ਬਹੁਤ ਵਧੀਆ ਖੇਡਣਾ ਸਿੱਖਿਆ। AlphaFold “ਬਾਇਓਲੋਜੀ ਕਰਦਾ” ਨਹੀਂ; ਇਹ ਸੀਕੁਐਂਸ ਤੋਂ 3D ਪ੍ਰੋਟੀਨ ਆਕਾਰ ਦਾ ਅਨੁਮਾਨ ਬੜੀ ਸਹੀਤਾ ਨਾਲ ਕਰਦਾ ਹੈ। ਇਹ ਪ੍ਰਣਾਲੀਆਂ ਤੰਗ ਹਨ, ਪਰ ਉਨ੍ਹਾਂ ਦਾ ਪ੍ਰਭਾਵ ਵਿਆਪਕ ਹੈ ਕਿਉਂਕਿ ਉਹ ਦਿਖਾਉਂਦੀਆਂ ਹਨ ਕਿ ਲਰਨਿੰਗ-ਅਧਾਰਿਤ ਤਰੀਕੇ ਉਹ ਸਮੱਸਿਆਵਾਂ ਹੱਲ ਕਰ ਸਕਦੇ ਹਨ ਜੋ ਪਹਿਲਾਂ ਵਿਲੱਖਣ ਮਨੁੱਖੀ ਸੂਝ-ਬੂਝ ਮੰਗਦੀਆਂ ਸਨ।
ਕੁਝ ਪ੍ਰਾਪਤੀਆਂ ਹਨ ਜੋ Hassabis ਨੂੰ ਇੱਕ ਪ੍ਰਭਾਵਸ਼ালী ਆਦਮੀ ਬਣਾਉਂਦੀਆਂ ਹਨ:
ਇਹ ਕੋਈ ਹੀਰੋ ਕਹਾਣੀ ਜਾਂ ਹਾਈਪ ਪੋਸਟ ਨਹੀਂ ਹੈ। ਅਸੀਂ ਸਾਫ ਤਥਾਂ ਤੇ ਟਿਕਿਆਂਗੇ, ਤੱਕੀਕਾ ਸੰਦਰਭ ਦੇਵਾਂਗੇ ਤਾਂ ਜੋ ਪ੍ਰਗਟਾਵਾਂ ਸੂਝਦਾਰ ਹੋਣ, ਅਤੇ ਅਮਲਯੋਗ ਸਬਕ ਵਖਾਉਂਗੇ—ਲਰਨਿੰਗ ਪ੍ਰਣਾਲੀਆਂ ਬਾਰੇ ਸੋਚਣ ਦਾ ਢੰਗ, “ਮਨੁੱਖ-ਸਤਰ” ਦਾ ਅਸਲ ਮਤਲਬ, ਅਤੇ ਜਦ AI ਮਾਹਰ ਪੱਧਰ 'ਤੇ ਕੰਮ ਕਰਨ ਲੱਗੇ ਤਾਂ ਨੈਤਿਕਤਾ ਅਤੇ ਸੁਰੱਖਿਆ ਦੀਆਂ ਚਰਚਾਵਾਂ ਕਿਉਂ ਜਨਮ ਲੈਂਦੀਆਂ ਹਨ।
Demis Hassabis ਦਾ ਰਸਤਾ AI ਵੱਲ ਕਿਸੇ ਸੁੰਦਰ ਥਿਯਰੀ ਨਾਲ ਨਹੀਂ ਚਲਿਆ। ਇਹ ਖੇਡਾਂ ਨਾਲ ਸ਼ੁਰੂ ਹੋਇਆ—ਵਹਿ ਢਾਂਚੇ ਜੋ ਤੁਹਾਨੂੰ ਵਿਚਾਰ ਟੈਸਟ ਕਰਨ, ਗਲਤੀਆਂ ਕਰਨ ਅਤੇ ਤੁਰੰਤ ਫੀਡਬੈਕ ਲੈਣ ਦਿੰਦੀਆਂ ਹਨ।
ਬਚਪਨ ਵਿਚ, ਉਹ ਚੈੱਸ ਅਤੇ ਹੋਰ ਰਣਨੀਤਿਕ ਖੇਡਾਂ 'ਚ ਨਿਪੁਣ ਸੀ, ਜਿਸਨਾਲ ਉਸਨੂੰ ਲੰਬੇ-ਪਹਲੂ ਦੀ ਯੋਜਨਾ ਬਣਾਣ ਦੀ ਆਦਤ ਬਣੀ: ਤੁਸੀਂ ਸਿਰਫ਼ “ਚੰਗੀ ਚਾਲ” ਨਹੀਂ ਚੁਣਦੇ, ਤੁਸੀਂ ਉਹ ਚਾਲ ਚੁਣਦੇ ਹੋ ਜੋ ਕਈ ਕਦਮਾਂ ਅੱਗੇ ਖੇਡ ਨੂੰ ਸੂਰਤ ਦੇਵੇ। ਇਹ ਆਦਤ—ਕ੍ਰਮਵਾਰ ਸੋਚਣਾ—ਉਸ ਢੰਗ ਨਾਲ ਮਿਲਦੀ ਹੈ ਜਿਸ ਨਾਲ ਆਧੁਨਿਕ AI ਸਿਸਟਮ ਸਮੇਂ ਦੇ ਨਾਲ ਫੈਸਲੇ ਕਰਨਾ ਸਿੱਖਦੇ ਹਨ।
ਮੁਕਾਬਲਾਈ ਖੇਡਾਂ ਇੱਕ ਵਿਸ਼ੇਸ਼ ਕਿਸਮ ਦੀ ਅਨੁਸ਼ਾਸਨ ਲਿਆਉਂਦੀਆਂ ਹਨ:
ਇਹ ਕਾਰਗੁਜ਼ਾਰੀਕ ਨਿਪੁਣਤਾਵਾਂ ਹਨ, ਨਾਂ ਕਿ ਨਾਰੇ। ਇੱਕ ਮਜ਼ਬੂਤ ਖਿਡਾਰੀ ਲਗਾਤਾਰ ਪੁੱਛਦਾ ਹੈ: ਕਿਹੜੇ ਵਿਕਲਪ ਉਪਲਬਧ ਹਨ? ਵਿਰੋਧੀ ਅਗਲੇ ਕਦਮ 'ਤੇ ਕੀ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਹੈ? ਗਲਤ ਹੋਣ ਦੀ ਕੀ ਕੀਮਤ ਹੈ?
Hassabis ਨੇ ਕੇਵਲ ਖੇਡਾਂ ਨਹੀਂ ਖੇਡੀਆਂ—ਉਸਨੇ ਖੇਡਾਂ ਬਣਾਈਆਂ ਵੀ। ਗੇਮ ਦੇਵਲਪਮੈਂਟ ਵਿੱਚ ਕੰਮ ਕਰਨ ਦਾ ਮਤਲਬ ਹੈ ਬਹੁਤ ਸਾਰੀਆਂ ਪਰਸਪਰ-ਟੋੜੀ ਚੀਜ਼ਾਂ ਨਾਲ ਨਿਪਟਣਾ: ਨਿਯਮ, ਉਤਸਾਹ, ਸਮੇਂ ਦੀ ਸੀਮਾ, ਮੁਸ਼ਕਲਾਈ ਵਰਗ, ਅਤੇ ਛੋਟੇ-ਛੋਟੇ ਬਦਲਾਵਾਂ ਦੇ ਪੂਰੇ ਅਨੁਭਵ 'ਤੇ ਪੈਣ ਵਾਲੇ ਪ੍ਰਭਾਵ।
ਇਹ ਇੱਕ ਕਾਂਰਕਟ ਉਦਾਹਰਨ ਵਜੋਂ “ਸਿਸਟਮ-ਸੋਚ” ਹੈ—ਪੂਰੇ ਨਤੀਜੇ ਨੂੰ ਇੱਕ ਇਕੱਲੇ ਕੌੱਟੇ ਦੀ ਬਜਾਏ ਇੱਕ ਸੰਯੁਕਤ ਸੈੱਟਅੱਪ ਦਾ ਨਤੀਜਾ ਸਮਝਣਾ। ਬਾਅਦ ਵਿੱਚ, ਇਹੀ ਮਨੋਵਿਰਤੀ AI ਰਿਸਰਚ ਵਿਚ ਦਿੱਸਦੀ ਹੈ: ਤਰੱਕੀ ਅਕਸਰ ਸਹੀ ਡੇਟਾ, ਟ੍ਰੇਨਿੰਗ ਤਰੀਕੇ, ਕੰਪਿਊਟ, ਮੁਲਾਂਕਣ ਅਤੇ ਸਾਫ਼ ਲਕੜੀ-ਉਦੇਸ਼ਾਂ ਦੇ ਮਿਸ਼ਰਣ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ।
ਇਹ ਸ਼ੁਰੂਆਤੀ ਆਧਾਰ—रणਨੀਤਿਕ ਖੇਡ ਅਤੇ ਨਿਯਮ-ਅਧਾਰਤ ਬਾਰੀਕ ਭੂਤਿਕੀ ਬਣਾਉਣਾ—ਬਿਆਨ ਕਰਦੇ ਹਨ ਕਿ ਕਿਉਂ ਉਸਦਾ ਬਾਅਦ ਦਾ ਕੰਮ ਇੰਟਰੇਕਸ਼ਨ ਅਤੇ ਫੀਡਬੈਕ ਰਾਹੀਂ ਸਿੱਖਣ 'ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਸੀ, ਬਜਾਏ ਕੇਵਲ ਹੱਥ-ਲਿਖੇ ਹੁਕਮਾਂ 'ਤੇ ਨਿਰਭਰ ਰਹਿਣ ਦੇ।
Demis Hassabis ਨਿਊਰੋਸਾਇੰਸ ਨੂੰ AI ਤੋਂ ਇੱਕ ਪਾਸਾ ਨਹੀਂ ਸਮਝਿਆ—ਉਸਨੇ ਇਸਨੂੰ ਬਿਹਤਰ ਸਵਾਲ ਪੁੱਛਣ ਦਾ ਇੱਕ ਢੰਗ ਸਮਝਿਆ: ਅਨੁਭਵ ਤੋਂ ਸਿੱਖਣਾ ਕੀ ਮਤਲਬ ਹੈ? ਅਸੀਂ ਹਰ ਚੀਜ਼ ਨੂੰ ਯਾਦ ਕੀਤੇ ਬਿਨਾਂ ਲਾਭਕਾਰੀ ਗਿਆਨ ਕਿਵੇਂ ਰੱਖੀਏ? ਜਦ ਭਵਿੱਖ ਅਨਿਸ਼ਚਿਤ ਹੋਵੇ ਤਾਂ ਅਸੀਂ ਅਗਲਾ ਕਦਮ ਕਿਵੇਂ ਚੁਣੀਏ?
ਸਧਾਰਨ ਸ਼ਬਦਾਂ ਵਿੱਚ, ਸਿੱਖਣਾ ਪ੍ਰਤੀਕ੍ਰਿਆ ਦੇ ਆਧਾਰ 'ਤੇ ਆਪਣਾ ਵਰਤਾਰਾ ਬਦਲਣਾ ਹੈ। ਇੱਕ ਬੱਚਾ ਇੱਕ ਗਰਮ ਮਗ ਨੂੰ ਇੱਕ ਵਾਰੀ ਛੂਹਦਾ ਹੈ ਅਤੇ ਹੋਸ਼ਿਆਰ ਹੋ ਜਾਂਦਾ ਹੈ। AI ਸਿਸਟਮ ਵੀ ਕੁਝ ਇਸੇ ਤਰ੍ਹਾਂ ਕਰ ਸਕਦਾ ਹੈ: ਕਾਰਵਾਈਆਂ ਕਰਦਾ ਹੈ, ਨਤੀਜੇ ਵੇਖਦਾ ਹੈ, ਅਤੇ ਢੰਗ ਬਦਲਦਾ ਹੈ।
ਯਾਦ ਉਹ ਜਾਣਕਾਰੀ ਰੱਖਣਾ ਹੈ ਜੋ ਬਾਅਦ ਵਿੱਚ ਮਦਦ ਕਰੇ। ਮਨੁੱਖ ਹਰ ਜੀਵਨ ਨੂੰ ਵੀਡੀਓ ਵਾਂਗ ਨਹੀਂ ਰਿਕਾਰਡ ਕਰਦੇ; ਅਸੀਂ ਪੈਟਰਨ ਅਤੇ ਨਿਸ਼ਾਨ ਬਣਾ ਕੇ ਰੱਖਦੇ ਹਾਂ। AI ਲਈ, ਯਾਦ ਦਾ ਮਤਲਬ ਹੋ ਸਕਦਾ ਹੈ ਪਿਛਲੇ ਅਨੁਭਵ ਸੇਵ ਕਰਨਾ, ਅੰਦਰੂਨੀ ਸੰਖੇਪ ਬਣਾਉਣਾ, ਜਾਂ ਜਾਣਕਾਰੀ ਨੂੰ ਸੰਕੁਚਿਤ ਕਰਨਾ ਤਾਂ ਜੋ ਉਹ ਨਵੇਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਵਰਤੋਯੋਗ ਰਹੇ।
ਯੋਜਨਾ ਅਗਲੇ ਨਤੀਜੇ ਦੀ ਸੋਚ ਕੇ ਕਾਰਵਾਈ ਚੁਣਨਾ ਹੈ। ਜਦ ਤੁਸੀਂ ਟ੍ਰੈਫਿਕ ਤੋਂ ਬਚਣ ਲਈ ਰੂਟ ਚੁਣਦੇ ਹੋ, ਤੁਸੀਂ ਸੰਭਾਵਿਤ ਨਤੀਜਿਆਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰ ਰਹੇ ਹੋ। AI ਵਿੱਚ, ਯੋਜਨਾ ਅਕਸਰ ਸੋਚ-ਵਿਚਾਰ ਕਰਕੇ “ਜੇ-ਇਹ-ਤਾਂ…” ਸੰਭਾਵਨਾਂ ਨੂੰ ਸਿਮੂਲੇਟ ਕਰਨਾ ਹੁੰਦੀ ਹੈ ਅਤੇ ਸਭ ਤੋਂ ਵਧੀਆ ਦਿੱਸਣ ਵਾਲੀ ਚੋਣ ਲੈਣੀ ਹੁੰਦੀ ਹੈ।
ਦਿਮਾਗ ਦਾ ਅਧਿਐਨ ਕੁਝ ਐਸੀ ਸਮੱਸਿਆਵਾਂ ਵੱਲ ਧਿਆਨ ਖਿੱਚ ਸਕਦਾ ਹੈ—ਜਿਵੇਂ ਸੀਮਤ ਡੇਟਾ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕੇ ਨਾਲ ਸਿੱਖਣਾ, ਜਾਂ ਤੇਜ਼ ਪ੍ਰਤੀਕ੍ਰਿਆ ਅਤੇ ਸੂਚਨਾਤਮਕ ਸੋਚ ਵਿਚ ਸੰਤੁਲਨ ਕਰਨਾ। ਪਰ ਇਹ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਰਿਸ਼ਤਾ ਜ਼ਿਆਦਾ ਵੱਡਾ ਨਾ ਕੀਤਾ ਜਾਏ: ਇੱਕ ਆਧੁਨਿਕ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਦਿਮਾਗ਼ ਨਹੀਂ ਹੈ, ਅਤੇ ਜੀਵ ਵਿਗਿਆਨ ਨੂੰ ਨਕਲ ਕਰਨਾ ਹੀ ਮੁੱਖ ਮਕਸਦ ਨਹੀਂ।
ਮੁੱਲ ਆਮ ਪ੍ਰਯੋਗਤਾਦਾਰ ਹੈ। ਨਿਊਰੋਸਾਇੰਸ ਉਹ ਸਮਰੱਥਾਵਾਂ ਬਾਰੇ ਸੰਕੇਤ ਦਿੰਦੀ ਹੈ ਜਿਹੜੀਆਂ ਬੁੱਧੀ ਨੂੰ ਲੋੜ ਹਨ (ਸਧਾਰਨ ਕਰਨਾ, ਅਨੁਕੂਲ ਹੋਣਾ, ਅਨਿਸ਼ਚਿਤਤਾ ਹੇਠਾਂ ਤਰੱਕੀ), ਜਦਕਿ ਕੰਪਿਊਟਰ ਵਿਗਿਆਨ ਉਹਨਾਂ ਸੰਕੇਤਾਂ ਨੂੰ ਟੈਸਟ ਕਰਨ ਯੋਗ ਤਰੀਕਿਆਂ ਵਿੱਚ ਬਦਲਦਾ ਹੈ।
Hassabis ਦੀ ਪਿਛੋਕੜ ਦਿਖਾਉਂਦੀ ਹੈ ਕਿ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਨੂੰ ਮਿਲਾ ਕੇ ਕਿਵੇਂ ਲਾਭ ਮਿਲ ਸਕਦਾ ਹੈ। ਨਿਊਰੋਸਾਇੰਸ ਕੁਦਰਤੀ ਬੁੱਧੀ ਪ੍ਰਤੀ ਜਿਗਿਆਸਾ ਪੈਦਾ ਕਰਦੀ ਹੈ; AI ਰਿਸਰਚ ਐਸੀਆਂ ਪ੍ਰਣਾਲੀਆਂ ਬਣਾਉਣ ਦੀ ਮੰਗ ਕਰਦੀ ਹੈ ਜੋ ਮਾਪੀਆਂ ਅਤੇ ਸੁਧਾਰਯੋਗ ਹੋਣ। ਦੋਹਾਂ ਮਿਲ ਕੇ ਖੋਜਕਾਰਾਂ ਨੂੰ ਵੱਡੇ ਵਿਚਾਰ—ਜਿਵੇਂ ਤਰਕਸ਼ੀਲਤਾ ਅਤੇ ਯਾਦ—ਨੂੰ ਐਸੇ ਕੰਕਰੀਟ ਪ੍ਰਯੋਗਾਂ ਨਾਲ ਜੋੜਨ ਲਈ ਧਕਾ ਦਿੰਦੇ ਹਨ ਜੋ ਅਸਲ 'ਚ ਕੰਮ ਕਰਦੇ ਹਨ।
DeepMind ਇਕ ਅਜਿਹਾ ਸਪਸ਼ਟ, ਅਸਧਾਰਣ ਲਕੜੀ ਨਾਲ ਸ਼ੁਰੂ ਹੋਇਆ: ਇੱਕ ਚਲਦੀ-ਫਿਰਦੀ, ਇੱਕ-ਚਲਾਕ ਐਪ ਬਣਾਉਣ ਦੀ ਬਜਾਏ ਸਰਲ ਲਰਨਿੰਗ ਪ੍ਰਣਾਲੀਆਂ ਬਣਾਉਣ—ਉਹ ਸੌਫਟਵੇਅਰ ਜੋ ਅਨੁਭਵ ਰਾਹੀਂ ਬਿਹਤਰ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਕਈ ਸਮੱਸਿਆਵਾਂ ਹੱਲ ਕਰ ਸਕਦਾ ਹੈ।
ਉਸ ਉਦੇਸ਼ ਨੇ ਕੰਪਨੀ ਦੇ ਹਰ ਹਿੱਸੇ ਨੂੰ ਰੂਪ ਦਿੱਤਾ। “ਅਗਲੇ ਮਹੀਨੇ ਕਿਹੜਾ ਫੀਚਰ ਰਿਲੀਜ਼ ਕਰਨਾਂ ਹੈ?” ਦੀ ਬਜਾਏ, ਮੁੱਖ ਸਵਾਲ ਇਹ ਸੀ: “ਅਜਿਹੀ ਕਿਸ ਤਰ੍ਹਾਂ ਦੀ ਲਰਨਿੰਗ ਮਸ਼ੀਨ ਬਣ ਸਕਦੀ ਹੈ ਜੋ ਅਣਦੇਖੀਆਂ ਸਥਿਤੀਆਂ 'ਚ ਵੀ ਬਿਹਤਰ ਹੁੰਦੀ ਰਹੇ?”
DeepMind ਇੱਕ ਆਮ ਸੌਫਟਵੇਅਰ ਸਟਾਰਟਅੱਪ ਵਰਗੀ ਬਣਤਰ ਤੋਂ ਵੱਖਰਾ ਸੀ; ਇਹ ਜ਼ਿਆਦਾ ਅਕਾਦਮਿਕ ਲੈਬ ਵਾਂਗੋ ਢਾਂਚੇ ਵਾਲਾ ਸੀ। ਨਤੀਜਾ ਸਿਰਫ਼ ਉਤਪਾਦ ਨਹੀਂ—ਉਹ ਰਿਸਰਚ ਨਤੀਜੇ, ਪ੍ਰਯੋਗਾਤਮਕ ਨਤੀਜੇ, ਅਤੇ ਤਰੀਕੇ ਸਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਟੈਸਟ ਕੀਤਾ ਅਤੇ ਤੁਲਨਾ ਕੀਤੀ ਜਾ ਸਕਦਾ ਸੀ।
ਇੱਕ ਆਮ ਸੌਫਟਵੇਅਰ ਕੰਪਨੀ ਤੇਜ਼ ਸ਼ਿਪਿੰਗ ਲਈ ਅਪਟੀਮਾਈਜ਼ ਕਰਦੀ ਹੈ: ਯੂਜ਼ਰ ਸਟੋਰੀਜ਼, ਫਾਸਟ ਇਟਰੈਸ਼ਨ, ਰਿਵੈਨਿਊ ਟੀਚੇ। DeepMind ਖੋਜ ਲਈ ਅਪਟੀਮਾਈਜ਼ ਕਰਦਾ ਸੀ: ਫੇਲ ਹੋਣ ਵਾਲੇ ਪ੍ਰਯੋਗਾਂ ਲਈ ਸਮਾਂ, ਗੂੜ੍ਹੇ ਪ੍ਰਸ਼ਨਾਂ 'ਤੇ ਡੂੰਘੀ ਖੋਜ, ਅਤੇ ਲੰਬੇ ਸਮੇਂ ਵਾਲੇ ਸਵਾਲਾਂ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਟੀਮਾਂ।
ਇਸਦਾ ਮਤਲਬ ਇਹ ਨਹੀਂ ਕਿ ਇੰਜੀਨੀਅਰਿੰਗ ਨੂੰ ਅਣਦੇਖਿਆ ਕਰ ਦਿੱਤਾ ਗਿਆ—ਇਸਦਾ ਮਤਲਬ ਸੀ ਕਿ ਇੰਜੀਨੀਅਰਿੰਗ ਖੋਜ ਪ੍ਰਗਟਿ ਲਈ ਸੇਵਾ ਕਰਦੀ ਸੀ, ਨਾ ਕਿ ਯਹ ਉਸਦੇ ਉਪਰ ਅਧਾਰਿਤ ਹੋਈ।
ਵੱਡੇ ਦਾਅਵੇ ਅਜੇ ਬੇਸਮਝ ਹੋ ਸਕਦੇ ਹਨ ਜਦ ਤਕ ਉਹ ਮਾਪਯੋਗ ਟੀਚਿਆਂ ਨਾਲ ਜੋੜੇ ਨਾ ਜਾਣ। DeepMind ਨੇ ਲੋਕਪ੍ਰਿਆ, ਮੁਸ਼ਕਲ ਅਤੇ ਆਸਾਨੀ ਨਾਲ ਮੁਲਾਂਕਣਯੋਗ ਬੈਂਚਮਾਰਕ ਚੁਣਨ ਦੀ ਆਦਤ ਬਣਾ ਲਈ—ਖਾਸ ਕਰਕੇ ਖੇਡਾਂ ਅਤੇ ਸਿਮੂਲੇਸ਼ਨਾਂ ਜੋ ਸਪੱਸ਼ਟ ਅਤਰ ਸਹਿਤ ਸਫਲਤਾ ਦਿਖਾਉਂਦੀਆਂ ਹਨ।
ਇਸਨੇ ਇੱਕ ਪ੍ਰਾਇਗਤਾਕ ਲਹਿਰ ਪੈਦਾ ਕੀਤੀ:
ਜਿਵੇਂ ਜਜਮੇ ਵਧੀ, DeepMind ਇਕ ਵੱਡੇ ਪਰਿਵਾਰ ਦਾ ਹਿੱਸਾ ਬਣ ਗਿਆ। 2014 ਵਿਚ, Google ਨੇ DeepMind ਨੂੰ ਖਰੀਦ ਲਿਆ, ਜਿਸਨੇ ਉਹ ਸਰੋਤ ਅਤੇ ਕੰਪਿਊਟਿੰਗ ਸਕੇਲ ਦਿੱਤੀ ਜੋ ਅਕਸਰ ਸੁਤੰਤਰ ਤੌਰ 'ਤੇ ਮਿਲਨਾ ਔਖਾ ਹੁੰਦਾ ਹੈ।
ਪੈਦਾ ਤੌਰ 'ਤੇ, ਸਥਾਪਨਾ ਦੀ ਸੱਭਿਆਚਾਰ—ਉੱਚ ਅੰਕਾਂਸ਼ ਜੋ ਕਠੋਰ ਮਾਪਦੰਡ ਨਾਲ ਜੋੜਿਆ ਗਿਆ—ਮੁੱਖ ਰਹੀ। DeepMind ਦੀ ਸ਼ੁਰੂਆਤੀ ਪਛਾਣ “AI ਟੂਲ ਬਣਾਉਣ ਵਾਲੀ ਕੰਪਨੀ” ਨਾ ਸੀ, ਪਰ “ਇੱਕ ਥਾਂ ਜੋ ਸਮਝਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੀ ਹੈ ਕਿ ਸਿੱਖਣ ਖੁਦ ਕਿਵੇਂ ਬਣਾਇਆ ਜਾ ਸਕਦਾ ਹੈ।”
ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਉਹ ਤਰੀਕਾ ਹੈ ਜਿਸ ਨਾਲ AI ਕਰ ਕੇ ਸਿੱਖਦਾ ਹੈ, ਨਾ ਕਿ ਹਰ ਸਥਿਤੀ ਲਈ ਸਹੀ ਜਵਾਬ ਦਿਖਾ ਕੇ।
ਕਰੋ ਕਿ ਤੁਸੀਂ ਕਿਸੇ ਨੂੰ ਫ੍ਰੀ-ਥ੍ਰੋ ਸ਼ੂਟ ਕਰਨ ਸਿਖਾ ਰਹੇ ਹੋ। ਤੁਸੀਂ ਉਸਨੂੰ ਹਰ ਸੰਭਵ ਸ਼ਟ ਲਈ ਸਹੀ ਬਾਂਹ ਦਾ ਕੋਣ ਨਹੀਂ ਦਿੰਦੇ। ਤੁਸੀਂ ਉਸਨੂੰ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਦਿੰਦੇ ਹੋ, ਨਤੀਜਾ ਵੇਖਦੇ ਹੋ ਅਤੇ ਸਧਾਰਨ ਫੀਡਬੈਕ ਦਿੰਦੇ ਹੋ: “ਇਹ ਨੇੜੇ ਸੀ”, “ਇਹ ਬਹੁਤ ਜ਼ਿਆਦਾ ਦੂਰ ਮਿਸ ਹੋਇਆ”, “ਜੋ ਚੰਗਾ ਕੀਤਾ, ਉਸਨੂੰ ਵਧਾਓ।” ਸਮੇਂ ਨਾਲ, ਉਹ ਸੋਧ ਕਰ ਲੈਂਦਾ ਹੈ।
ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਵੀ ਇਹੇ ਕਰਦਾ ਹੈ। AI ਕਾਰਵਾਈ ਕਰਦਾ ਹੈ, ਨਤੀਜੇ ਦੇਖਦਾ ਹੈ, ਅਤੇ ਇੱਕ ਸਕੋਰ ("ਇਨਾਮ") ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ ਜੋ ਦੱਸਦਾ ਹੈ ਕਿ ਉਸ ਨਤੀਜੇ ਦੀ ਕੀਮਤ ਕਿੰਨੀ ਵਧੀਆ ਸੀ। ਇਸਦਾ ਮਨੋਰਥ ਜ਼ਿਆਦਾ ਕੁੱਲ ਇਨਾਮ ਹਾਸਲ ਕਰਨ ਲਈ ਚੋਣਾਂ ਕਰਨਾ ਹੁੰਦਾ ਹੈ।
ਮੁੱਖ ਵਿਚਾਰ ਹੈ ਟ੍ਰਾਇਲ-ਐੰਡ-ਐਰਰ + ਫੀਡਬੈਕ। ਇਹ ਸੁਸਤ ਸੁਣਾਈ ਦੇ ਸਕਦਾ ਹੈ—ਜਦ ਤੱਕ ਤੁਸੀਂ ਸਮਝੋ ਕਿ ਇਹ ਟ੍ਰਾਇਲਾਂ ਆਟੋਮੇਟ ਕੀਤੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ।
ਇੱਕ ਵਿਅਕਤੀ ਇੱਕ ਦੁਪਹਿਰ ਵਿੱਚ 200 ਸ਼ਾਟਸ ਅਭਿਆਸ ਕਰ ਸਕਦਾ ਹੈ। ਇੱਕ AI ਲੱਖਾਂ ਜਾਂ ਮਿਲੀਅਨਾਂ “ਸ਼ਾਟਸ” ਤੇਜ਼ੀ ਨਾਲ ਸਿਮੂਲੇਟ ਕਰ ਸਕਦਾ ਹੈ, ਉਹਨਾਂ ਪੈਟਰਨਾਂ ਨੂੰ ਸਿੱਖਦਿਆਂ ਜੋ ਮਨੁੱਖਾਂ ਨੂੰ ਸਾਲਾਂ ਲੱਗ ਜਾਂਦੇ। ਇਸ ਲਈ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਖੇਡ-ਖੇਡਣ ਵਾਲੇ AI ਦੀਆਂ ਪ੍ਰਧਾਨ ਤਕਨੀਕਾਂ ਵਿੱਚੋਂ ਇੱਕ ਬਣ ਗਿਆ: ਖੇਡਾਂ ਦੇ ਨਿਯਮ ਸਪਸ਼ਟ ਹੁੰਦੇ ਹਨ, ਫੀਡਬੈਕ ਤੇਜ਼ ਹੁੰਦਾ ਹੈ, ਅਤੇ ਸਫਲਤਾ ਦਾ ਮਾਪ ਨਿਰਪੱਖ ਹੁੰਦਾ ਹੈ।
ਕਈ AI ਸਿਸਟਮਾਂ ਨੂੰ ਲੇਬਲਡ ਡੇਟਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ (ਜਿੱਥੇ ਹਰ ਉਦਾਹਰਨ ਲਈ ਸਹੀ ਜਵਾਬ ਦਿੱਤਾ ਗਿਆ ਹੋਵੇ). ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਆਪਣਾ ਤਜਰਬਾ ਪੈਦਾ ਕਰ ਸਕਦੀ ਹੈ।
ਸਿਮੂਲੇਸ਼ਨ ਨਾਲ, AI ਇੱਕ ਸੁਰੱਖਿਅਤ ਤੇਜ਼ “ਅਭਿਆਸ ਮੈਦਾਨ” ਵਿਚ ਪ੍ਰੈਕਟਸ ਕਰ ਸਕਦੀ ਹੈ। ਸੈਲਫ-ਪਲੇ ਨਾਲ, ਇਹ ਆਪਣੀਆਂ ਕਾਪੀਆਂ ਦੇ ਖਿਲਾਫ ਖੇਡਦੀ ਹੈ, ਜਿਵੇਂ-ਜਿਵੇਂ ਉਹ ਸੁਧਰਦੀ ਹੈ, ਆਪਣੇ ਲਈ ਇੱਕ ਤਖਤ-ਤਾਕਤ ਵਾਲਾ ਵਿਰੋਧੀ ਤਿਆਰ ਕਰਦੀ ਹੈ। ਮਨੁੱਖੀ ਲੇਬਲਿੰਗ ਦੀ ਲੋੜ ਘੱਟ ਹੁੰਦੀ ਹੈ ਕਿਉਂਕਿ AI ਆਪਣੇ ਆਪ ਹੀ ਇੱਕ ਟ੍ਰੇਨਿੰਗ ਕਰਿਕੁਲਮ ਬਣਾਉਂਦੀ ਹੈ।
ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਜਾਦੂ ਨਹੀਂ ਹੈ। ਇਹ ਅਕਸਰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਅਨੁਭਵ (ਡੇਟਾ), ਮਹਿੰਗਾ ਕੰਪਿਊਟ, ਅਤੇ ਸੁਝਬੂਝ-ਭਰਿਆ ਮੁਲਾਂਕਣ ਮੰਗਦੀ ਹੈ—ਇੱਕ AI ਟ੍ਰੇਨਿੰਗ 'ਚ ਜਿੱਤ ਸਕਦਾ ਹੈ ਪਰ ਥੋੜ੍ਹੀਆਂ ਬਦਲੀਆਂ ਸਥਿਤੀਆਂ 'ਚ ਫੇਲ ਹੋ ਸਕਦਾ ਹੈ।
ਇਸ ਨਾਲ ਸੁਰੱਖਿਆ ਦੇ ਖਤਰੇ ਵੀ ਜੁੜੇ ਹੋਏ ਹਨ: ਗਲਤ ਇਨਾਮ ਠੀਕ ਨਤੀਜੇ ਦੇ ਸਕਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਉੱਚ-ਅਸਰ ਵਾਲੇ ਸੈਟਿੰਗਾਂ ਵਿੱਚ। ਗੋਲ ਅਤੇ ਟੈਸਟਿੰਗ ਨੂੰ ਸਹੀ ਰੱਖਣਾ ਲਰਨਿੰਗ ਨਾਲੋ ਮਹੱਤਵਪੂਰਨ ਹੈ।
AlphaGo ਦੀ 2016 ਮੈਚ Lee Sedol ਦੇ ਵਿਰੁੱਧ ਇੱਕ ਸਾਂਸਕ੍ਰਿਤਿਕ ਮੋੜ ਸੀ ਕਿਉਂਕਿ ਲੰਬੇ ਸਮੇਂ ਤੱਕ Go ਨੂੰ ਕੰਪਿਊਟਰਾਂ ਲਈ ਇਕ “ਅਖੀਰੀ ਕਿਲਾ” ਸਮਝਿਆ ਜਾਂਦਾ ਸੀ। ਚੈੱਸ ਜਟਿਲ ਹੈ, ਪਰ Go ਬਹੁਤ ਹੀ ਪਰਿਮाणਵਾਦੀ ਹੈ: ਬੋਰਡ ਪੋਜ਼ੀਸ਼ਨਾਂ ਦੀ ਸੰਖਿਆ ਬੇਹੱਦ ਵੱਧ ਹੈ, ਅਤੇ ਚੰਗੀਆਂ ਚਾਲਾਂ ਅਕਸਰ ਲੰਬੇ-ਦਾਇਰੇ ਦੇ ਪ੍ਰਭਾਵ ਅਤੇ ਪੈਟਰਨ ਇੰਟਿਊਸ਼ਨ 'ਤੇ ਆਧਾਰਿਤ ਹੁੰਦੀਆਂ ਹਨ।
ਬਰੁਟ-ਫੋਰਸ ਤਰੀਕਾ—ਹਰ ਸੰਭਾਵਿਤ ਭਵਿੱਖ ਦੀ ਗਿਣਤੀ ਕਰਨਾ—ਸੰਯੋਗੀ ਧੁੰਧਲਕੇ ਵਿੱਚ ਫਸ ਜਾਂਦਾ ਹੈ। ਮਜ਼ਬੂਤ Go ਖਿਡਾਰੀ ਵੀ ਹਰ ਚੋਣ ਨੂੰ ਸਪਸ਼ਟ ਹਿਸਾਬ ਨਾਲ ਵਜਿਹਾ ਨਹੀਂ ਦ ਸਕਦੇ; ਬਹੁਤ ਕੁਝ ਅਨੁਭਵ 'ਤੇ ਨਿਰਭਰ ਹੁੰਦਾ ਹੈ। ਇਸ ਕਰਕੇ ਪਹਿਲੀ ਪੀੜ੍ਹੀ ਦੇ ਗੇਮ-ਪਲੇਅ ਸਿਸਟਮ, ਜੋ ਮੁੱਖ ਤੌਰ 'ਤੇ ਹੱਥ ਨਾਲ ਬਣੇ ਨਿਯਮਾਂ ਤੇ ਨਿਰਭਰ ਸਨ, ਲਈ Go ਇੱਕ ਮਾੜਾ ਫਿੱਟ ਸੀ।
AlphaGo ਨੇ ਨਾ ਸਿਰਫ਼ “ਹਿਸਾਬ” ਕੀਤਾ, ਅਤੇ ਨਾ ਹੀ ਕੇਵਲ ਸਿੱਖਿਆ। ਇਸਨੇ ਦੋਹਾਂ ਨੂੰ ਜੋੜਿਆ। ਇਸਨੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਵਰਤੇ ਜੋ ਮਨੁੱਖੀ ਖੇਡਾਂ 'ਤੇ (ਅਗਲੇ ਵਿੱਚ ਸੈਲਫ-ਪਲੇ ਨਾਲ) ਟ੍ਰੇਨ ਹੋਏ ਤਾਂ ਜੋ ਕਿਹੜੀਆਂ ਚਾਲਾਂ ਵਾਧੇਯੋਗ ਹਨ, ਇਸਦੀ ਸੂਝ ਬਣੇ। ਫਿਰ ਇਸਨੇ ਉਹ ਸਿੱਖੀ ਹੋਈ ਸੋਝ ਨੂੰ ਮਾਰਗਦਰਸ਼ਿਤ ਕਰਕੇ ਇੱਕ਼ ਧਿਆਨ-ਕੇਂਦਰਤ ਸਰਚ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਇਸਨੂੰ ਇੱਕ ਤਰ੍ਹਾਂ ਦੀ ਇੰਟਿਊਸ਼ਨ (ਸਿੱਖੀ ਪੈਟਰਨ) ਨਾਲ ਵਿਚਾਰ-ਵਟਾਂਦਰਾ (ਅੱਗੇ ਦੇਖਣਾ) ਜੋੜਨ ਵਾਂਗ ਸਮਝੋ, ਬਜਾਏ ਕੇਵਲ ਇੱਕ 'ਤੇ ਨਿਰਭਰ ਹੋਣ ਦੇ।
ਜਿੱਤ ਨੇ ਇਹ ਸਾਬਤ ਕੀਤਾ ਕਿ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਪ੍ਰਣਾਲੀਆਂ ਇਕ ਐਸੇ ਖੇਤਰ 'ਚ ਮਾਹਰ ਹੋ ਸਕਦੀਆਂ ਹਨ ਜੋ ਰਚਨਾਤਮਕਤਾ, ਲੰਬੇ-ਦਾਇਰੇ ਦੀ ਯੋਜਨਾ ਅਤੇ ਨਰਮ-ਟਰੇਡਆਫ਼ਾਂ ਨੂੰ ਇਨਾਮ ਦਿੰਦਾ ਹੈ—ਬਿਨਾਂ ਮਨੁੱਖੀ ਤਰੀਕੇ ਨਾਲ Go ਰਣਨੀਤੀ ਨੂੰ ਹੱਥ ਨਾਲ ਕੋਡ ਕਰਨ ਦੀ ਲੋੜ ਪਏ।
ਇਸਦਾ ਮਤਲਬ ਇਹ ਨਹੀਂ ਸੀ ਕਿ AlphaGo ਕੋਲ ਜਨਰਲ ਇੰਟੈਲੀਜੈਂਸ ਹੈ। ਇਹ ਆਪਣੀ ਕਲਾ ਨੂੰ ਅਸਬੰਧਿਤ ਸਮੱਸਿਆਵਾਂ 'ਤੇ ਟਰਾਂਸਫਰ ਨਹੀਂ ਕਰ ਸਕਦਾ, ਆਪਣੀ ਵਜਿਹਾ ਸਪਸ਼ਟ ਤਰੀਕੇ ਨਾਲ ਨਾ ਦੱਸ ਸਕਦਾ, ਜਾਂ Go ਨੂੰ ਮਨੁੱਖੀ ਸਾਂস্ক੍ਰਿਤਿਕ ਪ੍ਰਿੰਗਣਾ ਵਾਂਗ ਸਮਝਦਾ ਨਹੀਂ ਸੀ। ਇਹ ਇੱਕ ਹੀ ਟਾਸਕ 'ਤੇ ਅਸਧਾਰਣ ਸੀ।
ਜਨਤਾ ਦੀ ਰੁਚੀ ਵਧੀ, ਪਰ ਅਸਲ ਪ੍ਰਭਾਵ ਖੋਜ ਦੇ ਅੰਦਰ ਸੀ। ਮੈਚ ਨੇ ਇੱਕ ਰਸਤਾ ਮਨਜ਼ੂਰ ਕਰਵਾਇਆ: ਵੱਡੇ ਪੈਮਾਨੇ 'ਤੇ ਸਿੱਖਣਾ, ਅਭਿਆਸ ਰਾਹੀਂ ਖੁਦ-ਸੁਧਾਰ, ਅਤੇ ਸਰਚ ਨੂੰ ਮਿਲਾ ਕੇ ਇੱਕ ਪ੍ਰਯੋਗਸ਼ਾਲੀ ਨੁਸਖਾ ਜੋ ਅਕਸਰ ਪੁੰਜੀ-ਸਤਰ ਦੀ ਪ੍ਰਾਪਤੀ ਲਈ ਕਾਰਗਰ ਸਾਬਤ ਹੁੰਦਾ ਹੈ।
ਇੱਕ ਸਿਰਲੇਖੀ ਜਿੱਤ AI ਨੂੰ “ਹੱਲ” ਲੱਗਣ ਲਈ ਕਰ ਸਕਦੀ ਹੈ, ਪਰ ਜ਼ਿਆਦਾ ਤਰ ਸਿਸਟਮ ਜਿਹੜੇ ਇਕ ਸੈਟਿੰਗ 'ਚ ਚਮਕਦੇ ਹਨ, ਨਿਯਮ ਬਦਲੇ ਹੀ ਫੇਲ ਹੋ ਜਾਂਦੇ ਹਨ। ਇੱਕ ਤੱਕਨੀਕੀ ਕਹਾਣੀ ਜੋ ਇੱਕ ਅਗੇਤ ਤੋਂ ਬਾਅਦ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦੀ ਹੈ, ਉਹ ਹੈ ਤੰਗ, ਨਿਰਦੇਸ਼-ਵਿਕਾਸੀ ਹੱਲ ਨੂੰ ਉਨ੍ਹਾਂ ਤਰੀਕਿਆਂ ਵੱਲ ਧੱਕਣਾ ਜੋ ਜਨਰਲਾਈਜ਼ ਕਰ ਸਕਣ।
AI 'ਚ ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਉਸ ਸਮਰੱਥਾ ਨੂੰ ਕਹਿੰਦੇ ਹਨ ਜੋ ਨਵੇਂ ਹਾਲਾਤਾਂ 'ਚ ਚੰਗਾ ਕੰਮ ਕਰ ਸਕੇ ਜਿਹਨਾਂ 'ਤੇ ਉਸਨੂੰ ਖਾਸ ਤੌਰ 'ਤੇ ਟ੍ਰੇਨ ਨਹੀਂ ਕੀਤਾ ਗਿਆ। ਇਹ ਉਸ ਫਰਕ ਵਰਗ ਹੈ ਜੋ ਇੱਕ ਪਾਠ-ਪ੍ਰਸ਼ਨ ਨੂੰ ਯਾਦ ਕਰਨ ਅਤੇ ਵਿਸ਼ੇ ਨੂੰ ਅਸਲ ਵਿੱਚ ਸਮਝਣ ਵਿਚ ਹੁੰਦਾ ਹੈ।
ਇੱਕ ਸਿਸਟਮ ਜੋ ਸਿਰਫ਼ ਇਕ ਹੀ ਸੈਟਿੰਗ—ਉਹੀ ਨਿਯਮ, ਉਹੀ ਵਿਰੋਧੀ, ਉਹੀ ਵਾਤਾਵਰਨ—ਵਿੱਚ ਜਿੱਤਦਾ ਹੈ, ਬਹੁਤ ਝਟਕਦਾਰ ਹੋ ਸਕਦਾ ਹੈ। ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਪੁੱਛਦੀ ਹੈ: ਜੇ ਅਸੀਂ ਪਾਬੰਦੀਆਂ ਬਦਲ ਦਈਆਂ ਤਾਂ ਕੀ ਇਹ ਬਿਨਾਂ ਨਵੇਂ ਸ਼ੁਰੂਆਤੀ ਸੇਟਅੱਪ ਤੋਂ ਅਡਪਟ ਹੋ ਸਕਦਾ ਹੈ?
ਖੋਜਕਾਰ ਉਦਾਹਰਣ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਡਿਜ਼ਾਈਨ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਨ ਕਿ ਸਿੱਖਿਆ ਵੱਖ-ਵੱਖ ਕਾਰਜਾਂ 'ਤੇ ਟ੍ਰਾਂਸਫਰ ਹੋਵੇ, ਨਾਂ ਕਿ ਹਰ ਇੱਕ ਲਈ ਅਲੱਗ-ਅਲੱਗ ਯੁਕਤਿ ਬਣਾਈ ਜਾਵੇ। ਪ੍ਰੈਕਟਿਕਲ ਉਦਾਹਰਣ:
ਮਕਸਦ ਇਹ ਨਹੀਂ ਕਿ ਇੱਕ ਮਾਡਲ ਤੁਰੰਤ ਸਭ ਕੁਝ ਕਰੇ। ਮਕਸਦ ਇਹ ਹੈ ਕਿ ਹੱਲ ਦਾ ਕਿੰਨਾ ਹਿੱਸਾ ਦੁਬਾਰਾ ਵਰਤੋਂਯੋਗ ਹੈ—ਇਹ ਮਾਪਣਯੋਗ ਤਰੱਕੀ ਹੈ।
ਬੈਂਚਮਾਰਕ AI ਦੇ "ਸਟੈਂਡਰਡ ਟੈਸਟ" ਹਨ: ਉਹ ਟੀਮਾਂ ਨੂੰ ਨਤੀਜਿਆਂ ਨਾਲ ਤੁਲਨਾ ਕਰਨ, ਸੁਧਾਰ ਟਰੈਕ ਕਰਨ, ਅਤੇ ਕੀ ਕੰਮ ਕਰਦਾ ਹੈ ਉਸਨੂੰ ਪਛਾਣਨ ਦਾ ਮੌਕਾ ਦਿੰਦੇ ਹਨ। ਇਹ ਵਿਗਿਆਨਕ ਤਰੱਕੀ ਲਈ ਜ਼ਰੂਰੀ ਹਨ।
ਪਰ ਜਦ ਬੈਂਚਮਾਰਕ ਲਕੜੀ ਬਣ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਉਹ ਗਲਤ ਨਤੀਜੇ ਵੀ ਦੇ ਸਕਦਾ ਹੈ। ਮਾਡਲ ਬੈਂਚਮਾਰਕ ਦੀਆਂ ਖਾਸੀਅਤਾਂ 'ਤੇ ਓਵਰਫਿਟ ਹੋ ਸਕਦੇ ਹਨ, ਜਾਂ ਅਜੇਹੀਆਂ ਚਾਲਾਂ ਨਾਲ ਜਿੱਤ ਸਕਦੇ ਹਨ ਜੋ ਅਸਲ ਦੁਨੀਆ ਦੀ ਸਮਝ ਨਹੀਂ ਦਿਖਾਉਂਦੀਆਂ।
“ਮਨੁੱਖ-ਸਤਰ” ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਨਿਰਧਾਰਿਤ ਮੈਟਰਿਕ 'ਤੇ ਇੱਕ ਨਿਰਧਾਰਿਤ ਸੈਟਿੰਗ ਵਿੱਚ ਮਨੁੱਖਾਂ ਨਾਲ ਮਿਲਦਾ-ਜੁਲਦਾ ਪ੍ਰਦਰਸ਼ਨ ਦਰਸਾਉਂਦਾ ਹੈ—ਨਾ ਕਿ ਮਨੁੱਖੀ ਲਚਕੀਲੇਪਨ, ਤਰਕਸ਼ੀਲਤਾ, ਜਾਂ ਆਮ ਸਮਝ। ਇੱਕ ਸਿਸਟਮ ਵਿਸ਼ੇਸ਼ ਨਿਯਮਾਂ ਹੇਠਾਂ ਮਾਹਿਰ ਹੋ ਸਕਦਾ ਹੈ ਪਰ ਮਾਹੌਲ ਬਦਲਦੇ ਹੀ ਮੁਸ਼ਕਲ ਵਿੱਚ ਪੈ ਸਕਦਾ ਹੈ।
ਅਸਲ ਸਿੱਖ ਇਹ ਹੈ ਕਿ ਇੱਕ ਪ੍ਰਸਿੱਧ ਜਿੱਤ ਤੋਂ ਬਾਅਦ ਜੋ ਖੋਜ ਆਉਂਦੀ ਹੈ—ਹਾਰਡਰ ਵਰਾਇਏਸ਼ਨ 'ਤੇ ਟੈਸਟ ਕਰਨਾ, ਟਰਾਂਸਫਰ ਮਾਪਣਾ, ਅਤੇ ਇਹ ਸਾਬਤ ਕਰਨਾ ਕਿ ਤਰੀਕਾ ਇੱਕ ਹੀ ਮੰਚ ਤੋਂ ਅੱਗੇ ਸਕੇਲ ਕਰਦਾ ਹੈ।
ਪ੍ਰੋਟੀਨ ਜੀਵਾਂ ਦੇ ਅੰਦਰ ਛੋਟੇ “ਮਸ਼ੀਨ” ਹਨ। ਉਹ ਲੰਬੀਆਂ ਸੀਕੁਐਂਸਾਂ (ਐਮੀਨੋ ਐਸਿਡ) ਵਾਂਗ ਹਨ, ਅਤੇ ਫਿਰ ਲੜੀ ਮੁੜ ਕੇ ਇੱਕ ਵਿਸ਼ੇਸ਼ 3D ਆਕਾਰ ਵਿੱਚ ਸਹਿਮਦਾ ਹੈ—ਜਿਵੇਂ ਕਿਸੇ ਕਾਗਜ਼ ਨੂੰ ਓਰਿਗਾਮੀ ਵਿੱਚ ਮੋੜਿਆ ਜਾ ਰਿਹਾ ਹੋਵੇ।
ਉਹ ਆਖਰੀ ਆਕਾਰ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਇਸ ਤੋਂ ਨਿਰਧਾਰਤ ਹੁੰਦਾ ਹੈ ਕਿ ਪ੍ਰੋਟੀਨ ਕੀ ਕਰਨ ਯੋਗ ਹੈ: ਆਕਸੀਜਨ ਢੋਣਾ, ਇੰਫੈਕਸ਼ਨ ਨਾਲ ਲੜਨਾ, ਸੰਕੇਤ ਭੇਜਣਾ, ਜਾਂ ਟਿਸ਼ੂ ਬਣਾਉਣਾ। ਇੱਕ ਪ੍ਰੋਟੀਨ ਚੇਨ ਬੇਅੰਤ ਸੰਭਵ ਢੰਗਾਂ ਨਾਲ ਮੋੜ ਸਕਦੀ ਹੈ, ਅਤੇ ਸਹੀ ਆਕਾਰ ਸੀਕੁਐਂਸ ਤੋਂ ਹੀ ਬਾਹਰ ਕੱਢਣਾ ਸੁਰੂਜੀ-ਲਘੂ ਨਹੀਂ ਸੀ—ਇਸ ਲਈ ਦਸਕਿਆਂ ਤੱਕ ਵਿਗਿਆਨੀਆਂ ਨੂੰ ਲੈਬ ਤਰੀਕੇ ਦੀ ਲੋੜ ਪੈਂਦੀ ਰਹੀ।
ਕਿਸੇ ਪ੍ਰੋਟੀਨ ਦੀ ਰਚਨਾ ਜਾਣਨ ਦਾ ਮਤਲਬ ਇੱਕ ਵਿਸਥਾਰਪੂਰਕ ਨਕਸ਼ਾ ਹੋਣਾ ਹੈ, ਸਿਰਫ਼ ਇੱਕ ਸਡਕ ਦਾ ਨਾਮ ਨਹੀਂ। ਇਹ ਖੋਜਕਰਤਿਆਂ ਨੂੰ ਮਦਦ ਕਰਦਾ ਹੈ:
ਇਹ ਮਾਇਨਿੰਗ ਰੱਖਦਾ ਹੈ ਭਾਵੇਂ ਇਹ ਤੁਰੰਤ ਕਿਸੇ ਉਤਪਾਦ ਵਿੱਚ ਨਾ ਬਦਲੇ—ਇਹ ਉਹ ਨੀਂਹ ਬਹਾਲ ਕਰਦਾ ਹੈ ਜਿੱਥੇ ਬਹੁਤ ਸਾਰੀਆਂ ਅਗਿਆਤ ਅਧਿਐਨ ਨਿਰਭਰ ਕਰਦੇ ਹਨ।
AlphaFold ਨੇ ਦਿਖਾਇਆ ਕਿ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਕਈ ਪ੍ਰੋਟੀਨ ਸਟਰੱਕਚਰਾਂ ਦਾ ਉੱਚ-ਸਤਹੀ ਅਨੁਮਾਨ ਪੇਸ਼ ਕਰ ਸਕਦੀ ਹੈ, ਅਕਸਰ ਲੈਬ ਤਕਨੀਕਾਂ ਦੇ ਨੇੜੇ। ਇਸਦਾ ਮੁੱਖ ਯੋਗਦਾਨ ਇਹ ਨਹੀਂ ਸੀ ਕਿ "ਬਾਇਓਲੋਜੀ ਹੱਲ ਹੋ ਗਈ", ਬਲਕਿ ਇਹ ਕਿ ਸਟਰੱਕਚਰ ਅਨੁਮਾਨਾਂ ਨੂੰ ਜ਼ਿਆਦਾ ਭਰੋਸੇਯੋਗ ਅਤੇ ਪਹੁੰਚਯੋਗ ਬਣਾਇਆ—ਇੱਕ ਵੱਡਾ ਰੋਕਾਵਟ ਘੱਟ ਹੋ ਗਿਆ ਤੇ ਖੋਜਸ਼ੁਰੂਆਤਣੀਆਂ ਹੁਣ ਪਹਿਲਾਂ ਹੀ ਹੋ ਸਕਦੀਆਂ ਹਨ।
ਇਹ ਮਨੁੱਖ ਨੂੰ ਵੱਖ ਕਰਨਾ ਜਰੂਰੀ ਹੈ: ਵਿਗਿਆਨਕ ਤੇਜ਼ੀ ਅਤੇ ਤੁਰੰਤ ਦਵਾਈ ਉਤਪਾਦ ਦੇ ਨਿਰਮਾਣ ਵਿਚ ਫਰਕ ਹੈ। ਇੱਕ ਸਟਰੱਕਚਰ ਅਨੁਮਾਨ ਕਰਨਾ ਇੱਕ ਚੀਜ਼ ਹੈ; ਸੁਰੱਖਿਅਤ ਦਵਾਈ ਤਿਆਰ ਕਰਨਾ ਹੋਰ ਚੀਜ਼ ਹੈ। ਡਰੱਗ ਡਿਸਕਵਰੀ ਵਿੱਚ ਹਮੇਸ਼ਾ ਟਾਰਗੇਟ ਦੀ ਪੁਸ਼ਟੀ, ਮੌਲੀਕਿਊਲ ਟੈਸਟ, ਸਾਇਡ-ਇਫੈਕਟ ਸਮਝਣਾ ਅਤੇ ਕਲੀਨਿਕਲ ਟ੍ਰਾਇਲਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। AlphaFold ਦਾ ਪ੍ਰਭਾਵ ਸਰਲ ਵਾਕ ਵਿੱਚ ਇਹ ਹੈ ਕਿ ਖੋਜ ਤੇਜ਼ ਹੋ ਗਈ—ਸ਼ੁਰੂਆਤੀ ਨੁਕਤੇ ਬਿਹਤਰ ਹੋ ਗਏ—ਪਰ ਇਨ੍ਹਾਂ ਤੋਂ ਸਿੱਧਾ ਉਪਚਾਰ ਨਹੀਂ ਤੁਰੰਤ ਬਣਦਾ।
Hassabis ਦਾ ਕੰਮ ਅਕਸਰ AlphaGo ਜਾਂ AlphaFold ਵਰਗੀਆਂ ਸਿਰਲੇਖੀ ਘਟਨਾਵਾਂ ਰਾਹੀਂ ਵਰਣਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਪਰ ਵੱਧ ਲਾਇਕ ਸਬਕ ਇਹ ਹੈ ਕਿ DeepMind ਨੇ ਆਪਣੇ ਯਤਨਾਂ ਨੂੰ ਕਿਸ ਢੰਗ ਨਾਲ ਲਗਾਇਆ: ਸਾਫ਼ ਲਕੜੀ, ਮਾਪਯੋਗ ਪ੍ਰਗਤੀ, ਅਤੇ ਲਗਾਤਾਰ ਇਟਰੇਸ਼ਨ।
DeepMind ਦੇ ਪ੍ਰੋਜੈਕਟ ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਸਟ੍ਰਾਟਜੀਕ ਟੀਚੇ ("ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਕਾਰਜ ਹੱਲ ਕਰੋ") ਅਤੇ ਇੱਕ ਇਮਾਨਦਾਰ ਸਕੋਰਬੋਰਡ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੇ ਹਨ। ਉਹ ਸਕੋਰਬੋਰਡ ਲੋੜੀਂਦਾ ਹੈ ਕਿਉਂਕਿ ਇਹ ਟੀਮਾਂ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਡੈਮੋਆਂ ਨੂੰ ਅਸਲੀ ਸਮਰੱਥਾ ਨਾ ਮੰਨਣ ਦਿੰਦਾ।
ਜਦ ਮੁਲਾਂਕਣ ਸੈੱਟ ਹੋ ਜਾਂਦਾ ਹੈ, ਕੰਮ ਇਟਰੇਟਿਵ ਬਣ ਜਾਂਦਾ ਹੈ: ਬਣਾਓ, ਟੈਸਟ ਕਰੋ, ਜੇ ਕੁਝ ਫੇਲ ਹੋਇਆ ਤਾਂ ਸਿੱਖੋ, ਤਰੀਕੇ ਸੋਧੋ, ਦੁਹਰਾਓ। ਜਦ ਤਕ ਇਹ ਲੂਪ ਕੰਮ ਨਹੀਂ ਕਰਨ ਲੱਗਦਾ, ਤਾਂ ਫਿਰ ਸਕੇਲ ਕਰੋ—ਜਿਆਦਾ ਡੇਟਾ, ਵੱਧ ਕੰਪਿਊਟ, ਲੰਮੀ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਆਕਸਰ ਵੱਡਾ, ਬਿਹਤਰ-ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਮਾਡਲ। ਜਲਦੀ ਸਕੇਲ ਕਰਨ ਨਾਲ ਸਿਰਫ਼ ਗੁੰਝਲ ਹੋਣ ਤੇ ਤੇਜ਼ੀ ਆ ਸਕਦੀ ਹੈ।
ਪਹਿਲੀਆਂ AI ਪ੍ਰਣਾਲੀਆਂ 'ਚ ਲੋਕਾਂ ਨੇ ਖਾਸ ਨਿਯਮ ਲਿਖੇ ("ਜੇ X, ਤਾਂ Y करो"). DeepMind ਦੀਆਂ ਸਫਲਤਾਵਾਂ ਦਿਖਾਉਂਦੀਆਂ ਹਨ ਕਿ ਸਿੱਖੇ ਹੋਏ ਪ੍ਰਤੀਨਿਧੀਆਂ ਤੇਜ਼ੀ ਨਾਲ ਬਿਹਤਰ ਹਨ: ਸਿਸਟਮ ਅਨੁਭਵ ਤੋਂ ਫਾਇਦੇਮੰਦ ਪੈਟਰਨ ਅਤੇ ਅਬਸਟਰੈਕਸ਼ਨ ਖੋਜਦਾ ਹੈ।
ਇਹ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਅਸਲੀ ਸਮੱਸਿਆਵਾਂ ਵਿੱਚ ਕਈ ਗੁੰਝਲਦਾਰ ਐਡਜ ਕੇਸ ਹੁੰਦੇ ਹਨ। ਨਿਯਮ ਅਕਸਰ ਤੋੜ ਜਾਂਦੇ ਹਨ ਜਦ ਕਠਿਨਾਈ ਵਧੇ, ਜਦਕਿ ਸਿੱਖੀਆਂ ਹੋਈਆਂ ਪ੍ਰਤੀਨਿਧੀਆਂ ਬਹੁਤ ਵਧੇਰੇ ਜਨਰਲਾਈਜ਼ ਕਰ ਸਕਦੀਆਂ ਹਨ—ਖਾਸ ਕਰਕੇ ਜਦ ਉਨ੍ਹਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਟ੍ਰੇਨਿੰਗ ਸਿਗਨਲ ਅਤੇ ਧਿਆਨ-ਭਰਿਆ ਮੁਲਾਂਕਣ ਮਿਲੇ।
DeepMind ਅੰਦਾਜ਼ ਦੀ ਇੱਕ ਖਾਸੀਅਤ ਹੈ ਵੱਖ-ਵੱਖ ਵਿਭਾਗਾਂ ਦੀ ਟੀਮਵਰਕ। ਥਿਊਰੀ ਦਿਖਾਉਂਦਾ ਕਿ ਕੀ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ, ਇੰਜੀਨੀਅਰਿੰਗ ਉਸਨੂੰ ਸਕੇਲ 'ਤੇ ਟ੍ਰੇਨ ਕਰਨ ਜੋਗਾ ਬਣਾਉਂਦੀ ਹੈ, ਅਤੇ ਪ੍ਰਯੋਗ ਸਭ ਨੂੰ ਸਚ ਦਿਖਾਉਂਦਾ ਹੈ। ਕਲਚਰ ਸਬੂਤਾਂ ਨੂੰ ਮੁੱਖ ਰੱਖਦੀ ਹੈ: ਜਦ ਨਤੀਜੇ ਅਨੁਮਾਨਾਂ ਨਾਲ ਟਕਰਾਉਂਦੇ ਹਨ, ਟੀਮ ਡੇਟਾ ਦਾ ਪਾਲਣ ਕਰਦੀ ਹੈ।
ਜੇ ਤੁਸੀਂ ਉਤਪਾਦ ਸੈਟਿੰਗ ਵਿੱਚ AI ਲਗਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਸਬਕ ਇਹ ਨਹੀਂ ਕਿ "ਮਾਡਲ ਦੀ ਨਕਲ ਕਰੋ"—ਸਗੋਂ "ਤਰੀਕੇ ਦੀ ਨਕਲ ਕਰੋ":
ਜੇ ਤੁਹਾਡੇ ਲਕੜੀ ਦਾ ਮਕਸਦ ਇਹ ਹੈ ਕਿ ਇਹ ਅੰਦਰੂਨੀ ਟੂਲ ਨੂੰ ਜਲਦੀ ਤਿਆਰ ਕਰੇ (ਬਿਨਾਂ ਇੱਕ ਪੂਰੇ ਇੰਜੀਨੀਅਰਿੰਗ ਪਾਈਪਲਾਈਨ ਨੂੰ ਦੁਬਾਰਾ ਬਣਾਉਣ ਦੇ), ਤਾਂ vibe-coding ਪਲੇਟਫਾਰਮ ਵਰਗਾ Koder.ai ਤੁਹਾਨੂੰ ਪ੍ਰੋਟੋਟਾਈਪ ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਸ਼ਿਪ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ: ਤੁਸੀਂ ਚੈਟ ਵਿੱਚ ਐਪ ਦਾ ਵਰਣਨ ਕਰੋ, React ਵੈੱਬ UI ਪੈਦਾ ਕਰੋ, Go ਬੈਕਐਂਡ ਨਾਲ PostgreSQL ਜੋੜੋ, ਅਤੇ Planning Mode, snapshots ਅਤੇ rollback ਨਾਲ ਇਟਰੇਟ ਕਰੋ। ਟੀਮਾਂ ਲਈ, ਸੋਰਸ-ਕੋਡ ਐਕਸਪੋਰਟ ਅਤੇ ਡਿਪਲੋਇ/ਹੋਸਟਿੰਗ ਵਿਕਲਪ ਪ੍ਰੋਟੋਟਾਈਪ ਤੋਂ "ਨੇੜੇ-ਮਾਲਕੀ" ਪ੍ਰੋਡਕਸ਼ਨ ਕੋਡ ਤੱਕ ਜਾਣਾ ਆਸਾਨ ਬਣਾਉਂਦੇ ਹਨ—ਬਿਨਾਂ ਤੁਹਾਨੂੰ ਕੇਵਲ ਡੈਮੋ 'ਤੇ ਫਸਣ ਦੇ।
ਜਦ AI ਪ੍ਰਣਾਲੀਆਂ ਕਿਸੇ ਖਾਸ ਟਾਸਕ 'ਤੇ ਮਨੁੱਖਾਂ ਦੇ ਸਮਰੱਥਾ ਦੇ ਬਰਾਬਰ ਜਾਂ ਉਪਰ ਹੋਣ ਲੱਗਦੀਆਂ ਹਨ, ਗੱਲਬਾਤ "ਅਸੀਂ ਇਹ ਬਣਾ ਸਕਦੇ ਹਾਂ?" ਤੋਂ ਬਦਲ ਕੇ "ਹੁਣ ਇਸਨੂੰ ਕਿਵੇਂ ਤਿਆਰ ਤੇ ਤਾਇਨਾਤ ਕਰੀਏ?" ਵਿੱਚ ਆ ਜਾਂਦੀ ਹੈ। ਉਹੀ ਸਮਰੱਥਾਵਾਂ—ਤੇਜ਼ੀ, ਸਕੇਲ, ਅਤੇ ਸੁਤੰਤਰਤਾ—ਗਲਤੀਆਂ ਜਾਂ ਗਲਤ ਉਪਯੋਗ ਨੂੰ ਵੀ ਜ਼ਿਆਦਾ ਨੁਕਸਾਨਦਾਇਕ ਬਣਾ ਦਿੰਦੀਆਂ ਹਨ।
ਵੱਧ ਸਮਰੱਥਾਵਾਲੇ ਮਾਡਲਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਨਿਰਮਾਤਿਆਂ ਦੀ ਮਨਸ਼ਾ ਤੋਂ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ 'ਚ ਮੁੜ-ਉਪਯੋਗ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ: ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਗਲਤ ਜਾਣਕਾਰੀ ਬਣਾਉਣਾ, ਸਾਇਬਰ ਹਮਲਿਆਂ ਨੂੰ ਆਟੋਮੇਟ ਕਰਨਾ, ਜਾਂ ਹਾਨਿਕਾਰਕ ਫੈਸਲਿਆਂ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਲਾਗੂ ਕਰਨਾ। ਬਿਨਾਂ ਮਨੁੱਖੀ ਮਨਸੂਬੇ ਦੇ ਵੀ ਗਲਤੀਆਂ ਵੱਡੇ ਅਸਰ ਪੈਦਾ ਕਰ ਸਕਦੀਆਂ ਹਨ—ਗਲਤ ਮੈਡੀਕਲ ਸੁਝਾਅ, ਪੱਖਪਾਤੀ ਭਰਤੀ ਫਿਲਟਰ, ਜਾਂ ਇੱਕ ਬੇਇਮਾਨ ਸਾਰ-ਸੰਖੇਪ ਜਿਸਨੂੰ ਤਥ੍ਯ ਵਜੋਂ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਹੋਵੇ।
ਸੰਸਥਾਵਾਂ ਲਈ ਜੋ ਅੱਗੇ ਦੇ ਸਿਸਟਮ ਬਣਾ ਰਹੀਆਂ ਹਨ, ਸੁਰੱਖਿਆ ਵੀ ਇੱਕ ਪ੍ਰਯੋਗਤਕ ਮੁੱਦਾ ਹੈ: ਭਰੋਸਾ ਖੋਹਣਾ, ਨਿਯਮਕ ਜੋਖਮ, ਅਤੇ ਅਸਲ ਦੁਨੀਆ ਨੂੰ ਨੁਕਸਾਨ ਪਹੁੰਚਣਾ ਤਕਨੀਕੀ ਸੀਮਾਵਾਂ ਨਾਲੋ ਬਰਾਬਰ ਤਰੱਕੀ ਨੂੰ ਠਪ ਵੀ ਕਰ ਸਕਦੇ ਹਨ।
ਜ਼ਿੰਮੇਵਾਰ ਵਿਕਾਸ ਆਮ ਤੌਰ 'ਤੇ ਹਾਈਪ ਉੱਪਰ ਨਹੀਂ, ਸਬੂਤ ਉੱਪਰ ਧਿਆਨ ਰੱਖਦਾ ਹੈ:
ਇਹਨਾਂ ਕਦਮਾਂ ਨਾਲ ਸੁਰੱਖਿਆ ਦੀ ਗਾਰੰਟੀ ਨਹੀਂ ਹੁੰਦੀ, ਪਰ ਇਹਨਾਂ ਨਾਲ ਸੰਭਾਵਨਾ ਘੱਟ ਹੁੰਦੀ ਹੈ ਕਿ ਮਾਡਲ ਦੀ ਸਭ ਤੋਂ ਅਨੋਖੀ ਵਰਤੋਂ ਲੋਕਾਂ ਨੇ ਬਾਹਰ ਜਾ ਕੇ ਹੀ ਪਤਾ ਲਗਾਈ।
ਖੁੱਲ੍ਹਾ ਵਿਗਿਆਨ ਅਤੇ ਜੋਖਮ ਪ੍ਰਬੰਧਨ ਵਿਚ ਇੱਕ ਸੱਚੀ ਦਵਧਾ ਹੋ ਸਕਦੀ ਹੈ। ਤਰੀਕਿਆਂ ਨੂੰ ਪ੍ਰਕਾਸ਼ਿਤ ਕਰਨ ਅਤੇ ਮਾਡਲ ਵੇਟਾਂ ਰਿਲੀਜ਼ ਕਰਨ ਨਾਲ ਖੋਜ ਤੇਜ਼ ਹੋ ਸਕਦੀ ਹੈ ਅਤੇ ਪਾਰਦਰਸ਼ੀਤਾ ਆਉਂਦੀ ਹੈ, ਪਰ ਇਹ ਬੁਰੇ ਨੀਰਦੇਸ਼ੀਆਂ ਲਈ ਰੁਕਾਵਟ ਘਟਾ ਸਕਦਾ ਹੈ। ਤੇਜ਼ੀ ਨਾਲ ਅੱਗੇ ਵਧਣਾ ਮੁਕਾਬਲਤੀ ਲਾਭ ਦਿੰਦਾ ਹੈ, ਪਰ ਜਲਦੀ ਕਰਨ ਨਾਲ ਸਮਰੱਥਾ ਅਤੇ ਨਿਯੰਤਰਣ ਵਿਚ ਫਾਸਲਾ ਵਧ ਸਕਦਾ ਹੈ।
ਇੱਕ ਥੇਠਾ ਢੰਗ ਇਹ ਹੈ ਕਿ ਰਿਲੀਜ਼ ਫੈਸਲੇ ਸੰਭਾਵਤ ਪ੍ਰਭਾਵ ਦੇ ਅਨੁਸਾਰ ਹੋਣ: ਉੱਚ ਜੋਖਮ ਵਾਲੇ ਖੇਤਰਾਂ ਲਈ ਮੰਚ-ਬੰਦ ਰੋਲਆਊਟ, ਸਵਤੰਤਰ ਮੁਲਾਂਕਣ ਅਤੇ ਸੀਮਤ ਪਹੁੰਚ ਵਰਗੀ ਮਜ਼ਬੂਤ ਪ੍ਰਬੰਧਾਂ ਦੀ ਮੰਗ ਹੋਵੇ—ਕਮ ਤੋਂ ਕਮ ਜਦ ਤਕ ਜੋਖਮ ਭੰਗ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਸਮਝ ਵਿੱਚ ਨਾ ਆ ਜਾਵੇ।
Hassabis ਦੀਆਂ ਮੁੱਖ ਘਟਨਾਵਾਂ—DeepMind ਦਾ ਖੋਜ-ਪਹਿਲਾਂ ਕਲਚਰ, AlphaGo ਦਾ ਫੈਸਲਾ-ਲੈਣ ਵਿੱਚ ਬਦਲਾਅ, ਅਤੇ AlphaFold ਦਾ ਬਾਇਓਲੋਜੀ 'ਤੇ ਪ੍ਰਭਾਵ—ਇਕ ਵੱਡੇ ਬਦਲਾਅ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦੀਆਂ ਹਨ: ਜੇ ਤੁਸੀਂ ਇੱਕ ਸਪਸ਼ਟ ਟੀਚਾ ਨਿਰਧਾਰਤ ਕਰੋ, ਫੀਡਬੈਕ ਮੁਹੱਈਆ ਕਰਵਾਓ, ਅਤੇ ਲਰਨਿੰਗ ਨੂੰ ਸਕੇਲ ਕਰੋ, ਤਾਂ AI ਇੱਕ ਆਮ-ਉਦੇਸ਼ ਸਮੱਸਿਆ-ਹਲ ਕਰਨ ਵਾਲਾ ਟੂਲ ਬਣ ਰਿਹਾ ਹੈ।
ਇਸ ਦੇ ਨਾਲ-ਨਾਲ, ਇਹ ਜਿੱਤਾਂ ਇੱਕ ਨਮੂਨਾ ਵੀ ਦਿਖਾਉਂਦੀਆਂ ਹਨ। ਪ੍ਰਗਟਾਵਾਂ ਅਕਸਰ ਹੁੰਦੀਆਂ ਹਨ ਜਦ ਮਜ਼ਬੂਤ ਲਰਨਿੰਗ ਤਰੀਕੇ ਧਿਆਨ ਨਾਲ ਡਿਜ਼ਾਈਨ ਕੀਤੇ ਮਾਹੌਲ (ਖੇਡਾਂ, ਸਿਮੂਲੇਸ਼ਨ, ਬੈਂਚਮਾਰਕ) ਨਾਲ ਮਿਲਦੇ ਹਨ ਅਤੇ ਜਦ ਨਤੀਜੇ ਕਠੋਰ, ਜਨਤਕ ਮਾਪਣਾਂ ਨਾਲ ਟੈਸਟ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।
ਆਧੁਨਿਕ AI ਪੈਟਰਨ ਪਛਾਣਨ ਅਤੇ ਬੜੇ ਹੱਲ ਖੋਜਣ 'ਚ ਤੇਜ਼ ਹੈ—ਖ਼ਾਸ ਕਰਕੇ ਜਿਹੜੇ ਖੇਤਰ ਡੇਟਾ ਨਾਲ ਭਰੇ ਹੋਏ ਹਨ, ਦੁਹਰਾਅਯੋਗ ਨਿਯਮ ਹਨ, ਜਾਂ ਜਿੱਥੇ ਅੰਕ-ਪੈਮਾਨੇ ਤੇ ਨਤੀਜੇ ਨੂੰ ਰਨ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਸ ਵਿੱਚ ਪ੍ਰੋਟੀਨ ਸਟਰੱਕਚਰ ਭਵਿੱਖਬਾਣੀ, ਚਿੱਤਰ ਅਤੇ ਆਵਾਜ਼ ਕਾਰਜ, ਅਤੇ ਜਟਿਲ ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਅਪਟਿਮਾਈਜ਼ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ।
ਆਮ ਬਾਤਾਂ ਵਿੱਚ: AI ਚੋਣਾਂ ਨੂੰ ਘੱਟ ਕਰਨ, ਛੁਪੇ ਹੋਏ ਢਾਂਚੇ ਨੂੰ ਪਛਾਣਨ, ਅਤੇ ਤੇਜ਼ ਰਫ਼ਤਾਰ ਨਾਲ ਆਉਟਪੁੱਟ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਵਧੀਆ ਹੈ।
ਇਹ ਭਾਵੇਂ ਇੰਨੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋਣ ਦੇ ਬਾਵਜੂਦ ਵੀ ਸਿਖਲਾਈ ਦੇ ਬਾਹਰੀ ਸਥਿਤੀਆਂ ਵਿੱਚ ਕਮਜ਼ੋਰ ਹੋ ਸਕਦੇ ਹਨ। ਉਹ ਮੁਸ਼ਕਲੀਆਂ ਦਾ ਸਾਹਮਣਾ ਕਰ ਸਕਦੇ ਹਨ:
ਇਸ ਲਈ "ਵੱਡਾ" ਹੋਣਾ ਆਪਣੇ ਆਪ ਵਿੱਚ "ਜ਼ਿਆਦਾ ਸੁਰੱਖਿਅਤ" ਜਾਂ "ਜ਼ਿਆਦਾ ਸਮਝਦਾਰ" ਨਹੀਂ ਬਣਾਉਂਦਾ, ਜਿਵੇਂ ਲੋਕ ਉਮੀਦ ਕਰਦੇ ਹਨ।
ਜੇ ਤੁਸੀਂ ਗਹਿਰਾਈ ਨਾਲ ਜਾਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਇਹ ਉਨ੍ਹਾਂ ਵਿਚਾਰਾਂ 'ਤੇ ਧਿਆਨ ਦਿਓ ਜੋ ਇਹਨਾਂ ਮੋਹਰਿਆਂ ਨੂੰ ਜੋੜਦੇ ਹਨ: ਫੀਡਬੈਕ-ਚਲਿਤ ਲਰਨਿੰਗ, ਮੁਲਾਂਕਣ, ਅਤੇ ਜ਼ਿੰਮੇਵਾਰ ਤਰੀਕੇ ਨਾਲ ਤਾਇਨਾਤੀ।
/blog 'ਤੇ ਹੋਰ ਵਿਆਖਿਆ ਅਤੇ ਕੇਸ ਸਟਡੀਜ਼ ਦੇਖੋ।
/pricing 'ਤੇ ਵਿਕਲਪਾਂ ਦੀ ਤੁਲਨਾ ਕਰੋ ਜੇ ਤੁਸੀਂ ਸੋਚ ਰਹੇ ਹੋ ਕਿ AI ਤੁਹਾਡੀ ਟੀਮ ਨੂੰ ਕਿਵੇਂ ਸਹਾਇਤਾ ਦੇ ਸਕਦਾ ਹੈ।
/contact ਦੇ ਜ਼ਰੀਏ ਸਵਾਲ ਜਾਂ ਕਿਸੇ ਖ਼ਾਸ ਕਾਰਜ-ਕੇਸ ਲਈ ਪੁੱਛੋ।
Demis Hassabis ਇੱਕ ਬ੍ਰਿਟਿਸ਼ ਵਿਗਿਆਨੀ ਅਤੇ ਉਦਯੋਗਪਤੀ ਹੈ ਜਿਸਨੇ DeepMind ਦੀ ਕੋ-ਸਥਾਪਨਾ ਕੀਤੀ। ਉਹ AlphaGo (ਖੇਡ-ਖੇਡਣ) ਅਤੇ AlphaFold (ਪ੍ਰੋਟੀਨ ਸਟਰੱਕਚਰ ਅਨੁਮਾਨ) ਵਰਗੇ AI ਪ੍ਰਗਟਾਵਾਂ ਨਾਲ ਗਹਿਰੇ ਤੌਰ 'ਤੇ ਜੁੜੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੇ ਦਿਖਾਇਆ ਕਿ ਲਰਨਿੰਗ-ਅਧਾਰਿਤ ਪ੍ਰਣਾਲੀਆਂ ਨਿਰਧਾਰਤ, ਖਾਸ ਟਾਸਕਾਂ 'ਤੇ ਮਨੁੱਖੀ ਮਾਹਰਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਬਰਾਬਰ ਜਾਂ ਉਸ ਤੋਂ ਉੱਪਰ ਪਹੁੰਚ ਸਕਦੀਆਂ ਹਨ।
ਇਸ ਦਾ ਅਰਥ ਆਮ ਤੌਰ 'ਤੇ ਨਿਰਧਾਰਿਤ ਬੈਂਚਮਾਰਕ ਟਾਸਕ 'ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਹੁੰਦਾ ਹੈ (ਉਦਾਹਰਨ ਲਈ Go ਮੈਚ ਜਿੱਤਣਾ ਜਾਂ ਪ੍ਰੋਟੀਨ ਸਟ੍ਰੱਕਚਰ ਦੀ ਸਹੀ ਭਵਿੱਖਬਾਣੀ)।
ਇਹ ਉਸ ਗੱਲ ਦਾ ਸਬੂਤ ਨਹੀਂ ਹੈ ਕਿ ਸਿਸਟਮ ਕੋਲ ਵਿਆਪਕ ਆਮ ਸਮਝ ਹੈ, ਬੇਹਤਰੀਨ ਤਰੀਕੇ ਨਾਲ ਡੋਮੇਨਾਂ ਵਿਚ ਹੁਨਰ ਟਰਾਂਸਫਰ ਕਰ ਸਕਦਾ ਹੈ, ਜਾਂ ਉਹ ਤਰੀਕੇ ਨਾਲ ਸੰਸਾਰ ਨੂੰ ਸਮਝਦਾ ਹੈ ਜਿਵੇਂ ਇਨਸਾਨ ਕਰਦੇ ਹਨ।
DeepMind ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਇੱਕ ਰਿਸਰਚ ਲੈਬ ਵਜੋਂ ਬਣਾਇਆ ਗਿਆ ਸੀ, ਜੋ ਸਰਲ ਐਪ ਬਣਾਉਣ ਦੀ ਬਜਾਏ ਆਮ-ਲਰਨਿੰਗ ਪ੍ਰਣਾਲੀਆਂ 'ਤੇ ਲੰਬੇ ਸਮੇਂ ਵਾਲੀ ਤਰੱਕੀ 'ਤੇ ਧਿਆਨ ਦਿੰਦਾ ਸੀ।
ਵਿਆਹਿਕ ਤੌਰ 'ਤੇ, ਇਸਦਾ ਮਤਲਬ ਸੀ:
Reinforcement learning (RL) ਇੱਕ ਐਸਾ ਤਰੀਕਾ ਹੈ ਜਿਥੇ ਸਿਸਟਮ ਕੋਸ਼ਿਸ਼ ਅਤੇ ਗਲਤੀ ਰਾਹੀਂ ਸਿੱਖਦਾ ਹੈ ਅਤੇ ਇੱਕ ਸਕੋਰ ਸੰਕੇਤ ("ਇਨਾਮ") ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਹਰ ਸਿੱਟੇ ਤੋਂ ਬਾਅਦ, ਸਿਸਟਮ ਆਪਣੀ ਰੁਤਬੇਬੰਦੀ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਂਦਾ ਹੈ ਤਾਂ ਜੋ ਲੰਬੇ ਸਮੇਂ 'ਚ ਵੱਧ ਕੁੱਲ ਇਨਾਮ ਮਿਲੇ।
ਇਹ ਉਸ ਵੇਲੇ ਖਾਸ ਤੌਰ 'ਤੇ ਲਾਗੂ ਹੁੰਦਾ ਹੈ ਜਦ:
Self-play ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਸਿਸਟਮ ਆਪਣੀਆਂ ਨਕਲਾਂ ਦੇ ਵਿਰੁੱਧ ਖੇਡ ਕੇ, ਮਨੁੱਖੀ ਲੇਬਲਿੰਗ ਦੇ ਬਿਨਾਂ, ਆਪਣਾ ਟ੍ਰੇਨਿੰਗ ਅਨੁਭਵ ਉਤਪੰਨ ਕਰਦਾ ਹੈ.
ਇਸ ਦੇ ਫਾਇਦੇ:
Go ਦੇ ਹੋਣ ਕਰਕੇ ਇਸਦਾ ਜੋ ਵੱਡਾ ਮੁੱਦਾ ਸੀ ਉਹ ਸੀ ਸੰਭਾਵਨਾਤਮਕ ਪੋਜ਼ੀਸ਼ਨਜ਼ ਦੀ ਭਾਰੀ ਗਿਣਤੀ—ਇਸ ਕਾਰਨ ਬਰੁਟ-ਫੋਰਸ ਹਿਸਾਬ ਨਿਰਸਾਰਕ ਸੀ। AlphaGo ਨੇ ਦਿਖਾਇਆ ਕਿ:
ਇਸ ਨੇ ਦਿਖਾਇਆ ਕਿ ਇਕ ਸੰਕਲਪਤ ਰੇਸੀਪੀ ਨਾਲ ਗਹਿਰੇ ਫੈਸਲਾ-ਲੇਣ ਵਾਲੇ ਮਾਹੌਲਾਂ 'ਚ ਵੀ ਮਨੁੱਖੀ ਸਿਰਲੇਖ ਤੋਂ ਉਪਰ ਜਾਇਆ ਜਾ ਸਕਦਾ ਹੈ—ਬਿਨਾਂ Go ਦੀ ਰਣਨੀਤੀ ਹੱਥ ਨਾਲ ਕੋਡ ਕੀਤੇ।
ਜਨਰਲਾਈਜੇਸ਼ਨ ਦਾ ਮਤਲਬ ਹੈ ਨਵੀਆਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਚੰਗਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨਾ ਜਿਨ੍ਹਾਂ 'ਤੇ ਸਿੱਖਿਆ ਨਹੀਂ ਦਿੱਤੀ ਗਈ।
ਇਹ ਚੈੱਕ ਕਰਨ ਦੇ ਤਰੀਕੇ:
ਬੈਂਚਮਾਰਕ ਇਕ ਸਾਂਝਾ ਸਕੋਰਬੋਰਡ ਦਿੰਦੇ ਹਨ, ਪਰ ਮਾਡਲ ਟੈਸਟ ਦੀਆਂ ਖਾਸੀਅਤਾਂ 'ਤੇ ਓਵਰਫਿਟ ਹੋ ਸਕਦੇ ਹਨ।
ਰੋਕਣ ਲਈ:
AlphaFold ਕਈ ਪ੍ਰੋਟੀਨ ਸਟ੍ਰੱਕਚਰਾਂ ਲਈ ਆਮ ਤੌਰ 'ਤੇ ਉੱਚ ਸਹੀਤਾ ਨਾਲ ਅਨੁਮਾਨ ਪੇਸ਼ ਕਰਦਾ ਹੈ।
ਇਸ ਦਾ ਕੀ ਅਸਰ ਹੈ:
ਪਰ ਇਹ ਤੇਜ਼ੀ ਨਾਲ ਦਵਾਈ ਨਹੀਂ ਬਣਾਉਂਦਾ—ਡਰੱਗ ਡਿਵੈਲਪਮੈਂਟ ਹਮੇਸ਼ਾ ਵੈਲਿਡੇਸ਼ਨ, ਟੈਸਟਿੰਗ ਅਤੇ ਕਲੀਨਿਕਲ ਟ੍ਰਾਇਲਾਂ ਦੀ ਮੰਗ ਕਰਦਾ ਹੈ।
ਛੋਟੇ-ਪਰਯੋਗਾਂ 'ਤੇ ਧਿਆਨ ਦੇ ਕੇ ਅਤੇ ਪ੍ਰਮਾਣਿਤ ਮਾਪਦੰਡ ਰੱਖ ਕੇ DeepMind ਦਾ ਢੰਗ ਇੱਕ ਸਰਲ ਰੇਸੀਪੀ 'goal → evaluation → iteration → scale' ਦੇ ਆਸਪਾਸ ਘੁੰਮਦਾ ਹੈ।
ਵੇਵਹਾਰਿਕ ਸੁਝਾਵ: