ਯਾਨ ਲੇਕੁਨ ਦੇ ਮੁੱਖ ਵਿਚਾਰ ਅਤੇ ਮਾਇਲਸਟੋਨ—CNNs ਅਤੇ LeNet ਤੋਂ ਲੈ ਕੇ ਆਧੁਨਿਕ ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਤੱਕ—ਦੇ ਬਾਰੇ ਜਾਣੋ ਅਤੇ ਕਿਉਂ ਉਸਦਾ ਕੰਮ ਅਜੇ ਵੀ AI ਨੂੰ ਰੂਪ ਦੇ ਰਿਹਾ ਹੈ।

ਯਾਨ ਲੇਕੁਨ ਉਹਨਾਂ ਖੋਜਕਾਰਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹਨ ਜਿਨ੍ਹਾਂ ਦੇ ਵਿਚਾਰ ਆਹਿਸ্তা-ਆਹਿਸ্তা ਆਧੁਨਿਕ AI ਦੇ “ਡਿਫ਼ਾਲਟ ਸੈਟਿੰਗ” ਬਣ ਗਏ। ਜੇ ਤੁਸੀਂ Face ID-ਸਟਾਈਲ ਅਨਲਾਕ, ਭੁੱਲ-ਚੁੱਕ-ਚਿੱਤਰ ਟੈਗਿੰਗ, ਜਾਂ ਕੋਈ ਵੀ ਸਿਸਟਮ ਜੋ ਚਿੱਤਰ ਵਿਚੋਂ ਚੀਜ਼ਾਂ ਪਛਾਣਦਾ ਹੈ ਵਰਤਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਉਹਨਾਂ ਡਿਜ਼ਾਈਨ ਚੋਣਾਂ ਨਾਲ ਰਿਹਾਇਸ਼ ਕਰ ਰਹੇ ਹੋ ਜਿਹਨਾਂ ਨੂੰ ਲੇਕੁਨ ਨੇ ਸਕੇਲ 'ਤੇ ਕਾਰਗਰ ਸਾਬਤ ਕੀਤਾ।
ਲੇਕੁਨ ਦਾ ਪ੍ਰਭਾਵ ਸਿਰਫ਼ ਇਕ ਅਵਿਸ਼ਕਾਰ ਤੱਕ ਸੀਮਿਤ ਨਹੀਂ ਹੈ। ਉਸਨੇ AI ਵਿੱਚ ਇੱਕ ਪ੍ਰਯੋਗਿਕ ਇੰਜੀਨੀਅਰਿੰਗ ਸੋਚ ਨੂੰ ਅਗੀਅਤ ਕੀਤਾ: ਅਜਿਹਾ ਸਿਸਟਮ ਬਣਾਓ ਜੋ ਅਸਲ ਡੇਟਾ ਤੋਂ ਉਪਯੋਗੀ ਪ੍ਰਤੀਨਿਧੀਆਂ ਸਿੱਖਣ, ਕਾਰਗਰ ਢੰਗ ਨਾਲ ਦੌੜਨ ਅਤੇ ਅਨੁਭਵ ਨਾਲ ਸੁਧਾਰਨ। ਇਹ ਮਿਲਾਪ—ਵਿਗਿਆਨਿਕ ਸਪਸ਼ਟਤਾ ਅਤੇ ਅਸਲ-ਦੁਨੀਆ ਪ੍ਰਦਰਸ਼ਨ 'ਤੇ ਜ਼ੋਰ—ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਪ੍ਰੋਡਕਟਾਂ ਤੋਂ ਲੈਕੇ ਅੱਜ ਦੇ ਮਾਡਲ-ਟ੍ਰੇਨਿੰਗ ਪਾਈਪਲਾਈਨਾਂ ਤੱਕ ਹਰ ਥਾਂ nazar ਆਉਂਦਾ ਹੈ।
ਡੀਪ ਲਰਨਿੰਗ ਇੱਕ ਵਿਆਪਕ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਹੈ: ਹੱਥ-ਲਿਖੇ ਨਿਯਮਾਂ ਦੀ ਥਾਂ ਬਹੁ-ਪਰਤ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਵਰਤ ਕੇ ਡੇਟਾ ਵਿੱਚੋਂ ਪੈਟਰਨ ਸਿੱਖਣਾ।
ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਇੱਕ ਟ੍ਰੇਨਿੰਗ ਰਣਨੀਤੀ ਹੈ: ਸਿਸਟਮ ਖ਼ੁਦ ਡੇਟਾ ਵਿੱਚੋਂ ਸਿੱਖਣ ਲਈ ਟਾਸਕ ਬਣਾਉਂਦਾ ਹੈ (ਉਦਾਹਰਨ ਵਜੋਂ ਗੁੰਮ ਹੋਏ ਹਿੱਸਿਆਂ ਦੀ ਪੇਸ਼ਗੋئی), ਤਾਂ ਜੋ ਇਹ ਬੇਲੇਬਲ ਡੇਟਾ ਦੀਆਂ ਵੱਡੀਆਂ ਮਾਤਰਾਵਾਂ ਤੋਂ ਸਿੱਖ ਸਕੇ। ਲੇਕੁਨ SSL ਦੇ ਵੱਡੇ ਪ੍ਰਮੋਟਰ ਹਨ ਕਿਉਂਕਿ ਇਹ ਮਨੁੱਖਾਂ ਅਤੇ ਜਾਨਵਰਾਂ ਦੇ ਸਿੱਖਣ ਦੇ ਢੰਗ ਨਾਲ ਵਧੇਰੇ ਮੇਲ ਖਾਂਦਾ ਹੈ—ਮੁਲਤਵੀ ਦੇਣ ਦੀ ਥਾਂ ਨਿਰੀਖਣ ਦੁਆਰਾ।
ਇਹ ਹਿੱਸਾ ਜੀਵਨੀ, ਹਿੱਸਾ ਮੁੱਖ ਵਿਚਾਰਾਂ ਦੀ ਸਫ਼ਰ-ਅਵਲੋਕਨ ਹੈ: ਪਹਿਲੇ ਨਿਊਰਲ-ਨੈੱਟਰਕ ਕੰਮ ਨੇ ਕਿਵੇਂ ਕਨਵੋਲੂਸ਼ਨਲ ਨੈੱਟਵਰਕ ਤੱਕ ਰਾਹ ਬਣਾਈ, ਕਿਉਂ ਪ੍ਰਤੀਨਿਧੀ ਲਰਨਿੰਗ ਕੇਂਦਰੀ ਹੋ ਗਈ, ਅਤੇ ਕਿਉਂ ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਹੁਣ ਹੋਰ ਸਮਰੱਥ AI ਵੱਲ ਇੱਕ ਗੰਭੀਰ ਰਾਹ ਹੈ। ਅਸੀਂ ਆਖ਼ਿਰ 'ਚ ਉਹ ਧਾਰਿਆਤਮਕ ਨੁਕਤੇ ਦਿਸਾਵਾਂਗੇ ਜੋ ਅੱਜ ਦੀਆਂ ਟੀਮਾਂ ਲਈ ਪ੍ਰਾਇਕਟਿਕਲ ਹਨ।
ਹੇਠਾਂ "ਗਾਡਫਾਥਰ ਆਫ਼ ਡੀਪ ਲਰਨਿੰਗ" ਦਾ ਲੇਬਲ ਇੱਕ ਲੋਕਪ੍ਰਿਯ ਛੋਟਾ ਸਾਕਮ ਹੈ (ਅਕਸਰ ਲੇਕੁਨ, Geoffrey Hinton ਅਤੇ Yoshua Bengio ਨੂੰ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ), ਨਾ ਕਿ ਕੋਈ ਅਧਿਕਾਰਿਕ ਖ਼ਿਤਾਬ। ਅਹੰਕਾਰ ਤੋਂ ਵੱਧ ਜੋ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ ਉਹ ਹੈ ਉਹਨਾਂ ਵਿਚਾਰਾਂ ਦਾ ਟ੍ਰੈਕ ਰਿਕਾਰਡ ਜੋ ਬੁਨਿਆਦ ਬਣੇ।
ਯਾਨ ਲੇਕੁਨ ਦੀ ਸ਼ੁਰੂਆਤੀ ਕੈਰੀਅਰ ਨੂੰ ਇੱਕ ਲੰਮੇ ਸਮੇਤ ਵਾਲੀ ਇੱਕ ਹੀ ਸੋਚ 'ਤੇ ਪੱਕਾ ਸੂਦਮੇਰੀ ਸਮਝਿਆ ਜਾ ਸਕਦਾ ਹੈ: ਕੰਪਿਊਟਰਾਂ ਨੂੰ ਕੱਚੇ ਡੇਟਾ ਤੋਂ ਸਹੀ ਫੀਚਰ ਸਿੱਖਣ ਚਾਹੀਦੇ ਹਨ, ਨਾਂ ਕਿ ਮਨੁੱਖੀ ਹੱਥ ਨਾਲ ਹਰ ਚੀਜ਼ ਡਿਜ਼ਾਈਨ ਕਰਵਾਈ ਜਾਵੇ।
1980 ਦੇ ਦਹਾਕੇ ਦੇ ਦਰਮਿਆਨੀ-ਅਖੀਰ ਵਿੱਚ, ਲੇਕੁਨ ਇੱਕ ਪ੍ਰਾਇਕਟਿਕਲ ਸਮੱਸਿਆ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ: ਗੰਦੇ ਅਸਲ-ਦੁਨੀਆ ਇਨਪੁੱਟਾਂ (ਜਿਵੇਂ ਚਿੱਤਰ) ਵਿੱਚੋਂ ਪੈਟਰਨ ਪਛਾਣਨਾ।
1980-90 ਦੇ ਅੰਤ ਅਤੇ 1990 ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ, ਉਹ ਉਹਨਾਂ ਨਿਊਰਲ-ਨੈੱਟਵਰਕ ਮੈਥਡਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾ ਰਹੇ ਸਨ ਜੋ end-to-end ਤਰੀਕੇ ਨਾਲ ਟ੍ਰੇਨ ਹੋ ਸਕਦੀਆਂ—ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਤੁਸੀਂ ਉਦਾਹਰਨ ਪੋਸ ਦਿੰਦੇ ਹੋ ਅਤੇ ਸਿਸਟਮ ਆਪਣੇ ਆਪ ਨੂੰ ਬਿਹਤਰ ਬਣਾਂਦਾ ਹੈ।
ਇਹ ਪੀਰੀਅਡ ਉਸ ਕੰਮ ਦਾ ਆਧਾਰ ਰੱਖਦਾ ਹੈ ਜਿਸਦੇ ਲਈ ਉਹ ਬਾਅਦ ਵਿੱਚ ਵਧੇਰੇ ਜਾਣੇ ਗਏ (ਜਿਵੇਂ CNNs ਅਤੇ LeNet), ਪਰ ਮੁੱਖ ਕਹਾਣੀ ਸੋਚ ਹੈ: ਨਿਯਮਾਂ 'ਤੇ ਤਰਕ ਕਰਨ ਦੀ ਥਾਂ ਡੇਟਾ ਤੋਂ ਸਿੱਖਣਾ ਸ਼ੁਰੂ ਕਰੋ।
ਅਨੇਕ ਪਹਿਲਾਂ ਵਾਲੀ AI ਇੰਟੇਲੀਜੈਂਸ ਨੂੰ ਸਪਸ਼ਟ ਨਿਯਮਾਂ ਵਜੋਂ ਕੋਡ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੀ ਸੀ: "ਜੇ X, ਤਾਂ Y"। ਇਹ ਸੰਕੁਚਿਤ ਹਾਲਾਤਾਂ ਵਿੱਚ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ, ਪਰ ਜਦੋਂ ਦੁਨੀਆ ਸ਼ੋਰਦਾਰ ਹੋਵੇ—ਵੱਖ-ਵੱਖ ਲਿਖਤਾਂ, ਰੋਸ਼ਨੀ ਦੀਆਂ ਤਬਦੀਲੀਆਂ, ਨਜ਼ਰੀਏ 'ਚ ਥੋੜ੍ਹੇ ਬਦਲ—ਤਾਂ ਇਹ ਤਕਲੀਫ਼ੀ ਹੁੰਦਾ ਹੈ।
ਲੇਕੁਨ ਦੀ ਸੋਚ ਸੰਖਿਆਤਮਕ ਲਰਨਿੰਗ ਵੱਲ ਝੁਕੀ: ਮਾਡਲ ਨੂੰ ਬਹੁਤਾਂ ਉਦਾਹਰਨਾਂ 'ਤੇ ਟ੍ਰੇਨ ਕਰੋ ਅਤੇ ਇਸਨੂੰ ਉਹਨਾਂ ਪੈਟਰਨਾਂ ਨੂੰ ਖੋਜਣ ਦਿਓ ਜਿਨ੍ਹਾਂ ਨੂੰ ਮਨੁੱਖ ਵੀ ਸਹੀ ਢੰਗ ਨਾਲ ਵਰਨਣ ਨਹੀਂ ਕਰ ਸਕਦੇ। ਹਜ਼ਾਰਾਂ "7" ਦੇ ਨਮੂਨੇ ਦਿਖਾਣ ਦੀ ਥਾਂ, ਸਿਸਟਮ ਨੂੰ ਉਹੀ ਪ੍ਰਤੀਨਿਧੀ ਸਿੱਖਣ ਦਿਓ ਜੋ "7" ਨੂੰ "1" ਜਾਂ "2" ਤੋਂ ਵੱਖਰਾ ਕਰਵੇ।
ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਲਕੜੀ ਇਹ ਨਹੀਂ ਸੀ ਕਿ ਸਿਰਫ਼ "ਸਹੀ ਜਵਾਬ" ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾਵੇ। ਮਕਸਦ ਸੀ ਉਪਯੋਗੀ ਅੰਦਰੂਨੀ ਪ੍ਰਤੀਨਿਧੀਆਂ ਸਿੱਖਣਾ—ਠੰਢੀਆਂ, ਦੁਬਾਰਾ ਵਰਤਣ ਯੋਗ ਫੀਚਰ ਜੋ ਅਗਲੇ ਫੈਸਲੇ ਆਸਾਨ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਇਹ ਥੀਮ ਉਸਦੇ ਬਾਅਦੀ ਕੰਮਾਂ ਜਿਵੇਂ ਬਿਹਤਰ ਵਿਜ਼ਨ ਮਾਡਲ, ਸਕੇਲ ਕਰਨ ਯੋਗ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਆਖ਼ਿਰਕਾਰ ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਵੱਲ ਧੱਕੇ ਜਾਣ ਵਿੱਚ ਵਰਤੀ ਗਈ।
CNNs ਇੱਕ ਕਿਸਮ ਦਾ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਹੈ ਜੋ ਚਿੱਤਰ ਵਰਗੇ ਗ੍ਰਿਡ-ਆਧਾਰਿਤ ਡੇਟਾ ਵਿੱਚ ਪੈਟਰਨਾਂ ਨੂੰ "ਦੇਖ" ਸਕਦਾ ਹੈ। ਉਨ੍ਹਾਂ ਦੀ ਮੁੱਖ ਚਾਲ ਕਨਵੋਲੂਸ਼ਨ ਹੈ।
ਕਨਵੋਲੂਸ਼ਨ ਨੂੰ ਇੱਕ ਛੋਟੇ ਪੈਟਰਨ ਡਿਟੈਕਟਰ ਵਜੋਂ ਸੋਚੋ ਜੋ ਚਿੱਤਰ 'ਤੇ ਸਲਾਇਡ ਕਰਦਾ ਹੈ। ਹਰ ਸਥਾਨ 'ਤੇ ਇਹ ਪੁੱਛਦਾ ਹੈ: "ਕੀ ਮੈਨੂੰ ਇੱਥੇ ਕੋਈ ਧਾਰ, ਕੋਣਾ, ਧਾਰੀ, ਜਾਂ ਟੈਕਸਚਰ ਵਿਆਪਤ ਦਿੱਸਦਾ ਹੈ?" ਉਹੀ ਡਿਟੈਕਟਰ ਹਰ ਜਗ੍ਹਾ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਜੋ ਜੇ ਪੈਟਰਨ ਕਿਸੇ ਹੋਰ ਥਾਂ ਤੇ ਹੋਵੇ ਤਾਂ ਵੀ ਇਹ ਉਸਨੂੰ ਪਛਾਣ ਸਕੇ।
ਲੋਕਲ ਕਨੈਕਟਿਵਟੀ: ਹਰ ਡਿਟੈਕਟਰ ਛੋਟੀ ਪੈਚ ਨੂੰ ਦੇਖਦਾ ਹੈ (ਸਾਰੇ ਚਿੱਤਰ ਨੂੰ ਨਹੀਂ). ਨੇੜਲੇ ਪਿਕਸਲ ਆਮ ਤੌਰ 'ਤੇ ਸੰਬੰਧਿਤ ਹੁੰਦੇ ਹਨ, ਇਸ ਨਾਲ ਸਿੱਖਣਾ آسان ਹੋ ਜਾਂਦਾ ਹੈ।
ਸ਼ੇਅਰ ਕੀਤੇ ਵਜ਼ਨ: ਸਲਾਇਡ ਹੋਣ ਵਾਲਾ ਡਿਟੈਕਟਰ ਹਰ ਥਾਂ ਉਹੀ ਨੰਬਰ (ਵਜ਼ਨ) ਵਰਤਦਾ ਹੈ। ਇਸ ਨਾਲ ਪੈਰਾਮੀਟਰ ਘੱਟ ਹੁੰਦੇ ਹਨ ਅਤੇ ਮਾਡਲ ਨੂੰ ਵੱਖ-ਵੱਖ ਥਾਵਾਂ 'ਤੇ ਉਹੀ ਫੀਚਰ ਪਛਾਣਨ ਵਿੱਚ ਮਦਦ ਮਿਲਦੀ ਹੈ।
ਪੂਲਿੰਗ (ਜਾਂ ਡਾਊਨਸੈਂਪਲਿੰਗ): ਫੀਚਰਾਂ ਦੀ ਪਛਾਣ ਤੋਂ ਬਾਅਦ, ਨੈੱਟਵਰਕ ਨੇੜਲੇ ਜਵਾਬਾਂ ਦਾ ਸਾਰ ਸੰਖੇਪ ਕਰਦਾ ਹੈ (ਜਿਵੇਂ ਕਿ ਮੈਕਸ ਜਾਂ ਔਸਤ). ਪੂਲਿੰਗ ਮਜ਼ਬੂਤ ਸੰਕੇਤ ਰੱਖਦੀ ਹੈ, ਆਕਾਰ ਘਟਾਉਂਦੀ ਹੈ, ਅਤੇ ਇਸ ਨਾਲ ਥੋੜ੍ਹੀ ਬਹੁਤ ਤਰਲਤਾ ਆਉਂਦੀ ਹੈ ਤਾਂ ਕਿ ਛੋਟੀ-ਥੋਟੀ ਖਿਸਕਣਾਂ ਪਛਾਣ ਨੂੰ ਖਰਾਬ ਨਾ ਕਰਨ।
ਚਿੱਤਰਾਂ ਵਿੱਚ ਧਾਂਚਾ ਹੁੰਦਾ ਹੈ: ਨੇੜਲੇ ਪਿਕਸਲ ਆਮ ਤੌਰ 'ਤੇ ਅਰਥਪੂਰਨ ਆਕਾਰ ਬਣਾਉਂਦੇ ਹਨ; ਇੱਕੋ ਵਸਤੂ ਕਿਸੇ ਵੀ ਥਾਂ ਤੇ ਦਿਖਾਈ ਦੇ ਸਕਦੀ ਹੈ; ਅਤੇ ਪੈਟਰਨ ਵਾਰ-ਵਾਰ ਦੋਹਰਾਏ ਜਾਂਦੇ ਹਨ। CNNs ਇਹ ਧਾਰਨਾਵਾਂ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਦਾਖਲ ਕਰਦੇ ਹਨ, ਇਸ ਲਈ ਉਹ ਘੱਟ ਡੇਟਾ ਅਤੇ ਕੰਪਿਊਟ ਨਾਲ ਦ੍ਰਿਸ਼ਟੀ ਸਬੰਧੀ ਉਪਯੋਗੀ ਫੀਚਰ ਸਿੱਖ ਲੈਂਦੇ ਹਨ।
CNN ਸਿਰਫ਼ "ਇੱਕ ਵੱਡਾ ਕਲਾਸੀਫਾਇਰ" ਨਹੀਂ ਹੈ। ਇਹ ਇੱਕ ਫੀਚਰ-ਬਿਲਡਿੰਗ ਪਾਈਪਲਾਈਨ ਹੈ: ਸ਼ੁਰੂਆਤੀ ਲੇਅਰਾਂ ਵਿਚ ਧਾਰ ਮਿਲਦੇ ਹਨ, ਦਰਮਿਆਨੀ ਲੇਅਰਾਂ ਉਹਨਾਂ ਨੂੰ ਹਿੱਸਿਆਂ ਵਿੱਚ ਜੋੜਦੇ ਹਨ, ਅਤੇ ਬਾਅਦੀ ਲੇਅਰ ਹਿੱਸਿਆਂ ਨੂੰ ਵਸਤੂਆਂ ਵਿੱਚ ਇਕੱਠਾ ਕਰਦੇ ਹਨ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, CNNs ਕਿਸੇ ਦ੍ਰਿਸ਼ ਨੂੰ ਅੰਦਰੋਂ-ਅੰਦਰ "ਅਰਥ" ਨਹੀਂ ਸਮਝਦੇ; ਉਹ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਤੋਂ ਅੰਕੜਿਆਂਕ ਸੂਚਨਾਂ ਨੂੰ ਸਿੱਖਦੇ ਹਨ। ਇਸੀ ਲਈ ਡੇਟਾ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਮੁਲਾਂਕਣ ਮਾਡਲ ਦੇ ਬਰਾਬਰ ਜਰੂਰੀ ਹਨ।
LeNet ਯਾਨ ਲੇਕੁਨ ਤੇ ਉਸਦੇ ਸਹਿਯੋਗੀਆਂ ਵੱਲੋਂ 1990 ਦੇ ਦਹਾਕੇ ਵਿੱਚ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਇੱਕ ਸਾਫ਼-ਸੁਥਰਾ ਅਰਜਨਾ-ਧਾਰਿਤ ਉਦਾਹਰਨ ਹੈ ਜਿਸਨੇ ਦਿਖਾਇਆ ਕਿ ਡੀਪ ਲਰਨਿੰਗ ਸਿਰਫ਼ ਰੁਚਿਕਰ ਨਹੀਂ, ਬਲਕਿ ਉਪਯੋਗੀ ਵੀ ਹੋ ਸਕਦੀ ਹੈ। ਇਹ ਮੁੱਖ ਤੌਰ 'ਤੇ ਹੱਥ ਲਿਖਤ ਅੰਕਾਂ ਦੀ ਪਛਾਣ ਲਈ ਬਣਾਇਆ ਗਿਆ ਸੀ—ਖਾਸ ਕਰਕੇ ਚੈਕਾਂ ਅਤੇ ਸਕੈਨ ਕੀਤੀਆਂ ਦਸਤਾਵੇਜ਼ਾਂ ਉੱਤੇ ਮਿਲਦੇ ਅੰਕ।
ਉੱਚ-ਸਤ੍ਹਾ ਤੇ, LeNet ਇੱਕ ਚਿੱਤਰ (ਜਿਵੇਂ ਇਕ ਛੋਟਾ ਗ੍ਰੇਸਕੇਲ ਕ੍ਰਾਪ ਜ਼ਿਸ ਵਿਚ ਇੱਕ ਅੰਕ ਹੋਵੇ) ਲੈਂਦਾ ਅਤੇ ਇੱਕ ਕਲਾਸੀਫਿਕੇਸ਼ਨ (0–9) ਨਿਕਾਲਦਾ ਸੀ। ਹੁਣ ਇਹ ਆਮ ਲੱਗਦਾ ਹੈ, ਪਰ ਇਹ ਇਸ ਲਈ ਮਹੱਤਵਪੂਰਨ ਸੀ ਕਿ ਇਸ ਨੇ ਪੂਰੇ ਪਾਈਪਲਾਈਨ ਨੂੰ ਇਕੱਠਾ ਕੀਤਾ: ਫੀਚਰ ਐਕਸਟ੍ਰੈਕਸ਼ਨ ਅਤੇ ਕਲਾਸੀਫਾਇਰ ਦੋਹਾਂ ਨੂੰ ਇਕੱਠੇ ਸਿੱਖਾਇਆ ਗਿਆ।
ਹੱਥ-ਤਿਆਰ ਨਿਯਮਾਂ ਦੇ ਬਦਲੇ LeNet ਨੇ ਲੇਬਲਡ ਉਦਾਹਰਨਾਂ ਤੋਂ ਅੰਦਰੂਨੀ ਵਿਜ਼ੂਅਲ ਫੀਚਰ ਸਿੱਖੇ।
LeNet ਦਾ ਪ੍ਰਭਾਵ ਚਮਕਦਾਰ ਡੈਮੋ 'ਤੇ ਨਹੀਂ ਸੀ—ਇਹ ਇਸ ਲਈ ਮਹੱਤਵਪੂਰਨ ਸੀ ਕਿਉਂਕਿ ਇਸਨੇ ਦਿਖਾਇਆ ਕਿ ਐਂਡ-ਟੂ-ਐਂਡ ਸਿੱਖਣ ਅਸਲ ਵਿਜ਼ਨ ਟਾਸਕਾਂ ਲਈ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ:
ਇਹ "ਫੀਚਰ ਅਤੇ ਕਲਾਸੀਫਾਇਰ ਨੂੰ ਇਕੱਠੇ ਸਿੱਖੋ" ਵਾਲੀ ਸੋਚ ਬਾਅਦ ਦੀਆਂ ਡੀਪ ਲਰਨਿੰਗ ਕਾਮਯਾਬੀਆਂ ਲਈ ਇੱਕ ਵੱਡਾ ਜੋੜ ਹੈ।
ਅੱਜ ਡੀਪ ਲਰਨਿੰਗ ਵਿੱਚ ਜੋ ਅਦਤਾਂ ਸਧਾਰਨ ਲੱਗਦੀਆਂ ਹਨ, ਉਨ੍ਹਾਂ ਵਿੱਚੋਂ ਕਈ LeNet ਦੀ ਮੂਲ ਦਰਸ਼ਨ ਵਿੱਚ ਦਿਸਦੀਆਂ ਹਨ:
ਅਜਿਹੇ ਸਮੇਂ ਜਦੋਂ ਮਾਡਲ ਵੱਧ ਡੇਟਾ, ਵੱਧ ਕੰਪਿਊਟ ਅਤੇ ਜ਼ਿਆਦਾ ਪਰਤੀ-ਘਰਤ ਆਰਕੀਟੈਕਚਰ ਵਰਤਦੇ ਹਨ, LeNet ਨੇ ਇਹ ਆਮ ਸਮਝ ਸਥਾਪਿਤ ਕੀਤੀ ਕਿ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਪ੍ਰਤਿਆਸ਼ਿਤ ਇੰਜੀਨੀਅਰਿੰਗ ਟੂਲ ਹੋ ਸਕਦੇ ਹਨ—ਖਾਸ ਕਰਕੇ ਧਾਰਨਾ ਸੰਬੰਧੀ ਸਮੱਸਿਆਵਾਂ ਲਈ।
ਇਹ ਦਾਅਵਾ ਥੋੜ੍ਹਾ ਸੰਭਾਲ ਕੇ ਰੱਖਣਾ ਚਾਹੀਦਾ ਹੈ: LeNet ਨਾ ਤਾਂ "ਪਹਲਾ ਡੀਪ ਨੈੱਟਵਰਕ" ਸੀ ਅਤੇ ਨਾ ਹੀ ਇਸਨੇ ਇੱਕੱਲਾ ਡੀਪ ਲਰਨਿੰਗ ਬੂਮ ਸ਼ੁਰੂ ਕੀਤਾ। ਪਰ ਇਹ ਇਕ ਵਿਆਪਕ ਮੀਲ ਦਾ ਪੱਥਰ ਹੈ ਜੋ ਦਿਖਾਉਂਦਾ ਕਿ ਸਿੱਖੀਆਂ ਹੋਈਆਂ ਪ੍ਰਤੀਨਿਧੀਆਂ ਹੱਥ-ਤਿਆਰ ਪਾਈਪਲਾਈਨਾਂ ਤੋਂ ਬਿਹਤਰ ਨਤੀਜੇ ਦੇ ਸਕਦੀਆਂ ਹਨ।
ਪ੍ਰਤੀਨਿਧੀ ਲਰਨਿੰਗ ਇਹ ਵਿਚਾਰ ਹੈ ਕਿ ਇੱਕ ਮਾਡਲ ਸਿਰਫ਼ ਅੰਤਿਮ ਜਵਾਬ ਨਹੀਂ ਸਿੱਖਣਾ ਚਾਹੀਦਾ (ਜਿਵੇਂ "ਬਿੱਲੀ" ਜਾਂ "ਕੁੱਤਾ")—ਉਸਨੂੰ ਉਪਯੋਗੀ ਅੰਦਰੂਨੀ ਫੀਚਰ ਸਿੱਖਣੇ ਚਾਹੀਦੇ ਹਨ ਜੋ ਕਈ ਕਿਸਮ ਦੇ ਫੈਸਲਿਆਂ ਨੂੰ ਆਸਾਨ ਬਣਾਉਂ।
ਇੱਕ ਗੰਦਲ ਸਲਾਈ ਨੂੰ ਸੌਂਭਣ ਵਾਲੇ ਇੱਕ ਕਬਾਟ ਦੀ ਧਾਰਨਾ ਕਰੋ। ਤੁਸੀਂ ਹਰ ਆਈਟਮ ਨੂੰ ਇੱਕ-ਇੱਕ ਕਰਕੇ ਲੇਬਲ ਕਰਨ ਦੀ ਥਾਂ ਪਹਿਲਾਂ ਵਰਗੀ-ਵਰਗੀ ਸ਼੍ਰੇਣੀਆਂ ਬਣਾਉ—ਮੌਸਮ ਅਨੁਸਾਰ, ਕਿਸਮ ਅਨੁਸਾਰ, ਆਕਾਰ ਅਨੁਸਾਰ—ਅਤੇ ਫਿਰ ਉਹਨਾਂ ਤੋਂ ਚੀਜ਼ਾਂ ਲਭਣਾ ਤੇਜ਼ ਹੋਵੇਗਾ।
ਹੋਰ-ਅਨੁਪਯੋਗ "ਰੇਪਰੇਜ਼ੈਂਟੇਸ਼ਨ" ਉਹ ਵਰਗੀ ਸ਼੍ਰੇਣੀਆਂ ਹਨ: ਇੱਕ ਸੰਘਣੀ ਤਰੀਕਾ ਜੋ ਕਈ ਡਾਊਨਸਟਰੀਮ ਟਾਸਕਾਂ ਨੂੰ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ।
ਡੀਪ ਲਰਨਿੰਗ ਤੋਂ ਪਹਿਲਾਂ, ਟੀਮਾਂ ਆਮ ਤੌਰ 'ਤੇ ਹੱਥ-ਤਿਆਰ ਫੀਚਰਾਂ ਬਣਾਉਂਦੀਆਂ ਸਨ: ਐਜ ਡਿਟੈਕਟਰ, ਟੈਕਸਚਰ ਵੇਰਵੇ, ਧਿਆਨ ਨਾਲ ਟਿਊਨ ਕੀਤੇ ਨਾਪ। ਇਸ ਤਰੀਕੇ ਦੀਆਂ ਦੋ ਵੱਡੀਆਂ ਸੀਮਾਵਾਂ ਹਨ:
ਲੇਕੁਨ ਦੀ ਮੁੱਖ ਯੋਗਦਾਨ—ਜੋ ਕਨਵੋਲੂਸ਼ਨਲ ਨੈੱਟਵਰਕਾਂ ਦੇ ਜ਼ਰੀਏ ਪ੍ਰਚਲਿਤ ਹੋਈ—ਇਹ ਦਰਸਾਉਣਾ ਸੀ ਕਿ ਡੇਟਾ ਤੋਂ ਸਿੱਖੀਆਂ ਹੋਈਆਂ ਫੀਚਰਾਂ ਨੂੰ ਹੱਥ-ਤਿਆਰ ਪਾਈਪਲਾਈਨਾਂ ਨਾਲੋਂ ਅਕਸਰ ਬਿਹਤਰ ਨਤੀਜੇ ਮਿਲਦੇ ਹਨ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਸਮੱਸਿਆਵਾਂ ਗੰਦਲ ਅਤੇ ਵੱਖ-ਵੱਖ ਹੋ ਜਾ ਰਹੀਆਂ ਹਨ।
ਜਦ ਮਾਡਲ ਨੇ ਇੱਕ ਮਜ਼ਬੂਤ ਪ੍ਰਤੀਨਿਧੀ ਸਿੱਖ ਲਈ, ਤੁਸੀਂ ਉਸਨੂੰ ਦੁਬਾਰਾ ਵਰਤ ਸਕਦੇ ਹੋ। ਇੱਕ ਨੈੱਟਵਰਕ ਜੋ ਆਮ ਵਿਜ਼ੂਅਲ ਧਾਂਚਾ ਸਿੱਖ ਚੁੱਕਾ ਹੈ (ਧਾਰ → ਆਕਾਰ → ਹਿੱਸੇ → ਵਸਤੂਆਂ) ਨੂੰ ਨਵੇਂ ਟਾਸਕਾਂ ਲਈ ਘੱਟ ਡੇਟਾ ਨਾਲ ਅਡੈਪਟ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ: ਖ਼ਰਾਬੀ ਪਛਾਣ, ਮੈਡੀਕਲ ਇਮੇਜਿੰਗ ਟ੍ਰਾਇਏਜ, ਉਤਪਾਦ ਮੇਲ-ਮਿਲਾਪ ਆਦਿ।
ਇਹੀ ਪ੍ਰਯੋਗਿਕ ਜਾਦੂ ਹੈ: ਤੁਸੀਂ ਹਰ ਵਾਰੀ ਸ਼ੁਰੂ ਤੋਂ ਨਹੀਂ ਰਚ ਰਹੇ—ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ ਦੁਬਾਰਾ ਵਰਤਣ ਯੋਗ "ਸਮਝ" ਮੌਜੂਦ ਹੈ।
ਜੇ ਤੁਸੀਂ ਟੀਮ ਸੰਦਰਭ ਵਿੱਚ AI ਬਣਾ ਰਹੇ ਹੋ, ਪ੍ਰਤੀਨਿਧੀ ਲਰਨਿੰਗ ਇੱਕ ਸਧਾਰਨ ਪ੍ਰਾਥਮਿਕਤਾ ਕ੍ਰਮ ਸੁਝਾਉਂਦੀ ਹੈ:
ਇਨ੍ਹਾਂ ਤਿੰਨ ਚੀਜ਼ਾਂ ਨੂੰ ਠੀਕ ਕਰਨ ਨਾਲ, ਵਧੀਆ ਪ੍ਰਤੀਨਿਧੀਆਂ ਅਤੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਆਮ ਤੌਰ 'ਤੇ ਮਿਲਦੇ ਹਨ।
ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ AI ਲਈ ਇੱਕ ਢੰਗ ਹੈ ਕਿ ਉਹ ਕੱਚੇ ਡੇਟਾ ਨੂੰ ਆਪਣੀ ਹੀ "ਕੁਇਜ਼" ਬਣਾਉਂਦਾ ਹੈ। ਹਰ ਉਦਾਹਰਨ ਨੂੰ ਮਨੁੱਖੀ ਤੌਰ 'ਤੇ ਲੇਬਲ ਕਰਨ ਦੀ ਥਾਂ, ਸਿਸਟਮ ਡੇਟਾ ਵਿੱਚੋਂ ਇੱਕ ਪੇਸ਼ਗੋਈ ਟਾਸਕ ਬਣਾਂਦਾ ਹੈ ਅਤੇ ਇਸਨੂੰ ਸਹੀ ਪਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ।
ਇਸਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਸੋਚੋ: ਭਾਸ਼ਾ ਨੂੰ ਪੜ੍ਹ ਕੇ ਸਿੱਖਣਾ—ਤੁਹਾਨੂੰ ਹਰ ਵਾਕ ਨੂੰ ਨਾਲ-by-ਨਾਲ ਟਿੱਪਣੀ ਕਰਨ ਵਾਲੇ ਅਧਿਆਪਕ ਦੀ ਲੋੜ ਨਹੀਂ; ਤੁਸੀਂ ਅਗਲਾ ਸ਼ਬਦ ਅਨੁਮਾਨ ਲਗਾ ਕੇ ਪੈਟਰਨ ਸਿੱਖ ਸਕਦੇ ਹੋ।
ਕੁਝ ਆਮ SSL ਟਾਸਕ ਆਸਾਨੀ ਨਾਲ ਸਮਝ ਆਉਂਦੇ ਹਨ:
ਲੇਬਲਿੰਗ ਸست, ਮਹਿੰਗੀ ਅਤੇ ਅਕਸਰ ਅਸਥਿਰ ਹੁੰਦੀ ਹੈ। SSL ਉਹ ਵੱਡੀ ਮਾਤਰਾ ਦੇ ਬੇਲੇਬਲ ਡੇਟਾ ਨੂੰ ਵਰਤ ਸਕਦੈ—ਫੋਟੋਆਂ, ਦਸਤਾਵੇਜ਼, ਕਾਲ ਰਿਕਾਰਡਿੰਗ, ਸੈਂਸਰ ਲੌਗ—ਤਾਂ ਜੋ ਆਮ ਪ੍ਰਤੀਨਿਧੀਆਂ ਸਿੱਖੀਆਂ ਜਾ ਸਕਣ। ਫਿਰ, ਇੱਕ ਛੋਟੀ ਲੇਬਲਡ ਡੇਟਾ ਨਾਲ, ਤੁਸੀਂ ਮਾਡਲ ਨੂੰ ਕਿਸੇ ਖਾਸ ਕੰਮ ਲਈ ਫਾਈਨ-ਟਿਊਨ ਕਰ ਸਕਦੇ ਹੋ।
ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਮਾਡਰਨ ਸਿਸਟਮਾਂ ਦੇ ਹਵਾਲੇ ਨਾਲ ਬਹੁਤ ਸਥਾਨਾਂ 'ਤੇ ਮੁੱਖ ਇੰਜਨ ਹੈ:
ਸੁਪਰਵਾਈਜ਼ਡ, ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਅਤੇ ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਵਿਚਕਾਰ ਚੋਣ ਮੁੱਖ ਤੌਰ 'ਤੇ ਇੱਕ ਗੱਲ ਬਾਰੇ ਹੈ: ਤੁਹਾਡੇ ਕੋਲ ਕਿਸ ਕਿਸਮ ਦਾ ਸੰਕੇਤ ਸਕੇਲ ਤੇ ਮਿਲ ਸਕਦਾ ਹੈ।
ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਉਹ ਹੈ ਜਿਸ ਵਿੱਚ ਇਨਪੁੱਟ ਨਾਲ ਮਨੁੱਖ-ਪ੍ਰਦੱਤ ਲੇਬਲ ਜੋੜੇ ਹੁੰਦੇ ਹਨ (ਜਿਵੇਂ, "ਇਸ ਫੋਟੋ ਵਿੱਚ ਬਿੱਲੀ ਹੈ")। ਜੇ ਲੇਬਲ ਸਹੀ ਹਨ ਤਾਂ ਇਹ ਸਿੱਧਾ ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੁੰਦਾ ਹੈ।
ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਬਿਨਾਂ ਲੇਬਲ ਦੇ ਢਾਂਚਾ ਲੱਭਦਾ ਹੈ (ਉਦਾਹਰਨ ਲਈ, ਗਾਹਕਾਂ ਨੂੰ ਵਰਤੋਂ ਆਧਾਰ ਤੇ ਕਲੱਸਟਰ ਕਰਨਾ)। ਇਹ ਵਰਤੋਂਯੋਗ ਹੈ, ਪਰ "ਢਾਂਚਾ" ਕੋਈ ਵਿਸ਼ੇਸ਼ ਕਾਰੋਬਾਰੀ ਲਕੜੀ ਨਾਲ ਸਿੱਧਾ ਨਹੀਂ ਜੁੜਦਾ।
ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਇੱਕ ਪ੍ਰਾਇਕਟਿਕਲ ਮੱਧ-ਮਾਰਗ ਹੈ: ਇਹ ਡੇਟਾ ਤੋਂ ਖੁਦ ਟਾਰਗੈੱਟ ਬਣਾਉਂਦਾ ਹੈ (ਮਿਸਿੰਗ ਸ਼ਬਦ/ਪੈਚ ਦੀ ਪੇਸ਼ਗੋਈ), ਇਸ ਤਰ੍ਹਾਂ ਤੁਸੀਂ ਹਾਲਾਂਕਿ ਮੈਨੂਅਲ ਲੇਬਲ ਦੀ ਲੋੜ ਨਹੀਂ ਰੱਖਦੇ, ਪਰ ਸਿੱਖਣ ਸੰਕੇਤ ਮਿਲਦਾ ਹੈ।
ਲੇਬਲ ਕੀਮਤੀ ਹੁੰਦੇ ਹਨ ਜਦ:
ਲੇਬਲ ਬੋਟਲਨੇਕ ਬਣ ਜਾਂਦੇ ਹਨ ਜਦ:
ਆਮ ਪੈਟਰਨ:
ਇਸ ਨਾਲ ਆਮ ਤੌਰ 'ਤੇ ਲੇਬਲ ਦੀ ਲੋੜ ਘਟਦੀ ਹੈ, ਕਮ ਡੇਟਾ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਰਦਾ ਹੈ, ਅਤੇ ਨਜ਼ਦੀਕੀ ਟਾਸਕਾਂ 'ਤੇ ਟਰਾਂਸਫਰ ਚੰਗਾ ਹੁੰਦਾ ਹੈ।
ਸਭ ਤੋਂ ਚੰਗੀ ਚੋਣ ਆਮ ਤੌਰ 'ਤੇ ਲੇਬਲਿੰਗ ਸਮਰੱਥਾ, ਤਬਦੀਲੀ ਦੀ ਉਮੀਦ, ਅਤੇ ਤੁਸੀਂ ਮਾਡਲ ਤੋਂ ਕਿੰਨੀ ਪਹੁੰਚਚਹੁੰਦੇ ਹੋ ਉਸ ਤੋਂ ਪ੍ਰਭਾਵਿਤ ਹੁੰਦੀ ਹੈ।
Energy-based models (EBMs) ਸਿੱਖਣ ਦੇ ਇੱਕ ਤਰੀਕੇ ਹਨ ਜੋ "ਰੈਂਕਿੰਗ" ਦੇ ਨੇੜੇ ਹਾਂ—ਨਾ ਕਿ ਸਿਰਫ਼ "ਲੇਬਲ"। ਇਕ EBM ਇੱਕ ਸਕੋਰਿੰਗ ਫੰਕਸ਼ਨ ਸਿੱਖਦਾ ਹੈ: ਜੋ ਕੰਫਿਗਰੇਸ਼ਨ ਠੀਕ ਲੱਗਦੇ ਹਨ ਉਹਨਾਂ ਨੂੰ ਘੱਟ "energy" (ਚੰਗਾ ਸਕੋਰ) ਮਿਲਦਾ ਹੈ, ਅਤੇ ਗਲਤ-ਲੱਗਣ ਵਾਲੇ ਕੰਫਿਗਰੇਸ਼ਨ ਨੂੰ ਉੱਚੀ energy ਮਿਲਦੀ ਹੈ।
ਇੱਕ "ਕੰਫਿਗਰੇਸ਼ਨ" ਕਈ ਚੀਜ਼ਾਂ ਹੋ ਸਕਦੀ ਹੈ: ਇਕ ਚਿੱਤਰ ਅਤੇ ਉਸਦਾ ਪ੍ਰਸਤਾਵਿਤ ਕੈਪਸ਼ਨ, ਇਕ ਅਧੂਰਾ ਦ੍ਰਿਸ਼ ਅਤੇ ਗੁੰਮ ਹੋਈਆਂ ਵਸਤੂਆਂ, ਜਾਂ ਇੱਕ ਰੋਬੋਟ ਦੀ ਸਥਿਤੀ ਅਤੇ ਇੱਕ ਕਦਮ। EBM ਦਾ ਕੰਮ ਇਹ ਕਹਿਣਾ ਹੈ: "ਇਹ ਜੋੜ ਮਿਲਦਾ ਹੈ" (ਘੱਟ energy) ਜਾਂ "ਇਹ ਅਸੰਗਤ ਦਿਸਦਾ ਹੈ" (ਉੱਚ energy)।
ਇਹ ਵਿਚਾਰ ਤਾਕਤਵਰ ਹੈ ਕਿਉਂਕਿ ਇਹ ਦੁਨੀਆਂ ਨੂੰ ਇੱਕ ਹੀ ਲੇਬਲ ਤੱਕ ਸੀਮਤ ਨਹੀਂ ਕਰਦਾ। ਤੁਸੀਂ ਵੱਖ-ਵੱਖ ਵਿਕਲਪਾਂ ਦੀ ਤੁਲਨਾ ਕਰ ਸਕਦੇ ਹੋ ਅਤੇ ਸਭ ਤੋਂ ਵਧੀਆ ਸਕੋਰਿੰਗ ਵਾਲਾ ਚੁਣ ਸਕਦੇ हो—ਜੋ ਮਨੁੱਖ ਅਕਸਰ ਕੀਤਾ ਕਰਦੇ ਹਨ: ਵਿਕਲਪਾਂ 'ਤੇ ਵਿਚਾਰ ਕਰੋ, ਅਸੰਭਵੇਂ ਨਕਾਰੋ, ਅਤੇ ਸੁਧਾਰੋ।
ਖੋਜਕਾਰ EBMs ਨੂੰ ਇਸ ਲਈ ਚੁਣਦੇ ਹਨ ਕਿ ਇਹ ਲਚਕੀਲੇ ਟ੍ਰੇਨਿੰਗ ਉਦੇਸ਼ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ। ਤੁਸੀਂ ਮਾਡਲ ਨੂੰ ਸਿੱਖਾ ਸਕਦੇ ਹੋ ਕਿ ਅਸਲ ਉਦਾਹਰਨਾਂ ਨੂੰ ਘੱਟ energy 'ਤੇ ਧੱਕੋ ਅਤੇ ਗਲਤ/ਨੈਗੇਟਿਵ ਉਦਾਹਰਨਾਂ ਨੂੰ ਉੱਚ energy 'ਤੇ ਧੱਕੋ। ਇਹ ਡੇਟਾ ਵਿੱਚੋਂ ਲਾਗੂ ਢਾਂਚੇ, ਪਾਬੰਦੀਆਂ ਅਤੇ ਸੰਬੰਧ ਸਿੱਖਣ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰ ਸਕਦਾ ਹੈ—ਜਦਕਿ ਇਨਪੁੱਟ-ਟੁ-ਆਉਟਪੁੱਟ ਨਕਸ਼ਾ ਨੂੰ ਰਟਣਾ ਘਟ ਸਕਦਾ ਹੈ।
ਲੇਕੁਨ ਨੇ ਇਸ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਨੂੰ ਵਿਆਪਕ ਲક્ષਾਂ ਜਿਵੇਂ "world models" ਨਾਲ ਜੋੜਿਆ ਹੈ: ਅੰਦਰੂਨੀ ਮਾਡਲ ਜੋ ਦੁਨੀਆ ਕਿਵੇਂ ਕੰਮ ਕਰਦੀ ਹੈ ਇਹ ਕੈਪਚਰ ਕਰਦੇ ਹਨ। ਜੇ ਇੱਕ ਮਾਡਲ ਵਸਤੁਆਂ/ਪ੍ਰਸਤਾਵਾਂ ਦੀ ਯਥਾਰਥਪਨਤਾ ਨੂੰ ਸਕੋਰ ਕਰ ਸਕਦਾ ਹੈ, ਤਾਂ ਇਹ ਯੋਜਨਾ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ—ਉਮੀਦਵਾਰ ਭਵਿੱਖਾਂ ਜਾਂ ਕਾਰਵਾਈ ਲੜੀਆਂ ਦੀ ਮੁਲਾਂਕਣ ਕਰਕੇ ਉਹਨਾਂ ਨੂੰ ਚੁਣ ਕੇ ਜੋ ਹਕੀਕਤ ਨਾਲ ਮਿਲਦੇ-ਜੁਲਦੇ ਹਨ।
ਲੇਕੁਨ ਉਹਨਾਂ शीर्ष AI ਖੋਜਕਾਰਾਂ ਵਿੱਚ ਅਨੋਖੇ ਹਨ ਜਿਨ੍ਹਾਂ ਦਾ ਪ੍ਰਭਾਵ ਅਕਾਦਮਿਕ ਖੋਜ ਅਤੇ ਵੱਡੇ ਉਦਯੋਗੀ ਲੈਬ ਦੋਹਾਂ 'ਤੇ ਫੈਲਾ ਹੋਇਆ ਹੈ। ਯੂਨੀਵਰਸਿਟੀਆਂ ਅਤੇ ਰਿਸਰਚ ਇੰਸਟੀਚਿਊਟਾਂ ਵਿੱਚ ਉਸਦਾ ਕੰਮ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਨੂੰ ਹੱਥ-ਤਿਆਰ ਫੀਚਰਾਂ ਦੀ ਥਾਂ ਇੱਕ ਵੱਡਾ ਵਿਕਲਪ ਬਣਾਉਣ ਲਈ ਅਜੰਡਾ ਤੈਅ ਕਰਨ ਵਿੱਚ ਮਦਦਗਾਰ ਸੀ—ਇਹ ਵਿਚਾਰ ਬਾਅਦ ਵਿੱਚ ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਅਤੇ ਹੋਰ ਖੇਤਰਾਂ ਵਿਚ ਡਿਫਾਲਟ ਹੋ ਗਿਆ।
ਇੱਕ ਖੋਜ ਖੇਤਰ ਸਿਰਫ਼ ਪੇਪਰਾਂ ਰਾਹੀਂ ਅੱਗੇ ਨਹੀਂ ਵਧਦਾ; ਇਹ ਉਹ ਸਮੁੂਹ ਵੀ ਹੈ ਜੋ ਫੈਸਲਾ ਕਰਦਾ ਹੈ ਕਿ ਅਗਲੇ ਕੀ ਬਣਾਏ ਜਾਣ, ਕਿਹੜੇ ਬੈਂਚਮਾਰਕ ਵਰਤੇ ਜਾਣ ਅਤੇ ਕਿਹੜੀਆਂ ਵਿਚਾਰਧਾਰਾਂ ਨੂੰ ਸਕੇਲ ਕੀਤਾ ਜਾਵੇ। ਗਰੁੱਪਾਂ ਦਾ ਨੇਤृत्व ਅਤੇ ਸਟੂਡੈਂਟ/ਰੀਸਰਚਰਾਂ ਦੀ ਮਾਂਦਰੀ ਸੁਝਾਅ ਲੇਕੁਨ ਨੇ ਪ੍ਰਤੀਨਿਧੀ ਲਰਨਿੰਗ ਅਤੇ ਬਾਅਦ ਵਿੱਚ SSL ਨੂੰ ਲੰਬੇ ਸਮੇਂ ਵਾਲੇ ਪ੍ਰੋਗਰਾਮਾਂ ਬਣਾਉਣ 'ਤੇ ਧੱਕਿਆ।
ਉਦਯੋਗੀ ਲੈਬ ਕੁਝ ਪ੍ਰਾਇਕਟਿਕਲ ਕਾਰਨਾਂ ਕਰਕੇ ਮਹੱਤਵਪੂਰਨ ਹਨ:
Meta AI ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਵਾਤਾਵਰਣ ਦਾ ਇੱਕ ਪ੍ਰਮੁੱਖ ਉਦਾਹਰਨ ਹੈ: ਐਸਾ ਥਾਂ ਜਿੱਥੇ ਬੁਨਿਆਦੀ ਖੋਜ ਟੀਮਾਂ ਵਿਚਾਰਾਂ ਨੂੰ ਸਕੇਲ 'ਤੇ ਅਜ਼ਮਾ ਸਕਦੀਆਂ ਹਨ ਅਤੇ ਦੇਖ ਸਕਦੀਆਂ ਹਨ ਕਿ ਮਾਡਲ-ਚੋਣਾਂ ਅਸਲ ਸਿਸਟਮਾਂ 'ਤੇ ਕਿਵੇਂ ਪ੍ਰਭਾਵ ਪਾਂਦੀਆਂ ਹਨ।
ਜਦੋਂ ਨੇਤਾ ਖੋਜ ਨੂੰ ਬਿਹਤਰ ਪ੍ਰਤੀਨਿਧੀਆਂ, ਘੱਟ ਲੇਬਲਾਂ ਤੇ ਨਿਰਭਰਤਾ, ਅਤੇ ਮਜ਼ਬੂਤ ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਵੱਲ ਧੱਕਦੇ ਹਨ, ਉਹਨਾਂ ਦੀਆਂ ਪ੍ਰਾਥਮਿਕਤਾਵਾਂ ਆਉਟਪੁੱਟ ਟੂਲਾਂ 'ਤੇ ਛਾ ਜਾਂਦੀਆਂ ਹਨ—ਚਿੱਤਰ ਅਯੋਜਨ, ਅਨੁਵਾਦ, ਪਹੁੰਚਯੋਗਤਾ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜਿਵੇਂ ਚਿੱਤਰ ਵਰਣਨ, ਸਮੱਗਰੀ ਸਮਝ ਅਤੇ ਸੁਝਾਅ। ਯੂਜ਼ਰਾਂ ਨੂੰ "ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ" ਸ਼ਬਦ ਨਾ ਵੀ ਪਤਾ ਹੋਵੇ, ਫਿਰ ਵੀ ਨਤੀਜਾ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਮਾਡਲ ਤੇਜ਼ੀ ਨਾਲ ਅਨੁਕੂਲ ਹੋ ਜਾਂਦੇ ਹਨ, ਘੱਟ ਐਨੋਟੇਸ਼ਨ ਚਾਹੀਦੀ ਹੈ, ਅਤੇ ਅਸਲ-ਦੁਨੀਆ ਦੀਆਂ ਵਿਆਪਕਤਾ ਨੂੰ ਬੇਹਤਰ ਢੰਗ ਨਾਲ ਹਲ ਕਰਦੇ ਹਨ।
2018 ਵਿੱਚ, ਯਾਨ ਲੇਕੁਨ ਨੂੰ ACM A.M. Turing Award ਦਿੱਤਾ ਗਿਆ—ਜਿਸਨੂੰ ਅਕਸਰ "ਕੰਪਿਊਟਿੰਗ ਦਾ ਨੋਬਲ" ਕਹਿੰਦੇ ਹਨ। ਇਸ ਇਨਾਮ ਨੇ ਮੂਲ ਰੂਪ ਵਿੱਚ ਇਹ ਸਵੀਕਾਰਿਆ ਕਿ ਡੀਪ ਲਰਨਿੰਗ ਨੇ ਖੇਤਰ ਨੂੰ ਬਦਲ ਦਿੱਤਾ: ਵਿਜ਼ਨ ਜਾਂ ਸਪੀਚ ਲਈ ਹੱਥ-ਲਿਖੇ ਨਿਯਮਾਂ ਦੀ ਥਾਂ, ਸਿਸਟਮਾਂ ਨੂੰ ਡੇਟਾ ਤੋਂ ਉਪਯੋਗੀ ਫੀਚਰ ਸਿੱਖਣ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਨਿਰਕਸ਼ਨ ਅਤੇ ਪ੍ਰਯੋਗਿਕ ਉਪਯੋਗਤਾਵਾਂ ਵਿੱਚ ਵੱਡੇ ਨੁਕਤਰੇ ਆਏ।
ਇਹ ਸਨਮਾਨ Geoffrey Hinton ਅਤੇ Yoshua Bengio ਦੇ ਨਾਲ ਸਾਂਝਾ ਕੀਤਾ ਗਿਆ। ਇਹ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਆਧੁਨਿਕ ਡੀਪ ਲਰਨਿੰਗ ਦੀ ਕਹਾਣੀ ਕਈ ਗਰੁੱਪਾਂ ਨੇ ਮਿਲ ਕੇ ਬਣਾਈ—ਕਈ ਵਾਰ ਪੈਰਲਲ ਵਿੱਚ, ਕਈ ਵਾਰ ਇੱਕ-ਦੂਜੇ ਦੇ ਕੰਮ 'ਤੇ ਨਿਰਭਰ ਹੋ ਕੇ।
ਇਹ ਕਿਸੇ ਇਕ ਕਾਗਜ਼ ਜਾਂ ਮਾਡਲ ਬਾਰੇ ਨਹੀਂ ਸੀ। ਇਹ ਕਈ ਸਾਲਾਂ ਵਾਲੇ ਵਿਚਾਰਾਂ ਦੇ ਆਰਕ ਬਾਰੇ ਸੀ ਜੋ ਅਸਲ-ਦੁਨੀਆ ਸਿਸਟਮਾਂ ਵਿੱਚ ਤਬਦੀਲ ਹੋ ਗਏ—ਖਾਸ ਕਰਕੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਦਾ ਸਕੇਲ 'ਤੇ ਟ੍ਰੇਨ ਕਰਨ ਯੋਗ ਹੋਣਾ ਅਤੇ ਪ੍ਰਤੀਨਿਧੀਆਂ ਸਿੱਖਣਾ ਜੋ ਜਨਰਲਾਈਜ਼ ਕਰਦੀਆਂ ਹਨ।
ਇਨਾਮਾਂ ਨਾਲ ਇਹ ਦਰਸਾਉਣਾ ਆਸਾਨ ਹੁੰਦਾ ਹੈ ਕਿ ਤਰੱਕੀ ਕੁਝ "ਨਾਇਕਾਂ" ਰਾਹੀਂ ਹੁੰਦੀ ਹੈ, ਪਰ ਹਕੀਕਤ zyada ਸਮੁਦਾਇਕ ਹੈ:
ਇਸ ਲਈ Turing Award ਇੱਕ ਟਰਨਿੰਗ-ਪਾਇੰਟ 'ਤੇ ਧਿਆਨ ਖਿੱਚਦਾ ਹੈ—ਇੱਕ ਸਮੁਦਾਇ ਦੁਆਰਾ ਚਲ੍ਹੀ ਤਰੱਕੀ—ਜਿੱਥੇ ਲੇਕੁਨ, Hinton ਅਤੇ Bengio ਨੇ ਡੀਪ ਲਰਨਿੰਗ ਨੂੰ ਦੋਹਾਂ ਯੋਗ ਅਤੇ ਤਿਆਰ ਕੀਤਾ।
ਡੀਪ ਲਰਨਿੰਗ ਦੀ ਸਫ਼ਲਤਾ ਦੇ ਬਾਵਜੂਦ, ਲੇਕੁਨ ਦਾ ਕੰਮ ਇੱਕ ਜ਼ਿੰਮੇਵਾਰ ਚਰਚਾ ਦੇ ਅੰਦਰ ਬੈਠਦਾ ਹੈ: ਅੱਜ ਦੇ ਸਿਸਟਮ ਕੀ ਅੱਛਾ ਕਰਦੇ ਹਨ, ਉਹ ਕਿੱਥੇ ਅਜੇ ਵੀ ਘਾਟੀਆਂ ਹਨ, ਅਤੇ ਕਿਹੜੀਆਂ ਖੋਜ ਦਿਸ਼ਾਵਾਂ ਉਹ ਤੁਲਨਾ ਬੰਦ ਕਰਨ ਦਿਆਂ ਹਨ।
ਕੁਝ ਮੁੜ-ਮੁੜ ਉਠਦੇ ਪ੍ਰਸ਼ਨ AI ਲੈਬਾਂ ਅਤੇ ਉਤਪਾਦ ਟੀਮਾਂ 'ਚ ਵੱਖ-ਵੱਖ ਮਿਲਦੇ ਹਨ:
ਡੀਪ ਲਰਨਿੰਗ ਇਤਿਹਾਸਕ ਤੌਰ 'ਤੇ ਡੇਟਾ-ਭੁੱਖੀ ਰਿਹਾ ਹੈ: ਸੁਪਰਵਾਈਜ਼ਡ ਮਾਡਲ ਵੱਡੇ ਲੇਬਲਡ ਡੇਟਾਸੇਟ ਮੰਗ ਸਕਦੇ ਹਨ ਜੋ ਇਕੱਠੇ ਕਰਨ ਵਿੱਚ ਮਹਿੰਗੇ ਅਤੇ ਪੱਖਪਾਤੀ ਹੋ ਸਕਦੇ ਹਨ।
ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਅਣਸਮਾਨ ਹੈ। ਮਾਡਲ ਬੈਂਚਮਾਰਕਸ 'ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਦਿਸ ਸਕਦੇ ਹਨ ਪਰ ਅਜੇ ਵੀ ਗੰਦਲੇ ਅਸਲ ਸੈਟਿੰਗਾਂ 'ਚ ਮੁਸ਼ਕਲਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ—ਨਵੀਆਂ ਆਬਾਦੀਆਂ, ਨਵਿਆਂ ਜੰਤਰਾਂ, ਨਵੀਆਂ ਨੀਤੀਆਂ। ਇਹੀ ਕਾਰਨ ਹੈ ਕਿ ਟੀਮਾਂ ਮਾਨੀਟਰਿੰਗ, ਰੀਟ੍ਰੇਨਿੰਗ ਅਤੇ ਇੱਕ ਹੀ ਟੈਸਟ ਸੈਟ ਤੋਂ ਆਗੇ ਮੁਲਾਂਕਣ 'ਚ ਭਾਰੀ ਨਿਵੇਸ਼ ਕਰਦੀਆਂ ਹਨ।
SSL ਲੇਬਲਾਂ 'ਤੇ ਨਿਰਭਰਤਾ ਘਟਾ ਕੇ ਕੱਚੇ ਡੇਟਾ ਵਿੱਚ ਮੌਜੂਦ ਢਾਂਚੇ ਤੋਂ ਸਿੱਖਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੀ ਹੈ—ਗੁੰਮ ਹਿੱਸਿਆਂ ਦੀ ਪੇਸ਼ਗੋਈ, ਅਸਥਿਰਤਾਵਾਂ ਸਿੱਖਣਾ, ਜਾਂ ਇਕੋ ਸਮਾਨ ਸਮੱਗਰੀ ਦੇ ਵੱਖ-ਵੱਖ ਦ੍ਰਿਸ਼ਟੀ-ਰੂਪਾਂ ਨੂੰ ਲਾਈਨ ਕਰਨਾ।
ਵਾਅਦਾ ਸਧਾਰਨ ਹੈ: ਜੇ ਇੱਕ ਸਿਸਟਮ ਵੱਡੇ ਬੇਲੇਬਲ ਡੇਟਾ ਤੋਂ ਉਪਯੋਗੀ ਪ੍ਰਤੀਨਿਧੀਆਂ ਸਿੱਖ ਸਕੇ, ਤਾਂ ਨਿਰਧਾਰਿਤ ਟਾਸਕ ਲਈ ਛੋਟੇ ਲੇਬਲਡ ਡੇਟਾਸੇਟ ਵੀ ਕਾਫ਼ੀ ਹੋ ਸਕਦੇ ਹਨ। SSL ਆਮ ਤੌਰ 'ਤੇ ਵਧੇਰੇ ਜਨਰਲ ਫੀਚਰ ਸਿੱਖਣ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ ਜੋ ਵੱਖ-ਵੱਖ ਸਮੱਸਿਆਵਾਂ 'ਤੇ ਟਰਾਂਸਫਰ ਹੋ ਸਕਦੇ ਹਨ।
ਕੀ ਸਾਬਤ: SSL ਅਤੇ ਪ੍ਰਤੀਨਿਧੀ ਲਰਨਿੰਗ ਤੋਂ ਪਹਿਲਾਂ ਕੀਤੇ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਨੇ ਟਾਸਕਾਂ 'ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਦੁਬਾਰਾ ਵਰਤੋਂ ਨੂੰ ਬਹੁਤ ਬਿਹਤਰ ਕੀਤਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਜਦ ਲੇਬਲ ਘੱਟ ਹੋਣ।
ਜੋ ਅਜੇ ਖੋਜ ਹੈ: ਭਰੋਸੇਮੰਦ ਤਰੀਕੇ ਨਾਲ world models, ਯੋਜਨਾ ਅਤੇ ਕੰਪੋਜ਼ੀਸ਼ਨਲ reasoning ਸਿੱਖਣਾ; distribution shift ਦੇ ਦੌਰਾਨ ਅਸਫਲਤਾਵਾਂ ਰੋਕਣਾ; ਅਤੇ ਲਗਾਤਾਰ ਸਿੱਖਣਾ ਬਿਨਾਂ ਭੁੱਲਾਉਣ ਜਾਂ ਡਿਫ਼ਟ ਹੋਏ।
ਲੇਕੁਨ ਦਾ ਕੰਮ ਯਾਦ ਦਿਲਾਉਂਦਾ ਹੈ ਕਿ "state of the art" ਦੇ ਬਦਲੇ ਉਦੇਸ਼-ਨੁਮਾਇੰਦਗੀ (fit for purpose) ਜ਼ਿਆਦਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਜੇ ਤੁਸੀਂ ਕਿਸੇ ਉਤਪਾਦ ਵਿੱਚ AI ਬਣਾ ਰਹੇ ਹੋ, ਤੁਹਾਡੀ ਵਰਤੋਂ ਦੀ ਜਿੱਤ ਅਕਸਰ ਸਧਾਰਨ ਰਸਤੇ ਚੁਣਨ ਵਿੱਚ ਆਉਂਦੀ ਹੈ ਜੋ ਅਸਲ-ਦੁਨੀਆ ਦੀਆਂ ਪਾਬੰਦੀਆਂ ਪੂਰੀਂ ਕਰਦੇ ਹੋਣ।
ਕੋਈ ਮਾਡਲ ਚੁਣਨ ਤੋਂ ਪਹਿਲਾਂ, ਲਿਖੋ ਕਿ ਤੁਹਾਡੇ ਲਈ "ਚੰਗਾ" ਕੀ ਹੈ: ਯੂਜ਼ਰ ਨਤੀਜਾ, ਗਲਤੀਆਂ ਦੀ ਲਾਗਤ, ਲੇਟੈਂਸੀ, ਅਤੇ ਮੇਨਟੇਨੈਂਸ ਬੋਝ।
ਇੱਕ ਪ੍ਰਾਇਕਟਿਕਲ ਮੁਲਾਂਕਣ ਯੋਜਨਾ ਆਮ ਤੌਰ 'ਤੇ ਸ਼ਾਮਿਲ ਹੁੰਦੀ ਹੈ:
ਡੇਟਾ ਨੂੰ ਇੱਕ ਸੰਪਤੀ ਵਜੋਂ ਸਾਂਭੋ ਅਤੇ ਇੱਕ ਰੋਡਮੈਪ ਬਣਾਓ। ਲੇਬਲਿੰਗ ਮਹਿੰਗੀ ਹੁੰਦੀ ਹੈ, ਇਸ ਲਈ ਸੋਚ-ਵਿਚਾਰ ਨਾਲ ਕਰੋ:
ਇੱਕ ਸੁਝਾਅ: ਵੱਡੇ ਮਾਡਲ ਦੀ ਪਿੱਛੇ ਦੌੜਨ ਤੋਂ ਪਹਿਲਾਂ ਡੇਟਾ ਗੁਣਵੱਤਾ ਅਤੇ ਕੋਵਰੇਜ 'ਤੇ ਪਹਿਲਾਂ ਨਿਵੇਸ਼ ਕਰੋ।
CNNs ਅਜੇ ਵੀ ਬਹੁਤ ਸਾਰੀਆਂ ਵਿਜ਼ਨ ਟਾਸਕਾਂ ਲਈ ਮਜ਼ਬੂਤ ਡਿਫਾਲਟ ਹਨ, ਖਾਸ ਕਰਕੇ ਜਦ ਤੁਹਾਨੂੰ ਚਿੱਤਰਾਂ 'ਤੇ ਕੁਸ਼ਲਤਾ ਅਤੇ ਪੇਸ਼ਗੋਈ ਕਰਨਯੋਗ ਵਰਤਾਰ ਦੀ ਲੋੜ ਹੋਵੇ (ਕਲਾਸੀਫਿਕੇਸ਼ਨ, ਡਿਟੈਕਸ਼ਨ, OCR-ਲਾਈਕ ਪਾਈਪਲਾਈਨ)। ਨਵੇਂ ਆਰਕੀਟੈਕਚਰ ਸਹਾਇਤਾ ਰੂਪ ਵਿੱਚ ਸਧਾਰਨ ਸ਼ੁਰੂਆਤਾਂ ਜਿੱਤ ਸਕਦੇ ਹਨ, ਪਰ ਉਹ ਕਈ ਵਾਰੀ ਜ਼ਿਆਦਾ ਕੰਪਿਊਟ, ਜ਼ਿਆਦਾ ਜਟਿਲਤਾ ਅਤੇ ਡਿਪਲੋਏਮੈਂਟ ਯਤਨਾਂ ਦੀ ਮੰਗ ਕਰਦੇ ਹਨ।
ਜੇ ਤੁਹਾਡੇ ਰਿਸੋਰਸ ਘੱਟ ਹਨ (ਮੋਬਾਈਲ/ਐਜ਼, ਉੱਚ ਥਰੂਪੁਟ, ਸੀਮਿਤ ਟ੍ਰੇਨਿੰਗ ਬਜਟ), ਇੱਕ ਚੰਗੀ ਤਰ੍ਹਾਂ ਟਿਊਨ ਕੀਤੀ CNN ਅਕਸਰ ਇੱਕ "ਫੈਨਸੀ" ਮਾਡਲ ਤੋਂ ਪਹਿਲਾਂ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਬਿਹਤਰ ਰਹਿੰਦੀ ਹੈ।
ਲੇਕੁਨ ਦੇ ਕੰਮ ਵਿੱਚ ਇੱਕ ਮੁੜ-ਅਵਲੋਕਨਕ ਧਾਰਾ end-to-end ਸੋਚ ਹੈ: ਸਿਰਫ ਮਾਡਲ ਹੀ ਨਹੀਂ, ਬਲਕਿ ਚਾਰੋ-ਪਾਸੇ ਵਾਲਾ ਪਾਈਪਲਾਈਨ—ਡੇਟਾ ਇਕੱਠਾ ਕਰਨਾ, ਮੁਲਾਂਕਣ, ਡਿਪਲੋਏਮੈਂਟ ਅਤੇ ਦੁਹਰਾਈ। ਅਮਲੀ ਤੌਰ 'ਤੇ, ਬਹੁਤ ਸਾਰੀਆਂ ਟੀਮਾਂ ਅਟਕ ਜਾਣਦੀਆਂ ਹਨ ਨਾ ਕਿ ਇਸ ਲਈ ਕਿ ਆਰਕੀਟੈਕਚਰ ਗਲਤ ਹੈ, ਪਰ ਇਸ ਲਈ ਕਿ ਆਸਪਾਸ ਦੇ ਉਤਪਾਦ ਪਹੁੰਚ-ਸਰਫ਼ੇ (ਐਡਮਿਨ ਟੂਲ, ਲੇਬਲਿੰਗ UI, ਰਿਵਿਊ ਵਰਕਫਲੋ, ਮਾਨੀਟਰਨਿੰਗ ਡੈਸ਼ਬੋਰਡ) ਬਣਾਉਣ ਵਿੱਚ ਬਹੁਤ ਸਮਾਂ ਲੱਗਦਾ ਹੈ।
ਇਹ ਓਥੇ ਹੈ ਜਿੱਥੇ ਆਧੁਨਿਕ "vibe-coding" ਟੂਲ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ। ਉਦਾਹਰਨ ਵਜੋਂ, Koder.ai ਟੀਮਾਂ ਨੂੰ ਇੱਕ ਚੈਟ-ਡ੍ਰਾਈਵਨ ਵਰਕਫਲੋ ਰਾਹੀਂ ਵੈੱਬ, ਬੈਕਐਂਡ ਅਤੇ ਮੋਬਾਈਲ ਐਪ ਤੁਰੰਤ ਪ੍ਰੋਟੋਟਾਈਪ ਅਤੇ ਸ਼ਿਪ ਕਰਨ ਦੀ ਆਸਾਨੀ ਦਿੰਦਾ ਹੈ—ਉਪਯੋਗ ਜਦ ਤੁਹਾਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਇਕ ਅੰਦਰੂਨੀ ਮੁਲਾਂਕਣ ਐਪ ਚਾਹੀਦੀ ਹੋਵੇ (ਜਿਵੇਂ React ਡੈਸ਼ਬੋਰਡ ਨਾਲ Go + PostgreSQL ਬੈਕਐਂਡ), snapshots/rollback ਲਈ, ਜਾਂ ਜਦ ਵੁਰਕਫਲੋ ਸਥਿਰ ਹੋਣ 'ਤੇ ਕੋਡ ਨਿਰਯਾਤ ਕਰਕੇ ਕਸਟਮ ਡੋਮੇਨ 'ਤੇ ਡਿਪਲੋਏ ਕਰਨਾ ਹੋਵੇ। ਮਕਸਦ ML ਖੋਜ ਨੂੰ ਬਦਲਣਾ ਨਹੀਂ, ਬਲਕਿ ਇੱਕ ਚੰਗੇ ਮਾਡਲ ਵਿਚਾਰ ਅਤੇ ਇੱਕ ਵਰਤੋਂਯੋਗ ਸਿਸਟਮ ਵਿਚਕਾਰ ਦੇ ਰੋਂਧ ਨੂੰ ਘਟਾਉਣਾ ਹੈ।
ਜੇ ਤੁਸੀਂ ਇੱਕ AI ਪਹਿਲ ਦੀ ਯੋਜਨਾ ਬਣਾਉਣਗੇ, /docs Implementation ਗਾਈਡ ਦੇਖੋ, /pricing ਡਿਪਲੋਏਮੈਂਟ ਵਿਕਲਪਾਂ ਲਈ ਵੇਖੋ, ਜਾਂ /blog ਵਿੱਚ ਹੋਰ ਲੇਖ ਪੜ੍ਹੋ।
ਉਸਨੇ ਇਹ ਸਾਬਤ ਕੀਤਾ ਕਿ ਸਿੱਖੀਆਂ ਹੋਈਆਂ ਪ੍ਰਤੀਨਿਧੀਆਂ (ਡੇਟਾ ਵਿੱਚੋਂ ਖੁਦ ਲੱਭੀਆਂ ਫੀਚਰਾਂ) ਹੱਥ-ਤਿਆਰ ਕੀਤੀਆਂ ਨਿਯਮਾਂ ਨਾਲੋਂ ਹਕੀਕਤੀ, ਗੰਦੇ ਇਨਪੁੱਟ ਜਿਵੇਂ ਛਵੀਆਂ 'ਤੇ ਵਧੀਆ ਕੰਮ ਕਰ ਸਕਦੀਆਂ ਹਨ। ਇਹ ਸੋਚ—ਐਂਡ-ਟੂ-ਐਂਡ ਟ੍ਰੇਨਿੰਗ, ਸਕੇਲ ਕਰਨ ਯੋਗ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਦੁਬਾਰਾ ਵਰਤਣ ਯੋਗ ਫੀਚਰ—ਆਧੁਨਿਕ AI ਸਿਸਟਮਾਂ ਦਾ ਟੈਂਪਲੇਟ ਬਣ ਗਈ ਹੈ।
ਡੀਪ ਲਰਨਿੰਗ ਬਹੁਤ ਵਿਆਪਕ ਅਪ੍ਰੋਚ ਹੈ: ਪਰਤਦਾਰ ਨਿਊਰਲ ਨੈੱਟਵਰਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਡੇਟਾ ਵਿੱਚੋਂ ਪੈਟਰਨ ਸਿੱਖਣਾ।
ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ (SSL) ਇੱਕ ਟ੍ਰੇਨਿੰਗ ਰਣਨੀਤੀ ਹੈ ਜਿਸ ਵਿੱਚ ਮਾਡਲ ਕੱਚੇ ਡੇਟਾ ਵਿੱਚੋਂ ਆਪਣਾ ਸਿੱਖਣ-ਲਕੜੀ ਬਣਾਉਂਦਾ ਹੈ (ਜਿਵੇਂ ਕਿ ਗੁੰਮ ਹੋਏ ਹਿੱਸਿਆਂ ਦੀ ਭਵਿੱਖਬਾਣੀ)। SSL ਆਮ ਤੌਰ 'ਤੇ ਮਨੁੱਖੀ ਲੇਬਲਾਂ ਦੀ ਲੋੜ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਦੁਬਾਰਾ ਵਰਤਣ ਯੋਗ ਪ੍ਰਤੀਨਿਧੀਆਂ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ।
Convolution ਇੱਕ ਛੋਟੇ ਡਿਟੈਕਟਰ (ਫਿਲਟਰ) ਨੂੰ ਚਿੱਤਰ 'ਤੇ ਸਲਾਇਡ ਕਰਕੇ ਦੇਖਦਾ ਹੈ ਕਿ ਓਥੇ ਕੋਣ, ਧਾਰ, ਧਾਰੀਆਂ ਜਾਂ ਟੈਕਸਚਰ ਵਰਗੇ ਪੈਟਰਨ ਹਨ ਕਿ ਨਹੀਂ। ਇਹੀ ਫਿਲਟਰ ਹਰ ਜਗ੍ਹਾ ਦੁਹਰਾਇਆ ਜਾਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਮਾਡਲ ਨੂੰ ਸਿੱਖਣਾ ਆਸਾਨ ਹੋ ਜਾਂਦਾ ਹੈ ਅਤੇ ਜੇਕਰ ਵਸਤੂ ਫਰੇਮ ਵਿਚ ਵੱਖ-ਵੱਖ ਥਾਵਾਂ ਤੇ ਹੋਵੇ ਤਾਂ ਵੀ ਪਛਾਣ ਪੱਕੀ ਰਹਿੰਦੀ ਹੈ।
ਤਿੰਨ ਮੁੱਖ ਵਿਚਾਰ:
LeNet ਨੇ ਦਿਖਾਇਆ ਕਿ ਇੱਕ ਐਂਡ-ਟੂ-ਐਂਡ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਅਸਲ-ਦੁਨੀਆ ਦੇ ਕੰਮ (ਇਸਦੇ ਮਾਮਲੇ ਵਿੱਚ ਹੱਥ ਲਿਖਤ ਅੰਕ ਪਛਾਣ) ਲਈ ਕਾਬਿਲ-ਏ-ਇਸਤਮਾਲ ਹੋ ਸਕਦਾ ਹੈ। ਇਸਨੇ ਫੀਚਰ-ਐਕਸਟ੍ਰੈਕਸ਼ਨ ਅਤੇ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਨੂੰ ਇਕੱਠੇ ਸਿੱਖਣ ਦੀ ਸੋਚ ਸਧਾਰਨ ਕੀਤੀ, ਜੋ ਬਾਅਦ ਵਿੱਚ ਆਮ ਪ੍ਰਕਿਰਿਆ ਬਣ ਗਈ।
ਇਹ ਮਨਾਈਦਾ ਹੈ ਕਿ ਮਾਡਲ ਸਿਰਫ਼ ਅੰਤਿਮ ਜਵਾਬ ਹੀ ਨਹੀਂ ਸਿੱਖੇ—ਉਸਨੂੰ ਆਕਾਰਕ ਫੀਚਰ ਸਿੱਖਣੇ ਚਾਹੀਦੇ ਹਨ ਜੋ ਵੱਖ-ਵੱਖ ਟਾਸਕਾਂ ਲਈ ਕੰਮ ਆਉਂ। ਬਿਹਤਰ ਪ੍ਰਤੀਨਿਧੀਆਂ downstream ਟਾਸਕਾਂ ਨੂੰ ਆਸਾਨ ਬਣਾ ਦਿੰਦੀਆਂ ਹਨ, ਟ੍ਰਾਂਸਫਰ ਲਰਨਿੰਗ ਨੂੰ ਯੋਗ ਬਨਾਉਂਦੀਆਂ ਹਨ ਅਤੇ ਹੱਥ-ਤਿਆਰ ਕੀਤੀਆਂ ਫੀਚਰਾਂ ਨਾਲੋਂ ਅਕਸਰ ਜ਼ਿਆਦਾ ਰੋਬਸਟ ਹੁੰਦੀਆਂ ਹਨ।
ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਉਸ ਵੇਲੇ ਵਰਤੋਂ ਕੀਤੀ ਜਾਏ ਜਦੋਂ ਤੁਹਾਡੇ ਕੋਲ ਪੂਰਤੀ ਅਤੇ ਸਥਿਰ ਲੇਬਲਾਂ ਵਾਲਾ ਡੇਟਾ ਹੋਵੇ।
ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ + ਫਾਈਨ-ਟਿਊਨਿੰਗ ਉਹ ਰਸਤਾ ਹੈ ਜਦੋਂ ਤੁਹਾਡੇ ਕੋਲ ਬਹੁਤ ਸਾਰਾ ਰਾ ਡੇਟਾ ਹੋਵੇ ਪਰ ਲੇਬਲ ਘੱਟ ਹੋਣ।
ਅਨਸੁਪਰਵਾਈਜ਼ਡ ਮੈਥਡ ਨੂੰ ਅਨੁਸੰਧਾਨ ਜਾਂ ਖੋਜ ਲਈ ਵਰਤੋ (ਕਲੱਸਟਰਿੰਗ/ਅਨੋਮਲੀ ਖੋਜ), ਫਿਰ ਡਾਊਨਸਟਰੀਮ ਮੈਟਰਿਕਸ ਨਾਲ ਵੈਰੀਫਾਈ ਕਰੋ।
SSL ਦੇ ਆਮ ਟਾਸਕਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਤੋਂ ਬਾਅਦ, ਤੁਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਨਿਸ਼ਚਿਤ ਟਾਸਕ ਲਈ ਇੱਕ ਛੋਟੇ ਲੇਬਲਡ ਸੈੱਟ 'ਤੇ ਫਾਈਨ-ਟਿਊਨ ਕਰੋਗੇ।
ਇੱਕ energy-based ਮਾਡਲ (EBM) ਇੱਕ ਸਕੋਰਿੰਗ ਫੰਕਸ਼ਨ ਸਿੱਖਦਾ ਹੈ: ਯਥਾਰਥਪੂਰਨ ਕੰਫਿਗਰੇਸ਼ਨ ਨੂੰ ਹੇਠਾਂ ਵਾਲੀ energy (ਵਧੀਆ ਸਕੋਰ) ਮਿਲਦੀ ਹੈ ਅਤੇ ਗਲਤ ਜਾਂ ਅਸਮਰਥਿਤ ਕੰਫਿਗਰੇਸ਼ਨ ਨੂੰ ਉੱਚ energy ਮਿਲਦੀ ਹੈ। ਇਹ ਰੂਪ ਚੁਣਨਾਵਾਂ ਦੀ ਤੁਲਨਾ ਅਤੇ ਰੈਂਕਿੰਗ ਕਰਨਾ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ, ਨਾਂ ਕਿ ਸਿਰਫ ਇੱਕ ਸਹੀ ਲੇਬਲ ਫੋਰਸ ਕਰਨਾ।
ਮੁੱਖ ਸਿੱਧੀਆਂ ਜੋ ਟੀਮਾਂ ਲਈ ਲਾਗੂ ਹੁੰਦੀਆਂ ਹਨ: