ਸਧਾਰਨ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ Fei-Fei Li ਦੇ ImageNet ਪ੍ਰੋਜੈਕਟ, ਇਸ ਨੇ ਡੀਪ ਲਰਨਿੰਗ ਬੂਮ ਨੂੰ ਕਿਵੇਂ ਸੰਭਵ ਬਣਾਇਆ, ਅਤੇ ਡੇਟਾ, ਪੱਖਪਾਤ ਅਤੇ ਸਕੇਲ ਬਾਰੇ ਕੀ ਸਿੱਖਣ ਨੂੰ ਮਿਲਿਆ—ਇੱਕ ਸਪਸ਼ਟ ਦ੍ਰਿਸ਼ਟੀ।

Fei-Fei Li ਨੂੰ ਆਮ ਤੌਰ 'ਤੇ ਆਧੁਨਿਕ AI ਨਤੀਜਿਆਂ ਨਾਲ ਜੋੜ ਕੇ ਦੱਸਿਆ ਜਾਂਦਾ ਹੈ ਕਿਉਂਕਿ ਉਸ ਨੇ ਖੇਤਰ ਨੂੰ ਇੱਕ ਸਧਾਰਨ ਪਰ ਤਾਕਤਵਰ ਧਾਰਨਾ ਵੱਲ ਮੋੜਿਆ: ਤਰੱਕੀ ਸਿਰਫ਼ ਬਿਹਤਰ ਐਲਗੋਰਿਦਮਾਂ ਤੋਂ ਨਹੀਂ ਆਉਂਦੀ—ਇਹ ਬਿਹਤਰ ਡੇਟਾ ਤੋਂ ਵੀ ਆਉਂਦੀ ਹੈ। ImageNet ਕੋਈ ਨਵਾਂ ਮਾਡਲ ਜਾਂ ਚਾਲਾਕ ਤਰੀਕਾ ਨਹੀਂ ਸੀ। ਇਹ ਵਿਜ਼ੂਅਲ ਦੁਨੀਆ ਦੀ ਇੱਕ ਵੱਡੀ, ਧਿਆਨ ਨਾਲ ਲੇਬਲ ਕੀਤੀ ਹੋਈ ਜ਼ਬਰਦਸਤ ਝਲਕ ਸੀ ਜਿਸਨੇ ਮਸ਼ੀਨਾਂ ਨੂੰ ਅਸਲ ਵਿੱਚ ਸਿੱਖਣ ਲਈ ਕੁਝ ਠੋਸ ਦਿੱਤਾ।
ImageNet ਤੋਂ ਪਹਿਲਾਂ, ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਸਿਸਟਮ ਅਕਸਰ ਛੋਟੇ ਅਤੇ ਤੰਗ ਡੇਟਾਸੇੱਟਾਂ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ ਜਾਂਦੇ ਸਨ। ਇਸ ਨਾਲ ਇਹ ਸੀਮਤ ਹੋ ਗਿਆ ਕਿ ਖੋਜਕਾਰ ਕੀ ਮਾਪ ਸਕਦੇ ਹਨ ਅਤੇ ਮਾਡਲਾਂ ਅਸਲ ਵਿੱਚ ਕੀ ਸਿੱਖ ਸਕਦੇ ਹਨ। ImageNet ਨੇ ਇੱਕ ਸਧਾਰਨ ਬੇਟ ਲਾਈ: ਜੇ ਤੁਸੀਂ ਕਾਫ਼ੀ ਵੱਡੀ ਹਕੀਕਤੀ ਤਸਵੀਰਾਂ ਦੀ ਸੰਗ੍ਰਹਿ ਇਕੱਠੀ ਕਰਦੇ ਹੋ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਲਗਾਤਾਰ ਲੇਬਲ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਸਿਸਟਮਾਂ ਨੂੰ ਕਈ ਅਵਧਾਰਨਾਵਾਂ ਨੂੰ ਪਛਾਣਨ ਲਈ ਟ੍ਰੇਨ ਕਰ ਸਕਦੇ ਹੋ—ਤੇ ਬਣਾਵਟੀ ਤੌਰ 'ਤੇ ਤਰੀਕਿਆਂ ਨੂੰ ਨਿਆਪਮਾਪੂਰਵਕ ਤੌਰ 'ਤੇ ਤੁਲਨਾ ਕਰ ਸਕਦੇ ਹੋ।
ਇਹ “ਡੇਟਾ-ਪਹਿਲਾ” ਰੂਪਰੇਖਾ 2025 ਵਿੱਚ ਵੀ ਮਾਇਨੇ ਰੱਖਦੀ ਹੈ ਕਿਉਂਕਿ ਇਹ ਅਜੇ ਵੀ ਇਹ ਨਿਰਧਾਰਿਤ ਕਰਦੀ ਹੈ ਕਿ AI ਟੀਮਾਂ ਕਿਵੇਂ ਕੰਮ ਕਰਦੀਆਂ ਹਨ: ਕੰਮ ਨੂੰ ਪਰਿਭਾਸ਼ਤ ਕਰੋ, ਲੇਬਲ (ਇੱਕ ਟਾਰਗਟ) ਪਰਿਭਾਸ਼ਤ ਕਰੋ, ਅਤੇ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਨੂੰ ਵਧਾਓ ਤਾਂ ਜੋ ਮਾਡਲ ਛੋਟੇ ਨਮੂਨੇ ਨੂੰ ਯਾਦ ਕਰਨ ਦੀ ਥਾਂ ਅਰਥਪੂਰਨ ਪੈਟਰਨ ਸਿੱਖੇ।
ImageNet ਦਾ ਪ੍ਰਭਾਵ ਸਿਰਫ਼ ਇਸ ਦੀ ਮਾਤਰਾ ਨਹੀਂ ਸੀ; ਇਹ ਸਮਾਂ ਸੀ। ਜਦੋਂ ਖੋਜਕਾਰਾਂ ਨੇ ਜੋੜਿਆ:
…ਤ ਫਲ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਬਦਲੇ। ਪ੍ਰਸਿੱਧ 2012 ਦਾ ImageNet ਮੁਕਾਬਲਾ (AlexNet) ਵਾਸਤਵ ਵਿੱਚ ਇਕੱਲਾ ਘਟਨਾ ਨਹੀਂ ਸੀ—ਇਹ ਓਹ ਸਮਾਂ ਸੀ ਜਦੋਂ ਇਹ ਤੱਤ ਇਕਠੇ ਹੋ ਕੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਕਦਮ ਲਿਆਂਦੇ।
ਇਹ ਲੇਖ ਵੇਖੇਗਾ ਕਿ ImageNet ਇੰਨਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਕਿਉਂ ਬਣਿਆ, ਇਸ ਨੇ ਕੀ ਸੰਭਵ ਕੀਤਾ, ਅਤੇ ਇਹ ਕਿਹੜੀਆਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਬੇਨਕਾਬ ਕੀਤਾ—ਪੱਖਪਾਤ, ਮਾਪਣ ਵਿੱਚ ਗੈਪ, ਅਤੇ ਬੈਂਚਮਾਰਕਾਂ ਲਈ ਜ਼ਿਆਦਾ ਅਪਟੀਮਾਈਜ਼ ਕਰਨ ਦਾ ਖਤਰਾ। ਅਸੀਂ ImageNet ਦੇ ਦਾਇਰਿਆਂ, ਵਪਾਰ-ਆਦਾਨ-ਪ੍ਰਦਾਨ, ਅਤੇ ImageNet ਤੋਂ ਬਾਅਦ AI ਦਾ “ਨਵਾਂ ਕੇਂਦਰ” ਕੀ ਬਣਿਆ, ਤੇ ਧਿਆਨ ਦੇਵਾਂਗੇ।
Fei-Fei Li ਦਾ ਕੰਮ ImageNet 'ਤੇ ਇਹ ਲੜਾਈ ਨਹੀਂ ਸੀ ਕਿ “ਇਨਸਾਨਾਂ ਨੂੰ ਹਰਾਓ।” ਇਹ ਇੱਕ ਸਾਦਾ ਯਕੀਨ ਨਾਲ ਸ਼ੁਰੂ ਹੋਇਆ: ਜੇ ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਮਸ਼ੀਨਾਂ ਵਿਜ਼ੂਅਲ ਦੁਨੀਆ ਨੂੰ ਸਮਝਣ, ਤਾਂ ਸਾਨੂੰ ਉਹਨਾਂ ਨੂੰ ਵਿਜ਼ੂਅਲ ਦੁਨੀਆ ਵਿਖਾਉਣੀ ਪਵੇਗੀ—ਉਸ ਪੱਧਰ ਤੇ।
ਆਕਾਦਮਿਕ ਤੌਰ 'ਤੇ ਦਿੱਖਣ ਵਾਲੀ ਬੁੱਧੀ 'ਤੇ ਕੰਮ ਕਰਦਿਆਂ, Li ਇੱਛੁਕ ਸੀ ਕਿ ਸਿਸਟਮ ਕਿਵੇਂ ਸਿਰਫ਼ ਧਾਰੀਆਂ ਜਾਂ ਸਧਾਰਨ ਆਕਾਰਾਂ ਨੂੰ ਪਛਾਣਨ ਤੋਂ ਅੱਗੇ ਜਾ ਸਕਦੇ ਹਨ ਅਤੇ ਅਸਲ ਵਸਤੂਆਂ ਅਤੇ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਸਮਝ ਸਕਦੇ ਹਨ। ਪਰ ਸ਼ੁਰੂਆਤੀ ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਰਿਸਰਚ ਅਕਸਰ ਇੱਕੋ ਕੰਧ ਨਾਲ ਟੱਕਰਾਉਂਦੀ: ਤਰੱਕੀ ਜ਼ਿਆਦਾ ਤਰ ਐਲਗੋਰਿਦਮਾਂ ਤੋਂ ਘਟ ਅਤੇ ਸੀਮਿਤ, ਤੰਗ ਡੇਟਾਸੇੱਟਾਂ ਕਾਰਨ ਰੁਕੀ ਰਹੀ।
ਮਾਡਲ ਛੋਟੀਆਂ ਸੰਗ੍ਰਹੀਆਂ 'ਤੇ ਟ੍ਰੇਨ ਅਤੇ ਟੈਸਟ ਕੀਤੇ ਜਾਂਦੇ—ਕਈ ਵਾਰੀ ਇੰਨੇ ਸਖ਼ਤ ਤਰੀਕੇ ਨਾਲ ਕਿਊਰੇਟ ਕੀਤੇ ਜਾਂਦੇ ਕਿ ਸਫਲਤਾ ਲੈਬ ਤੋਂ ਬਾਹਰ ਜਨਰਲਾਇਜ਼ ਨਹੀਂ ਹੁੰਦੀ। ਨਤੀਜੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਦਿਸ ਸਕਦੇ ਸਨ, ਪਰ ਜਦ ਤਸਵੀਰਾਂ ਗੰਦੇ ਹੋ ਜਾਂ ਵੱਖ-ਵੱਖ ਰੋਸ਼ਨੀ, ਪਿਛੋਕੜ, ਕੈਮਰਾ ਐਂਗਲ ਜਾਂ ਵਸਤੂਆਂ ਦੇ ਕਿਸਮ ਹੋਣ ਤਾਂ ਫੇਲ ਹੋ ਜਾਂਦੇ।
Li ਨੇ ਦੇਖਿਆ ਕਿ ਵਿਜ਼ਨ ਖੋਜ ਨੂੰ ਇੱਕ ਸਾਂਝੇ, ਵੱਡੇ-ਪੱਧਰ ਅਤੇ ਵਿਭਿੰਨ ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ ਦੀ ਲੋੜ ਸੀ ਤਾਂ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਤੁਲਨਯੋਗ ਬਣ ਸਕੇ। ਬਿਨਾਂ ਇਸ ਦੇ, ਟੀਮਾਂ ਆਪਣੀ ਡੇਟਾ ਦੀ ਖਾਸੀਅਤਾਂ ਨੂੰ ਹਿਲਾ ਕੇ “ਜਿੱਤ” ਜਾ ਸਕਦੀਆਂ ਸਨ, ਅਤੇ ਖੇਤਰ ਅਸਲੀ ਸੁਧਾਰ ਮਾਪਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਮਹਿਸੂਸ ਕਰਦਾ।
ImageNet ਨੇ ਇੱਕ ਡੇਟਾ-ਪਹਿਲਾ ਅਪ੍ਰੋਚ ਦਿਖਾਈ: ਇੱਕ ਵਿਆਪਕ ਬੁਨਿਆਦੀ ਡੇਟਾਸੇੱਟ ਬਣਾਓ ਜਿਸ ਵਿੱਚ ਬਹੁਤ ਸਾਰੀਆਂ ਸ਼੍ਰੇਣੀਆਂ 'ਤੇ ਲਗਾਤਾਰ ਲੇਬਲ ਹੋਣ, ਅਤੇ ਫਿਰ ਖੋਜ ਸਮੁਦਾਇ ਨੂੰ ਇਸ 'ਤੇ ਮੁਕਾਬਲਾ ਕਰਨ ਅਤੇ ਸਿੱਖਣ ਦੀ ਆਗਿਆ ਦਿਓ।
ImageNet ਨੂੰ ਕਮਿਊਨਟੀ ਬੈਂਚਮਾਰਕਾਂ ਨਾਲ ਜੋੜ ਕੇ, ਪ੍ਰੋਜੈਕਟ ਨੇ ਖੋਜ ਦੇ ਪ੍ਰੇਰਕਾਂ ਨੂੰ ਮਾਪਣਯੋਗ ਤਰੱਕੀ ਵੱਲ ਰੁਖ ਕੀਤਾ। ਹੁਣ ਹੁਣਕ ਦੀਆਂ ਹਥ-ਚੁਣੀਆਂ ਉਦਾਹਰਣਾਂ ਦੇ ਪਿੱਛੇ ਛੁਪਣਾ ਔਖਾ ਹੋ ਗਿਆ ਅਤੇ ਉਹ ਤਰੀਕੇ ਇਨਾਮ ਪਾਉਣ ਲੱਗੇ ਜੋ ਜਨਰਲਾਈਜ਼ ਕਰਦੇ।
ਇਸ ਤੋਂ ਵੀ ਜ਼ਰੂਰੀ, ਇਹ ਇੱਕ ਸਾਂਝਾ ਰੁਕਨ ਬਿੰਦੂ ਬਣ ਗਿਆ: ਜਦੋਂ ਸਹੀਤਾ ਸੁਧਰਦੀ, ਹਰ ਕੋਈ ਉਹ ਦੇਖ ਸਕਦਾ, ਦੁਹਰਾਵਾ ਕਰ ਸਕਦਾ ਅਤੇ ਉਸ ਉੱਪਰ ਨਿਰਮਾਣ ਕਰ ਸਕਦਾ—ਫੈਲੀਆਂ ਪ੍ਰਯੋਗਾਂ ਨੂੰ ਇੱਕ ਸਾਂਝੀ ਦਿਸ਼ਾ ਵਿੱਚ ਮੂਰਤ ਕਰਦਿਆਂ।
ImageNet ਇੱਕ ਵੱਡੀ, ਕਿਊਰੇਟ ਕੀਤੀ ਹੋਈ ਫੋਟੋਆਂ ਦੀ ਸੰਗ੍ਰਹਿ ਹੈ ਜੋ ਕੰਪਿਊਟਰਾਂ ਨੂੰ ਇਹ ਸਿਖਾਣ ਲਈ ਬਣਾਈ ਗਈ ਕਿ ਤਸਵੀਰ ਵਿੱਚ ਕੀ ਹੈ। ਸਧਾਰਨ ਸ਼ਬਦਾਂ 'ਚ: ਇਹ ਲੱਖਾਂ ਤਸਵੀਰਾਂ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਹਰ ਇੱਕ ਨੂੰ ਇੱਕ ਨਾਮ ਦਿੱਤਾ ਗਿਆ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਵਿਵਸਥਿਤ ਕੀਤਾ ਗਿਆ ਹੈ—ਜਿਵੇਂ “golden retriever,” “fire truck,” ਜਾਂ “espresso.” ਮਕਸਦ ਕੋਈ ਖੂਬਸੂਰਤ ਫੋਟੋ ਐਲਬਮ ਬਣਾਉਣਾ ਨਹੀਂ ਸੀ; ਮਕਸਦ ਇੱਕ ਐਸਾ ਟ੍ਰੇਨਿੰਗ ਮੈਦਾਨ ਬਣਾਉਣਾ ਸੀ ਜਿੱਥੇ ਐਲਗੋਰਿਦਮ ਵਾਸਤਵਿਕ ਪੱਧਰ 'ਤੇ ਵਿਜ਼ੂਅਲ ਪਛਾਣ ਅਭਿਆਸ ਕਰ ਸਕਣ।
ਹਰ ImageNet ਦੀ ਤਸਵੀਰ ਕੋਲ ਇੱਕ ਲੇਬਲ ਹੁੰਦੀ ਹੈ (ਕਿਸੇ ਸ਼੍ਰੇਣੀ 'ਚ ਆਉਣ ਵਾਲੀ). ਇਹ ਸ਼੍ਰੇਣੀਆਂ WordNet ਤੋਂ ਪ੍ਰੇਰਿਤ ਇੱਕ ਹਾਇਰਾਰਕੀ ਵਿੱਚ ਰੱਖੀਆਂ ਗਈਆਂ ਹਨ—ਇਸਨੂੰ ਇਕ ਸੰਕਲਪਾਂ ਦਾ ਪਰਿਵਾਰਕ ਦਰਖ਼ਤ ਸੋਚੋ। ਉਦਾਹਰਣ ਵੱਜੋਂ, “poodle” “dog” ਦੇ ਹੇਠਾਂ ਆਉਂਦਾ ਹੈ, ਜੋ “mammal” ਦੇ ਹੇਠਾਂ ਅਤੇ ਫਿਰ “animal” ਦੇ ਹੇਠਾਂ।
ਤੁਹਾਨੂੰ WordNet ਦੀਆਂ ਮਕੈਨਿਕਸ ਦੀ ਲੋੜ ਨਹੀਂ ਕਿ ਇਹ ਲਾਹਾ ਸਮਝ ਆ ਸਕੇ: ਇਹ ਢਾਂਚਾ ਬਹੁਤ ਸਾਰੀਆਂ ਪਰਿਭਾਸ਼ਾਵਾਂ ਨੂੰ ਲਗਾਤਾਰ ਢੰਗ ਨਾਲ ਆਯੋਜਿਤ ਕਰਨਾ ਅਤੇ ਡੇਟਾਸੇੱਟ ਨੂੰ ਫੈਲਾਉਂਦੇ ਸਮੇਂ ਨਾਮਕਰਨ ਨੂੰ ਅਵਹਾਰਨ ਤੋਂ ਬਚਾਉਂਦਾ ਹੈ।
ਛੋਟੇ ਡੇਟਾਸੇੱਟ ਅਕਸਰ ਵਿਜ਼ਨ ਨੂੰ ਆਸਾਨ ਦਿਖਾ ਸਕਦੇ ਹਨ। ImageNet ਦੀ ਵੱਡੀ ਮਾਤਰਾ ਵਿਭਿੰਨਤਾ ਅਤੇ ਰੁਕਾਵਟ ਲਿਆਂਦੀ: ਵੱਖ-ਵੱਖ ਕੈਮਰਾ ਐਂਗਲ, ਗੰਦੇ ਬੈਕਗ੍ਰਾਊਂਡ, ਰੋਸ਼ਨੀ ਵਿੱਚ ਫਰਕ, ਅਧ-ਢਕ ਜਾਣਾ, ਅਤੇ ਉਹ ਅਜਿਹੇ ਉਦਾਹਰਣ ਜੋ ਅਸਲੀ ਫੋਟੋਆਂ ਵਿੱਚ ਆਉਂਦੇ ਹਨ। ਕਾਫ਼ੀ ਉਦਾਹਰਣਾਂ ਨਾਲ, ਮਾਡਲ ਉਹ ਪੈਟਰਨ ਸਿੱਖ ਸਕਦੇ ਹਨ ਜੋ ਲੈਬ ਦੇ ਬਾਹਰ ਵੀ ਚੱਲਦੇ ਹਨ।
ImageNet ਇੱਕ ਇਕੱਲਾ “AI ਮਾਡਲ” ਨਹੀਂ ਹੈ, ਅਤੇ ਇਹ ਰੀਅਲ-ਵਰਲਡ ਸਮਝ ਦੀ ਗਾਰੰਟੀ ਵੀ ਨਹੀਂ। ਇਹ ਪਰਿਪੂਰਨ ਨਹੀਂ: ਲੇਬਲ ਗਲਤ ਹੋ ਸਕਦੇ ਹਨ, ਸ਼੍ਰੇਣੀਆਂ ਮਨੁੱਖੀ ਚੋਣਾਂ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ, ਅਤੇ ਕਵਰੇਜ ਦੁਨੀਆ ਭਰ ਵਿੱਚ ਇੱਕਸਾਰ ਨਹੀਂ।
ਇਸਨੂੰ ਬਣਾਉਣ ਲਈ انجਨੀਅਰਿੰਗ, ਟੂਲਿੰਗ, ਅਤੇ ਵਿਸ਼ਾਲ-ਪੱਧਰ ਦੇ ਸੰਯੋਜਨ ਦੀ ਲੋੜ ਪਈ—ਧਿਆਨ ਨਾਲ ਡੇਟਾ ਇਕੱਤਰ ਅਤੇ ਲੇਬਲਿੰਗ ਕੰਮ ਥਿਊਰੀ ਦੇ ਬਰਾਬਰ ਮਹੱਤਵਪੂਰਨ ਸੀ।
ImageNet ਇੱਕ ਅਚਾਨਕ ਫੋਟੋ ਡੰਪ ਨਹੀਂ ਸੀ। ਇਹ ਇੱਕ ਸੰਰਚਿਤ ਸਰੋਤ ਵਜੋਂ ਤਿਆਰ ਕੀਤਾ ਗਿਆ: ਬਹੁਤ ਸਾਰੀਆਂ ਸ਼੍ਰੇਣੀਆਂ, ਹਰ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਕਾਫ਼ੀ ਉਦਾਹਰਣ, ਅਤੇ ਇਹ ਨਿਯਮ ਕਿ ਕੀ “ਗਿਣੇਗਾ।” ਉਹ ਸੰਯੋਗ—ਪੱਧਰ ਅਤੇ ਲਗਾਤਾਰਤਾ—ਇੱਕ ਉੱਘਾ ਉਤਾਰ ਸੀ।
ਟੀਮ ਨੇ ਵੈੱਬ ਤੋਂ ਉਮੀਦਵਾਰ ਤਸਵੀਰਾਂ ਇਕੱਠੀਆਂ ਕੀਤੀਆਂ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਇੱਕ ਟੈਕਸੋਨੋਮੀ ਦੇ ਆਧਾਰ 'ਤੇ ਆਯੋਜਿਤ ਕੀਤਾ (ਬਹੁਤ ਹੱਦ ਤੱਕ WordNet ਨਾਲ ਮਿਲਦੀ-ਜੁਲਦੀ). ImageNet ਨੇ ਆਮ ਲੇਬਲਾਂ ਜਿਵੇਂ “animal” ਜਾਂ “vehicle” ਦੀ ਥਾਂ ਵਿਸ਼ੇਸ਼, ਨਾਮ ਯੋਗ ਸ਼੍ਰੇਣੀਆਂ ਲਈ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ—ਜਿਵੇਂ “golden retriever” ਬਜਾਏ “dog.” ਇਸ ਨਾਲ ਡੇਟਾਸੇੱਟ ਇਹ ਮਾਪ ਸਕਦਾ ਸੀ ਕਿ ਮਾਡਲ ਵਿਆਪਕ-ਸੁਖੜ ਵਿਜ਼ੂਅਲ ਭੇਦਾਂ ਨੂੰ ਸਿੱਖ ਸਕਦਾ ਹੈ ਜਾਂ ਨਹੀਂ।
ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਸੀ ਕਿ ਸ਼੍ਰੇਣੀਆਂ ਓਹੋਝਾਂ ਤਰੀਕੇ ਨਾਲ ਪਰਿਭਾਸ਼ਤ ਕੀਤੀਆਂ ਗਈਆਂ ਕਿ ਲੋਕ ਅਨੁਮਾਨਤ ਤੌਰ 'ਤੇ ਸਹਿਮਤ ਹੋ ਸਕਣ। ਜੇ ਕੋਈ ਵਰਗੀ ਬਹੁਤ ਧੁੰਦਲੀ ("cute") ਹੋਵੇ ਤਾਂ ਐਨੋਟੇਸ਼ਨ ਅੰਦਾਜ਼ਾ ਬਣ ਜਾਂਦਾ; ਜੇ ਇਹ ਬਹੁਤ ਅਜੀਬ ਹੋਵੇ ਤਾਂ ਸ਼ੋਰ ਭਰਿਆ ਲੇਬਲ ਅਤੇ ਛੋਟੇ ਸੈਂਪਲ ਆਉਂਦੇ।
ਮਨੁੱਖੀ ਐਨੋਟੇਟਰ ਕੇਂਦਰੀ ਭੂਮਿਕਾ ਨਿਭਾਉਂਦੇ: ਉਹ ਪੁਸ਼ਟੀ ਕਰਦੇ ਕਿ ਕੀ ਤਸਵੀਰ ਵਿੱਚ ਟਾਰਗਟ ਵਸਤੂ ਵਾਕਈ ਮੌਜੂਦ ਹੈ, ਬੇਲੋੜੇ ਜਾਂ ਘੱਟ ਗੁਣਵੱਤਾ ਵਾਲੇ ਨਤੀਜਿਆਂ ਨੂੰ ਛਾਨਦੇ, ਅਤੇ ਸ਼੍ਰੇਣੀਆਂ ਨੂੰ ਇਕ ਦੂਜੇ ਵਿੱਚ ਘੁਲਣ-ਮਿਲਣ ਤੋਂ ਬਚਾਉਂਦੇ।
ਗੁਣਵੱਤਾ ਨਿਯੰਤਰਣ ਦਾ ਮਕਸਦ ਪੂਰਨਤਾ ਨਹੀਂ ਸੀ—ਮਕਸਦ ਪ੍ਰਣਾਲੀਗਤ ਗਲਤੀਆਂ ਨੂੰ ਘਟਾਉਣਾ ਸੀ। ਆਮ ਤਰੀਕੇ ਵਿੱਚ ਕਈ ਅਲੱਗ-ਅਲੱਗ ਮਤ, ਸਪੌਟ ਆਡਿਟ ਅਤੇ ਐਜ ਕੇਸਾਂ ਲਈ ਨਿਯਮਾਂ ਦੀ ਸਪਸ਼ਟੀਕਰਨ ਸ਼ਾਮਲ ਹੁੰਦੀ।
ਬੈਂਚਮਾਰਕ ਤਦ ਹੀ ਕੰਮ ਕਰਦੇ ਹਨ ਜਦੋਂ ਹਰ ਕੋਈ ਇੱਕੋ ਮਾਨਦੰਡ 'ਤੇ ਆਂਕਿਆ ਜਾਂਦਾ ਹੈ। ਜੇ “bicycle” ਇੱਕ ਸੈਟ 'ਚ ਮੋਟਰਸਾਈਕਲ ਸ਼ਾਮਲ ਕਰਦਾ ਅਤੇ ਦੂਜੇ ਵਿੱਚ ਨਹੀਂ, ਤਾਂ ਦੋ ਮਾਡਲਾਂ ਵਿੱਚ ਦੇਖਿਆ ਗਿਆ ਫ਼ਰਕ ਸਿਰਫ਼ ਡੇਟਾ ਦੀ ਅਸਮਰਥਾ ਤੋਂ ਹੋ ਸਕਦਾ ਹੈ। ਸਪਸ਼ਟ ਲੇਬਲਿੰਗ ਨਿਯਮ ਟੀਮਾਂ, ਸਾਲਾਂ ਅਤੇ ਤਰੀਕਿਆਂ ਵਿੱਚ ਨਤੀਜਿਆਂ ਨੂੰ ਤੁਲਨਯੋਗ ਬਣਾਉਂਦੇ ਹਨ।
ਆਮ ਗਲਤਫਹਮੀ ਇਹ ਹੈ ਕਿ ਵੱਡਾ ਯਾਨੀ ਆਟੋਮੈਟਿਕ ਤੌਰ 'ਤੇ ਬਿਹਤਰ। ImageNet ਦਾ ਪ੍ਰਭਾਵ ਉਸ ਪੱਧਰ ਨਾਲ ਮਿਲ ਕੇ ਆਇਆ ਜੋ ਅਨੁਸ਼ਾਸਨਬੱਧ ਸੰਗਠਨ ਸੀ: ਚੰਗੀ ਪਰਿਭਾਸ਼ਤ ਸ਼੍ਰੇਣੀਆਂ, ਦੁਹਰਾਵੇ ਯੋਗ ਐਨੋਟੇਸ਼ਨ ਪ੍ਰਕਿਰਿਆਵਾਂ, ਅਤੇ ਸਿੱਖਣ ਲਈ ਕਾਫ਼ੀ ਉਦਾਹਰਣ।
ਜ਼ਿਆਦਾ ਤਸਵੀਰਾਂ ਮਦਦ ਕਰਦੀਆਂ ਹਨ, ਪਰ ਚੰਗਾ ਡਿਜ਼ਾਈਨ ਹੀ ਤਸਵੀਰਾਂ ਨੂੰ ਇੱਕ ਮਾਇਨੇਦਾਰ ਮਿਆਰ ਬਣਾਂਦਾ ਹੈ।
ਬੈਂਚਮਾਰਕ ਸਧਾਰਨ ਲੱਗਦੇ ਹਨ: ਇੱਕ ਫਿਕਸਡ ਟੈਸਟ ਸੈਟ, ਇੱਕ ਮੈਟਰਿਕ, ਅਤੇ ਇੱਕ ਸਕੋਰ। ਪਰ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਵਿੱਚ, ਇਹ ਇਕ ਸਾਂਝਾ ਨਿਯਮ-ਕਿਤਾਬ ਵਾਂਗ ਕੰਮ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਹਰ ਕੋਈ ਇਕੋ ਡੇਟਾ 'ਤੇ ਇਕੋ ਤਰੀਕੇ ਨਾਲ ਮੁਲਿਆੰਕਨ ਕਰਦਾ ਹੈ, ਤਰੱਕੀ ਦਰਸ਼ਨੀ ਬਣ ਜਾਂਦੀ—ਅਤੇ ਦਾਅਵੇ ਠੀਕ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ। ਸਾਂਝਾ ਟੈਸਟ ਟੀਮਾਂ ਨੂੰ ਸੱਚ ਰੱਖਦਾ ਹੈ, ਕਿਉਂਕਿ ਮਾਡਲ ਜਾਂ ਤਾਂ ਸਹਮਤ ਮਾਪ 'ਤੇ ਸੁਧਰਦਾ ਹੈ ਜਾਂ ਨਹੀਂ।
ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ਨੇ ImageNet ਨੂੰ ਇੱਕ ਸਾਲਾਨਾ ਧੁਰੇ 'ਤੇ ਬਦਲ ਦਿੱਤਾ। ਖੋਜਕਾਰ ਖ਼ਾਸ ਕਰਕੇ ਵਿਚਾਰ ਪ੍ਰਕਾਸ਼ਿਤ ਹੀ ਨਹੀਂ ਕਰਦੇ; ਉਹੋ ਨਤੀਜੇ ਇਕੋ ਹਾਲਤਾਂ 'ਚ ਦਿੱਖਾਂਦੇ ਹਨ, ਇਕੋ ਵੱਡੇ-ਪੱਧਰ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਟਾਸਕ 'ਤੇ।
ਉਹ ਲਗਾਤਾਰਤਾ ਮਾਇਨੇ ਰੱਖਦੀ ਸੀ: ਇਸ ਨੇ ਦੁਨਿਆ ਭਰ ਦੀਆਂ ਲੈਬਾਂ ਨੂੰ ਇਕ ਸਾਂਝਾ ਟਾਰਗਟ ਦਿੱਤਾ, ਕਾਗਜਾਂ ਦੀ ਤੁਲਨਾ ਆਸਾਨ ਬਨੀ, ਅਤੇ ਅਪਨਾਉਣ ਦੀ ਰੁਕਾਵਟ ਘਟਾਈ: ਜੇ ਕੋਈ ਤਕਨੀਕ ਲੀਡਰਬੋਰਡ 'ਤੇ ਚੜ੍ਹਦੀ, ਹੋਰ लोग ਤੇਜ਼ੀ ਨਾਲ ਉਸਨੂੰ ਅਜ਼ਮਾਉਣ ਦਾ ਵਾਜਬ ਕਾਰਨ ਮਿਲ ਜਾਂਦਾ।
ਲੀਡਰਬੋਰਡ ਫੀਡਬੈਕ ਲੂਪ ਨੂੰ ਸੰਕੁਚਿਤ ਕਰ ਦਿੰਦੇ ਹਨ। ਮਹੀਨਿਆਂ ਦੀ ਬਜਾਏ, ਟੀਮਜ਼ ਸਥਿਤੀਆਂ 'ਤੇ ਛੋਟੇ ਸੁਧਾਰ ਕਰਕੇ ਦੇਖ ਸਕਦੀਆਂ—ਆਰਕੀਟੈਕਚਰ ਟਵੀਕ, ਡੇਟਾ ਆਗਮੈਂਟੇਸ਼ਨ, ਅਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਟ੍ਰਿਕ—ਅਤੇ ਦੇਖ ਸਕਦੀਆਂ ਕਿ ਇਹ ਲੋਕਾਂ ਨੂੰ ਕਿੰਨਾ ਅਗੇ ਵਧਾਉਂਦਾ।
ਇਹ ਮੁਕਾਬਲ੍ਹਾ ਲੂਪ ਪ੍ਰਯੋਗਕਤ ਸੁਧਾਰਾਂ ਨੂੰ ਇਨਾਮ ਦਿੰਦਾ ਅਤੇ ਇੱਕ ਸਪਸ਼ਟ ਗੱਲ ਕਹਿੰਦਾ: ਤਰੱਕੀ ਹੋ ਰਹੀ ਹੈ, ਜਿਸ ਨਾਲ ਉਦਯੋਗ ਦਾ ਧਿਆਨ ਡੀਪ ਲਰਨਿੰਗ ਵੱਲ ਖਿੱਚਿਆ ਗਿਆ ਜਦੋਂ ਨਤੀਜੇ ਅਸਵੀਕਾਰਯੋਗ ਹੋ ਗਏ।
ਬੈਂਚਮਾਰਕਾਂ ਨਾਲ ਖਤਰਾ ਵੀ ਬਣਦਾ ਹੈ। ਜਦੋਂ ਇਕ ਹੀ ਸਕੋਰ ਲਕਸ਼ ਬਣ ਜਾਂਦਾ, ਟੀਮਾਂ ਅਕਸਰ ਟੈਸਟ ਤੱਕ ਫਿੱਟ ਹੋ ਸਕਦੀਆਂ—ਜੇਹੜਾ ਹਰ ਵੇਲੇ 'ਠੱਗ' ਕਰਨ ਜਾਂ ਕਿਸੇ ਟਰਿਕ 'ਤੇ ਨਿਰਭਰ ਹੋ ਸਕਦਾ ਹੈ।
ਸਿਹਤਮੰਦ ਰਵੱਈਆ ਇਹ ਹੈ ਕਿ ILSVRC (ਅਤੇ ਕਿਸੇ ਵੀ ਬੈਂਚਮਾਰਕ) ਨੂੰ ਇੱਕ ਮਾਪ-ਥੰਮ੍ਹਾ ਸਮਝੋ, ਪੂਰੀ ਪਰਿਭਾਸ਼ਾ ਨਹੀਂ। ਮਜ਼ਬੂਤ ਨਤੀਜੇ ਇੱਕ ਸੰਕੇਤ ਹਨ; ਫਿਰ ਤੁਸੀਂ ਵੱਖ-ਵੱਖ ਡੇਟਾਸੇੱਟ, ਨਵੇਂ ਡੋਮੇਨ, ਸਟਰੈੱਸ ਟੈਸਟ, ਅਤੇ ਹਕੀਕਤੀ ਦੁਨੀਆ ਦੀ ਗਲਤੀ ਵਿਸ਼ਲੇਸ਼ਣ ਨਾਲ ਪ੍ਰਮਾਣਿਤ ਕਰੋ।
2000 ਦੇ ਅਖੀਰ ਅਤੇ 2010 ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ, ਬਹੁਤ ਸਾਰੇ ਵਿਜ਼ਨ ਸਿਸਟਮ ਹੱਥ-ਨਿਰਮਿਤ ਫੀਚਰਾਂ (edges, textures, shapes) 'ਤੇ ਅਧਾਰਿਤ ਸਨ, ਜੋ ਆਮ ਤੌਰ 'ਤੇ ਸਧਾਰਣ ਕਲਾਸੀਫਾਇਰਾਂ ਨੂੰ ਖੁਰਾਕ ਦਿੰਦੀਆਂ। ਤਰੱਕੀ ਹੌਲੀ ਸੀ ਅਤੇ ਅਕਸਰ ਸੀਮਾਵਾਂ 'ਤੇ ਰੁਕ ਜਾਂਦੀ।
ਟੀਮਾਂ ਨੇ ਫੀਚਰ ਪਾਈਪਲਾਈਨਾਂ ਤੇ ਬਹੁਤ ਘੰਟੇ ਲਾਏ, ਅਤੇ ਨਤੀਜੇ ਆਮ ਤੌਰ 'ਤੇ ਉਸ ਵੇਲੇ ਟੁੱਟ ਜਾਂਦੇ ਜਦੋਂ ਤਸਵੀਰਾਂ ਗੰਦੀ ਹੁੰਦੀਆਂ।
ImageNet ਨੇ ਪਹਿਲਾਂ ਹੀ ਇਹ ਮਿਆਰ ਉੱਚਾ ਕਰ ਦਿੱਤਾ ਸੀ ਕਿ "ਜ਼ਿਆਦਾ ਅਤੇ ਵਿਭਿੰਨ ਡੇਟਾ ਤੋਂ ਸਿੱਖਣਾ" ਸੰਭਵ ਹੈ। ਪਰ ਕਈ ਖੋਜਕਾਰ ਅਜੇ ਵੀ شک کر ਰਹੇ ਸਨ ਕਿ ਡੀਪ ਨੈਟਵਰਕ—ਖਾਸ ਕਰਕੇ ਘਣੇ—ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਚੰਗੇ ਹੋ ਸਕਦੇ ਹਨ।
2012 ਵਿੱਚ AlexNet ਨੇ ਉਹ ਵਿਸ਼ਵਾਸ ਬਦਲ ਦਿੱਤਾ ਜਿਹੜਾ ਦਰਜਨ ਛੋਟੇ ਸੁਧਾਰ ਨਹੀਂ ਕਰ ਸਕਦੇ। ਮਾਡਲ ਨੇ ਇੱਕ ਡੀਪ convolutional ਨੈਟਵਰਕ ਵਰਤਿਆ ਜੋ ImageNet 'ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ, GPUs ਨੇ ਗਣਨਾ ਨੂੰ ਵਿਆਵਹਾਰਿਕ ਬਣਾਇਆ ਅਤੇ ਵੱਡਾ ਡੇਟਾ ਸਿੱਖਣ ਨੂੰ ਮਤਲਬਪੂਰਨ ਬਣਾਇਆ।
ਬਦਲੇ ਵਿੱਚ, ਨੈਟਵਰਕ ਨੇ ਪਿਕਸਲਾਂ ਤੋਂ ਸਿੱਧਾ ਆਪਣੀਆਂ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਸਿੱਖੀਆਂ—ਇਸ ਦਾ ਨਤੀਜਾ ਐਨਾ ਵੱਡਾ ਸੁਧਾਰ ਸੀ ਕਿ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਨਾ ਮੁਸ਼ਕਲ ਸੀ।
ਇਕ ਦਰਸ਼ਨੀ, ਬੈਂਚਮਾਰਕ-ਅਧਾਰਿਤ ਜਿੱਤ ਨੇ ਪ੍ਰੇਰਣਾਂ ਨੂੰ ਰੀਸ਼ੇਟ ਕੀਤਾ। ਫੰਡ, ਭਰਤੀ, ਅਤੇ ਲੈਬ ਪ੍ਰਾਥਮਿਕਤਾ ਡੀਪ ਲਰਨਿੰਗ ਵੱਲ ਮੁੜ ਗਈ ਕਿਉਂਕਿ ਇਹ ਇੱਕ ਦੋਹਰਾਏ ਜਾ ਸਕਣ ਵਾਲਾ ਨੁਸਖਾ ਦਿੱਸਿਆ: ਡੇਟਾ ਬਢ਼ਾਓ, ਕੰਪੀਊਟ ਬਢ਼ਾਓ, ਅਤੇ ਮਾਡਲਾਂ ਨੂੰ ਸੁਵਿਧਾ ਦਿਓ ਕਿ ਉਹ ਆਪਣੇ ਆਪ ਫੀਚਰ ਸਿੱਖਣ।
2012 ਤੋਂ ਬਾਅਦ, ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਵਿੱਚ “ਸਟੇਟ ਆਫ਼ ਦ ਆਰਟ” ਅਕਸਰ ਇਹ ਮਤਲਬ ਰੱਖਣ ਲੱਗਾ: ਸਾਂਝੇ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ ਸਭ ਤੋਂ ਵਧੀਆ ਨਤੀਜੇ, ਉਹਨਾਂ ਮਾਡਲਾਂ ਵੱਲੋਂ ਜੋ ਅੰਤ-ਟੂ-ਅੰਤ ਸਿੱਖਦੇ ਹਨ। ImageNet ਪ੍ਰਮਾਣਿਕਤਾ ਦਾ ਮੈਦਾਨ ਬਣ ਗਿਆ, ਅਤੇ AlexNet ਨੇ ਸਾਬਤ ਕੀਤਾ ਕਿ ਡੇਟਾ-ਪਹਿਲਾ ਵਿਜ਼ਨ ਖੇਤਰ ਦੇ ਨਿਯਮ ਲਿਖ ਸਕਦਾ ਹੈ।
AlexNet ਦੀ 2012 ਜਿੱਤ ਸਿਰਫ਼ ਇਮੇਜ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਨੰਬਰ ਨਹੀਂ ਵਧਾਉਂਦੀ—ਇਸ ਨੇ ਇਹ ਸੋਚ ਵੀ ਬਦਲ ਦਿੱਤੀ ਕਿ ਜੇ ਢੰਗ ਅਤੇ ਡੇਟਾ ਸਹੀ ਹੋਣ ਤਾਂ ਹੋਰ ਵੀ ਕਿੰਨਾ ਕੁ ਸੰਭਵ ਹੈ। ਜਦੋਂ ਇੱਕ ਨੈਟਵਰਕ ਹਜ਼ਾਰਾਂ ਵਸਤੂਆਂ ਨੂੰ ਨਿਰਭਰ ਤੌਰ 'ਤੇ ਪਛਾਣ ਸਕਦਾ ਸੀ, ਤਾਂ ਪ੍ਰਸ਼ਨ ਆਇਆ: ਕੀ ਇਹੀ ਤਰੀਕਾ ਵਸਤੂਆਂ ਦੀ ਸਥਿਤੀ ਦੱਸ ਸਕਦੀ ਹੈ, ਉਨ੍ਹਾਂ ਨੂੰ ਉੱਖੜ ਸਕਦੀ ਹੈ, ਜਾਂ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਸਮਝ ਸਕਦੀ ਹੈ?
ImageNet-ਸ਼ੈਲੀ ਟ੍ਰੇਨਿੰਗ ਜਲਦੀ ਹੀ ਵੱਧ ਮੁਸ਼ਕਲ ਵਿਜ਼ਨ ਕੰਮਾਂ ਤੱਕ ਫੈਲ ਗਈ:
ਟੀਮਾਂ ਨੇ ਲੱਭਿਆ ਕਿ ImageNet 'ਤੇ ਟ੍ਰੇਨ ਹੋਏ ਮਾਡਲ ਸਿਰਫ਼ ਫੋਟੋਆਂ ਦਾ ਲੇਬਲ ਕਰਨ ਵਿੱਚ ਹੀ ਚੰਗੇ ਨਹੀਂ—ਉਹ ਐਜ, ਟੈਕਸਟਚਰ, ਅਤੇ ਸ਼ੇਪ ਵਰਗੇ ਦੁਹਰਾਏ ਜਾਣ ਵਾਲੇ ਵਿਜ਼ੂਅਲ ਪੈਟਰਨ ਸਿੱਖ ਲੈਂਦੇ ਹਨ ਜੋ ਕਈ ਸਮੱਸਿਆਵਾਂ 'ਤੇ ਲਾਗੂ ਹਨ।
ਟ੍ਰਾਂਸਫਰ ਲਰਨਿੰਗ ਏਨੀ ਹੀ ਸੀਮਾ ਹੈ ਜਿਵੇਂ ਕਿਸੇ ਛੋਟੀ ਕਾਰ ਵਿੱਚ ਡਰਾਈਵ ਕਰਨਾ ਸਿੱਖ ਕੇ ਫਿਰ ਤੇਜ਼ੀ ਨਾਲ ਵੱਡੀ ਵੈਨ 'ਤੇ ਅਨੁਕੂਲ ਹੋ ਜਾਣਾ। ਤੋਹਾਡੇ ਕੋਲ ਕੋਰ ਹੁਨਰ ਰਿਹੰਦਾ ਹੈ (ਸਟੇਅਰਿੰਗ, ਬਰੇਕਿੰਗ), ਅਤੇ ਸਿਰਫ਼ ਉਹ ਚੀਜ਼ਾਂ ਬਦਲਦੀਆਂ ਹਨ ਜੋ ਵੱਖ-ਵੱਖ ਹਨ (ਆਕਾਰ, ਬਲਾਈਂਡ ਸਪਾਟ)।
AI ਸ਼ਬਦਾਂ ਵਿੱਚ: ਤੁਸੀਂ ਪਹਿਲਾਂ ImageNet 'ਤੇ ਪ੍ਰੀਟ੍ਰੇਨ ਕੀਤਾ ਮਾਡਲ ਲੈਂਦੇ ਹੋ ਅਤੇ ਫਿਰ ਆਪਣੇ ਛੋਟੇ, ਖਾਸ ਡੇਟਾਸੇੱਟ 'ਤੇ ਉਸਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕਰਦੇ ਹੋ—ਜਿਵੇਂ ਫੈਕਟਰੀ ਲਾਈਨ ਦੇ ਖ਼ਰਾਬੀਆਂ ਜਾਂ ਚর্ম ਮਰੀਜ਼ੀ ਲੱਛਣ।
ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਇਸ ਲਈ ਸਧਾਰਨ ਹੋ ਗਈ ਕਿਉਂਕਿ ਇਹ ਅਕਸਰ ਦਿੰਦਾ:
“ਪ੍ਰੀਟ੍ਰੇਨ ਫਿਰ ਫਾਈਨ-ਟਿਊਨ” ਪੈਟਰਨ ਉਪਭੋਗਤਾ ਅਤੇ ਉੱਦਯੋਗੀ ਉਤਪਾਦਾਂ ਵਿੱਚ ਫੈਲ ਗਿਆ: ਫੋਟੋ ਖੋਜ ਅਤੇ ਆਰਗਨਾਈਜ਼ੇਸ਼ਨ, ਰਿਟੇਲ ਵਿੱਚ ਵਿਜ਼ੂਅਲ ਖੋਜ (“ਇਸੇ ਜਿਹੇ ਜੁੱਤੇ ਲੱਭੋ”), ਡਰਾਇਵਰ-ਅਸਿਸਟੈਂਸ ਫੀਚਰ ਜੋ ਪੈਦਲ ਚੱਲਣ ਵਾਲਿਆਂ ਨੂੰ ਪਛਾਣਦੇ, ਅਤੇ ਗੁਣਵੱਤਾ-ਨਿਗਰਾਨੀ ਪ੍ਰਣਾਲੀਆਂ ਜੋ ਨੁਕਸਾਨ ਜਾਂ ਗੁੰਮ ਹੋਏ ਹਿੱਸੇ ਦਰਸਾਉਂਦੀਆਂ।
ਇੱਕ ਬੈਂਚਮਾਰਕ ਜਿੱਤ ਇੱਕ ਮੁੜ-ਦੁਹਰਾਏ ਜਾਣ ਵਾਲੇ ਵਰਕਫਲੋ ਬਣ ਗਿਆ ਜੋ ਅਸਲ ਸਿਸਟਮ ਬਣਾਉਣ ਲਈ ਵਰਤਿਆ ਗਿਆ।
ImageNet ਨੇ ਸਿਰਫ਼ ਇਮੇਜ ਰਿਕਗਨੀਸ਼ਨ ਸੁਧਾਰੇ ਹੀ ਨਹੀਂ—ਇਸ ਨੇ ਇਹ ਵੀ ਬਦਲ ਦਿੱਤਾ ਕਿ “ਚੰਗੀ ਖੋਜ” ਕੀ ਮੰਨੀ ਜਾਂਦੀ ਹੈ। ਪਹਿਲਾਂ, ਬਹੁਤ ਸਾਰੀਆਂ ਵਿਜ਼ਨ ਪੇਪਰ ਆਪਣੀ ਝੂਠੀ ਸਫਲਤਾ ਛੋਟੇ ਡੇਟਾਸੇੱਟ ਅਤੇ ਹੱਥ-ਟਿਊਨ ਕੀਤੇ ਫੀਚਰਾਂ ਨਾਲ ਦਲੀਲ ਕਰ ਸਕਦੇ ਸਨ। ImageNet ਤੋਂ ਬਾਅਦ, ਦਾਅਵਿਆਂ ਨੂੰ ਇੱਕ ਜਨਤਕ, ਮਿਆਰੀ ਟੈਸਟ 'ਤੇ ਟਿਕਾਉਣਾ ਪੈਦਾ।
ਕਿਉਂਕਿ ਡੇਟਾਸੇੱਟ ਅਤੇ ਚੈੱਲ-ਨਿਯਮ ਸਾਂਝੇ ਸਨ, ਵਿਦਿਆਰਥੀ ਅਤੇ ਛੋਟੀਆਂ ਲੈਬਾਂ ਕੋਲ ਅਸਲੇ ਮੌਕਾ ਆ گیا। ਤੁਹਾਨੂੰ ਆਪਣੀ ਨਿੱਜੀ ਤਸਵੀਰ ਸੰਗ੍ਰਹਿ ਦੀ ਲੋੜ ਨਹੀਂ ਸੀ; ਤੁਸੀਂ ਇਕ ਸਾਫ਼ ਵਿਚਾਰ ਅਤੇ ਅਨੁਸ਼ਾਸਨ ਨਾਲ ਸ਼ੁਰੂ ਕਰ ਸਕਦੇ ਸਨ।
ਇਸ ਨੇ ਖੋਜਕਾਰਾਂ ਦੀ ਇੱਕ ਪੀੜ੍ਹੀ ਬਣਾਈ ਜੋ ਇਕੋ ਸਮੱਸਿਆ 'ਤੇ ਮੁਕਾਬਲਾ ਕਰਕੇ ਸਿੱਖੀ।
ImageNet ਨੇ ਉਹ ਟੀਮਾਂ ਇਨਾਮੀ ਕੀਤਾ ਜੋ ਕੀਤਾ-ਪੂਰੇ ਚਾਰ ਚੀਜ਼ਾਂ ਨੂੰ ਸੰਭਾਲ ਸਕਦੀਆਂ:
ਉਹ “ਫੁੱਲ-ਪਾਈਪਲਾਈਨ” ਸੋਚ ਬਾਅਦ ਵਿੱਚ ਸਮੂਹ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਵਿੱਚ ਮਿਆਰੀ ਹੋ ਗਈ।
ਸਾਂਝੇ ਬੈਂਚਮਾਰਕ ਨਾਲ, ਤਰੀਕਿਆਂ ਦੀ ਤੁਲਨਾ ਅਤੇ ਨਤੀਜੇ ਦੁਹਰਾਉਣਾ ਆਸਾਨ ਹੋ ਗਿਆ। ਖੋਜਕਾਰ ਕਹਿ ਸਕਦੇ ਸਨ “ਅਸੀਂ ImageNet ਰੈਸਿਪੀ ਵਰਤੀ” ਅਤੇ ਪਾਠਕ ਜਾਣਦੇ ਕਿ ਇਸਦਾ ਕੀ ਅਰਥ ਹੈ। ਸਮੇਂ ਦੇ ਨਾਲ, ਪੇਪਰ ਘਣੇ-ਤਫਸੀਲ ਟ੍ਰੇਨਿੰਗ ਵੇਰਵੇ, ਹਾਈਪਰਪੈਰਾਮੀਟਰ ਅਤੇ ਸੰਦਰਭ ਲਾਗੂ ਕਰਨ ਲੱਗੇ—ਇੱਕ ਖੁੱਲ੍ਹਾ ਖੋਜ ਸਭਿਆਚਾਰ ਜੋ ਤਰੱਕੀ ਨੂੰ ਇੱਕੱਠੀ ਮਹਿਸੂਸ ਕਰਵਾਉਂਦਾ।
ਉਸੇ ਬੈਂਚਮਾਰਕ ਸਭਿਆਚਾਰ ਨੇ ਇਕ ਅਸੁਖਾਵਾਂ ਹਕੀਕਤ ਨੂੰ ਵੀ ਉਜਾਗਰ ਕੀਤਾ: ਜਿਵੇਂ-ਜਿਵੇਂ ਸਿਖਰ ਨਤੀਜੇ ਵੱਡੇ ਮਾਡਲਾਂ ਅਤੇ ਲੰਮੇ ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਂ ਨਾਲ ਜੁੜੇ, ਕੰਪਿਊਟ ਤੱਕ ਪਹੁੰਚ ਕੂਟ-ਮੁੱਦਾ ਬਣ ਗਈ। ImageNet ਨੇ ਸ਼ੁਰੂ ਵਿੱਚ ਦਾਖਲਾ ਲੋਕਾਂ ਲਈ ਆਸਾਨ ਕੀਤਾ—ਪਰ ਫਿਰ ਦਿਖਾ ਦਿੱਤਾ ਕਿ ਖੇਡ ਕਿਵੇਂ ਫਟਾਫਟ ਓਹੇ ਲੋਕਾਂ ਲਈ ਤੰਗ ਹੋ ਸਕਦਾ ਹੈ ਜਿੰਨ੍ਹਾਂ ਕੋਲ ਵੱਡਾ ਕੰਪਿਊਟ ਨਹੀਂ।
ImageNet ਨੇ ਸਿਰਫ਼ ਸਹੀਤਾ ਨੰਬਰ ਵਧਾਏ ਨਹੀਂ—ਇਸ ਨੇ ਦਿਖਾਇਆ ਕਿ ਮਾਪਣ ਕਿੰਨਾ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਕੀ ਮਾਪ ਰਹੇ ਹੋ। ਜਦੋਂ ਇੱਕ ਡੇਟਾਸੇੱਟ ਸਾਂਝਾ ਜ਼ਿੰਨੀ ਮਾਪ-ਲਕੜੀ ਬਣ ਜਾਂਦੀ, ਉਸਦੀ ਡਿਜ਼ਾਈਨ ਫੈਸਲੇ ਬਿਨਾ ਸ਼ੋਰ ਦੇ ਇਹ ਬਣਾਉਂਦੇ ਕਿ ਮਾਡਲ ਕਿਹੜੀਆਂ ਚੀਜ਼ਾਂ ਚੰਗੀਆਂ ਸਿੱਖੇਗਾ, ਕੀ ਉਹ ਅਣਡਿੱਠੀ ਰਹੇਗਾ, ਅਤੇ ਕੀ ਗਲਤ ਸਮਝੇਗਾ।
1,000 ਸ਼੍ਰੇਣੀਆਂ ਨੂੰ ਪਛਾਣਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਮਾਡਲ ਇੱਕ ਖਾਸ ਨਜ਼ਰੀਆ ਸਿੱਖਦਾ ਹੈ: ਕਿਹੜੀਆਂ ਚੀਜ਼ਾਂ "ਮਹੱਤਵਪੂਰਨ" ਹਨ, ਕਿੰਨੇ ਵਿਜ਼ੂਅਲੀ ਤੌਰ 'ਤੇ ਅਲੱਗ-ਅਲੱਗ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ, ਅਤੇ ਕਿਹੜੇ ਐਜ ਕੇਸ ਘੱਟ ਮਹੱਤਵ ਦੇ ਮੰਨੇ ਜਾਂਦੇ ਹਨ।
ਜੇ ਕੋਈ ਡੇਟਾਸੇੱਟ ਕੁਝ ਵਾਤਾਵਰਣਾਂ (ਉਦਾਹਰਣ ਲਈ ਪੱਛਮੀ ਘਰ, ਉਤਪਾਦ ਫੋਟੋਗ੍ਰਾਫੀ) ਨੂੰ ਜ਼ਿਆਦਾ ਦਰਸਾਉਂਦਾ, ਤਾਂ ਮਾਡਲ ਉਹਨਾਂ ਸਥਿਤੀਆਂ 'ਚ ਮਹਾਨ ਹੋ ਸਕਦਾ ਹੈ ਪਰ ਹੋਰ ਖੇਤਰਾਂ ਜਾਂ ਸੱਭਿਆਚਾਰਾਂ ਵਿੱਚ ਠੀਕ ਨਾ ਕਰੇ।
ਪੱਖਪਾਤ ਇੱਕ ਚੀਜ਼ ਨਹੀਂ; ਇਹ ਕਈ ਕਦਮਾਂ 'ਚ ਆ ਸਕਦਾ:
ਇੱਕ ਓਸ-ਪੇਲੀਨ ਸਹੀਤਾ ਨੰਬਰ ਸਭ ਕੁਝ ਔਸਤ ਕਰਦਾ ਹੈ। ਇਸਦਾ ਅਰਥ ਇਹ ਹੈ ਕਿ ਇੱਕ ਮਾਡਲ “ਸ਼ਾਨਦਾਰ” ਦਿਖ ਸਕਦਾ ਹੈ ਪਰ ਖਾਸ ਗਰੁੱਪਾਂ ਜਾਂ ਸੰਦਰਭਾਂ 'ਚ ਭਾਰੀ ਤਰੀਕੇ ਨਾਲ ਫੇਲ ਹੋ ਸਕਦਾ—ਜੋ ਅਸਲ ਉਤਪਾਦਾਂ (ਫੋਟੋ ਟੈਗਿੰਗ, ਸਮੱਗਰੀ ਨਿਯੰਤਰਣ, ਪੁਗਹ ਪ੍ਰਾਪਤ ਕਰਨ ਵਾਲੇ ਸੰਦ) ਲਈ ਅਹਮ ਹਨ।
ਡੇਟਾਸੇੱਟ ਨੂੰ ਉਤਪਾਦ-ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਸਮਝੋ: ਸਬਗਰੁੱਪ ਮੁਲਿਆੰਕਨ ਚਲਾਓ, ਡੇਟਾ ਸਰੋਤ ਅਤੇ ਲੇਬਲ ਨਿਰਦੇਸ਼ ਦਸਤਾਵੇਜ਼ ਕਰੋ, ਅਤੇ ਆਪਣੇ ਅਸਲ ਉਪਭੋਗਤਿਆਂ ਵਾਲੇ ਪ੍ਰਤੀਨਿਧੀ ਡੇਟਾ 'ਤੇ ਟੈਸਟ ਕਰੋ।
ਹਾਲਕੀ ਡੇਟਾਸੇੱਟ “ਡਾਟਾਸ਼ੀਟ” ਅਤੇ ਸਮੇਂ-ਸਮੇਂ 'ਤੇ ਆਡਿਟ ਮੁੱਦੇ ਸਪੁਰਦ ਕਰ ਸਕਦੇ ਹਨ।
ImageNet ਨੇ ਸਾਬਤ ਕੀਤਾ ਕਿ ਪੱਧਰ ਅਤੇ ਚੰਗੇ ਲੇਬਲ ਮੇਂ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਖੋਲ ਸਕਦੇ ਹਨ—ਪਰ ਇਹ ਵੀ ਦਿਖਾਇਆ ਕਿ ਬੈਂਚਮਾਰਕ ਸਫਲਤਾ ਨੂੰ ਹਕੀਕਤ ਦੀ ਭਰੋਸੇਮੰਦਤਾ ਨਾਲ ਗਲਤ ਨਾ ਲਿਆ ਜਾਵੇ। ਤਿੰਨ ਮੁੱਖ ਸਮੱਸਿਆਵਾਂ ਆਮ ਤੌਰ 'ਤੇ ਅੱਜ ਵੀ ਮੁੜ ਆਉਂਦੀਆਂ ਹਨ: ਸ਼ਾਰਟਕਟ, ਕਮਜ਼ੋਰ ਜਨਰਲਾਈਜੇਸ਼ਨ, ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਡ੍ਰਿਫਟ।
ImageNet ਦੀਆਂ ਤਸਵੀਰਾਂ ਅਕਸਰ ਸਾਫ, ਕੇਂਦਰਿਤ ਅਤੇ ਚੰਗੀਆਂ ਸ਼ਰਤਾਂ ਵਿੱਚ ਫੋਟੋਗ੍ਰਾਫ ਕੀਤੀਆਂ ਗਈਆਂ ਹੁੰਦੀਆਂ ਹਨ। ਅਸਲ ਤੌਰ 'ਤੇ ਨਿਯੁਕਤ ਤਕਨੀਕਾਂ ਇਨ੍ਹਾਂ ਨਾਲੋਂ ਬਹੁਤ ਜ਼ਿਆਦਾ ਗੰਦਾ ਹੁੰਦਾ: ਘੱਟ ਰੋਸ਼ਨੀ, ਮੋਸ਼ਨ ਬਲਰ, ਅਧ-ਢਕ, ਅਸਧਾਰਣ ਕੈਮਰਾ ਐਂਗਲ, ਭਰੇ ਹੋਏ ਬੈਕਗ੍ਰਾਊਂਡ, ਅਤੇ ਇਕ ਤਸਵੀਰ ਵਿੱਚ ਇੱਕ ਤੋਂ ਵੱਧ ਵਸਤੂਆਂ।
ਇਹ ਫਰਕ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ ਕਿਉਂਕਿ ਇਕ ਮਾਡਲ ਸਾਫ਼ ਟੈਸਟ ਸੈਟ 'ਤੇ ਵਧੀਆ ਸਕੋਰ ਕਰਕੇ ਵੀ ਅਸਲ ਉਪਯੋਗ ਵਿੱਚ ਟੁੱਟ ਸਕਦਾ ਹੈ।
ਉੱਚ ਸਹੀਤਾ ਇਹ ਗਰੰਟੀ ਨਹੀਂ ਦਿੰਦੀ ਕਿ ਮਾਡਲ ਨੇ ਉਹ ਸੰਕਲਪ ਸਿੱਖਿਆ ਜੋ ਤੁਸੀਂ ਚਾਹੁੰਦੇ ਸਨ। ਇੱਕ ਕਲਾਸੀਫਾਇਰ ਪਿਛੋਕੜ ਪੈਟਰਨ (ਉਦਾਹਰਣ ਲਈ “ਬਰਫ” ਲਈ “ਸਲੇਡ”), ਆਮ ਫਰੇਮਿੰਗ, ਵਾਟਰਮਾਰਕ, ਜਾਂ ਕੈਮਰਾ ਸਟਾਈਲ 'ਤੇ ਨਿਰਭਰ ਹੋ ਸਕਦਾ ਹੈ ਨਾ ਕਿ ਵਸਤੂ ਨੂੰ ਸੂਝਣ 'ਤੇ।
ਇਹ “ਸ਼ਾਰਟਕਟ” ਮੁਲਿਆੰਕਨ ਦੌਰਾਨ ਹੋਸ਼ਿਆਰ ਦਿਖਦੇ ਹਨ ਪਰ ਜਦੋਂ ਉਹ ਸੰਕੇਤ غائب ਹੋ ਜਾਂਦੇ ਹਨ ਤਾਂ ਨਰਮ ਹੋ ਜਾਂਦੇ ਹਨ—ਇਸੀ ਲਈ ਮਾਡਲ ਛੋਟੇ ਬਦਲਾਅ 'ਤੇ ਭੰਗੁਰ ਹੋ ਸਕਦੇ ਹਨ।
ਚਾਹੇ ਲੇਬਲ ਸਹੀ ਰਹਿਣ, ਡੇਟਾ ਬਦਲਦਾ ਹੈ। ਨਵੇਂ ਉਤਪਾਦ ਡਿਜ਼ਾਈਨ ਆਉਂਦੇ ਹਨ, ਫੋਟੋਗ੍ਰਾਫੀ ਰੁਝਾਨ ਤਬਦੀਲ ਹੁੰਦੇ ਹਨ, ਇਮੇਜ ਕੰਪ੍ਰੈਸ਼ਨ ਬਦਲਦਾ ਹੈ, ਅਤੇ ਸ਼੍ਰੇਣੀਆਂ ਵਿਕਸਤ ਜਾਂ ਸੰਦੇਹਾਸਪਦ ਹੋ ਜਾਂਦੀਆਂ ਹਨ। ਸਾਲਾਂ ਵਿੱਚ, ਇੱਕ ਫਿਕਸਡ ਡੇਟਾਸੇੱਟ ਲੋਕਾਂ ਵੱਲੋਂ ਅਸਲ ਵਿੱਚ ਅਪਲੋਡ ਕੀਤੇ ਗਏ ਡੇਟਾ ਅਤੇ ਡਿਵਾਈਸਾਂ ਤੋਂ ਘੱਟ ਪ੍ਰਤਿਨਿੱਧੀ ਬਣ ਜਾਂਦਾ ਹੈ।
ਵੱਧ ਡੇਟਾ ਕੁਝ ਗਲਤੀਆਂ ਘਟਾ ਸਕਦਾ ਹੈ, ਪਰ ਇਹ ਮਿਸ਼ਮੈਚ, ਸ਼ਾਰਟਕਟ, ਜਾਂ ਡ੍ਰਿਫਟ ਆਪਣੇ ਆਪ ਠੀਕ ਨਹੀਂ ਕਰਦਾ। ਟੀਮਾਂ ਨੂੰ ਲੋੜ ਹੈ:
ImageNet ਦੀ ਵਿਰਾਸਤ ਭਾਗੀ-ਭਾਗੀ ਚੇਤਾਵਨੀ ਵੀ ਹੈ: ਬੈਂਚਮਾਰਕ ਤਾਕਤਵਰ ਹਨ, ਪਰ ਇਹ ਅੰਤ-ਸੀਮਾ ਨਹੀਂ ਹਨ।
ImageNet ਇੱਕਮਾਤ੍ਰ “ਉੱਤਮ ਤਾਰਾ” ਨਹੀਂ ਰਹਿ ਗਿਆ ਨਾ ਕਿ ਇਸ ਲਈ ਕਿ ਇਹ ਨਾਕਾਮ ਹੋ ਗਿਆ, ਪਰ ਇਸ ਲਈ ਕਿ ਖੇਤਰ ਦੀਆਂ ਇੱਛਾਵਾਂ ਕਿਸੇ ਇੱਕ ਕੰਮ-ਕ੍ਰਿਤ ਡੇਟਾਸੇੱਟ ਤੋਂ ਬਹੁਤ ਬਾਹਰ ਨਿੱਕਲ ਗਈਆਂ।
ਜਿਵੇਂ ਮਾਡਲ ਵੱਧੇ, ਟੀਮਾਂ ਬਹੁਤ ਵੱਡੇ ਅਤੇ ਵਿਆਪਕ ਸਰੋਤਾਂ 'ਤੇ ਟ੍ਰੇਨ ਕਰਨ ਲੱਗੀਆਂ: ਵੈੱਬ ਤਸਵੀਰਾਂ, ਉਤਪਾਦ ਫੋਟੋਆਂ, ਵੀਡੀਓ ਫਰੇਮ, ਸਿੰਥੈਟਿਕ ਡੇਟਾ, ਅਤੇ ਡੋਮੇਨ-ਖਾਸ ਸੰਗ੍ਰਹਿ (ਮੈਡੀਕਲ, ਸੈਟੇਲਾਈਟ, ਰਿਟੇਲ)। ਲਕਸ਼ ਬਦਲ ਗਿਆ: “ਇੱਕ ਬੈਂਚਮਾਰਕ ਜਿੱਤੋ” ਤੋਂ “ਬੜੀ ਹੱਦ ਤੱਕ ਸਿੱਖੋ ਤਾਂ ਕਿ ਅਨੁਕੂਲਤਾ ਹੋਵੇ।”
ਜੇ ਜਿੱਥੇ ImageNet ਧਿਆਨ ਨਾਲ ਕਿਊਰੇਟ ਅਤੇ ਸ਼੍ਰੇਣੀ ਸੰਤੁਲਨ ਉਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਸੀ, ਨਵੇਂ ਪਾਈਪਲਾਈਨ ਕੱਛ ਸਾਫ਼-ਸੁਥਰੇਪਣ ਨੂੰ ਛੱਡ ਕੇ ਕਵਰੇਜ ਲਈ ਵਪਾਰਕ ਉੱਤੇ ਵਧਦੇ ਹਨ। ਇਸ ਵਿੱਚ ਕਮਜ਼ੋਰ ਲੇਬਲਡ ਡੇਟਾ (ਕੈਪਸ਼ਨ, alt-text, ਆਲੇ-ਦੁਆਲੇ ਦਾ ਟੈਕਸਟ) ਅਤੇ ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਜਿਹੜੀ ਮਨੁੱਖੀ ਸ਼੍ਰੇਣੀ ਲੇਬਲਾਂ 'ਤੇ ਘੱਟ ਨਿਰਭਰ ਰਹਿੰਦੀ, ਸ਼ਾਮਲ ਹਨ।
ImageNet Challenge ਨੇ ਇੱਕ ਹੈੱਡਲਾਈਨ ਨੰਬਰ ਨਾਲ ਤਰੱਕੀ ਨਜ਼ਰ ਆਉਣ ਯੋਗ ਬਣਾਈ। ਆਧੁਨਿਕ ਅਭਿਆਸ ਜ਼ਿਆਦਾ ਵਿਭਿੰਨ ਹੈ: ਮੁਲਿਆੰਕਨ ਸੂਟ ਵੱਖ-ਵੱਖ ਡੋਮੇਨਾਂ, ਸ਼ਿਫਟਾਂ ਅਤੇ ਫੇਲ ਚਾਲਾਂ ਉੱਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਟੈਸਟ ਕਰਦੇ—ਆਊਟ-ਆਫ-ਡਿਸਟ੍ਰਿਬਿਊਸ਼ਨ ਡੇਟਾ, ਲਾਂਗ-ਟੇਲ ਸ਼੍ਰੇਣੀਆਂ, ਫੇਅਰਨੈਸ ਸਲਾਈਸ, ਅਤੇ ਵਰਤੋਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਜਿਵੇਂ ਲੇਟੰਸੀ ਅਤੇ ਊਰਜਾ।
ਹੋਰ ਇਹ ਪੁੱਛਦੇ ਹਨ: “ਟੌਪ-1 ਸਹੀਤਾ ਕੀ ਹੈ?” ਦੇ ਥਾਂ “ਇਹ ਕਿੱਥੇ ਟੁੱਟਦਾ ਹੈ, ਅਤੇ ਕਿੰਨੀ ਭਰੋਸੇਯੋਗੀ ਢੰਗ ਨਾਲ?”
ਅੱਜ ਦੇ ਮਲਟੀਮੋਡਲ ਸਿਸਟਮ ਤਸਵੀਰਾਂ ਅਤੇ ਟੈਕਸਟ ਦੀਆਂ ਸਾਂਝੀਆਂ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਸਿੱਖਦੇ ਹਨ, ਜੋ ਇਕ ਮਾਡਲ ਨਾਲ ਖੋਜ, ਕੈਪਸ਼ਨ ਅਤੇ ਵਿਜ਼ੂਅਲ ਸਵਾਲ-ਜਵਾਬ ਨੂੰ ਯੋਗ ਬਣਾਉਂਦੇ ਹਨ। ਵਿਵਾਦੀ ਲਰਨਿੰਗ (image-text pairing) ਨਾਲ ਪ੍ਰੇਰਿਤ ਤਰੀਕੇ ਵੈੱਬ-ਪੱਧਰੀ ਸਪਰਵਿਜ਼ਨ ਨੂੰ ਯਥਾਰਥ ਬਣਾਉਂਦੇ ਹਨ, ਜੋ ImageNet-ਸ਼ੈਲੀ ਕਲਾਸ ਲੇਬਲਾਂ ਤੋਂ ਅੱਗੇ ਚਲੇ ਗਏ।
ਜਿਵੇਂ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਵੱਡਾ ਅਤੇ ਜ਼ਿਆਦਾ ਸਕ੍ਰੈਪ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਮੁਸ਼ਕਿਲ ਪ੍ਰਸ਼ਨ ਸਮਾਜਿਕ ਅਤੇ ਤਕਨੀਕੀ ਦੋਹਾਂ ਬਣ ਜਾਂਦੇ ਹਨ: ਡੇਟਾਸੇੱਟ 'ਚ ਕੀ ਹੈ ਇਸ ਦੀ ਦਸਤਾਵੇਜ਼ੀ, ਜੇ ਜ਼ਰੂਰੀ ਹੋਵੇ ਤਾਂ ਸਹਿਮਤੀ ਲੈਣਾ, ਕਾਪੀਰਾਈਟ ਸਮੱਗਰੀ ਦੀ ਸੰਭਾਲ, ਅਤੇ ਹਟਾਉਣ ਜਾਂ ਬਹਿਸਲ ਦਾ ਕਾਰਜ।
ਅਗਲਾ “ਕੇਂਦਰ” ਸ਼ਾਇਦ ਕਿਸੇ ਇਕ ਡੇਟਾਸੇੱਟ ਦੀ ਥਾਂ—ਅਧਿਕ ਸੰਸਕਾਰਾਂ ਦਾ ਸੈੱਟ ਹੋਵੇ।
ImageNet ਦਾ ਨਿੱਘਾ ਸਬਕ ਟੀਮਾਂ ਲਈ ਇਹ ਨਹੀਂ ਹੈ ਕਿ “ਵੱਡੇ ਮਾਡਲ ਵਰਤੋ।” ਇਹ ਹੈ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਅਨੁਸ਼ਾਸਿਤ ਡੇਟਾ ਕਾਰਜ, ਸਪਸ਼ਟ ਮੁਲਿਆੰਕਨ, ਅਤੇ ਸਾਂਝੇ ਮਿਆਰਾਂ ਤੋਂ ਆਉਂਦਾ ਹੈ—ਉਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਤੁਸੀਂ ਮਹੀਨਿਆਂ ਆਰਕੀਟੈਕਚਰ ਟ੍ਯੂਨਿੰਗ 'ਚ ਗੁਜ਼ਾਰੋ।
ਪਹਿਲਾ, ਡੇਟਾ ਗੁਣਵੱਤਾ ਵਿੱਚ ਉਹੀ ਨਿਵੇਸ਼ ਕਰੋ ਜੋ ਤੁਸੀਂ ਉਤਪਾਦ ਗੁਣਵੱਤਾ ਵਿੱਚ ਕਰਦੇ ਹੋ। ਸਪਸ਼ਟ ਲੇਬਲ ਨਿਦੇਸ਼, ਐਜ-ਕੇਸਾਂ ਦੇ ਉਦਾਹਰਣ, ਅਤੇ ਅਸਪਸ਼ਟ ਮਾਮਲਿਆਂ ਲਈ ਯੋਜਨਾ “ਚੁਪ ਗਲਤੀਆਂ” ਰੋਕਦੀ ਹੈ ਜੋ ਮਾਡਲ ਨੂੰ ਕਮਜ਼ੋਰ ਦਿਖਾਉਂਦੀਆਂ ਹਨ।
ਦੂਜਾ, ਮੁਲਿਆੰਕਨ ਨੂੰ ਇੱਕ ਡਿਜ਼ਾਈਨ ਆਈਟਮ ਦੀ ਤਰ੍ਹਾਂ ਵਰਤੋ। ਮਾਡਲ ਸਿਰਫ਼ ਇਕ ਮੈਟਰਿਕ, ਇਕ ਡੇਟਾਸੇੱਟ ਅਤੇ ਇਕ ਫੈਸਲੇ-ਥਰੈਸ਼ਹੋਲਡ ਦੇ ਸਪੇਕਟਰ 'ਤੇ “ਚੰਗਾ” ਹੈ। ਫੈਸਲਾ ਕਰੋ ਕਿ ਕਿਹੜੀਆਂ ਗਲਤੀਆਂ ਮਾਇਨੇ ਰੱਖਦੀਆਂ ਹਨ (ਫਾਲਸ ਅਲਾਮ ਵੱਸੀ-ਚੁੱਕ ਜਾਂ ਮਿਸ) ਅਤੇ ਰੋਸ਼ਨੀ, ਡਿਵਾਈਸ ਕਿਸਮ, ਭੂਗੋਲਿਕ/ਨਗਰੀ ਸੈਗਮੈਂਟ ਅਨੁਸਾਰ ਸਲਾਈਸਾਂ ਵਿੱਚ ਮੁਲਿਆੰਕਨ ਕਰੋ।
ਤੀਜਾ, ਆਪਣੇ ਆਰਗਨਾਈਜ਼ੇਸ਼ਨ ਵਿੱਚ ਸਾਂਝੇ ਮਿਆਰ ਬਣਾਓ। ImageNet ਦੀ ਸਫਲਤਾ ਇਕ ਹਿੱਸੇ ਲਈ ਸੀ ਕਿਉਂਕਿ ਹਰ ਕੋਈ ਨਿਯਮਾਂ 'ਤੇ ਸਹਿਮਤ ਸੀ। ਤੁਹਾਡੀ ਟੀਮ ਨੂੰ ਉਹੀ ਚਾਹੀਦੀ ਹੈ: ਨਾਮਕਰਨ ਰਿਵਾਜ, ਵਰਜ਼ਨਿੰਗ, ਅਤੇ ਇੱਕ ਸਾਂਝਾ ਬੈਂਚਮਾਰਕ ਜੋ ਮਿਡ-ਕ੍ਵਾਰਟਰ ਵਿੱਚ ਨਹੀਂ ਬਦਲੇ।
ਜਦੋਂ ਤੁਹਾਡਾ ਟਾਸਕ ਆਮ ਵਿਜ਼ੂਅਲ ਸੰਕਲਪਾਂ ਦੇ ਕੋਲ ਹੋਵੇ ਅਤੇ ਤੁਹਾਨੂੰ ਸਿਰਫ਼ ਮਾਡਲ ਨੂੰ ਅਨੁਕੂਲ ਕਰਨ ਦੀ ਲੋੜ ਹੋਵੇ (ਘੱਟ ਡੇਟਾ, ਤੇਜ਼ ਇਟ੍ਰੇਸ਼ਨ, ਕਾਫ਼ੀ ਸਹੀਤਾ), ਟ੍ਰਾਂਸਫਰ ਲਰਨਿੰਗ ਵਰਤੋਂ।
ਨਵਾਂ ਡੇਟਾ ਇਕੱਠਾ ਕਰੋ ਜਦੋਂ ਤੁਹਾਡਾ ਡੋਮੇਨ ਵਿਸ਼ੇਸ਼ ਹੋ (ਮੈਡੀਕਲ, ਉਦਯੋਗੀ, ਘੱਟ-ਰੋਸ਼ਨੀ, ਅਣਜਾਣ ਸੈਂਸਰ), ਜਦੋਂ ਗਲਤੀਆਂ ਮਹਿੰਗੀਆਂ ਹਨ, ਜਾਂ ਜਦੋਂ ਤੁਾਡੇ ਉਪਭੋਗਤਾ ਅਤੇ ਸ਼ਰਤ ਸਰਵਜਨਿਕ ਡੇਟਾਸੇੱਟਾਂ ਤੋਂ ਕਾਫ਼ੀ ਵੱਖ-ਵੱਖ ਹੋਣ।
ImageNet ਤੋਂ ਬਾਅਦ ਇੱਕ ਸ਼ਾਂਤ ਪਰਿਵਰਤਨ ਇਹ ਹੈ ਕਿ “ਪਾਈਪਲਾਈਨ” ਮਾਡਲ ਦੇ ਨਾਲ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਹੋ ਗਈ: ਵਰਜ਼ਨਡ ਡੇਟਾਸੇੱਟ, ਦੁਹਰਾਏ ਜਾ ਸਕਣ ਵਾਲੇ ਟ੍ਰੇਨਿੰਗ ਦੌਰ, ਤੈਨਾਤੀ ਜਾਂਚਾਂ, ਅਤੇ ਰੋਲਬੈਕ ਯੋਜਨਾਵਾਂ। ਜੇ ਤੁਸੀਂ ਉਨ੍ਹਾਂ ਵਰਕਫਲੋਜ਼ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਅੰਦਰੂਨੀ ਟੂਲ ਬਣਾ ਰਹੇ ਹੋ, ਤਾਂ ਪਲੇਟਫਾਰਮਾਂ ਜਿਵੇਂ Koder.ai ਤੁਹਾਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਪਰੋਟੋਟਾਈਪ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ—ਮੁਲਿਆੰਕਨ ਸਲਾਈਸ ਲਈ ਡੈਸ਼ਬੋਰਡ, ਐਨੋਟੇਸ਼ਨ ਰਿਵਿਊ ਕਤਾਰਾਂ, ਜਾਂ ਡੇਟਾਸੇੱਟ ਵਰਜ਼ਨ ਟਰੈਕ ਕਰਨ ਲਈ ਸਧਾਰਨ ਅੰਦਰੂਨੀ ਵੈੱਬ ਐਪਜ—ਇੱਕ ਚੈਟ-ਅਧਾਰਿਤ ਸਪੈੱਕ ਤੋਂ React ਫਰੰਟਐਂਡ ਅਤੇ Go + PostgreSQL ਬੈਕਐਂਡ ਜਨਰੇਟ ਕਰਕੇ। ਤੇਜ਼ ਟੀਮਾਂ ਲਈ ਸਨੈਪਸ਼ਾਟ ਅਤੇ ਰੋਲਬੈਕ ਵਰਗੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਡੇਟਾ ਅਤੇ ਮੁਲਿਆੰਕਨ ਲੋਜਿਕ 'ਤੇ ਇਤਰੇਟ ਕਰਦੇ ਸਮੇਂ ਲਾਭਦਾਇਕ ਹੋ ਸਕਦੀਆਂ ਹਨ।
ਅਧਿਕ AI ਇਤਿਹਾਸ ਅਤੇ ਲਾਗੂਗਾਈਡਾਂ ਲਈ /blog ਵੇਖੋ। ਜੇ ਤੁਸੀਂ ਡੇਟਾ/ਮਾਡਲ ਟੂਲਿੰਗ ਲਈ ਬਣਾਉਣ ਬਨਾਮ ਖ਼ਰੀਦਣ ਦੀ ਤੁਲਨਾ ਕਰ ਰਹੇ ਹੋ ਤਾਂ ਇੱਕ ਤੇਜ਼ ਤਜਰਬੇ ਲਈ /pricing ਵੇਖੋ।
ImageNet ਇਸ ਲਈ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ ਕਿ ਇਸ ਨੇ ਵਿਆਪਕ ਪੱਧਰ 'ਤੇ ਤਰੱਕੀ ਨੂੰ ਮਾਪਣ ਯੋਗ ਬਣਾਇਆ: ਇੱਕ ਵੱਡਾ, ਨਿਰੰਤਰ ਲੇਬਲ ਕੀਤਾ ਹੋਇਆ ਡੇਟਾਸੇੱਟ ਅਤੇ ਇੱਕ ਸਾਂਝਾ ਬੈਂਚਮਾਰਕ ਨੇ ਖੋਜਕਾਰਾਂ ਨੂੰ ਵਿਧੀਆਂ ਦੀ ਸਚਾਈ ਨਾਲ ਤੁਲਨਾ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੱਤੀ ਅਤੇ ਮਾਡਲਾਂ ਨੂੰ ਛੋਟੇ, ਬਹੁਤ-ਨਿਰਧਾਰਿਤ ਨਮੂਨਿਆਂ ਤੋਂ ਪਰੇ ਸਿੱਖਣ 'ਤੇ ਧੱਕ ਦਿੱਤਾ।
ImageNet ਇੱਕ ਵੱਡਾ, ਕਿਊਰੇਟ ਕੀਤਾ ਗਿਆ ਇਮੇਜ ਡੇਟਾਸੇੱਟ ਹੈ ਜਿਸ ਵਿੱਚ ਤਸਵੀਰਾਂ ਨੂੰ ਬਹੁਤ ਸਾਰੀਆਂ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਲੇਬਲ ਕੀਤਾ ਗਿਆ ਹੈ (ਇੱਕ WordNet-ਨੁਮਾ ਹਾਇਰਾਰਕੀ ਦੇ ਅਨੁਸਾਰ). ਇਹ ਕੋਈ ਮਾਡਲ ਨਹੀਂ, ਨਾ ਹੀ ਕੋਈ ਟ੍ਰੇਨਿੰਗ ਐਲਗੋਰਿਦਮ ਹੈ, ਅਤੇ ਨਾ ਹੀ ‘ਅਸਲ ਸਮਝ’ ਦਾ ਸਬੂਤ—ਇਹ ਸਿਰਫ਼ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਮੁਲਿਆੰਕਨ ਲਈ ਡੇਟਾ ਹੈ।
Fei-Fei Li ਦੀ ਮੁੱਖ ਸੋਚ ਇਹ ਸੀ ਕਿ ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਦੂਧਰੁਰ ਹੈ ਕਿਉਂਕਿ ਡੇਟਾ ਸੀਮਿਤ ਸੀ, ਸਿਰਫ਼ ਐਲਗੋਰਿਦਮ ਨਹੀਂ। ImageNet ਨੇ ਇੱਕ ਡੇਟਾ-ਪਹਿਲਾ ਅਪ੍ਰੋਚ ਦਰਸਾਈ: ਸਪਸ਼ਟ ਸ਼੍ਰੇਣੀਆਂ ਅਤੇ ਲੇਬਲਿੰਗ ਨਿਯਮ ਪਰਿਭਾਸ਼ਤ ਕਰੋ, ਫਿਰ ਉਦਾਹਰਣਾਂ ਨੂੰ ਵੱਡਾ ਕਰੋ ਤਾਂ ਕਿ ਮਾਡਲ ਮਜ਼ਬੂਤ ਵਿਜ਼ੂਅਲ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਸਿੱਖ ਸਕਣ।
ਪੱਧਰ ਨੇ ਵੱਖ-ਵੱਖਤਾ ਅਤੇ ‘ਘ੍ਰਿਣਾ’ ਦਾ ਜੋੜ ਦਿੱਤਾ (ਰੋਸ਼ਨੀ, ਐਂਗਲ, ਭਰੇ ਹੋਏ ਬੈਕਗ੍ਰਾਊਂਡ, ਉਸਾਰੀ), ਜੋ ਕਿ ਛੋਟੇ ਡੇਟਾਸੇੱਟ ਅਕਸਰ ਗੁਆਂਢ ਨਹੀਂ ਕਰਦੇ। ਇਹ ਵੱਖਰੇ ਨਮੂਨੇ ਮਾਡਲਾਂ ਨੂੰ ਉਹ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਸਿੱਖਣ ਲਈ ਦਬਾਅ ਦਿੰਦੇ ਹਨ ਜੋ ਬਹੁਤ ਸਥਿਤੀਆਂ ਵਿੱਚ ਲਾਗੂ ਹੋਂਦੀਆਂ ਹਨ।
ILSVRC ਨੇ ImageNet ਨੂੰ ਇੱਕ ਸਾਂਝਾ ਨਿਯਮ-ਕਿਤਾਬ ਬਣਾਇਆ: ਇਕੋ ਟੈਸਟ ਸੈਟ, ਇਕੋ ਮੈਟਰਿਕ, ਜਨਤਕ ਤੁਲਨਾਵਾਂ। ਇਸ ਨਾਲ ਤੇਜ਼ ਫੀਡਬੈਕ ਲੂਪ ਬਣੇ (ਲੀਡਰਬੋਰਡ), ਦਾਅਵੇ ਘੱਟ ਧੁੰਦਲੇ ਹੋਏ ਅਤੇ ਨਵੇਂ ਤਰੀਕੇ ਤੇਜ਼ੀ ਨਾਲ ਅਪਣਾਏ ਗਏ।
AlexNet ਨੇ ਤਿੰਨ ਗੁਣ ਜੋੜ ਕੇ ਵੱਡਾ ਨਤੀਜਾ ਦਿੱਤਾ:
ਇਸ ਮਿਲਾਪ ਨੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਇੱਕ ਵਿਸ਼ਾਲ ਛਾਲ ਦਿੱਤੀ, ਜੋ ਫੰਡਿੰਗ, ਭਰਤੀ ਅਤੇ ਉਦਯੋਗਿਕ ਰੁਝਾਨਾਂ ਨੂੰ ਡੀਪ ਲਰਨਿੰਗ ਵੱਲ ਮੋੜ ਗਿਆ।
ImageNet 'ਤੇ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਨੇ ਮਾਡਲਾਂ ਨੂੰ ਮੁੜ-ਵਰਤੋਂਯੋਗ ਵਿਜ਼ੂਅਲ ਫੀਚਰ ਸਿਖਾਏ (ਐਡਜ਼, ਟੈਕਸਟਚਰ, ਸ਼ੇਪ). ਫਿਰ ਟੀਮਜ਼ ਛੋਟੀਆਂ ਖਾਸ ਡੇਟਾਸੇੱਟਾਂ 'ਤੇ ਫਾਈਨ-ਟਿਊਨ ਕਰਕੇ ਤੇਜ਼ੀ ਨਾਲ ਅਤੇ ਘੱਟ ਲੇਬਲ ਕੀਤੇ ਡੇਟਾ ਨਾਲ ਵਧੀਆ ਨਤੀਜੇ ਲੈ ਸਕਦੀਆਂ ਹਨ।
ਪੱਖਪਾਤ ਕਈ ਢੰਗ ਨਾਲ ਆ ਸਕਦਾ ਹੈ:
ਇਕ ਉੱਚ ਆਮ ਸਹੀਤਾ ਨੰਬਰ ਵੀ ਖਾਸ ਗਰੁੱਪਾਂ 'ਤੇ ਭਾਰੀ ਗਲਤੀਆਂ ਛੁਪਾ ਸਕਦਾ ਹੈ—ਇਸ ਲਈ ਟੀਮਾਂ ਨੂੰ ਸਲਾਈਸ ਮੁਲਿਆੰਕਨ ਅਤੇ ਡੇਟਾ ਡਾਕਯੂਮੈਂਟੇਸ਼ਨ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।
ਆਮ ਸਮੱਸਿਆਵਾਂ:
ਇਸ ਲਈ ਬੈਂਚਮਾਰਕ ਜਿੱਤਣ ਤੋਂ ਬਾਅਦ ਡੋਮੇਨ ਟੈਸਟ, ਸਟਰੈੱਸ ਟੈਸਟ ਅਤੇ ਨਿਗਰਾਨੀ ਜ਼ਰੂਰੀ ਹੈ।
ਹੁਣ ਦੇ ਟ੍ਰੇਨਿੰਗ ਪਾਈਪਲਾਈਨਾਂ ਵਿੱਚ ਅਕਸਰ ਵੱਧ ਅਤੇ ਵਿਆਪਕ ਸਰੋਤ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ: ਵੈੱਬ-ਚਿਤਰ, ਉਤਪਾਦ ਫੋਟੋਆਂ, ਵੀਡੀਓ ਫਰੇਮ, ਸਿੰਥੈਟਿਕ ਡੇਟਾ, ਅਤੇ ਡੋਮੇਨ-ਖਾਸ ਕਲੈਕਸ਼ਨ. ਮੁਲਿਆੰਕਨ ਇੱਕ ਸਿਰਫ਼ ਸੰਗਤੀ ਨੰਬਰ ਦੀ ਥਾਂ ਕਈ ਟੈਸਟ ਸੂਟਾਂ ਵਿੱਚ ਫੈਲ ਗਿਆ—ਰੋਬਸਟਨੈਸ, ਆਊਟ-ਆਫ-ਡਿਸਟ੍ਰਿਬਿਊਸ਼ਨ, ਅਤੇ ਨੈਤਿਕਤਾ ਸਲਾਈਸਜ਼ ਸਮੇਤ।