Fei-Fei Li ਅਤੇ ImageNet: ਉਹ ਡੇਟਾਸੇੱਟ ਜਿਨ੍ਹਾਂ ਨੇ AI ਨੂੰ ਦੁਬਾਰਾ ਰਚਿਆ

Q: 2012 ਵਿੱਚ AlexNet ਨੂੰ ਆਇਨਫਲੇਕਸ਼ਨ ਪਾਇੰਟ ਕਿਉਂ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ?

AlexNet ਨੇ ਤਿੰਨ ਗੁਣ ਜੋੜ ਕੇ ਵੱਡਾ ਨਤੀਜਾ ਦਿੱਤਾ: - ImageNet-ਪੱਧਰ ਦਾ ਡੇਟਾ - ਅੰਤ-ਟੂ-ਅੰਤ ਡੀਪ convolutional ਨੈਟਵਰਕ - GPUs ਜੋ ਪ੍ਰਸ਼ਿਕਸ਼ਣ ਨੂੰ عملي ਬਣਾਉਂਦੇ ਹਨ ਇਸ ਮਿਲਾਪ ਨੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਇੱਕ ਵਿਸ਼ਾਲ ਛਾਲ ਦਿੱਤੀ, ਜੋ ਫੰਡਿੰਗ, ਭਰਤੀ ਅਤੇ ਉਦਯੋਗਿਕ ਰੁਝਾਨਾਂ ਨੂੰ ਡੀਪ ਲਰਨਿੰਗ ਵੱਲ ਮੋੜ ਗਿਆ।

Q: ImageNet ਨੇ ਪੱਖਪਾਤ ਅਤੇ ਮਾਪਣ ਬਾਰੇ ਸਾਨੂੰ ਕੀ ਸਿਖਾਇਆ?

ਪੱਖਪਾਤ ਕਈ ਢੰਗ ਨਾਲ ਆ ਸਕਦਾ ਹੈ: - ਸੰਗ੍ਰਹਿ: ਕਿਸ ਸਰੋਤਾਂ ਤੋਂ ਫੋਟੋਆਂ ਇਕੱਠੀਆਂ ਕੀਤੀਆਂ ਗਈਆਂ - ਲੇਬਲਿੰਗ: ਐਨੋਟੇਟਰਾਂ ਦੇ ਧਾਰਣਾਂ ਅਤੇ ਅਸਮਿਟਾ - ਵਰਗੀਕਰਨ ਨਿਰਧਾਰਣ: ਕਿਹੜੇ ਲੇਬਲ ਹੋਣ - ਜਿਓਗ੍ਰਾਫੀ/ਸੱਭਿਆਚਾਰ: ਵੱਖ-ਵੱਖ ਸੰਦਰਭਾਂ ਦੀ ਘੱਟ/ਅਧਿਕ ਪਹੁੰਚ ਇਕ ਉੱਚ ਆਮ ਸਹੀਤਾ ਨੰਬਰ ਵੀ ਖਾਸ ਗਰੁੱਪਾਂ 'ਤੇ ਭਾਰੀ ਗਲਤੀਆਂ ਛੁਪਾ ਸਕਦਾ ਹੈ—ਇਸ ਲਈ ਟੀਮਾਂ ਨੂੰ ਸਲਾਈਸ ਮੁਲਿਆੰਕਨ ਅਤੇ ਡੇਟਾ ਡਾਕਯੂਮੈਂਟੇਸ਼ਨ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।

Q: ਸਕੱਤਰ ImageNet 'ਤੇ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਹਕੀਕਤ ਵਿੱਚ ਕਿਵੇਂ ਅਸਫਲ ਹੋ ਸਕਦਾ ਹੈ?

ਆਮ ਸਮੱਸਿਆਵਾਂ: - ਸ਼ਾਰਟਕਟ: ਮਾਡਲ ਪਿਛੋਕੜ ਜਾਂ ਫ੍ਰੇਮਿੰਗ ਵਰਗੀਆਂ ਸੰਕੇਤਾਂ 'ਤੇ ਨਿਰਭਰ ਹੋ ਸਕਦਾ ਹੈ - ਮਿਸ਼ਮੈਚ: ਕਿਊਰੇਟ ਕੀਤੀਆਂ ਤਸਵੀਰਾਂ ਹਕੀਕਤ ਵਾਲੇ ਡੇਟਾਓਂ ਤੋਂ ਵੱਖ-ਵੱਖ ਹੁੰਦੀਆਂ ਹਨ - ਡ੍ਰਿਫਟ: ਸਮੇਂ ਦੇ ਨਾਲ ਡੇਟਾ ਬਦਲਦਾ ਹੈ ਇਸ ਲਈ ਬੈਂਚਮਾਰਕ ਜਿੱਤਣ ਤੋਂ ਬਾਅਦ ਡੋਮੇਨ ਟੈਸਟ, ਸਟਰੈੱਸ ਟੈਸਟ ਅਤੇ ਨਿਗਰਾਨੀ ਜ਼ਰੂਰੀ ਹੈ।

ਲੌਗ ਇਨ ਸ਼ੁਰੂ ਕਰੋ

Fei-Fei Li ਅਤੇ ImageNet: ਉਹ ਡੇਟਾਸੇੱਟ ਜਿਨ੍ਹਾਂ ਨੇ AI ਨੂੰ ਦੁਬਾਰਾ ਰਚਿਆ | Koder.ai

2025 ਵਿੱਚ ਵੀ ImageNet ਦਾ ਕਿਉਂ ਪ੍ਰਭਾਵ ਰਹਿੰਦਾ ਹੈ

Fei-Fei Li ਨੂੰ ਆਮ ਤੌਰ 'ਤੇ ਆਧੁਨਿਕ AI ਨਤੀਜਿਆਂ ਨਾਲ ਜੋੜ ਕੇ ਦੱਸਿਆ ਜਾਂਦਾ ਹੈ ਕਿਉਂਕਿ ਉਸ ਨੇ ਖੇਤਰ ਨੂੰ ਇੱਕ ਸਧਾਰਨ ਪਰ ਤਾਕਤਵਰ ਧਾਰਨਾ ਵੱਲ ਮੋੜਿਆ: ਤਰੱਕੀ ਸਿਰਫ਼ ਬਿਹਤਰ ਐਲਗੋਰਿਦਮਾਂ ਤੋਂ ਨਹੀਂ ਆਉਂਦੀ—ਇਹ ਬਿਹਤਰ ਡੇਟਾ ਤੋਂ ਵੀ ਆਉਂਦੀ ਹੈ। ImageNet ਕੋਈ ਨਵਾਂ ਮਾਡਲ ਜਾਂ ਚਾਲਾਕ ਤਰੀਕਾ ਨਹੀਂ ਸੀ। ਇਹ ਵਿਜ਼ੂਅਲ ਦੁਨੀਆ ਦੀ ਇੱਕ ਵੱਡੀ, ਧਿਆਨ ਨਾਲ ਲੇਬਲ ਕੀਤੀ ਹੋਈ ਜ਼ਬਰਦਸਤ ਝਲਕ ਸੀ ਜਿਸਨੇ ਮਸ਼ੀਨਾਂ ਨੂੰ ਅਸਲ ਵਿੱਚ ਸਿੱਖਣ ਲਈ ਕੁਝ ਠੋਸ ਦਿੱਤਾ।

ਵੱਡਾ ਵਿਚਾਰ: ਡੇਟਾ ਸੀਮਾ ਨੂੰ ਬਦਲ ਸਕਦਾ ਹੈ

ImageNet ਤੋਂ ਪਹਿਲਾਂ, ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਸਿਸਟਮ ਅਕਸਰ ਛੋਟੇ ਅਤੇ ਤੰਗ ਡੇਟਾਸੇੱਟਾਂ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ ਜਾਂਦੇ ਸਨ। ਇਸ ਨਾਲ ਇਹ ਸੀਮਤ ਹੋ ਗਿਆ ਕਿ ਖੋਜਕਾਰ ਕੀ ਮਾਪ ਸਕਦੇ ਹਨ ਅਤੇ ਮਾਡਲਾਂ ਅਸਲ ਵਿੱਚ ਕੀ ਸਿੱਖ ਸਕਦੇ ਹਨ। ImageNet ਨੇ ਇੱਕ ਸਧਾਰਨ ਬੇਟ ਲਾਈ: ਜੇ ਤੁਸੀਂ ਕਾਫ਼ੀ ਵੱਡੀ ਹਕੀਕਤੀ ਤਸਵੀਰਾਂ ਦੀ ਸੰਗ੍ਰਹਿ ਇਕੱਠੀ ਕਰਦੇ ਹੋ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਲਗਾਤਾਰ ਲੇਬਲ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਸਿਸਟਮਾਂ ਨੂੰ ਕਈ ਅਵਧਾਰਨਾਵਾਂ ਨੂੰ ਪਛਾਣਨ ਲਈ ਟ੍ਰੇਨ ਕਰ ਸਕਦੇ ਹੋ—ਤੇ ਬਣਾਵਟੀ ਤੌਰ 'ਤੇ ਤਰੀਕਿਆਂ ਨੂੰ ਨਿਆਪਮਾਪੂਰਵਕ ਤੌਰ 'ਤੇ ਤੁਲਨਾ ਕਰ ਸਕਦੇ ਹੋ।

ਇਹ “ਡੇਟਾ-ਪਹਿਲਾ” ਰੂਪਰੇਖਾ 2025 ਵਿੱਚ ਵੀ ਮਾਇਨੇ ਰੱਖਦੀ ਹੈ ਕਿਉਂਕਿ ਇਹ ਅਜੇ ਵੀ ਇਹ ਨਿਰਧਾਰਿਤ ਕਰਦੀ ਹੈ ਕਿ AI ਟੀਮਾਂ ਕਿਵੇਂ ਕੰਮ ਕਰਦੀਆਂ ਹਨ: ਕੰਮ ਨੂੰ ਪਰਿਭਾਸ਼ਤ ਕਰੋ, ਲੇਬਲ (ਇੱਕ ਟਾਰਗਟ) ਪਰਿਭਾਸ਼ਤ ਕਰੋ, ਅਤੇ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਨੂੰ ਵਧਾਓ ਤਾਂ ਜੋ ਮਾਡਲ ਛੋਟੇ ਨਮੂਨੇ ਨੂੰ ਯਾਦ ਕਰਨ ਦੀ ਥਾਂ ਅਰਥਪੂਰਨ ਪੈਟਰਨ ਸਿੱਖੇ।

ਟਰਨਿੰਗ ਪੌਇੰਟ ਦੀ ਝਲਕ

ImageNet ਦਾ ਪ੍ਰਭਾਵ ਸਿਰਫ਼ ਇਸ ਦੀ ਮਾਤਰਾ ਨਹੀਂ ਸੀ; ਇਹ ਸਮਾਂ ਸੀ। ਜਦੋਂ ਖੋਜਕਾਰਾਂ ਨੇ ਜੋੜਿਆ:

ImageNet-ਸਤਰ ਦਾ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ
ਮਜ਼ਬੂਤ ਨਿਊਰਲ ਨੈਟਵਰਕ ਮਾਡਲ
ਤੇਜ਼ ਹਾਰਡਵੇਅਰ (ਖਾਸ ਕਰਕੇ GPUs)

…ਤ ਫਲ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਬਦਲੇ। ਪ੍ਰਸਿੱਧ 2012 ਦਾ ImageNet ਮੁਕਾਬਲਾ (AlexNet) ਵਾਸਤਵ ਵਿੱਚ ਇਕੱਲਾ ਘਟਨਾ ਨਹੀਂ ਸੀ—ਇਹ ਓਹ ਸਮਾਂ ਸੀ ਜਦੋਂ ਇਹ ਤੱਤ ਇਕਠੇ ਹੋ ਕੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਕਦਮ ਲਿਆਂਦੇ।

ਇਹ ਲੇਖ ਕੀ ਕਵਰ ਕਰਦਾ ਹੈ

ਇਹ ਲੇਖ ਵੇਖੇਗਾ ਕਿ ImageNet ਇੰਨਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਕਿਉਂ ਬਣਿਆ, ਇਸ ਨੇ ਕੀ ਸੰਭਵ ਕੀਤਾ, ਅਤੇ ਇਹ ਕਿਹੜੀਆਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਬੇਨਕਾਬ ਕੀਤਾ—ਪੱਖਪਾਤ, ਮਾਪਣ ਵਿੱਚ ਗੈਪ, ਅਤੇ ਬੈਂਚਮਾਰਕਾਂ ਲਈ ਜ਼ਿਆਦਾ ਅਪਟੀਮਾਈਜ਼ ਕਰਨ ਦਾ ਖਤਰਾ। ਅਸੀਂ ImageNet ਦੇ ਦਾਇਰਿਆਂ, ਵਪਾਰ-ਆਦਾਨ-ਪ੍ਰਦਾਨ, ਅਤੇ ImageNet ਤੋਂ ਬਾਅਦ AI ਦਾ “ਨਵਾਂ ਕੇਂਦਰ” ਕੀ ਬਣਿਆ, ਤੇ ਧਿਆਨ ਦੇਵਾਂਗੇ।

Fei-Fei Li ਅਤੇ ਡੇਟਾ-ਪਹਿਲਾ ਦ੍ਰਿਸ਼ਟੀ

Fei-Fei Li ਦਾ ਕੰਮ ImageNet 'ਤੇ ਇਹ ਲੜਾਈ ਨਹੀਂ ਸੀ ਕਿ “ਇਨਸਾਨਾਂ ਨੂੰ ਹਰਾਓ।” ਇਹ ਇੱਕ ਸਾਦਾ ਯਕੀਨ ਨਾਲ ਸ਼ੁਰੂ ਹੋਇਆ: ਜੇ ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਮਸ਼ੀਨਾਂ ਵਿਜ਼ੂਅਲ ਦੁਨੀਆ ਨੂੰ ਸਮਝਣ, ਤਾਂ ਸਾਨੂੰ ਉਹਨਾਂ ਨੂੰ ਵਿਜ਼ੂਅਲ ਦੁਨੀਆ ਵਿਖਾਉਣੀ ਪਵੇਗੀ—ਉਸ ਪੱਧਰ ਤੇ।

ਵਿਜ਼ੂਅਲ ਇੰਟੈਲੀਜੈਂਸ ਤੋਂ ਪ੍ਰੈਕਟਿਕਲ ਰੁਕਾਵਟ ਤੱਕ

ਆਕਾਦਮਿਕ ਤੌਰ 'ਤੇ ਦਿੱਖਣ ਵਾਲੀ ਬੁੱਧੀ 'ਤੇ ਕੰਮ ਕਰਦਿਆਂ, Li ਇੱਛੁਕ ਸੀ ਕਿ ਸਿਸਟਮ ਕਿਵੇਂ ਸਿਰਫ਼ ਧਾਰੀਆਂ ਜਾਂ ਸਧਾਰਨ ਆਕਾਰਾਂ ਨੂੰ ਪਛਾਣਨ ਤੋਂ ਅੱਗੇ ਜਾ ਸਕਦੇ ਹਨ ਅਤੇ ਅਸਲ ਵਸਤੂਆਂ ਅਤੇ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਸਮਝ ਸਕਦੇ ਹਨ। ਪਰ ਸ਼ੁਰੂਆਤੀ ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਰਿਸਰਚ ਅਕਸਰ ਇੱਕੋ ਕੰਧ ਨਾਲ ਟੱਕਰਾਉਂਦੀ: ਤਰੱਕੀ ਜ਼ਿਆਦਾ ਤਰ ਐਲਗੋਰਿਦਮਾਂ ਤੋਂ ਘਟ ਅਤੇ ਸੀਮਿਤ, ਤੰਗ ਡੇਟਾਸੇੱਟਾਂ ਕਾਰਨ ਰੁਕੀ ਰਹੀ।

ਮਾਡਲ ਛੋਟੀਆਂ ਸੰਗ੍ਰਹੀਆਂ 'ਤੇ ਟ੍ਰੇਨ ਅਤੇ ਟੈਸਟ ਕੀਤੇ ਜਾਂਦੇ—ਕਈ ਵਾਰੀ ਇੰਨੇ ਸਖ਼ਤ ਤਰੀਕੇ ਨਾਲ ਕਿਊਰੇਟ ਕੀਤੇ ਜਾਂਦੇ ਕਿ ਸਫਲਤਾ ਲੈਬ ਤੋਂ ਬਾਹਰ ਜਨਰਲਾਇਜ਼ ਨਹੀਂ ਹੁੰਦੀ। ਨਤੀਜੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਦਿਸ ਸਕਦੇ ਸਨ, ਪਰ ਜਦ ਤਸਵੀਰਾਂ ਗੰਦੇ ਹੋ ਜਾਂ ਵੱਖ-ਵੱਖ ਰੋਸ਼ਨੀ, ਪਿਛੋਕੜ, ਕੈਮਰਾ ਐਂਗਲ ਜਾਂ ਵਸਤੂਆਂ ਦੇ ਕਿਸਮ ਹੋਣ ਤਾਂ ਫੇਲ ਹੋ ਜਾਂਦੇ।

ਡੇਟਾਸੇੱਟ ਦੀ ਸਮੱਸਿਆ ਨੂੰ ਸਪਸ਼ਟ ਦੇਖਣਾ

Li ਨੇ ਦੇਖਿਆ ਕਿ ਵਿਜ਼ਨ ਖੋਜ ਨੂੰ ਇੱਕ ਸਾਂਝੇ, ਵੱਡੇ-ਪੱਧਰ ਅਤੇ ਵਿਭਿੰਨ ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ ਦੀ ਲੋੜ ਸੀ ਤਾਂ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਤੁਲਨਯੋਗ ਬਣ ਸਕੇ। ਬਿਨਾਂ ਇਸ ਦੇ, ਟੀਮਾਂ ਆਪਣੀ ਡੇਟਾ ਦੀ ਖਾਸੀਅਤਾਂ ਨੂੰ ਹਿਲਾ ਕੇ “ਜਿੱਤ” ਜਾ ਸਕਦੀਆਂ ਸਨ, ਅਤੇ ਖੇਤਰ ਅਸਲੀ ਸੁਧਾਰ ਮਾਪਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਮਹਿਸੂਸ ਕਰਦਾ।

ImageNet ਨੇ ਇੱਕ ਡੇਟਾ-ਪਹਿਲਾ ਅਪ੍ਰੋਚ ਦਿਖਾਈ: ਇੱਕ ਵਿਆਪਕ ਬੁਨਿਆਦੀ ਡੇਟਾਸੇੱਟ ਬਣਾਓ ਜਿਸ ਵਿੱਚ ਬਹੁਤ ਸਾਰੀਆਂ ਸ਼੍ਰੇਣੀਆਂ 'ਤੇ ਲਗਾਤਾਰ ਲੇਬਲ ਹੋਣ, ਅਤੇ ਫਿਰ ਖੋਜ ਸਮੁਦਾਇ ਨੂੰ ਇਸ 'ਤੇ ਮੁਕਾਬਲਾ ਕਰਨ ਅਤੇ ਸਿੱਖਣ ਦੀ ਆਗਿਆ ਦਿਓ।

ਬੈਂਚਮਾਰਕਾਂ ਨੇ ਪ੍ਰੇਰਕਾਂ ਨੂੰ ਬਦਲ ਦਿੱਤਾ

ImageNet ਨੂੰ ਕਮਿਊਨਟੀ ਬੈਂਚਮਾਰਕਾਂ ਨਾਲ ਜੋੜ ਕੇ, ਪ੍ਰੋਜੈਕਟ ਨੇ ਖੋਜ ਦੇ ਪ੍ਰੇਰਕਾਂ ਨੂੰ ਮਾਪਣਯੋਗ ਤਰੱਕੀ ਵੱਲ ਰੁਖ ਕੀਤਾ। ਹੁਣ ਹੁਣਕ ਦੀਆਂ ਹਥ-ਚੁਣੀਆਂ ਉਦਾਹਰਣਾਂ ਦੇ ਪਿੱਛੇ ਛੁਪਣਾ ਔਖਾ ਹੋ ਗਿਆ ਅਤੇ ਉਹ ਤਰੀਕੇ ਇਨਾਮ ਪਾਉਣ ਲੱਗੇ ਜੋ ਜਨਰਲਾਈਜ਼ ਕਰਦੇ।

ਇਸ ਤੋਂ ਵੀ ਜ਼ਰੂਰੀ, ਇਹ ਇੱਕ ਸਾਂਝਾ ਰੁਕਨ ਬਿੰਦੂ ਬਣ ਗਿਆ: ਜਦੋਂ ਸਹੀਤਾ ਸੁਧਰਦੀ, ਹਰ ਕੋਈ ਉਹ ਦੇਖ ਸਕਦਾ, ਦੁਹਰਾਵਾ ਕਰ ਸਕਦਾ ਅਤੇ ਉਸ ਉੱਪਰ ਨਿਰਮਾਣ ਕਰ ਸਕਦਾ—ਫੈਲੀਆਂ ਪ੍ਰਯੋਗਾਂ ਨੂੰ ਇੱਕ ਸਾਂਝੀ ਦਿਸ਼ਾ ਵਿੱਚ ਮੂਰਤ ਕਰਦਿਆਂ।

ImageNet ਕੀ ਹੈ (ਅਤੇ ਕੀ ਨਹੀਂ)

ImageNet ਇੱਕ ਵੱਡੀ, ਕਿਊਰੇਟ ਕੀਤੀ ਹੋਈ ਫੋਟੋਆਂ ਦੀ ਸੰਗ੍ਰਹਿ ਹੈ ਜੋ ਕੰਪਿਊਟਰਾਂ ਨੂੰ ਇਹ ਸਿਖਾਣ ਲਈ ਬਣਾਈ ਗਈ ਕਿ ਤਸਵੀਰ ਵਿੱਚ ਕੀ ਹੈ। ਸਧਾਰਨ ਸ਼ਬਦਾਂ 'ਚ: ਇਹ ਲੱਖਾਂ ਤਸਵੀਰਾਂ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਹਰ ਇੱਕ ਨੂੰ ਇੱਕ ਨਾਮ ਦਿੱਤਾ ਗਿਆ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਵਿਵਸਥਿਤ ਕੀਤਾ ਗਿਆ ਹੈ—ਜਿਵੇਂ “golden retriever,” “fire truck,” ਜਾਂ “espresso.” ਮਕਸਦ ਕੋਈ ਖੂਬਸੂਰਤ ਫੋਟੋ ਐਲਬਮ ਬਣਾਉਣਾ ਨਹੀਂ ਸੀ; ਮਕਸਦ ਇੱਕ ਐਸਾ ਟ੍ਰੇਨਿੰਗ ਮੈਦਾਨ ਬਣਾਉਣਾ ਸੀ ਜਿੱਥੇ ਐਲਗੋਰਿਦਮ ਵਾਸਤਵਿਕ ਪੱਧਰ 'ਤੇ ਵਿਜ਼ੂਅਲ ਪਛਾਣ ਅਭਿਆਸ ਕਰ ਸਕਣ।

ਲੇਬਲ, ਸ਼੍ਰੇਣੀਆਂ ਅਤੇ “ਪਰਿਵਾਰਕ ਦਰਖ਼ਤ” ਦਾ ਖਿਆਲ

ਹਰ ImageNet ਦੀ ਤਸਵੀਰ ਕੋਲ ਇੱਕ ਲੇਬਲ ਹੁੰਦੀ ਹੈ (ਕਿਸੇ ਸ਼੍ਰੇਣੀ 'ਚ ਆਉਣ ਵਾਲੀ). ਇਹ ਸ਼੍ਰੇਣੀਆਂ WordNet ਤੋਂ ਪ੍ਰੇਰਿਤ ਇੱਕ ਹਾਇਰਾਰਕੀ ਵਿੱਚ ਰੱਖੀਆਂ ਗਈਆਂ ਹਨ—ਇਸਨੂੰ ਇਕ ਸੰਕਲਪਾਂ ਦਾ ਪਰਿਵਾਰਕ ਦਰਖ਼ਤ ਸੋਚੋ। ਉਦਾਹਰਣ ਵੱਜੋਂ, “poodle” “dog” ਦੇ ਹੇਠਾਂ ਆਉਂਦਾ ਹੈ, ਜੋ “mammal” ਦੇ ਹੇਠਾਂ ਅਤੇ ਫਿਰ “animal” ਦੇ ਹੇਠਾਂ।

ਤੁਹਾਨੂੰ WordNet ਦੀਆਂ ਮਕੈਨਿਕਸ ਦੀ ਲੋੜ ਨਹੀਂ ਕਿ ਇਹ ਲਾਹਾ ਸਮਝ ਆ ਸਕੇ: ਇਹ ਢਾਂਚਾ ਬਹੁਤ ਸਾਰੀਆਂ ਪਰਿਭਾਸ਼ਾਵਾਂ ਨੂੰ ਲਗਾਤਾਰ ਢੰਗ ਨਾਲ ਆਯੋਜਿਤ ਕਰਨਾ ਅਤੇ ਡੇਟਾਸੇੱਟ ਨੂੰ ਫੈਲਾਉਂਦੇ ਸਮੇਂ ਨਾਮਕਰਨ ਨੂੰ ਅਵਹਾਰਨ ਤੋਂ ਬਚਾਉਂਦਾ ਹੈ।

ਮਾਪ ਦੀ ਅਹਿਮੀਅਤ

ਛੋਟੇ ਡੇਟਾਸੇੱਟ ਅਕਸਰ ਵਿਜ਼ਨ ਨੂੰ ਆਸਾਨ ਦਿਖਾ ਸਕਦੇ ਹਨ। ImageNet ਦੀ ਵੱਡੀ ਮਾਤਰਾ ਵਿਭਿੰਨਤਾ ਅਤੇ ਰੁਕਾਵਟ ਲਿਆਂਦੀ: ਵੱਖ-ਵੱਖ ਕੈਮਰਾ ਐਂਗਲ, ਗੰਦੇ ਬੈਕਗ੍ਰਾਊਂਡ, ਰੋਸ਼ਨੀ ਵਿੱਚ ਫਰਕ, ਅਧ-ਢਕ ਜਾਣਾ, ਅਤੇ ਉਹ ਅਜਿਹੇ ਉਦਾਹਰਣ ਜੋ ਅਸਲੀ ਫੋਟੋਆਂ ਵਿੱਚ ਆਉਂਦੇ ਹਨ। ਕਾਫ਼ੀ ਉਦਾਹਰਣਾਂ ਨਾਲ, ਮਾਡਲ ਉਹ ਪੈਟਰਨ ਸਿੱਖ ਸਕਦੇ ਹਨ ਜੋ ਲੈਬ ਦੇ ਬਾਹਰ ਵੀ ਚੱਲਦੇ ਹਨ।

ImageNet ਕੀ ਨਹੀਂ ਹੈ

ImageNet ਇੱਕ ਇਕੱਲਾ “AI ਮਾਡਲ” ਨਹੀਂ ਹੈ, ਅਤੇ ਇਹ ਰੀਅਲ-ਵਰਲਡ ਸਮਝ ਦੀ ਗਾਰੰਟੀ ਵੀ ਨਹੀਂ। ਇਹ ਪਰਿਪੂਰਨ ਨਹੀਂ: ਲੇਬਲ ਗਲਤ ਹੋ ਸਕਦੇ ਹਨ, ਸ਼੍ਰੇਣੀਆਂ ਮਨੁੱਖੀ ਚੋਣਾਂ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ, ਅਤੇ ਕਵਰੇਜ ਦੁਨੀਆ ਭਰ ਵਿੱਚ ਇੱਕਸਾਰ ਨਹੀਂ।

ਇਸਨੂੰ ਬਣਾਉਣ ਲਈ انجਨੀਅਰਿੰਗ, ਟੂਲਿੰਗ, ਅਤੇ ਵਿਸ਼ਾਲ-ਪੱਧਰ ਦੇ ਸੰਯੋਜਨ ਦੀ ਲੋੜ ਪਈ—ਧਿਆਨ ਨਾਲ ਡੇਟਾ ਇਕੱਤਰ ਅਤੇ ਲੇਬਲਿੰਗ ਕੰਮ ਥਿਊਰੀ ਦੇ ਬਰਾਬਰ ਮਹੱਤਵਪੂਰਨ ਸੀ।

ImageNet ਕਿਵੇਂ ਬਣਿਆ: ਲੇਬਲਿੰਗ, ਗੁਣਵੱਤਾ, ਅਤੇ ਪੱਧਰ

ImageNet ਇੱਕ ਅਚਾਨਕ ਫੋਟੋ ਡੰਪ ਨਹੀਂ ਸੀ। ਇਹ ਇੱਕ ਸੰਰਚਿਤ ਸਰੋਤ ਵਜੋਂ ਤਿਆਰ ਕੀਤਾ ਗਿਆ: ਬਹੁਤ ਸਾਰੀਆਂ ਸ਼੍ਰੇਣੀਆਂ, ਹਰ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਕਾਫ਼ੀ ਉਦਾਹਰਣ, ਅਤੇ ਇਹ ਨਿਯਮ ਕਿ ਕੀ “ਗਿਣੇਗਾ।” ਉਹ ਸੰਯੋਗ—ਪੱਧਰ ਅਤੇ ਲਗਾਤਾਰਤਾ—ਇੱਕ ਉੱਘਾ ਉਤਾਰ ਸੀ।

ਵਿਸ਼ਾਲ ਪੱਧਰ 'ਤੇ ਤਸਵੀਰਾਂ ਇਕੱਠੀਆਂ ਅਤੇ ਆਯੋਜਿਤ ਕਰਨਾ

ਟੀਮ ਨੇ ਵੈੱਬ ਤੋਂ ਉਮੀਦਵਾਰ ਤਸਵੀਰਾਂ ਇਕੱਠੀਆਂ ਕੀਤੀਆਂ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਇੱਕ ਟੈਕਸੋਨੋਮੀ ਦੇ ਆਧਾਰ 'ਤੇ ਆਯੋਜਿਤ ਕੀਤਾ (ਬਹੁਤ ਹੱਦ ਤੱਕ WordNet ਨਾਲ ਮਿਲਦੀ-ਜੁਲਦੀ). ImageNet ਨੇ ਆਮ ਲੇਬਲਾਂ ਜਿਵੇਂ “animal” ਜਾਂ “vehicle” ਦੀ ਥਾਂ ਵਿਸ਼ੇਸ਼, ਨਾਮ ਯੋਗ ਸ਼੍ਰੇਣੀਆਂ ਲਈ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ—ਜਿਵੇਂ “golden retriever” ਬਜਾਏ “dog.” ਇਸ ਨਾਲ ਡੇਟਾਸੇੱਟ ਇਹ ਮਾਪ ਸਕਦਾ ਸੀ ਕਿ ਮਾਡਲ ਵਿਆਪਕ-ਸੁਖੜ ਵਿਜ਼ੂਅਲ ਭੇਦਾਂ ਨੂੰ ਸਿੱਖ ਸਕਦਾ ਹੈ ਜਾਂ ਨਹੀਂ।

ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਸੀ ਕਿ ਸ਼੍ਰੇਣੀਆਂ ਓਹੋਝਾਂ ਤਰੀਕੇ ਨਾਲ ਪਰਿਭਾਸ਼ਤ ਕੀਤੀਆਂ ਗਈਆਂ ਕਿ ਲੋਕ ਅਨੁਮਾਨਤ ਤੌਰ 'ਤੇ ਸਹਿਮਤ ਹੋ ਸਕਣ। ਜੇ ਕੋਈ ਵਰਗੀ ਬਹੁਤ ਧੁੰਦਲੀ ("cute") ਹੋਵੇ ਤਾਂ ਐਨੋਟੇਸ਼ਨ ਅੰਦਾਜ਼ਾ ਬਣ ਜਾਂਦਾ; ਜੇ ਇਹ ਬਹੁਤ ਅਜੀਬ ਹੋਵੇ ਤਾਂ ਸ਼ੋਰ ਭਰਿਆ ਲੇਬਲ ਅਤੇ ਛੋਟੇ ਸੈਂਪਲ ਆਉਂਦੇ।

ਮਨੁੱਖੀ ਐਨੋਟੇਟਰ ਅਤੇ ਗੁਣਵੱਤਾ ਸੰਚਾਲਨ (ਸਧਾਰਨ ਸ਼ਬਦਾਂ ਵਿੱਚ)

ਮਨੁੱਖੀ ਐਨੋਟੇਟਰ ਕੇਂਦਰੀ ਭੂਮਿਕਾ ਨਿਭਾਉਂਦੇ: ਉਹ ਪੁਸ਼ਟੀ ਕਰਦੇ ਕਿ ਕੀ ਤਸਵੀਰ ਵਿੱਚ ਟਾਰਗਟ ਵਸਤੂ ਵਾਕਈ ਮੌਜੂਦ ਹੈ, ਬੇਲੋੜੇ ਜਾਂ ਘੱਟ ਗੁਣਵੱਤਾ ਵਾਲੇ ਨਤੀਜਿਆਂ ਨੂੰ ਛਾਨਦੇ, ਅਤੇ ਸ਼੍ਰੇਣੀਆਂ ਨੂੰ ਇਕ ਦੂਜੇ ਵਿੱਚ ਘੁਲਣ-ਮਿਲਣ ਤੋਂ ਬਚਾਉਂਦੇ।

ਗੁਣਵੱਤਾ ਨਿਯੰਤਰਣ ਦਾ ਮਕਸਦ ਪੂਰਨਤਾ ਨਹੀਂ ਸੀ—ਮਕਸਦ ਪ੍ਰਣਾਲੀਗਤ ਗਲਤੀਆਂ ਨੂੰ ਘਟਾਉਣਾ ਸੀ। ਆਮ ਤਰੀਕੇ ਵਿੱਚ ਕਈ ਅਲੱਗ-ਅਲੱਗ ਮਤ, ਸਪੌਟ ਆਡਿਟ ਅਤੇ ਐਜ ਕੇਸਾਂ ਲਈ ਨਿਯਮਾਂ ਦੀ ਸਪਸ਼ਟੀਕਰਨ ਸ਼ਾਮਲ ਹੁੰਦੀ।

ਇਨਸਾਫ਼ੀ ਤੁਲਨਾਵਾਂ ਲਈ ਲੇਬਲਿੰਗ ਨਿਯਮ ਕਿਉਂ ਮਾਇਨੇ ਰੱਖਦੇ ਹਨ

ਬੈਂਚਮਾਰਕ ਤਦ ਹੀ ਕੰਮ ਕਰਦੇ ਹਨ ਜਦੋਂ ਹਰ ਕੋਈ ਇੱਕੋ ਮਾਨਦੰਡ 'ਤੇ ਆਂਕਿਆ ਜਾਂਦਾ ਹੈ। ਜੇ “bicycle” ਇੱਕ ਸੈਟ 'ਚ ਮੋਟਰਸਾਈਕਲ ਸ਼ਾਮਲ ਕਰਦਾ ਅਤੇ ਦੂਜੇ ਵਿੱਚ ਨਹੀਂ, ਤਾਂ ਦੋ ਮਾਡਲਾਂ ਵਿੱਚ ਦੇਖਿਆ ਗਿਆ ਫ਼ਰਕ ਸਿਰਫ਼ ਡੇਟਾ ਦੀ ਅਸਮਰਥਾ ਤੋਂ ਹੋ ਸਕਦਾ ਹੈ। ਸਪਸ਼ਟ ਲੇਬਲਿੰਗ ਨਿਯਮ ਟੀਮਾਂ, ਸਾਲਾਂ ਅਤੇ ਤਰੀਕਿਆਂ ਵਿੱਚ ਨਤੀਜਿਆਂ ਨੂੰ ਤੁਲਨਯੋਗ ਬਣਾਉਂਦੇ ਹਨ।

"ਵੱਧ ਡੇਟਾ" ਬਨਾਮ "ਭਲ਼ਾ ਡੇਟਾ"

ਆਮ ਗਲਤਫਹਮੀ ਇਹ ਹੈ ਕਿ ਵੱਡਾ ਯਾਨੀ ਆਟੋਮੈਟਿਕ ਤੌਰ 'ਤੇ ਬਿਹਤਰ। ImageNet ਦਾ ਪ੍ਰਭਾਵ ਉਸ ਪੱਧਰ ਨਾਲ ਮਿਲ ਕੇ ਆਇਆ ਜੋ ਅਨੁਸ਼ਾਸਨਬੱਧ ਸੰਗਠਨ ਸੀ: ਚੰਗੀ ਪਰਿਭਾਸ਼ਤ ਸ਼੍ਰੇਣੀਆਂ, ਦੁਹਰਾਵੇ ਯੋਗ ਐਨੋਟੇਸ਼ਨ ਪ੍ਰਕਿਰਿਆਵਾਂ, ਅਤੇ ਸਿੱਖਣ ਲਈ ਕਾਫ਼ੀ ਉਦਾਹਰਣ।

ਜ਼ਿਆਦਾ ਤਸਵੀਰਾਂ ਮਦਦ ਕਰਦੀਆਂ ਹਨ, ਪਰ ਚੰਗਾ ਡਿਜ਼ਾਈਨ ਹੀ ਤਸਵੀਰਾਂ ਨੂੰ ਇੱਕ ਮਾਇਨੇਦਾਰ ਮਿਆਰ ਬਣਾਂਦਾ ਹੈ।

ImageNet ਚੈਲੇਂਜ ਅਤੇ ਬੈਂਚਮਾਰਕਾਂ ਦੀ ਤਾਕਤ

ਬੈਂਚਮਾਰਕ ਸਧਾਰਨ ਲੱਗਦੇ ਹਨ: ਇੱਕ ਫਿਕਸਡ ਟੈਸਟ ਸੈਟ, ਇੱਕ ਮੈਟਰਿਕ, ਅਤੇ ਇੱਕ ਸਕੋਰ। ਪਰ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਵਿੱਚ, ਇਹ ਇਕ ਸਾਂਝਾ ਨਿਯਮ-ਕਿਤਾਬ ਵਾਂਗ ਕੰਮ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਹਰ ਕੋਈ ਇਕੋ ਡੇਟਾ 'ਤੇ ਇਕੋ ਤਰੀਕੇ ਨਾਲ ਮੁਲਿਆੰਕਨ ਕਰਦਾ ਹੈ, ਤਰੱਕੀ ਦਰਸ਼ਨੀ ਬਣ ਜਾਂਦੀ—ਅਤੇ ਦਾਅਵੇ ਠੀਕ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ। ਸਾਂਝਾ ਟੈਸਟ ਟੀਮਾਂ ਨੂੰ ਸੱਚ ਰੱਖਦਾ ਹੈ, ਕਿਉਂਕਿ ਮਾਡਲ ਜਾਂ ਤਾਂ ਸਹਮਤ ਮਾਪ 'ਤੇ ਸੁਧਰਦਾ ਹੈ ਜਾਂ ਨਹੀਂ।

ILSVRC: ਖੇਤਰ ਨੂੰ ਕੇਂਦਰਿਤ ਕਰਨ ਵਾਲਾ ਮੁਕਾਬਲਾ

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ਨੇ ImageNet ਨੂੰ ਇੱਕ ਸਾਲਾਨਾ ਧੁਰੇ 'ਤੇ ਬਦਲ ਦਿੱਤਾ। ਖੋਜਕਾਰ ਖ਼ਾਸ ਕਰਕੇ ਵਿਚਾਰ ਪ੍ਰਕਾਸ਼ਿਤ ਹੀ ਨਹੀਂ ਕਰਦੇ; ਉਹੋ ਨਤੀਜੇ ਇਕੋ ਹਾਲਤਾਂ 'ਚ ਦਿੱਖਾਂਦੇ ਹਨ, ਇਕੋ ਵੱਡੇ-ਪੱਧਰ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਟਾਸਕ 'ਤੇ।

ਉਹ ਲਗਾਤਾਰਤਾ ਮਾਇਨੇ ਰੱਖਦੀ ਸੀ: ਇਸ ਨੇ ਦੁਨਿਆ ਭਰ ਦੀਆਂ ਲੈਬਾਂ ਨੂੰ ਇਕ ਸਾਂਝਾ ਟਾਰਗਟ ਦਿੱਤਾ, ਕਾਗਜਾਂ ਦੀ ਤੁਲਨਾ ਆਸਾਨ ਬਨੀ, ਅਤੇ ਅਪਨਾਉਣ ਦੀ ਰੁਕਾਵਟ ਘਟਾਈ: ਜੇ ਕੋਈ ਤਕਨੀਕ ਲੀਡਰਬੋਰਡ 'ਤੇ ਚੜ੍ਹਦੀ, ਹੋਰ लोग ਤੇਜ਼ੀ ਨਾਲ ਉਸਨੂੰ ਅਜ਼ਮਾਉਣ ਦਾ ਵਾਜਬ ਕਾਰਨ ਮਿਲ ਜਾਂਦਾ।

ਲੀਡਰਬੋਰਡ ਨੇ ਕਿਉਂ ਤੇਜ਼ੀ ਵਧਾਈ

ਲੀਡਰਬੋਰਡ ਫੀਡਬੈਕ ਲੂਪ ਨੂੰ ਸੰਕੁਚਿਤ ਕਰ ਦਿੰਦੇ ਹਨ। ਮਹੀਨਿਆਂ ਦੀ ਬਜਾਏ, ਟੀਮਜ਼ ਸਥਿਤੀਆਂ 'ਤੇ ਛੋਟੇ ਸੁਧਾਰ ਕਰਕੇ ਦੇਖ ਸਕਦੀਆਂ—ਆਰਕੀਟੈਕਚਰ ਟਵੀਕ, ਡੇਟਾ ਆਗਮੈਂਟੇਸ਼ਨ, ਅਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਟ੍ਰਿਕ—ਅਤੇ ਦੇਖ ਸਕਦੀਆਂ ਕਿ ਇਹ ਲੋਕਾਂ ਨੂੰ ਕਿੰਨਾ ਅਗੇ ਵਧਾਉਂਦਾ।

ਇਹ ਮੁਕਾਬਲ੍ਹਾ ਲੂਪ ਪ੍ਰਯੋਗਕਤ ਸੁਧਾਰਾਂ ਨੂੰ ਇਨਾਮ ਦਿੰਦਾ ਅਤੇ ਇੱਕ ਸਪਸ਼ਟ ਗੱਲ ਕਹਿੰਦਾ: ਤਰੱਕੀ ਹੋ ਰਹੀ ਹੈ, ਜਿਸ ਨਾਲ ਉਦਯੋਗ ਦਾ ਧਿਆਨ ਡੀਪ ਲਰਨਿੰਗ ਵੱਲ ਖਿੱਚਿਆ ਗਿਆ ਜਦੋਂ ਨਤੀਜੇ ਅਸਵੀਕਾਰਯੋਗ ਹੋ ਗਏ।

ਬੈਂਚਮਾਰਕ ਫੜ: ਜਿੱਤਣਾ ਬਨਾਮ ਸਿੱਖਣਾ

ਬੈਂਚਮਾਰਕਾਂ ਨਾਲ ਖਤਰਾ ਵੀ ਬਣਦਾ ਹੈ। ਜਦੋਂ ਇਕ ਹੀ ਸਕੋਰ ਲਕਸ਼ ਬਣ ਜਾਂਦਾ, ਟੀਮਾਂ ਅਕਸਰ ਟੈਸਟ ਤੱਕ ਫਿੱਟ ਹੋ ਸਕਦੀਆਂ—ਜੇਹੜਾ ਹਰ ਵੇਲੇ 'ਠੱਗ' ਕਰਨ ਜਾਂ ਕਿਸੇ ਟਰਿਕ 'ਤੇ ਨਿਰਭਰ ਹੋ ਸਕਦਾ ਹੈ।

ਸਿਹਤਮੰਦ ਰਵੱਈਆ ਇਹ ਹੈ ਕਿ ILSVRC (ਅਤੇ ਕਿਸੇ ਵੀ ਬੈਂਚਮਾਰਕ) ਨੂੰ ਇੱਕ ਮਾਪ-ਥੰਮ੍ਹਾ ਸਮਝੋ, ਪੂਰੀ ਪਰਿਭਾਸ਼ਾ ਨਹੀਂ। ਮਜ਼ਬੂਤ ਨਤੀਜੇ ਇੱਕ ਸੰਕੇਤ ਹਨ; ਫਿਰ ਤੁਸੀਂ ਵੱਖ-ਵੱਖ ਡੇਟਾਸੇੱਟ, ਨਵੇਂ ਡੋਮੇਨ, ਸਟਰੈੱਸ ਟੈਸਟ, ਅਤੇ ਹਕੀਕਤੀ ਦੁਨੀਆ ਦੀ ਗਲਤੀ ਵਿਸ਼ਲੇਸ਼ਣ ਨਾਲ ਪ੍ਰਮਾਣਿਤ ਕਰੋ।

2012 ਅਤੇ AlexNet: ਮੋੜ ਦਾ ਸਮਾਂ

ਡੇਟਾਸੇੱਟ ਚੈਕਲਿਸਟ ਐਪ ਬਣਾਓ

ਆਪਣੇ ਡਾਟਾ ਅਤੇ ਮੁਲਿਆੰਕਨ ਚੈੱਕਲਿਸਟ ਨੂੰ ਇੱਕ ਕੰਮ ਕਰਨ ਵਾਲੀ ਐਪ ਵਿੱਚ ਬਦਲੋ—ਸਿਰਫ ਇੱਕ ਸੀਧੀ ਗੱਲ-ਬਾਤ ਸਪੇੱਕ ਤੋਂ।

ਮੁਫ਼ਤ ਅਜ਼ਮਾਓ

2012 ਤੋਂ ਪਹਿਲਾਂ: ਚਤੁਰ ਫੀਚਰ, ਪਰ ਥੱਲੇ ਦੀਆਂ ਛਤਾਂ

2000 ਦੇ ਅਖੀਰ ਅਤੇ 2010 ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ, ਬਹੁਤ ਸਾਰੇ ਵਿਜ਼ਨ ਸਿਸਟਮ ਹੱਥ-ਨਿਰਮਿਤ ਫੀਚਰਾਂ (edges, textures, shapes) 'ਤੇ ਅਧਾਰਿਤ ਸਨ, ਜੋ ਆਮ ਤੌਰ 'ਤੇ ਸਧਾਰਣ ਕਲਾਸੀਫਾਇਰਾਂ ਨੂੰ ਖੁਰਾਕ ਦਿੰਦੀਆਂ। ਤਰੱਕੀ ਹੌਲੀ ਸੀ ਅਤੇ ਅਕਸਰ ਸੀਮਾਵਾਂ 'ਤੇ ਰੁਕ ਜਾਂਦੀ।

ਟੀਮਾਂ ਨੇ ਫੀਚਰ ਪਾਈਪਲਾਈਨਾਂ ਤੇ ਬਹੁਤ ਘੰਟੇ ਲਾਏ, ਅਤੇ ਨਤੀਜੇ ਆਮ ਤੌਰ 'ਤੇ ਉਸ ਵੇਲੇ ਟੁੱਟ ਜਾਂਦੇ ਜਦੋਂ ਤਸਵੀਰਾਂ ਗੰਦੀ ਹੁੰਦੀਆਂ।

ImageNet ਨੇ ਪਹਿਲਾਂ ਹੀ ਇਹ ਮਿਆਰ ਉੱਚਾ ਕਰ ਦਿੱਤਾ ਸੀ ਕਿ "ਜ਼ਿਆਦਾ ਅਤੇ ਵਿਭਿੰਨ ਡੇਟਾ ਤੋਂ ਸਿੱਖਣਾ" ਸੰਭਵ ਹੈ। ਪਰ ਕਈ ਖੋਜਕਾਰ ਅਜੇ ਵੀ شک کر ਰਹੇ ਸਨ ਕਿ ਡੀਪ ਨੈਟਵਰਕ—ਖਾਸ ਕਰਕੇ ਘਣੇ—ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਚੰਗੇ ਹੋ ਸਕਦੇ ਹਨ।

AlexNet: ਡੀਪ ਨੈਟ + GPU + ImageNet ਡੇਟਾ

2012 ਵਿੱਚ AlexNet ਨੇ ਉਹ ਵਿਸ਼ਵਾਸ ਬਦਲ ਦਿੱਤਾ ਜਿਹੜਾ ਦਰਜਨ ਛੋਟੇ ਸੁਧਾਰ ਨਹੀਂ ਕਰ ਸਕਦੇ। ਮਾਡਲ ਨੇ ਇੱਕ ਡੀਪ convolutional ਨੈਟਵਰਕ ਵਰਤਿਆ ਜੋ ImageNet 'ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ, GPUs ਨੇ ਗਣਨਾ ਨੂੰ ਵਿਆਵਹਾਰਿਕ ਬਣਾਇਆ ਅਤੇ ਵੱਡਾ ਡੇਟਾ ਸਿੱਖਣ ਨੂੰ ਮਤਲਬਪੂਰਨ ਬਣਾਇਆ।

ਬਦਲੇ ਵਿੱਚ, ਨੈਟਵਰਕ ਨੇ ਪਿਕਸਲਾਂ ਤੋਂ ਸਿੱਧਾ ਆਪਣੀਆਂ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਸਿੱਖੀਆਂ—ਇਸ ਦਾ ਨਤੀਜਾ ਐਨਾ ਵੱਡਾ ਸੁਧਾਰ ਸੀ ਕਿ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਨਾ ਮੁਸ਼ਕਲ ਸੀ।

ਕਿਉਂ ਇਹ ਛਾਲ ਮਨ ਅਤੇ ਬਜਟ ਬਦਲਿਆ

ਇਕ ਦਰਸ਼ਨੀ, ਬੈਂਚਮਾਰਕ-ਅਧਾਰਿਤ ਜਿੱਤ ਨੇ ਪ੍ਰੇਰਣਾਂ ਨੂੰ ਰੀਸ਼ੇਟ ਕੀਤਾ। ਫੰਡ, ਭਰਤੀ, ਅਤੇ ਲੈਬ ਪ੍ਰਾਥਮਿਕਤਾ ਡੀਪ ਲਰਨਿੰਗ ਵੱਲ ਮੁੜ ਗਈ ਕਿਉਂਕਿ ਇਹ ਇੱਕ ਦੋਹਰਾਏ ਜਾ ਸਕਣ ਵਾਲਾ ਨੁਸਖਾ ਦਿੱਸਿਆ: ਡੇਟਾ ਬਢ਼ਾਓ, ਕੰਪੀਊਟ ਬਢ਼ਾਓ, ਅਤੇ ਮਾਡਲਾਂ ਨੂੰ ਸੁਵਿਧਾ ਦਿਓ ਕਿ ਉਹ ਆਪਣੇ ਆਪ ਫੀਚਰ ਸਿੱਖਣ।

“ਸਟੇਟ ਆਫ਼ ਦ ਆਰਟ” ਦੀ ਨਵੀਂ ਪਰਿਭਾਸ਼ਾ

2012 ਤੋਂ ਬਾਅਦ, ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਵਿੱਚ “ਸਟੇਟ ਆਫ਼ ਦ ਆਰਟ” ਅਕਸਰ ਇਹ ਮਤਲਬ ਰੱਖਣ ਲੱਗਾ: ਸਾਂਝੇ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ ਸਭ ਤੋਂ ਵਧੀਆ ਨਤੀਜੇ, ਉਹਨਾਂ ਮਾਡਲਾਂ ਵੱਲੋਂ ਜੋ ਅੰਤ-ਟੂ-ਅੰਤ ਸਿੱਖਦੇ ਹਨ। ImageNet ਪ੍ਰਮਾਣਿਕਤਾ ਦਾ ਮੈਦਾਨ ਬਣ ਗਿਆ, ਅਤੇ AlexNet ਨੇ ਸਾਬਤ ਕੀਤਾ ਕਿ ਡੇਟਾ-ਪਹਿਲਾ ਵਿਜ਼ਨ ਖੇਤਰ ਦੇ ਨਿਯਮ ਲਿਖ ਸਕਦਾ ਹੈ।

ਵਿਜ਼ਨ ਤੋਂ ਹਰ ਥਾਂ: ਜਿਵੇਂ ਰੂਪਾਂਤਰਨ ਫੈਲਿਆ

AlexNet ਦੀ 2012 ਜਿੱਤ ਸਿਰਫ਼ ਇਮੇਜ ਕਲਾਸੀਫਿਕੇਸ਼ਨ ਨੰਬਰ ਨਹੀਂ ਵਧਾਉਂਦੀ—ਇਸ ਨੇ ਇਹ ਸੋਚ ਵੀ ਬਦਲ ਦਿੱਤੀ ਕਿ ਜੇ ਢੰਗ ਅਤੇ ਡੇਟਾ ਸਹੀ ਹੋਣ ਤਾਂ ਹੋਰ ਵੀ ਕਿੰਨਾ ਕੁ ਸੰਭਵ ਹੈ। ਜਦੋਂ ਇੱਕ ਨੈਟਵਰਕ ਹਜ਼ਾਰਾਂ ਵਸਤੂਆਂ ਨੂੰ ਨਿਰਭਰ ਤੌਰ 'ਤੇ ਪਛਾਣ ਸਕਦਾ ਸੀ, ਤਾਂ ਪ੍ਰਸ਼ਨ ਆਇਆ: ਕੀ ਇਹੀ ਤਰੀਕਾ ਵਸਤੂਆਂ ਦੀ ਸਥਿਤੀ ਦੱਸ ਸਕਦੀ ਹੈ, ਉਨ੍ਹਾਂ ਨੂੰ ਉੱਖੜ ਸਕਦੀ ਹੈ, ਜਾਂ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਸਮਝ ਸਕਦੀ ਹੈ?

"ਇਹ ਕੀ ਹੈ?" ਤੋਂ "ਇਹ ਕਿੱਥੇ ਹੈ?" ਤੱਕ

ImageNet-ਸ਼ੈਲੀ ਟ੍ਰੇਨਿੰਗ ਜਲਦੀ ਹੀ ਵੱਧ ਮੁਸ਼ਕਲ ਵਿਜ਼ਨ ਕੰਮਾਂ ਤੱਕ ਫੈਲ ਗਈ:

Object detection (ਇੱਕ ਤਸਵੀਰ ਵਿੱਚ ਵਸਤੂ ਕਿੱਥੇ ਹੈ)
Segmentation (ਇੱਕ ਵਿਅਕਤੀ, ਰੋਡ, ਟਿਊਮਰ ਜਾਂ ਉਤਪਾਦ ਦੇ ਅਸਲ ਪਿਕਸਲ ਨਕ਼ਸ਼ਾ)
Video understanding (ਕਾਰਵਾਈਆਂ ਅਤੇ ਘਟਨਾਵਾਂ ਸਮੇਂ-ਸਿਰ)

ਟੀਮਾਂ ਨੇ ਲੱਭਿਆ ਕਿ ImageNet 'ਤੇ ਟ੍ਰੇਨ ਹੋਏ ਮਾਡਲ ਸਿਰਫ਼ ਫੋਟੋਆਂ ਦਾ ਲੇਬਲ ਕਰਨ ਵਿੱਚ ਹੀ ਚੰਗੇ ਨਹੀਂ—ਉਹ ਐਜ, ਟੈਕਸਟਚਰ, ਅਤੇ ਸ਼ੇਪ ਵਰਗੇ ਦੁਹਰਾਏ ਜਾਣ ਵਾਲੇ ਵਿਜ਼ੂਅਲ ਪੈਟਰਨ ਸਿੱਖ ਲੈਂਦੇ ਹਨ ਜੋ ਕਈ ਸਮੱਸਿਆਵਾਂ 'ਤੇ ਲਾਗੂ ਹਨ।

ਆسان ਸ਼ਬਦਾਂ ਵਿੱਚ ਟ੍ਰਾਂਸਫਰ ਲਰਨਿੰਗ

ਟ੍ਰਾਂਸਫਰ ਲਰਨਿੰਗ ਏਨੀ ਹੀ ਸੀਮਾ ਹੈ ਜਿਵੇਂ ਕਿਸੇ ਛੋਟੀ ਕਾਰ ਵਿੱਚ ਡਰਾਈਵ ਕਰਨਾ ਸਿੱਖ ਕੇ ਫਿਰ ਤੇਜ਼ੀ ਨਾਲ ਵੱਡੀ ਵੈਨ 'ਤੇ ਅਨੁਕੂਲ ਹੋ ਜਾਣਾ। ਤੋਹਾਡੇ ਕੋਲ ਕੋਰ ਹੁਨਰ ਰਿਹੰਦਾ ਹੈ (ਸਟੇਅਰਿੰਗ, ਬਰੇਕਿੰਗ), ਅਤੇ ਸਿਰਫ਼ ਉਹ ਚੀਜ਼ਾਂ ਬਦਲਦੀਆਂ ਹਨ ਜੋ ਵੱਖ-ਵੱਖ ਹਨ (ਆਕਾਰ, ਬਲਾਈਂਡ ਸਪਾਟ)।

AI ਸ਼ਬਦਾਂ ਵਿੱਚ: ਤੁਸੀਂ ਪਹਿਲਾਂ ImageNet 'ਤੇ ਪ੍ਰੀਟ੍ਰੇਨ ਕੀਤਾ ਮਾਡਲ ਲੈਂਦੇ ਹੋ ਅਤੇ ਫਿਰ ਆਪਣੇ ਛੋਟੇ, ਖਾਸ ਡੇਟਾਸੇੱਟ 'ਤੇ ਉਸਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕਰਦੇ ਹੋ—ਜਿਵੇਂ ਫੈਕਟਰੀ ਲਾਈਨ ਦੇ ਖ਼ਰਾਬੀਆਂ ਜਾਂ ਚর্ম ਮਰੀਜ਼ੀ ਲੱਛਣ।

ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਡਿਫਾਲਟ ਕਿਉਂ ਬਣ ਗਈ

ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਇਸ ਲਈ ਸਧਾਰਨ ਹੋ ਗਈ ਕਿਉਂਕਿ ਇਹ ਅਕਸਰ ਦਿੰਦਾ:

ਘੱਟ ਲੇਬਲ ਕੀਤੇ ਡੇਟੇ ਨਾਲ ਚੰਗੀ ਸਹੀਤਾ
ਤੇਜ਼ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਸਸਤੇ ਪ੍ਰਯੋਗ
ਤੁਹਾਡੇ ਡੇਟਾ ਛੋਟਾ ਜਾਂ ਗੜਬੜ ਹੋਣ 'ਤੇ ਭਰੋਸੇਮੰਦ ਨਤੀਜੇ

ਰੋਜ਼ਮਰਰਾ ਦੇ ਉਤਪਾਦ ਜੋ ਬਿਨਾ ਸ਼ੋਰ ਦੇ ਲਾਭਾਨਵਿਤ ਹੋਏ

“ਪ੍ਰੀਟ੍ਰੇਨ ਫਿਰ ਫਾਈਨ-ਟਿਊਨ” ਪੈਟਰਨ ਉਪਭੋਗਤਾ ਅਤੇ ਉੱਦਯੋਗੀ ਉਤਪਾਦਾਂ ਵਿੱਚ ਫੈਲ ਗਿਆ: ਫੋਟੋ ਖੋਜ ਅਤੇ ਆਰਗਨਾਈਜ਼ੇਸ਼ਨ, ਰਿਟੇਲ ਵਿੱਚ ਵਿਜ਼ੂਅਲ ਖੋਜ (“ਇਸੇ ਜਿਹੇ ਜੁੱਤੇ ਲੱਭੋ”), ਡਰਾਇਵਰ-ਅਸਿਸਟੈਂਸ ਫੀਚਰ ਜੋ ਪੈਦਲ ਚੱਲਣ ਵਾਲਿਆਂ ਨੂੰ ਪਛਾਣਦੇ, ਅਤੇ ਗੁਣਵੱਤਾ-ਨਿਗਰਾਨੀ ਪ੍ਰਣਾਲੀਆਂ ਜੋ ਨੁਕਸਾਨ ਜਾਂ ਗੁੰਮ ਹੋਏ ਹਿੱਸੇ ਦਰਸਾਉਂਦੀਆਂ।

ਇੱਕ ਬੈਂਚਮਾਰਕ ਜਿੱਤ ਇੱਕ ਮੁੜ-ਦੁਹਰਾਏ ਜਾਣ ਵਾਲੇ ਵਰਕਫਲੋ ਬਣ ਗਿਆ ਜੋ ਅਸਲ ਸਿਸਟਮ ਬਣਾਉਣ ਲਈ ਵਰਤਿਆ ਗਿਆ।

ImageNet ਨੇ AI ਖੋਜ ਰੀਤਿ-ਰਿਵਾਜ਼ ਕਿਵੇਂ ਬਦਲੇ

ਸਾਂਝਾ ਕਰਨ ਲਈ ਕ੍ਰੈਡਿਟ ਪ੍ਰਾਪਤ ਕਰੋ

Koder.ai 'ਤੇ ਜੋ ਤੁਸੀਂ ਬਣਾਇਆ ਓਹ ਸਾਂਝਾ ਕਰੋ ਅਤੇ ਸਮੱਗਰੀ ਜਾਂ ਰੈਫਰਲ ਲਈ ਕ੍ਰੈਡਿਟਜ਼ ਜ਼ਿੱਤੋ।

ਕ੍ਰੈਡਿਟ ਕਮਾਓ

ImageNet ਨੇ ਸਿਰਫ਼ ਇਮੇਜ ਰਿਕਗਨੀਸ਼ਨ ਸੁਧਾਰੇ ਹੀ ਨਹੀਂ—ਇਸ ਨੇ ਇਹ ਵੀ ਬਦਲ ਦਿੱਤਾ ਕਿ “ਚੰਗੀ ਖੋਜ” ਕੀ ਮੰਨੀ ਜਾਂਦੀ ਹੈ। ਪਹਿਲਾਂ, ਬਹੁਤ ਸਾਰੀਆਂ ਵਿਜ਼ਨ ਪੇਪਰ ਆਪਣੀ ਝੂਠੀ ਸਫਲਤਾ ਛੋਟੇ ਡੇਟਾਸੇੱਟ ਅਤੇ ਹੱਥ-ਟਿਊਨ ਕੀਤੇ ਫੀਚਰਾਂ ਨਾਲ ਦਲੀਲ ਕਰ ਸਕਦੇ ਸਨ। ImageNet ਤੋਂ ਬਾਅਦ, ਦਾਅਵਿਆਂ ਨੂੰ ਇੱਕ ਜਨਤਕ, ਮਿਆਰੀ ਟੈਸਟ 'ਤੇ ਟਿਕਾਉਣਾ ਪੈਦਾ।

ਸ਼ੁਰੂ ਵਿੱਚ ਪ੍ਰਵੇਸ਼ ਵਾਸਤੇ ਘੱਟ ਰੁਕਾਵਟ

ਕਿਉਂਕਿ ਡੇਟਾਸੇੱਟ ਅਤੇ ਚੈੱਲ-ਨਿਯਮ ਸਾਂਝੇ ਸਨ, ਵਿਦਿਆਰਥੀ ਅਤੇ ਛੋਟੀਆਂ ਲੈਬਾਂ ਕੋਲ ਅਸਲੇ ਮੌਕਾ ਆ گیا। ਤੁਹਾਨੂੰ ਆਪਣੀ ਨਿੱਜੀ ਤਸਵੀਰ ਸੰਗ੍ਰਹਿ ਦੀ ਲੋੜ ਨਹੀਂ ਸੀ; ਤੁਸੀਂ ਇਕ ਸਾਫ਼ ਵਿਚਾਰ ਅਤੇ ਅਨੁਸ਼ਾਸਨ ਨਾਲ ਸ਼ੁਰੂ ਕਰ ਸਕਦੇ ਸਨ।

ਇਸ ਨੇ ਖੋਜਕਾਰਾਂ ਦੀ ਇੱਕ ਪੀੜ੍ਹੀ ਬਣਾਈ ਜੋ ਇਕੋ ਸਮੱਸਿਆ 'ਤੇ ਮੁਕਾਬਲਾ ਕਰਕੇ ਸਿੱਖੀ।

ਹੁਨਰ ਬਦਲੇ: ਚਤੁਰ ਫੀਚਰਾਂ ਤੋਂ ਫੁੱਲ-ਸਟੈਕ ML ਤੱਕ

ImageNet ਨੇ ਉਹ ਟੀਮਾਂ ਇਨਾਮੀ ਕੀਤਾ ਜੋ ਕੀਤਾ-ਪੂਰੇ ਚਾਰ ਚੀਜ਼ਾਂ ਨੂੰ ਸੰਭਾਲ ਸਕਦੀਆਂ:

ਡੇਟਾ: ਲੇਬਲ, ਸਾਫ਼-ਸੁਥਰਾ ਕਰਨ, ਅਤੇ ਕਲਾਸ ਅਸਮਾਨਤਾ ਸਮਝਣਾ
ਟ੍ਰੇਨਿੰਗ: ਅਪਟੀਮਾਈਜ਼ੇਸ਼ਨ, ਡੇਟਾ ਆਗਮੈਂਟੇਸ਼ਨ, ਅਤੇ ਨਿਯਮਕਰਨ
ਕੰਪੀਊਟ: GPUs ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕੇ ਨਾਲ ਵਰਤਣਾ ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਇਤਰੇਟ ਕਰਨਾ
ਮੁਲਿਆੰਕਨ: ਗਲਤੀਆਂ ਦੀ ਟ੍ਰੈਕਿੰਗ, ਐਬਲੇਸ਼ਨ, ਅਤੇ ਈਮਾਨਦਾਰ ਬੇਸਲਾਈਨਾਂ

ਉਹ “ਫੁੱਲ-ਪਾਈਪਲਾਈਨ” ਸੋਚ ਬਾਅਦ ਵਿੱਚ ਸਮੂਹ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਵਿੱਚ ਮਿਆਰੀ ਹੋ ਗਈ।

ਸਾਂਝੇ ਬੇਸਲਾਈਨਾਂ ਨੇ ਦੁਹਰਾਊਯੋਗਤਾ ਬੇਹਤਰ ਕੀਤੀ

ਸਾਂਝੇ ਬੈਂਚਮਾਰਕ ਨਾਲ, ਤਰੀਕਿਆਂ ਦੀ ਤੁਲਨਾ ਅਤੇ ਨਤੀਜੇ ਦੁਹਰਾਉਣਾ ਆਸਾਨ ਹੋ ਗਿਆ। ਖੋਜਕਾਰ ਕਹਿ ਸਕਦੇ ਸਨ “ਅਸੀਂ ImageNet ਰੈਸਿਪੀ ਵਰਤੀ” ਅਤੇ ਪਾਠਕ ਜਾਣਦੇ ਕਿ ਇਸਦਾ ਕੀ ਅਰਥ ਹੈ। ਸਮੇਂ ਦੇ ਨਾਲ, ਪੇਪਰ ਘਣੇ-ਤਫਸੀਲ ਟ੍ਰੇਨਿੰਗ ਵੇਰਵੇ, ਹਾਈਪਰਪੈਰਾਮੀਟਰ ਅਤੇ ਸੰਦਰਭ ਲਾਗੂ ਕਰਨ ਲੱਗੇ—ਇੱਕ ਖੁੱਲ੍ਹਾ ਖੋਜ ਸਭਿਆਚਾਰ ਜੋ ਤਰੱਕੀ ਨੂੰ ਇੱਕੱਠੀ ਮਹਿਸੂਸ ਕਰਵਾਉਂਦਾ।

ਨਵਾਂ ਵਿਰੋਧ: ਕੰਪਿਊਟ ਅਸਮਾਨਤਾ

ਉਸੇ ਬੈਂਚਮਾਰਕ ਸਭਿਆਚਾਰ ਨੇ ਇਕ ਅਸੁਖਾਵਾਂ ਹਕੀਕਤ ਨੂੰ ਵੀ ਉਜਾਗਰ ਕੀਤਾ: ਜਿਵੇਂ-ਜਿਵੇਂ ਸਿਖਰ ਨਤੀਜੇ ਵੱਡੇ ਮਾਡਲਾਂ ਅਤੇ ਲੰਮੇ ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਂ ਨਾਲ ਜੁੜੇ, ਕੰਪਿਊਟ ਤੱਕ ਪਹੁੰਚ ਕੂਟ-ਮੁੱਦਾ ਬਣ ਗਈ। ImageNet ਨੇ ਸ਼ੁਰੂ ਵਿੱਚ ਦਾਖਲਾ ਲੋਕਾਂ ਲਈ ਆਸਾਨ ਕੀਤਾ—ਪਰ ਫਿਰ ਦਿਖਾ ਦਿੱਤਾ ਕਿ ਖੇਡ ਕਿਵੇਂ ਫਟਾਫਟ ਓਹੇ ਲੋਕਾਂ ਲਈ ਤੰਗ ਹੋ ਸਕਦਾ ਹੈ ਜਿੰਨ੍ਹਾਂ ਕੋਲ ਵੱਡਾ ਕੰਪਿਊਟ ਨਹੀਂ।

ਪੱਖਪਾਤ ਅਤੇ ਮਾਪਣ ਬਾਰੇ ਜੋ ਸਿੱਖਿਆ ਗਿਆ

ImageNet ਨੇ ਸਿਰਫ਼ ਸਹੀਤਾ ਨੰਬਰ ਵਧਾਏ ਨਹੀਂ—ਇਸ ਨੇ ਦਿਖਾਇਆ ਕਿ ਮਾਪਣ ਕਿੰਨਾ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਕੀ ਮਾਪ ਰਹੇ ਹੋ। ਜਦੋਂ ਇੱਕ ਡੇਟਾਸੇੱਟ ਸਾਂਝਾ ਜ਼ਿੰਨੀ ਮਾਪ-ਲਕੜੀ ਬਣ ਜਾਂਦੀ, ਉਸਦੀ ਡਿਜ਼ਾਈਨ ਫੈਸਲੇ ਬਿਨਾ ਸ਼ੋਰ ਦੇ ਇਹ ਬਣਾਉਂਦੇ ਕਿ ਮਾਡਲ ਕਿਹੜੀਆਂ ਚੀਜ਼ਾਂ ਚੰਗੀਆਂ ਸਿੱਖੇਗਾ, ਕੀ ਉਹ ਅਣਡਿੱਠੀ ਰਹੇਗਾ, ਅਤੇ ਕੀ ਗਲਤ ਸਮਝੇਗਾ।

ਡੇਟਾ ਚੋਣਾਂ ਮਾਡਲ ਲਈ “ਹਕੀਕਤ” ਨਿਰਧਾਰਤ ਕਰਦੀਆਂ ਹਨ

1,000 ਸ਼੍ਰੇਣੀਆਂ ਨੂੰ ਪਛਾਣਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਮਾਡਲ ਇੱਕ ਖਾਸ ਨਜ਼ਰੀਆ ਸਿੱਖਦਾ ਹੈ: ਕਿਹੜੀਆਂ ਚੀਜ਼ਾਂ "ਮਹੱਤਵਪੂਰਨ" ਹਨ, ਕਿੰਨੇ ਵਿਜ਼ੂਅਲੀ ਤੌਰ 'ਤੇ ਅਲੱਗ-ਅਲੱਗ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ, ਅਤੇ ਕਿਹੜੇ ਐਜ ਕੇਸ ਘੱਟ ਮਹੱਤਵ ਦੇ ਮੰਨੇ ਜਾਂਦੇ ਹਨ।

ਜੇ ਕੋਈ ਡੇਟਾਸੇੱਟ ਕੁਝ ਵਾਤਾਵਰਣਾਂ (ਉਦਾਹਰਣ ਲਈ ਪੱਛਮੀ ਘਰ, ਉਤਪਾਦ ਫੋਟੋਗ੍ਰਾਫੀ) ਨੂੰ ਜ਼ਿਆਦਾ ਦਰਸਾਉਂਦਾ, ਤਾਂ ਮਾਡਲ ਉਹਨਾਂ ਸਥਿਤੀਆਂ 'ਚ ਮਹਾਨ ਹੋ ਸਕਦਾ ਹੈ ਪਰ ਹੋਰ ਖੇਤਰਾਂ ਜਾਂ ਸੱਭਿਆਚਾਰਾਂ ਵਿੱਚ ਠੀਕ ਨਾ ਕਰੇ।

ਪੱਖਪਾਤ ਕਿੱਥੇ ਆ ਸਕਦਾ ਹੈ

ਪੱਖਪਾਤ ਇੱਕ ਚੀਜ਼ ਨਹੀਂ; ਇਹ ਕਈ ਕਦਮਾਂ 'ਚ ਆ ਸਕਦਾ:

ਸੰਗ੍ਰਹਿ: ਕੀ ਜੋ ਤਸਵੀਰਾਂ ਸਕ੍ਰੈਪ ਕੀਤੀਆਂ ਗਈਆਂ ਉਹ ਕਿੱਥੋਂ ਆਈਆਂ ਹਨ
ਲੇਬਲਿੰਗ: ਐਨੋਟੇਟਰਾਂ ਦੀ ਧਾਰਣਾ, ਅਸਮਰਥਾ, ਅਤੇ ਸਮਾਂ-ਚਾਪ
ਸ਼੍ਰੇਣੀ ਪਰਿਭਾਸ਼ਾਵਾਂ: ਕਿਹੜੇ ਲੇਬਲ ਸ਼ਾਮਲ ਹਨ ਅਤੇ ਕਿੱਥੇ ਹੱਦਾਂ ਖਿੱਚੀਆਂ ਗਈਆਂ
ਭੂਗੋਲ ਅਤੇ ਸਭਿਆਚਾਰ: ਵੱਖ-ਵੱਖ ਰਿਵਾਜ਼, ਕੱਪੜੇ, ਸੈਟਿੰਗ ਅਤੇ ਸੰਵੇਦਨਸ਼ੀਲ ਚੀਜ਼ਾਂ ਦੀ ਵੱਖ-ਵੱਖ ਪਰਿਭਾਸ਼ਾ

ਉੱਚ ਸਹੀਤਾ ਵੀ ਹਾਨਿਕਾਰਕ ਗਲਤੀਆਂ ਛੁਪਾ ਸਕਦੀ ਹੈ

ਇੱਕ ਓਸ-ਪੇਲੀਨ ਸਹੀਤਾ ਨੰਬਰ ਸਭ ਕੁਝ ਔਸਤ ਕਰਦਾ ਹੈ। ਇਸਦਾ ਅਰਥ ਇਹ ਹੈ ਕਿ ਇੱਕ ਮਾਡਲ “ਸ਼ਾਨਦਾਰ” ਦਿਖ ਸਕਦਾ ਹੈ ਪਰ ਖਾਸ ਗਰੁੱਪਾਂ ਜਾਂ ਸੰਦਰਭਾਂ 'ਚ ਭਾਰੀ ਤਰੀਕੇ ਨਾਲ ਫੇਲ ਹੋ ਸਕਦਾ—ਜੋ ਅਸਲ ਉਤਪਾਦਾਂ (ਫੋਟੋ ਟੈਗਿੰਗ, ਸਮੱਗਰੀ ਨਿਯੰਤਰਣ, ਪੁਗਹ ਪ੍ਰਾਪਤ ਕਰਨ ਵਾਲੇ ਸੰਦ) ਲਈ ਅਹਮ ਹਨ।

ਆਧੁਨਿਕ ਟੀਮਾਂ ਲਈ ਪ੍ਰੈਕਟਿਕਲ ਸਲਾਹ

ਡੇਟਾਸੇੱਟ ਨੂੰ ਉਤਪਾਦ-ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਸਮਝੋ: ਸਬਗਰੁੱਪ ਮੁਲਿਆੰਕਨ ਚਲਾਓ, ਡੇਟਾ ਸਰੋਤ ਅਤੇ ਲੇਬਲ ਨਿਰਦੇਸ਼ ਦਸਤਾਵੇਜ਼ ਕਰੋ, ਅਤੇ ਆਪਣੇ ਅਸਲ ਉਪਭੋਗਤਿਆਂ ਵਾਲੇ ਪ੍ਰਤੀਨਿਧੀ ਡੇਟਾ 'ਤੇ ਟੈਸਟ ਕਰੋ।

ਹਾਲਕੀ ਡੇਟਾਸੇੱਟ “ਡਾਟਾਸ਼ੀਟ” ਅਤੇ ਸਮੇਂ-ਸਮੇਂ 'ਤੇ ਆਡਿਟ ਮੁੱਦੇ ਸਪੁਰਦ ਕਰ ਸਕਦੇ ਹਨ।

ਸੀਮਾਵਾਂ: ਸ਼ਾਰਟਕਟ, ਜਨਰਲਾਈਜੇਸ਼ਨ, ਅਤੇ ਡੇਟਾਸੇੱਟ ਡ੍ਰਿਫਟ

ImageNet ਨੇ ਸਾਬਤ ਕੀਤਾ ਕਿ ਪੱਧਰ ਅਤੇ ਚੰਗੇ ਲੇਬਲ ਮੇਂ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਖੋਲ ਸਕਦੇ ਹਨ—ਪਰ ਇਹ ਵੀ ਦਿਖਾਇਆ ਕਿ ਬੈਂਚਮਾਰਕ ਸਫਲਤਾ ਨੂੰ ਹਕੀਕਤ ਦੀ ਭਰੋਸੇਮੰਦਤਾ ਨਾਲ ਗਲਤ ਨਾ ਲਿਆ ਜਾਵੇ। ਤਿੰਨ ਮੁੱਖ ਸਮੱਸਿਆਵਾਂ ਆਮ ਤੌਰ 'ਤੇ ਅੱਜ ਵੀ ਮੁੜ ਆਉਂਦੀਆਂ ਹਨ: ਸ਼ਾਰਟਕਟ, ਕਮਜ਼ੋਰ ਜਨਰਲਾਈਜੇਸ਼ਨ, ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਡ੍ਰਿਫਟ।

ਹਕੀਕਤ ਨਾਲ ਮਿਸ਼ਮੈਚ: ਕਿਊਰੇਟ ਕੀਤੀਆਂ ਤਸਵੀਰਾਂ ਵਿਰੁੱਧ ਗੰਦੀ

ImageNet ਦੀਆਂ ਤਸਵੀਰਾਂ ਅਕਸਰ ਸਾਫ, ਕੇਂਦਰਿਤ ਅਤੇ ਚੰਗੀਆਂ ਸ਼ਰਤਾਂ ਵਿੱਚ ਫੋਟੋਗ੍ਰਾਫ ਕੀਤੀਆਂ ਗਈਆਂ ਹੁੰਦੀਆਂ ਹਨ। ਅਸਲ ਤੌਰ 'ਤੇ ਨਿਯੁਕਤ ਤਕਨੀਕਾਂ ਇਨ੍ਹਾਂ ਨਾਲੋਂ ਬਹੁਤ ਜ਼ਿਆਦਾ ਗੰਦਾ ਹੁੰਦਾ: ਘੱਟ ਰੋਸ਼ਨੀ, ਮੋਸ਼ਨ ਬਲਰ, ਅਧ-ਢਕ, ਅਸਧਾਰਣ ਕੈਮਰਾ ਐਂਗਲ, ਭਰੇ ਹੋਏ ਬੈਕਗ੍ਰਾਊਂਡ, ਅਤੇ ਇਕ ਤਸਵੀਰ ਵਿੱਚ ਇੱਕ ਤੋਂ ਵੱਧ ਵਸਤੂਆਂ।

ਇਹ ਫਰਕ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ ਕਿਉਂਕਿ ਇਕ ਮਾਡਲ ਸਾਫ਼ ਟੈਸਟ ਸੈਟ 'ਤੇ ਵਧੀਆ ਸਕੋਰ ਕਰਕੇ ਵੀ ਅਸਲ ਉਪਯੋਗ ਵਿੱਚ ਟੁੱਟ ਸਕਦਾ ਹੈ।

ਗਲਤ ਇਸ਼ਾਰਿਆਂ 'ਤੇ ਸਿਖਣਾ: ਗਲਤ ਪਾਠ ਸਿੱਖਣਾ

ਉੱਚ ਸਹੀਤਾ ਇਹ ਗਰੰਟੀ ਨਹੀਂ ਦਿੰਦੀ ਕਿ ਮਾਡਲ ਨੇ ਉਹ ਸੰਕਲਪ ਸਿੱਖਿਆ ਜੋ ਤੁਸੀਂ ਚਾਹੁੰਦੇ ਸਨ। ਇੱਕ ਕਲਾਸੀਫਾਇਰ ਪਿਛੋਕੜ ਪੈਟਰਨ (ਉਦਾਹਰਣ ਲਈ “ਬਰਫ” ਲਈ “ਸਲੇਡ”), ਆਮ ਫਰੇਮਿੰਗ, ਵਾਟਰਮਾਰਕ, ਜਾਂ ਕੈਮਰਾ ਸਟਾਈਲ 'ਤੇ ਨਿਰਭਰ ਹੋ ਸਕਦਾ ਹੈ ਨਾ ਕਿ ਵਸਤੂ ਨੂੰ ਸੂਝਣ 'ਤੇ।

ਇਹ “ਸ਼ਾਰਟਕਟ” ਮੁਲਿਆੰਕਨ ਦੌਰਾਨ ਹੋਸ਼ਿਆਰ ਦਿਖਦੇ ਹਨ ਪਰ ਜਦੋਂ ਉਹ ਸੰਕੇਤ غائب ਹੋ ਜਾਂਦੇ ਹਨ ਤਾਂ ਨਰਮ ਹੋ ਜਾਂਦੇ ਹਨ—ਇਸੀ ਲਈ ਮਾਡਲ ਛੋਟੇ ਬਦਲਾਅ 'ਤੇ ਭੰਗੁਰ ਹੋ ਸਕਦੇ ਹਨ।

ਡੇਟਾਸੇੱਟ ਦੀ ਬੁਢ਼ਾਪੇ: ਡ੍ਰਿਫਟ ਲਾਜ਼ਮੀ ਹੈ

ਚਾਹੇ ਲੇਬਲ ਸਹੀ ਰਹਿਣ, ਡੇਟਾ ਬਦਲਦਾ ਹੈ। ਨਵੇਂ ਉਤਪਾਦ ਡਿਜ਼ਾਈਨ ਆਉਂਦੇ ਹਨ, ਫੋਟੋਗ੍ਰਾਫੀ ਰੁਝਾਨ ਤਬਦੀਲ ਹੁੰਦੇ ਹਨ, ਇਮੇਜ ਕੰਪ੍ਰੈਸ਼ਨ ਬਦਲਦਾ ਹੈ, ਅਤੇ ਸ਼੍ਰੇਣੀਆਂ ਵਿਕਸਤ ਜਾਂ ਸੰਦੇਹਾਸਪਦ ਹੋ ਜਾਂਦੀਆਂ ਹਨ। ਸਾਲਾਂ ਵਿੱਚ, ਇੱਕ ਫਿਕਸਡ ਡੇਟਾਸੇੱਟ ਲੋਕਾਂ ਵੱਲੋਂ ਅਸਲ ਵਿੱਚ ਅਪਲੋਡ ਕੀਤੇ ਗਏ ਡੇਟਾ ਅਤੇ ਡਿਵਾਈਸਾਂ ਤੋਂ ਘੱਟ ਪ੍ਰਤਿਨਿੱਧੀ ਬਣ ਜਾਂਦਾ ਹੈ।

ਸਿਰਫ਼ ਵੱਡੀ ਮਾਤਰਾ ਕਾਫ਼ੀ ਨਹੀਂ

ਵੱਧ ਡੇਟਾ ਕੁਝ ਗਲਤੀਆਂ ਘਟਾ ਸਕਦਾ ਹੈ, ਪਰ ਇਹ ਮਿਸ਼ਮੈਚ, ਸ਼ਾਰਟਕਟ, ਜਾਂ ਡ੍ਰਿਫਟ ਆਪਣੇ ਆਪ ਠੀਕ ਨਹੀਂ ਕਰਦਾ। ਟੀਮਾਂ ਨੂੰ ਲੋੜ ਹੈ:

ਡੀਪਲੋਇਮੈਂਟ ਸ਼ਰਤਾਂ ਦੀ ਨਕਲ ਵਾਲੇ ਟਾਰਗਟ ਮੁਲਿਆੰਕਨ ਸੈੱਟ
ਲਗਾਤਾਰ ਡੇਟਾ ਰੀਫ੍ਰੈਸ਼ ਅਤੇ ਨਿਗਰਾਨੀ
ਸ਼ਾਰਟਕਟ ਵਾਲੇ ਵਿਹਾਰਾਂ ਲਈ ਸਟਰੈੱਸ ਟੈਸਟ (ਉਦਾਹਰਣ: ਬੈਕਗ੍ਰਾਊਂਡ ਬਦਲਣ, ਅਧ-ਢਕ)

ImageNet ਦੀ ਵਿਰਾਸਤ ਭਾਗੀ-ਭਾਗੀ ਚੇਤਾਵਨੀ ਵੀ ਹੈ: ਬੈਂਚਮਾਰਕ ਤਾਕਤਵਰ ਹਨ, ਪਰ ਇਹ ਅੰਤ-ਸੀਮਾ ਨਹੀਂ ਹਨ।

ImageNet ਤੋਂ ਬਾਅਦ: ਕੇਂਦਰ ਕਿੱਥੇ ਚਲਾ ਗਿਆ

ਡੇਟਾਸੇੱਟ ਨੂੰ ਉਤਪਾਦ ਵਾਂਗ ਟ੍ਰੈਕ ਕਰੋ

ਡੇਟਾਸੇੱਟ ਵਰਜ਼ਨ, ਸਰੋਤ ਅਤੇ ਲੇਬਲ ਨਿਯਮ ਇਕ ਥਾਂ ਤੇ ਟ੍ਰੈਕ ਕਰਨ ਲਈ ਆਧੁਨਿਕ ਅੰਦਰੂਨੀ ਟੂਲ ਬਣਾਓ।

ਪਰੋਜੈਕਟ ਸ਼ੁਰੂ ਕਰੋ

ImageNet ਇੱਕਮਾਤ੍ਰ “ਉੱਤਮ ਤਾਰਾ” ਨਹੀਂ ਰਹਿ ਗਿਆ ਨਾ ਕਿ ਇਸ ਲਈ ਕਿ ਇਹ ਨਾਕਾਮ ਹੋ ਗਿਆ, ਪਰ ਇਸ ਲਈ ਕਿ ਖੇਤਰ ਦੀਆਂ ਇੱਛਾਵਾਂ ਕਿਸੇ ਇੱਕ ਕੰਮ-ਕ੍ਰਿਤ ਡੇਟਾਸੇੱਟ ਤੋਂ ਬਹੁਤ ਬਾਹਰ ਨਿੱਕਲ ਗਈਆਂ।

ਜਿਵੇਂ ਮਾਡਲ ਵੱਧੇ, ਟੀਮਾਂ ਬਹੁਤ ਵੱਡੇ ਅਤੇ ਵਿਆਪਕ ਸਰੋਤਾਂ 'ਤੇ ਟ੍ਰੇਨ ਕਰਨ ਲੱਗੀਆਂ: ਵੈੱਬ ਤਸਵੀਰਾਂ, ਉਤਪਾਦ ਫੋਟੋਆਂ, ਵੀਡੀਓ ਫਰੇਮ, ਸਿੰਥੈਟਿਕ ਡੇਟਾ, ਅਤੇ ਡੋਮੇਨ-ਖਾਸ ਸੰਗ੍ਰਹਿ (ਮੈਡੀਕਲ, ਸੈਟੇਲਾਈਟ, ਰਿਟੇਲ)। ਲਕਸ਼ ਬਦਲ ਗਿਆ: “ਇੱਕ ਬੈਂਚਮਾਰਕ ਜਿੱਤੋ” ਤੋਂ “ਬੜੀ ਹੱਦ ਤੱਕ ਸਿੱਖੋ ਤਾਂ ਕਿ ਅਨੁਕੂਲਤਾ ਹੋਵੇ।”

ਵੱਡਾ, ਵਿਆਪਕ ਟ੍ਰੇਨਿੰਗ—ਅਕਸਰ ਘੱਟ ਸੁਥਰਾ

ਜੇ ਜਿੱਥੇ ImageNet ਧਿਆਨ ਨਾਲ ਕਿਊਰੇਟ ਅਤੇ ਸ਼੍ਰੇਣੀ ਸੰਤੁਲਨ ਉਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਸੀ, ਨਵੇਂ ਪਾਈਪਲਾਈਨ ਕੱਛ ਸਾਫ਼-ਸੁਥਰੇਪਣ ਨੂੰ ਛੱਡ ਕੇ ਕਵਰੇਜ ਲਈ ਵਪਾਰਕ ਉੱਤੇ ਵਧਦੇ ਹਨ। ਇਸ ਵਿੱਚ ਕਮਜ਼ੋਰ ਲੇਬਲਡ ਡੇਟਾ (ਕੈਪਸ਼ਨ, alt-text, ਆਲੇ-ਦੁਆਲੇ ਦਾ ਟੈਕਸਟ) ਅਤੇ ਸੈਲਫ-ਸੁਪਰਵਾਈਜ਼ਡ ਲਰਨਿੰਗ ਜਿਹੜੀ ਮਨੁੱਖੀ ਸ਼੍ਰੇਣੀ ਲੇਬਲਾਂ 'ਤੇ ਘੱਟ ਨਿਰਭਰ ਰਹਿੰਦੀ, ਸ਼ਾਮਲ ਹਨ।

ਇਕ ਸਿੰਗਲ ਸਕੋਰ ਤੋਂ ਮੁਲਿਆੰਕਨ ਸੂਟ ਤੱਕ

ImageNet Challenge ਨੇ ਇੱਕ ਹੈੱਡਲਾਈਨ ਨੰਬਰ ਨਾਲ ਤਰੱਕੀ ਨਜ਼ਰ ਆਉਣ ਯੋਗ ਬਣਾਈ। ਆਧੁਨਿਕ ਅਭਿਆਸ ਜ਼ਿਆਦਾ ਵਿਭਿੰਨ ਹੈ: ਮੁਲਿਆੰਕਨ ਸੂਟ ਵੱਖ-ਵੱਖ ਡੋਮੇਨਾਂ, ਸ਼ਿਫਟਾਂ ਅਤੇ ਫੇਲ ਚਾਲਾਂ ਉੱਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਟੈਸਟ ਕਰਦੇ—ਆਊਟ-ਆਫ-ਡਿਸਟ੍ਰਿਬਿਊਸ਼ਨ ਡੇਟਾ, ਲਾਂਗ-ਟੇਲ ਸ਼੍ਰੇਣੀਆਂ, ਫੇਅਰਨੈਸ ਸਲਾਈਸ, ਅਤੇ ਵਰਤੋਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਜਿਵੇਂ ਲੇਟੰਸੀ ਅਤੇ ਊਰਜਾ।

ਹੋਰ ਇਹ ਪੁੱਛਦੇ ਹਨ: “ਟੌਪ-1 ਸਹੀਤਾ ਕੀ ਹੈ?” ਦੇ ਥਾਂ “ਇਹ ਕਿੱਥੇ ਟੁੱਟਦਾ ਹੈ, ਅਤੇ ਕਿੰਨੀ ਭਰੋਸੇਯੋਗੀ ਢੰਗ ਨਾਲ?”

ਮਲਟੀਮੋਡਲ ਮਾਡਲਾਂ ਵੱਲ ਪੁਲ

ਅੱਜ ਦੇ ਮਲਟੀਮੋਡਲ ਸਿਸਟਮ ਤਸਵੀਰਾਂ ਅਤੇ ਟੈਕਸਟ ਦੀਆਂ ਸਾਂਝੀਆਂ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਸਿੱਖਦੇ ਹਨ, ਜੋ ਇਕ ਮਾਡਲ ਨਾਲ ਖੋਜ, ਕੈਪਸ਼ਨ ਅਤੇ ਵਿਜ਼ੂਅਲ ਸਵਾਲ-ਜਵਾਬ ਨੂੰ ਯੋਗ ਬਣਾਉਂਦੇ ਹਨ। ਵਿਵਾਦੀ ਲਰਨਿੰਗ (image-text pairing) ਨਾਲ ਪ੍ਰੇਰਿਤ ਤਰੀਕੇ ਵੈੱਬ-ਪੱਧਰੀ ਸਪਰਵਿਜ਼ਨ ਨੂੰ ਯਥਾਰਥ ਬਣਾਉਂਦੇ ਹਨ, ਜੋ ImageNet-ਸ਼ੈਲੀ ਕਲਾਸ ਲੇਬਲਾਂ ਤੋਂ ਅੱਗੇ ਚਲੇ ਗਏ।

ਖੁਲੇ ਸਵਾਲ: ਪਾਰਦਰਸ਼ਤਾ, ਸਹਿਮਤੀ, ਗਵਰਨੈਂਸ

ਜਿਵੇਂ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਵੱਡਾ ਅਤੇ ਜ਼ਿਆਦਾ ਸਕ੍ਰੈਪ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਮੁਸ਼ਕਿਲ ਪ੍ਰਸ਼ਨ ਸਮਾਜਿਕ ਅਤੇ ਤਕਨੀਕੀ ਦੋਹਾਂ ਬਣ ਜਾਂਦੇ ਹਨ: ਡੇਟਾਸੇੱਟ 'ਚ ਕੀ ਹੈ ਇਸ ਦੀ ਦਸਤਾਵੇਜ਼ੀ, ਜੇ ਜ਼ਰੂਰੀ ਹੋਵੇ ਤਾਂ ਸਹਿਮਤੀ ਲੈਣਾ, ਕਾਪੀਰਾਈਟ ਸਮੱਗਰੀ ਦੀ ਸੰਭਾਲ, ਅਤੇ ਹਟਾਉਣ ਜਾਂ ਬਹਿਸਲ ਦਾ ਕਾਰਜ।

ਅਗਲਾ “ਕੇਂਦਰ” ਸ਼ਾਇਦ ਕਿਸੇ ਇਕ ਡੇਟਾਸੇੱਟ ਦੀ ਥਾਂ—ਅਧਿਕ ਸੰਸਕਾਰਾਂ ਦਾ ਸੈੱਟ ਹੋਵੇ।

ਆਧੁਨਿਕ AI ਟੀਮਾਂ ਲਈ ਪ੍ਰਯੋਗਕ ਸਬਕ

ImageNet ਦਾ ਨਿੱਘਾ ਸਬਕ ਟੀਮਾਂ ਲਈ ਇਹ ਨਹੀਂ ਹੈ ਕਿ “ਵੱਡੇ ਮਾਡਲ ਵਰਤੋ।” ਇਹ ਹੈ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਅਨੁਸ਼ਾਸਿਤ ਡੇਟਾ ਕਾਰਜ, ਸਪਸ਼ਟ ਮੁਲਿਆੰਕਨ, ਅਤੇ ਸਾਂਝੇ ਮਿਆਰਾਂ ਤੋਂ ਆਉਂਦਾ ਹੈ—ਉਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਤੁਸੀਂ ਮਹੀਨਿਆਂ ਆਰਕੀਟੈਕਚਰ ਟ੍ਯੂਨਿੰਗ 'ਚ ਗੁਜ਼ਾਰੋ।

ਤਿੰਨ ਸਬਕ ਜੋ ਨਕਲ ਕਰਨ ਯੋਗ ਹਨ

ਪਹਿਲਾ, ਡੇਟਾ ਗੁਣਵੱਤਾ ਵਿੱਚ ਉਹੀ ਨਿਵੇਸ਼ ਕਰੋ ਜੋ ਤੁਸੀਂ ਉਤਪਾਦ ਗੁਣਵੱਤਾ ਵਿੱਚ ਕਰਦੇ ਹੋ। ਸਪਸ਼ਟ ਲੇਬਲ ਨਿਦੇਸ਼, ਐਜ-ਕੇਸਾਂ ਦੇ ਉਦਾਹਰਣ, ਅਤੇ ਅਸਪਸ਼ਟ ਮਾਮਲਿਆਂ ਲਈ ਯੋਜਨਾ “ਚੁਪ ਗਲਤੀਆਂ” ਰੋਕਦੀ ਹੈ ਜੋ ਮਾਡਲ ਨੂੰ ਕਮਜ਼ੋਰ ਦਿਖਾਉਂਦੀਆਂ ਹਨ।

ਦੂਜਾ, ਮੁਲਿਆੰਕਨ ਨੂੰ ਇੱਕ ਡਿਜ਼ਾਈਨ ਆਈਟਮ ਦੀ ਤਰ੍ਹਾਂ ਵਰਤੋ। ਮਾਡਲ ਸਿਰਫ਼ ਇਕ ਮੈਟਰਿਕ, ਇਕ ਡੇਟਾਸੇੱਟ ਅਤੇ ਇਕ ਫੈਸਲੇ-ਥਰੈਸ਼ਹੋਲਡ ਦੇ ਸਪੇਕਟਰ 'ਤੇ “ਚੰਗਾ” ਹੈ। ਫੈਸਲਾ ਕਰੋ ਕਿ ਕਿਹੜੀਆਂ ਗਲਤੀਆਂ ਮਾਇਨੇ ਰੱਖਦੀਆਂ ਹਨ (ਫਾਲਸ ਅਲਾਮ ਵੱਸੀ-ਚੁੱਕ ਜਾਂ ਮਿਸ) ਅਤੇ ਰੋਸ਼ਨੀ, ਡਿਵਾਈਸ ਕਿਸਮ, ਭੂਗੋਲਿਕ/ਨਗਰੀ ਸੈਗਮੈਂਟ ਅਨੁਸਾਰ ਸਲਾਈਸਾਂ ਵਿੱਚ ਮੁਲਿਆੰਕਨ ਕਰੋ।

ਤੀਜਾ, ਆਪਣੇ ਆਰਗਨਾਈਜ਼ੇਸ਼ਨ ਵਿੱਚ ਸਾਂਝੇ ਮਿਆਰ ਬਣਾਓ। ImageNet ਦੀ ਸਫਲਤਾ ਇਕ ਹਿੱਸੇ ਲਈ ਸੀ ਕਿਉਂਕਿ ਹਰ ਕੋਈ ਨਿਯਮਾਂ 'ਤੇ ਸਹਿਮਤ ਸੀ। ਤੁਹਾਡੀ ਟੀਮ ਨੂੰ ਉਹੀ ਚਾਹੀਦੀ ਹੈ: ਨਾਮਕਰਨ ਰਿਵਾਜ, ਵਰਜ਼ਨਿੰਗ, ਅਤੇ ਇੱਕ ਸਾਂਝਾ ਬੈਂਚਮਾਰਕ ਜੋ ਮਿਡ-ਕ੍ਵਾਰਟਰ ਵਿੱਚ ਨਹੀਂ ਬਦਲੇ।

ਇੱਕ ਸਧਾਰਨ ਚੈੱਕਲਿਸਟ (ਡੇਟਾਸੇੱਟ ਜਾਂ ਪ੍ਰੀ-ਟ੍ਰੇਨਡ ਮਾਡਲ)

ਇੱਕ ਵਾਕ ਵਿੱਚ ਟਾਸਕ ਨੂੰ ਪਰਿਭਾਸ਼ਤ ਕਰੋ ਅਤੇ “ਸ਼ਾਮਿਲ ਨਹੀਂ” ਮਾਮਲੇ ਲਿਖੋ।
ਇਕ ਲੇਬਲਿੰਗ ਗਾਈਡ ਬਣਾਓ ਅਤੇ ਸਹਿਮਤੀ ਮਾਪਣ ਲਈ ਇੱਕ ਛੋਟਾ ਪਾਈਲਟ ਚਲਾਓ।
ਡੇਟਾਸੇੱਟ ਵਰਜ਼ਨ, ਸਰੋਤ, ਅਤੇ ਸਹਿਮਤੀ/ਉਪਯੋਗ ਅਧਿਕਾਰ ਟਰੈਕ ਕਰੋ।
ਇਕ ਬੇਸਲਾਈਨ ਅਤੇ ਇੱਕ "ਫਰੋਜ਼ਨ" ਟੈਸਟ ਸੈਟ ਸੈੱਟ ਕਰੋ; ਇਸਤੇ ਟ੍ਰੇਨ ਨਾ ਕਰੋ।
ਦੁਰਲਭ ਪਰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਥਿਤੀਆਂ ਲਈ ਸਲਾਈਸ ਟੈਸਟ ਜੋੜੋ।
ਡ੍ਰਿਫਟ ਦੀ ਨਿਗਰਾਨੀ: ਜਦੋਂ ਇਨਪੁਟ ਬਦਲਦੇ ਹਨ, ਤਾਂ ਸ਼ਿਪ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਮੁਲਿਆੰਕਨ ਕਰੋ।

ਟ੍ਰਾਂਸਫਰ ਲਰਨਿੰਗ ਵਰਤੋਂ ਜਾਂ ਨਵਾਂ ਡੇਟਾ ਇਕੱਤਰ ਕਰਨ ਦਾ ਫੈਸਲਾ

ਜਦੋਂ ਤੁਹਾਡਾ ਟਾਸਕ ਆਮ ਵਿਜ਼ੂਅਲ ਸੰਕਲਪਾਂ ਦੇ ਕੋਲ ਹੋਵੇ ਅਤੇ ਤੁਹਾਨੂੰ ਸਿਰਫ਼ ਮਾਡਲ ਨੂੰ ਅਨੁਕੂਲ ਕਰਨ ਦੀ ਲੋੜ ਹੋਵੇ (ਘੱਟ ਡੇਟਾ, ਤੇਜ਼ ਇਟ੍ਰੇਸ਼ਨ, ਕਾਫ਼ੀ ਸਹੀਤਾ), ਟ੍ਰਾਂਸਫਰ ਲਰਨਿੰਗ ਵਰਤੋਂ।

ਨਵਾਂ ਡੇਟਾ ਇਕੱਠਾ ਕਰੋ ਜਦੋਂ ਤੁਹਾਡਾ ਡੋਮੇਨ ਵਿਸ਼ੇਸ਼ ਹੋ (ਮੈਡੀਕਲ, ਉਦਯੋਗੀ, ਘੱਟ-ਰੋਸ਼ਨੀ, ਅਣਜਾਣ ਸੈਂਸਰ), ਜਦੋਂ ਗਲਤੀਆਂ ਮਹਿੰਗੀਆਂ ਹਨ, ਜਾਂ ਜਦੋਂ ਤੁਾਡੇ ਉਪਭੋਗਤਾ ਅਤੇ ਸ਼ਰਤ ਸਰਵਜਨਿਕ ਡੇਟਾਸੇੱਟਾਂ ਤੋਂ ਕਾਫ਼ੀ ਵੱਖ-ਵੱਖ ਹੋਣ।

ਅੱਜ ਪਲੇਟਫਾਰਮਾਂ ਦੀ ਭੂਮਿਕਾ

ImageNet ਤੋਂ ਬਾਅਦ ਇੱਕ ਸ਼ਾਂਤ ਪਰਿਵਰਤਨ ਇਹ ਹੈ ਕਿ “ਪਾਈਪਲਾਈਨ” ਮਾਡਲ ਦੇ ਨਾਲ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਹੋ ਗਈ: ਵਰਜ਼ਨਡ ਡੇਟਾਸੇੱਟ, ਦੁਹਰਾਏ ਜਾ ਸਕਣ ਵਾਲੇ ਟ੍ਰੇਨਿੰਗ ਦੌਰ, ਤੈਨਾਤੀ ਜਾਂਚਾਂ, ਅਤੇ ਰੋਲਬੈਕ ਯੋਜਨਾਵਾਂ। ਜੇ ਤੁਸੀਂ ਉਨ੍ਹਾਂ ਵਰਕਫਲੋਜ਼ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਅੰਦਰੂਨੀ ਟੂਲ ਬਣਾ ਰਹੇ ਹੋ, ਤਾਂ ਪਲੇਟਫਾਰਮਾਂ ਜਿਵੇਂ Koder.ai ਤੁਹਾਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਪਰੋਟੋਟਾਈਪ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ—ਮੁਲਿਆੰਕਨ ਸਲਾਈਸ ਲਈ ਡੈਸ਼ਬੋਰਡ, ਐਨੋਟੇਸ਼ਨ ਰਿਵਿਊ ਕਤਾਰਾਂ, ਜਾਂ ਡੇਟਾਸੇੱਟ ਵਰਜ਼ਨ ਟਰੈਕ ਕਰਨ ਲਈ ਸਧਾਰਨ ਅੰਦਰੂਨੀ ਵੈੱਬ ਐਪਜ—ਇੱਕ ਚੈਟ-ਅਧਾਰਿਤ ਸਪੈੱਕ ਤੋਂ React ਫਰੰਟਐਂਡ ਅਤੇ Go + PostgreSQL ਬੈਕਐਂਡ ਜਨਰੇਟ ਕਰਕੇ। ਤੇਜ਼ ਟੀਮਾਂ ਲਈ ਸਨੈਪਸ਼ਾਟ ਅਤੇ ਰੋਲਬੈਕ ਵਰਗੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਡੇਟਾ ਅਤੇ ਮੁਲਿਆੰਕਨ ਲੋਜਿਕ 'ਤੇ ਇਤਰੇਟ ਕਰਦੇ ਸਮੇਂ ਲਾਭਦਾਇਕ ਹੋ ਸਕਦੀਆਂ ਹਨ।

ਅਗਲੇ ਪੜ੍ਹਨ ਲਈ ਸੁਝਾਅ

ਅਧਿਕ AI ਇਤਿਹਾਸ ਅਤੇ ਲਾਗੂਗਾਈਡਾਂ ਲਈ /blog ਵੇਖੋ। ਜੇ ਤੁਸੀਂ ਡੇਟਾ/ਮਾਡਲ ਟੂਲਿੰਗ ਲਈ ਬਣਾਉਣ ਬਨਾਮ ਖ਼ਰੀਦਣ ਦੀ ਤੁਲਨਾ ਕਰ ਰਹੇ ਹੋ ਤਾਂ ਇੱਕ ਤੇਜ਼ ਤਜਰਬੇ ਲਈ /pricing ਵੇਖੋ।

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

ImageNet 2025 ਵਿੱਚ ਵੀ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ?

ImageNet ਇਸ ਲਈ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ ਕਿ ਇਸ ਨੇ ਵਿਆਪਕ ਪੱਧਰ 'ਤੇ ਤਰੱਕੀ ਨੂੰ ਮਾਪਣ ਯੋਗ ਬਣਾਇਆ: ਇੱਕ ਵੱਡਾ, ਨਿਰੰਤਰ ਲੇਬਲ ਕੀਤਾ ਹੋਇਆ ਡੇਟਾਸੇੱਟ ਅਤੇ ਇੱਕ ਸਾਂਝਾ ਬੈਂਚਮਾਰਕ ਨੇ ਖੋਜਕਾਰਾਂ ਨੂੰ ਵਿਧੀਆਂ ਦੀ ਸਚਾਈ ਨਾਲ ਤੁਲਨਾ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੱਤੀ ਅਤੇ ਮਾਡਲਾਂ ਨੂੰ ਛੋਟੇ, ਬਹੁਤ-ਨਿਰਧਾਰਿਤ ਨਮੂਨਿਆਂ ਤੋਂ ਪਰੇ ਸਿੱਖਣ 'ਤੇ ਧੱਕ ਦਿੱਤਾ।

ImageNet ਅਸਲ ਵਿੱਚ ਕੀ ਹੈ (ਅਤੇ ਕੀ ਨਹੀਂ)?

ImageNet ਇੱਕ ਵੱਡਾ, ਕਿਊਰੇਟ ਕੀਤਾ ਗਿਆ ਇਮੇਜ ਡੇਟਾਸੇੱਟ ਹੈ ਜਿਸ ਵਿੱਚ ਤਸਵੀਰਾਂ ਨੂੰ ਬਹੁਤ ਸਾਰੀਆਂ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਲੇਬਲ ਕੀਤਾ ਗਿਆ ਹੈ (ਇੱਕ WordNet-ਨੁਮਾ ਹਾਇਰਾਰਕੀ ਦੇ ਅਨੁਸਾਰ). ਇਹ ਕੋਈ ਮਾਡਲ ਨਹੀਂ, ਨਾ ਹੀ ਕੋਈ ਟ੍ਰੇਨਿੰਗ ਐਲਗੋਰਿਦਮ ਹੈ, ਅਤੇ ਨਾ ਹੀ ‘ਅਸਲ ਸਮਝ’ ਦਾ ਸਬੂਤ—ਇਹ ਸਿਰਫ਼ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਮੁਲਿਆੰਕਨ ਲਈ ਡੇਟਾ ਹੈ।

Fei-Fei Li ਦੀ ਮੁੱਖ ਯੋਗਦਾਨ ਕੀ ਸੀ ਜਿਸ ਨੇ ImageNet ਦੇ ਪ੍ਰਭਾਵ ਨੂੰ ਜਨਮ ਦਿੱਤਾ?

Fei-Fei Li ਦੀ ਮੁੱਖ ਸੋਚ ਇਹ ਸੀ ਕਿ ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਦੂਧਰੁਰ ਹੈ ਕਿਉਂਕਿ ਡੇਟਾ ਸੀਮਿਤ ਸੀ, ਸਿਰਫ਼ ਐਲਗੋਰਿਦਮ ਨਹੀਂ। ImageNet ਨੇ ਇੱਕ ਡੇਟਾ-ਪਹਿਲਾ ਅਪ੍ਰੋਚ ਦਰਸਾਈ: ਸਪਸ਼ਟ ਸ਼੍ਰੇਣੀਆਂ ਅਤੇ ਲੇਬਲਿੰਗ ਨਿਯਮ ਪਰਿਭਾਸ਼ਤ ਕਰੋ, ਫਿਰ ਉਦਾਹਰਣਾਂ ਨੂੰ ਵੱਡਾ ਕਰੋ ਤਾਂ ਕਿ ਮਾਡਲ ਮਜ਼ਬੂਤ ਵਿਜ਼ੂਅਲ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਸਿੱਖ ਸਕਣ।

ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਲਈ ImageNet ਦਾ ਪੱਧਰ ਕਿਵੇਂ ਬ੍ਰੇਕਥਰੂ ਸੀ?

ਪੱਧਰ ਨੇ ਵੱਖ-ਵੱਖਤਾ ਅਤੇ ‘ਘ੍ਰਿਣਾ’ ਦਾ ਜੋੜ ਦਿੱਤਾ (ਰੋਸ਼ਨੀ, ਐਂਗਲ, ਭਰੇ ਹੋਏ ਬੈਕਗ੍ਰਾਊਂਡ, ਉਸਾਰੀ), ਜੋ ਕਿ ਛੋਟੇ ਡੇਟਾਸੇੱਟ ਅਕਸਰ ਗੁਆਂਢ ਨਹੀਂ ਕਰਦੇ। ਇਹ ਵੱਖਰੇ ਨਮੂਨੇ ਮਾਡਲਾਂ ਨੂੰ ਉਹ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਸਿੱਖਣ ਲਈ ਦਬਾਅ ਦਿੰਦੇ ਹਨ ਜੋ ਬਹੁਤ ਸਥਿਤੀਆਂ ਵਿੱਚ ਲਾਗੂ ਹੋਂਦੀਆਂ ਹਨ।

ImageNet ਚੈਲੇਂਜ (ILSVRC) ਨੇ ਖੋਜ ਉੱਤੇ ਕਿਹੜੇ ਪ੍ਰੇਰਕ ਪ੍ਰਭਾਵ ਪਾਏ?

ILSVRC ਨੇ ImageNet ਨੂੰ ਇੱਕ ਸਾਂਝਾ ਨਿਯਮ-ਕਿਤਾਬ ਬਣਾਇਆ: ਇਕੋ ਟੈਸਟ ਸੈਟ, ਇਕੋ ਮੈਟਰਿਕ, ਜਨਤਕ ਤੁਲਨਾਵਾਂ। ਇਸ ਨਾਲ ਤੇਜ਼ ਫੀਡਬੈਕ ਲੂਪ ਬਣੇ (ਲੀਡਰਬੋਰਡ), ਦਾਅਵੇ ਘੱਟ ਧੁੰਦਲੇ ਹੋਏ ਅਤੇ ਨਵੇਂ ਤਰੀਕੇ ਤੇਜ਼ੀ ਨਾਲ ਅਪਣਾਏ ਗਏ।

2012 ਵਿੱਚ AlexNet ਨੂੰ ਆਇਨਫਲੇਕਸ਼ਨ ਪਾਇੰਟ ਕਿਉਂ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ?

AlexNet ਨੇ ਤਿੰਨ ਗੁਣ ਜੋੜ ਕੇ ਵੱਡਾ ਨਤੀਜਾ ਦਿੱਤਾ:

ImageNet-ਪੱਧਰ ਦਾ ਡੇਟਾ
ਅੰਤ-ਟੂ-ਅੰਤ ਡੀਪ convolutional ਨੈਟਵਰਕ
GPUs ਜੋ ਪ੍ਰਸ਼ਿਕਸ਼ਣ ਨੂੰ عملي ਬਣਾਉਂਦੇ ਹਨ

ਇਸ ਮਿਲਾਪ ਨੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਇੱਕ ਵਿਸ਼ਾਲ ਛਾਲ ਦਿੱਤੀ, ਜੋ ਫੰਡਿੰਗ, ਭਰਤੀ ਅਤੇ ਉਦਯੋਗਿਕ ਰੁਝਾਨਾਂ ਨੂੰ ਡੀਪ ਲਰਨਿੰਗ ਵੱਲ ਮੋੜ ਗਿਆ।

ImageNet ਨੇ ਅਮਲ ਵਿੱਚ ਟ੍ਰਾਂਸਫਰ ਲਰਨਿੰਗ ਨੂੰ ਕਿਵੇਂ ਯੋਗ ਬਣਾਇਆ?

ImageNet 'ਤੇ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਨੇ ਮਾਡਲਾਂ ਨੂੰ ਮੁੜ-ਵਰਤੋਂਯੋਗ ਵਿਜ਼ੂਅਲ ਫੀਚਰ ਸਿਖਾਏ (ਐਡਜ਼, ਟੈਕਸਟਚਰ, ਸ਼ੇਪ). ਫਿਰ ਟੀਮਜ਼ ਛੋਟੀਆਂ ਖਾਸ ਡੇਟਾਸੇੱਟਾਂ 'ਤੇ ਫਾਈਨ-ਟਿਊਨ ਕਰਕੇ ਤੇਜ਼ੀ ਨਾਲ ਅਤੇ ਘੱਟ ਲੇਬਲ ਕੀਤੇ ਡੇਟਾ ਨਾਲ ਵਧੀਆ ਨਤੀਜੇ ਲੈ ਸਕਦੀਆਂ ਹਨ।

ImageNet ਨੇ ਪੱਖਪਾਤ ਅਤੇ ਮਾਪਣ ਬਾਰੇ ਸਾਨੂੰ ਕੀ ਸਿਖਾਇਆ?

ਪੱਖਪਾਤ ਕਈ ਢੰਗ ਨਾਲ ਆ ਸਕਦਾ ਹੈ:

ਸੰਗ੍ਰਹਿ: ਕਿਸ ਸਰੋਤਾਂ ਤੋਂ ਫੋਟੋਆਂ ਇਕੱਠੀਆਂ ਕੀਤੀਆਂ ਗਈਆਂ
ਲੇਬਲਿੰਗ: ਐਨੋਟੇਟਰਾਂ ਦੇ ਧਾਰਣਾਂ ਅਤੇ ਅਸਮਿਟਾ
ਵਰਗੀਕਰਨ ਨਿਰਧਾਰਣ: ਕਿਹੜੇ ਲੇਬਲ ਹੋਣ
ਜਿਓਗ੍ਰਾਫੀ/ਸੱਭਿਆਚਾਰ: ਵੱਖ-ਵੱਖ ਸੰਦਰਭਾਂ ਦੀ ਘੱਟ/ਅਧਿਕ ਪਹੁੰਚ

ਇਕ ਉੱਚ ਆਮ ਸਹੀਤਾ ਨੰਬਰ ਵੀ ਖਾਸ ਗਰੁੱਪਾਂ 'ਤੇ ਭਾਰੀ ਗਲਤੀਆਂ ਛੁਪਾ ਸਕਦਾ ਹੈ—ਇਸ ਲਈ ਟੀਮਾਂ ਨੂੰ ਸਲਾਈਸ ਮੁਲਿਆੰਕਨ ਅਤੇ ਡੇਟਾ ਡਾਕਯੂਮੈਂਟੇਸ਼ਨ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।

ਸਕੱਤਰ ImageNet 'ਤੇ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਹਕੀਕਤ ਵਿੱਚ ਕਿਵੇਂ ਅਸਫਲ ਹੋ ਸਕਦਾ ਹੈ?

ਆਮ ਸਮੱਸਿਆਵਾਂ:

ਸ਼ਾਰਟਕਟ: ਮਾਡਲ ਪਿਛੋਕੜ ਜਾਂ ਫ੍ਰੇਮਿੰਗ ਵਰਗੀਆਂ ਸੰਕੇਤਾਂ 'ਤੇ ਨਿਰਭਰ ਹੋ ਸਕਦਾ ਹੈ
ਮਿਸ਼ਮੈਚ: ਕਿਊਰੇਟ ਕੀਤੀਆਂ ਤਸਵੀਰਾਂ ਹਕੀਕਤ ਵਾਲੇ ਡੇਟਾਓਂ ਤੋਂ ਵੱਖ-ਵੱਖ ਹੁੰਦੀਆਂ ਹਨ
ਡ੍ਰਿਫਟ: ਸਮੇਂ ਦੇ ਨਾਲ ਡੇਟਾ ਬਦਲਦਾ ਹੈ

ਇਸ ਲਈ ਬੈਂਚਮਾਰਕ ਜਿੱਤਣ ਤੋਂ ਬਾਅਦ ਡੋਮੇਨ ਟੈਸਟ, ਸਟਰੈੱਸ ਟੈਸਟ ਅਤੇ ਨਿਗਰਾਨੀ ਜ਼ਰੂਰੀ ਹੈ।

ImageNet ਤੋਂ ਬਾਅਦ ਕੀ ਚੀਜ਼ ਕੇਂਦਰ ਬਣੀ?

ਹੁਣ ਦੇ ਟ੍ਰੇਨਿੰਗ ਪਾਈਪਲਾਈਨਾਂ ਵਿੱਚ ਅਕਸਰ ਵੱਧ ਅਤੇ ਵਿਆਪਕ ਸਰੋਤ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ: ਵੈੱਬ-ਚਿਤਰ, ਉਤਪਾਦ ਫੋਟੋਆਂ, ਵੀਡੀਓ ਫਰੇਮ, ਸਿੰਥੈਟਿਕ ਡੇਟਾ, ਅਤੇ ਡੋਮੇਨ-ਖਾਸ ਕਲੈਕਸ਼ਨ. ਮੁਲਿਆੰਕਨ ਇੱਕ ਸਿਰਫ਼ ਸੰਗਤੀ ਨੰਬਰ ਦੀ ਥਾਂ ਕਈ ਟੈਸਟ ਸੂਟਾਂ ਵਿੱਚ ਫੈਲ ਗਿਆ—ਰੋਬਸਟਨੈਸ, ਆਊਟ-ਆਫ-ਡਿਸਟ੍ਰਿਬਿਊਸ਼ਨ, ਅਤੇ ਨੈਤਿਕਤਾ ਸਲਾਈਸਜ਼ ਸਮੇਤ।