ਡੇਰੀਓ ਅਮੋਦੇਈ ਦੇ ਵਿਚਾਰਾਂ 'ਤੇ ਇੱਕ ਜਾਇਜ਼ਾ: ਫਰੰਟੀਅਰ ਏਆਈ ਨੂੰ ਸੁਰੱਖਿਅਤ ਬਣਾਉਣ ਲਈ ਐਲਾਈਨਮੈਂਟ ਲਕਸ਼, ਮੁਲਾਂਕਣ, ਰੈਡ-ਟੀਮਿੰਗ, ਗਵਰਨੈਂਸ ਅਤੇ ਅਮਲੀ ਸੁਰੱਖਿਆ ਉਪਾਇਆ।

ਡੇਰੀਓ ਅਮੋਦੇਈ ਇਸ ਲਈ ਅਹੰਕਾਰਪੂਰਨ ਹਨ ਕਿਉਂਕਿ ਉਹ ਸਭ ਤੋਂ ਵਿਖੇਰੇ ਆਵਾਜ਼ਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹਨ ਜੋ ਦਲੀਲ ਕਰਦੇ ਹਨ ਕਿ ਅਗਲੀ ਪੀੜ੍ਹੀ ਦੀ ਤਾਕਤਵਰ ਏਆਈ ਨੂੰ ਸੁਰੱਖਿਆ-ਕਾਮ ਨਾਲ ਹੀ ਵਿਕਸਤ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ — ਨਿਕਾਲੇ ਜਾਣ ਤੋਂ ਬਾਅਦ ਜੋੜਿਆ ਨਹੀਂ ਜਾਣਾ ਚਾਹੀਦਾ। Anthropic ਦੇ CEO ਅਤੇ ਏਆਈ ਗਵਰਨੈਂਸ ਅਤੇ ਮੁਲਾਂਕਣ ਬਾਰੇ ਵਾਦ-ਵਿਵਾਦਾਂ ਵਿੱਚ ਇੱਕ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸ਼ਖ਼ਸੀਅਤ ਹੋਣ ਨਾਲ, ਉਹ ਰਿਲੀਜ਼ ਗੇਟ, ਮਾਪਯੋਗ ਖਤਰਾ ਟੈਸਟ ਅਤੇ ਇਹ ਧਾਰਣਾ ਕਿ ਮਾਡਲ ਸਮਰੱਥਾ ਅਤੇ ਸੁਰੱਖਿਆ ਇੰਜੀਨੀਅਰਿੰਗ ਨੂੰ ਇਕੱਠੇ ਵਧਾਇਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ—ਇਹ ਸਭ ਵਿਚਕਾਰ ਉਹਨਾਂ ਦਾ ਪ੍ਰਭਾਵ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ।
"ਫਰੰਟੀਅਰ" ਏਆਈ ਮਾਡਲ ਉਹ ਹਨ ਜੋ ਕਟਿੰਗ-ਏਜ ਦੇ ਨੇੜੇ ਹੁੰਦੇ ਹਨ: ਸਭ ਤੋਂ ਵੱਡੇ, ਸਭ ਤੋਂ ਸਮਰੱਥ ਸਿਸਟਮ ਜੋ ਵੱਡੇ ਡੇਟਾ ਅਤੇ ਕਮਪਿਊਟ ਨਾਲ ਟਰੇਨ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਇਸ ਪੱਧਰ ਤੇ, ਮਾਡਲ ਵੱਖ-ਵੱਖ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ, ਮੁਸ਼ਕਲ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰ ਸਕਦੇ ਹਨ, ਅਤੇ ਕਈ ਵਾਰੀ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਵਿਹਾਰ ਵਿਖਾ ਸਕਦੇ ਹਨ।
ਫਰੰਟੀਅਰ ਸਕੇਲ ਸਿਰਫ਼ "ਵੱਡਾ ਹੋਣਾ ਚੰਗਾ ਹੈ" ਨਹੀਂ ਹੈ। ਇਹ ਆਮ ਤੌਰ ਤੇ ਮਤਲਬ ਹੁੰਦਾ ਹੈ:
ਇਹ ਲੇਖ ਉਹ ਪਬਲਿਕ ਰੂਪ ਵਿੱਚ ਚਰਚੇ ਗਏ ਅਪ੍ਰੋਚਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦਾ ਹੈ ਜੋ ਫਰੰਟੀਅਰ ਲੈਬਾਂ (ਸ਼ਾਮਲ ਕੀਤੇ ਗਏ Anthropic) ਨਾਲ ਜੁੜੇ ਹਨ: ਰੈਡ-ਟੀਮਿੰਗ, ਮਾਡਲ ਮੁਲਾਂਕਣ, ਸੰਵਿਧਾਨੀ-ਸਟਾਈਲ ਐਲਾਈਨਮੈਂਟ ਵਿਧੀਆਂ ਅਤੇ ਸਾਫ਼ ਤੈਅ ਕੀਤੀਆਂ ਡਿਪਲੋਇਮੈਂਟ ਨੀਤੀਆਂ। ਇਹ ਗੁਪਤ ਦਾਵਿਆਂ 'ਤੇ ਨਿਰਭਰ ਨਹੀਂ ਕਰੇਗਾ ਅਤੇ ਨਾ ਹੀ ਅਣਘੋਸ਼ਿਤ ਮਾਡਲ ਵਰਤਾਰਿਆਂ ਬਾਰੇ ਅਨੁਮਾਨ ਲਗਾਏਗਾ।
ਅਮੋਦੇਈ ਦੇ ਕੰਮ ਨੇ ਜਿਸ ਮੁੱਖ ਚੁਣੌਤੀ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ ਹੈ ਉਹ ਸਧਾਰਨ ਹੈ ਪਰ ਹੱਲ ਕਰਨਾ ਮੁਸ਼ਕਲ: ਤੁਸੀਂ ਏਆਈ ਸਮਰੱਥਾ ਨੂੰ ਕਿਵੇਂ ਬਰਕਰਾਰ ਰੱਖਦੇ ਹੋ—ਕਿਉਂਕਿ ਲਾਭ ਬਹੁਤ ਵੱਡੇ ਹੋ ਸਕਦੇ ਹਨ—ਜਦੋਂ ਹੀ ਇਹ ਭਰੋਸੇਯੋਗ, ਪ੍ਰਮਾਣਿਤ ਅਤੇ ਵਿਸ਼ਾਲ ਉਪਯੋਗਤਾਵਾਂ ਵਾਲੇ ਸਿਸਟਮ ਬਣਦੇ ਹਨ, ਉਨ੍ਹਾਂ ਨਾਲ ਜੁੜੇ ਖਤਰਿਆਂ ਨੂੰ ਘਟਾਉਂਦੇ ਹੋਏ?
"ਸੁਰੱਖਿਅਤ ਏਆਈ ਸਿਸਟਮ" ਇੱਕ ਨਾਰੇ ਦੀ ਤਰ੍ਹਾਂ ਸੁਣਾਈ ਦੇ ਸਕਦਾ ਹੈ, ਪਰ ਅਮਲੀ ਤੌਰ 'ਤੇ ਇਹ ਉਨਾਂ ਲਕੜੀਆਂ ਦਾ ਸਮੁੱਚਾ ਹੈ ਜੋ ਤਾਕਤਵਰ ਮਾਡਲਾਂ ਨੂੰ ਟਰੇਨ, ਡਿਪਲੋਇ ਅਤੇ ਅਪਡੇਟ ਕਰਨ ਸਮੇਂ ਨੁਕਸਾਨ ਘਟਾਉਂਦੀਆਂ ਹਨ।
Safety ਇੱਕ ਛਤਰੀ ਸ਼ਬਦ ਹੈ: ਮਾਡਲ ਨੂੰ ਲੋਕਾਂ, ਸੰਗਠਨਾਂ ਜਾਂ ਸਮਾਜ ਨੂੰ ਨੁਕਸਾਨ ਪਹੁੰਚਾਉਣ ਤੋਂ ਰੋਕਣਾ।
Alignment ਮਤਲਬ ਹੈ ਕਿ ਸਿਸਟਮ ਮਨੁੱਖੀ ਨਿਰਦੇਸ਼ਾਂ ਅਤੇ ਮੁੱਲਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀ ਪ੍ਰਵਿਰਤੀ ਰੱਖੇ—ਖਾਸ ਕਰਕੇ ਉਹਨਾਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਜਿੱਥੇ "ਸਹੀ" ਨਤੀਜਾ ਸਪਸ਼ਟ ਨਹੀਂ ਹੁੰਦਾ।
Misuse ਦਾ ਧਿਆਨ ਦੁਰੁਪਯੋਗ 'ਤੇ ਹੈ (ਉਦਾਹਰਨ ਲਈ fraud, phishing, ਹਾਨਿਕਾਰਕ ਨਿਰਦੇਸ਼ ਬਣਾਉਣਾ), ਭਾਵੇਂ ਮਾਡਲ ਤਕਨੀਕੀ ਤੌਰ 'ਤੇ "ਡਿਜ਼ਾਇਨ ਅਨੁਸਾਰ" ਕੰਮ ਕਰ ਰਿਹਾ ਹੋਵੇ।
Reliability ਇਸ ਬਾਰੇ ਹੈ ਕਿ ਮਾਡਲ ਲਗਾਤਾਰ ਅਤੇ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਵਰਤਦਾ ਹੈ ਕਿ ਨਹੀਂ: ਕੀ ਮਾਡਲ ਇਕਸਾਰ ਤੌਰ 'ਤੇ ਸਮਾਨ ਪ੍ਰੰਪਟਾਂ 'ਤੇ ਸੰਭਵ ਵਰਤਾਰਾ ਦਿਖਾਂਦਾ ਹੈ ਅਤੇ ਕੀ ਇਹ ਆਲੋਚਨਾਤਮਕ ਤੱਥਾਂ ਨੂੰ ਗਲਤ ਤਰੀਕੇ ਨਾਲ ਪੇਸ਼ ਕਰਨ ਤੋਂ ਰੋਕਦਾ ਹੈ?
Control ਉਹ ਸਮਰੱਥਾ ਹੈ ਜੋ ਸੀਮਾਵਾਂ ਨਿਰਧਾਰਤ ਕਰਨ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਕਾਇਮ ਰੱਖਣ ਲਈ ਲਾਜ਼ਮੀ ਹੈ—ਤਾਂ ਜੋ ਮਾਡਲ ਨੂੰ ਆਸਾਨੀ ਨਾਲ ਅਸੁਰੱਖਿਅਤ ਵਿਹਾਰ ਵੱਲ ਨਹੀਂ ਮੋੜਿਆ ਜਾ ਸਕੇ, ਅਤੇ ਓਪਰੇਟਰ ਜਦੋਂ ਲੋੜ ਪਵੇ ਹਸਤਖੇਪ ਕਰ ਸਕਣ।
ਨਜ਼ਦੀਕੀ ਖਤਰੇ ਪਹਿਲਾਂ ਹੀ ਜਾਣੂ ਹਨ: ਵਿਆਪੀ ਗਲਤ ਸੂਚਨਾ, ਨਕਲ ਅਤੇ ਧੋਖਾਧੜੀ, ਪ੍ਰਾਈਵੇਸੀ ਲੀਕ, ਪੱਖਪਾਤੀ ਫੈਸਲੇ ਅਤੇ ਅਸੁਰੱਖਿਅਤ ਸਲਾਹ।
ਲੰਮੇ ਸਮੇਂ ਦੀਆਂ ਚਿੰਤਾਵਾਂ ਉਹ ਹਨ ਜਦੋਂ ਸਿਸਟਮ ਜ਼ਿਆਦਾ ਜਨਰਲ ਸਮਰੱਥਾ ਹਾਸਲ ਕਰਨ ਨਾਲ ਨਿਗਰਾਨੀ ਲਈ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦੇ ਹਨ: ਮਾਡਲ ਅਣਚਾਹੇ ਤਰੀਕੇ ਨਾਲ ਲਕੜੇ ਦੀ ਪਿਛਾਣ ਕਰ ਸਕਦੇ ਹਨ, ਨਿਗਰਾਨੀ ਨੂੰ ਰੋਦੇ ਸਕਦੇ ਹਨ, ਜਾਂ ਉੱਚ-ਪ੍ਰਭਾਵ ਵਾਲੇ ਦੁਰੁਪਯੋਗ ਸਭਾਵਾਂ ਨੂੰ ਸੰਭਵ ਬਣਾ ਸਕਦੇ ਹਨ।
ਵੱਡੇ ਮਾਡਲ ਆਮ ਤੌਰ 'ਤੇ ਸਿਰਫ਼ "ਚੰਗੇ" ਨਹੀਂ ਬਣਦੇ—ਉਹ ਨਵੀਆਂ ਕਾਬਲਿਤਾਵਾਂ ਹਾਸਲ ਕਰ ਸਕਦੇ ਹਨ (ਜਿਵੇਂ ਵਿਸ਼ਵਾਸਯੋਗ ਠੱਗੀ ਲਈ ਲਿਖਣਾ ਜਾਂ ਲਕੜੀਆਂ ਨੂੰ ਸੜੀ ਹੋਈ ਰੂਪ-ਰੇਖਾ ਤਿਆਰ ਕਰਨਾ). ਜਿਵੇਂ ਜ਼ਿਆਦਾ ਸਮਰੱਥਾ ਆਉਂਦੀ ਹੈ, ਨਿਰਭਰਤਾ ਵਾਲੀਆਂ ਘਟਨਾਵਾਂ ਦਾ ਪ੍ਰਭਾਵ ਵੱਧ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਛੋਟੀਆਂ ਖਾਮੀਆਂ ਗੰਭੀਰ ਨੁਕਸਾਨ ਲਈ ਰਾਹ ਬਣ ਸਕਦੀਆਂ ਹਨ।
ਕਲਪਨਾ ਕਰੋ ਕਿ ਇੱਕ ਗਾਹਕ-ਸਹਾਇਤਾ ਬੋਟ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਇੱਕ ਰਿਫੰਡ ਨੀਤੀ ਨੂੰ ਘੜ ਲੈਂਦਾ ਹੈ ਅਤੇ ਯੂਜ਼ਰਾਂ ਨੂੰ ਵੇਰੀਫਿਕੇਸ਼ਨ ਬਾਇਪਾਸ ਕਰਨ ਦੇ ਤਰੀਕੇ ਦੱਸਦਾ ਹੈ। ਭਲੇ ਇਹ ਸਿਰਫ਼ 1% ਵਾਰ ਗਲਤ ਹੋਵੇ, ਪਰ ਉੱਚ ਵੋਲਿਊਮ 'ਤੇ ਇਸ ਦਾ ਅਰਥ ਸਹੀ ਹੋ ਸਕਦਾ ਹੈ: ਹਜ਼ਾਰਾਂ ਧੋਖਾਧੜੀ ਭਰਮਾਣਾ, ਨੁਕਸਾਨ ਵਾਲੀ ਰਿਵੈਨਿਊ, ਅਤੇ ਵਿਸ਼ਵਾਸ ਘਟਣਾ — ਜਿਸ ਨਾਲ ਇੱਕ ਰਿਲਾਇਬਿਲਿਟੀ ਮੁੱਦਾ ਸੁਰੱਖਿਆ ਅਤੇ ਦੁਰੁਪਯੋਗ ਸਮੱਸਿਆ ਬਣ ਜਾਂਦਾ ਹੈ।
ਫਰੰਟੀਅਰ ਏਆਈ ਵਿਕਾਸ (ਉਹ ਜੋ ਡੇਰੀਓ ਅਮੋਦੇਈ ਵਰਗੇ ਨੇਤਾਵਾਂ ਅਤੇ Anthropic ਜਿਹੇ ਕੰਪਨੀਆਂ ਨਾਲ ਜੁੜਿਆ ਹੁੰਦਾ ਹੈ) ਇੱਕ ਸਰਲ ਟਕਰਾਅ ਦਾ ਸਾਹਮਣਾ ਕਰਦਾ ਹੈ: ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਵਧਦੇ ਹਨ, ਉਨ੍ਹਾਂ ਨਾਲ ਨਾਲ ਖਤਰੇ ਵੀ ਵਧ ਸਕਦੇ ਹਨ।
ਵੱਧ ਸਮਰੱਥਾ ਅਕਸਰ ਮਤਲਬ ਹੁੰਦਾ ਹੈ ਕਿ ਸਿਸਟਮ ਹੋਰ ਮਨਮੋਹਕ ਟੈਕਸਟ ਲਿਖ ਸਕਦਾ ਹੈ, ਕਈ ਕਦਮਾਂ ਵਾਲੀ ਯੋਜਨਾ ਬਣਾ ਸਕਦਾ ਹੈ, ਟੂਲਾਂ ਨੂੰ ਅਚੀ ਤਰ੍ਹਾਂ ਵਰਤ ਸਕਦਾ ਹੈ, ਅਤੇ ਉਪਭੋਗਤਾ ਦੀ ਨੀਅਤ ਦੇ ਅਨੁਸਾਰ ਅਨੁਕੂਲ ਹੋ ਸਕਦਾ ਹੈ। ਇਹੀ ਤਾਕਤਾਂ ਫੇਲ੍ਹਾਂ ਨੂੰ ਪ੍ਰਬਲ ਕਰਦੀਆਂ ਹਨ—ਹਾਨਿਕਾਰਕ ਨਿਰਦੇਸ਼ ਬਣਾਉਣਾ ਆਸਾਨ ਹੋਣਾ, ਧੋਖੇਬਾਜ਼ੀ ਵਰਗੀ ਵਿਹਾਰ ਲਈ ਰਸਤੇ ਖੁਲਣਾ, ਜਾਂ "ਸਮਥਿਤ ਗਲਤ" ਨਤੀਆਂ ਦਾ ਉਤਪੱਤੀ ਜੋ ਭਰੋਸੇਯੋਗ ਲੱਗਦੀਆਂ ਹਨ।
ਪ੍ਰੇਰਣਾ ਅਸਲੀ ਹੁੰਦੀਆਂ ਹਨ: ਵਧੀਆ ਬੈਂਚਮਾਰਕ, ਹੋਰ ਫੀਚਰ ਅਤੇ ਤੇਜ਼ ਰਿਲੀਜ਼ ਧਿਆਨ ਅਤੇ ਰੈਵਿਨਿਊ ਲਿਆਉਂਦੇ ਹਨ। ਸੁਰੱਖਿਆ ਦਾ ਕੰਮ, ਇਸਦੇ ਉਲਟ, ਦੇਰੀ ਜਾਪਦਾ ਹੈ — ਮੁਲਾਂਕਣ ਚਲਾਉਣਾ, ਰੈਡ-ਟੀਮਿੰਗ, ਉਤਪਾਦ ਪ੍ਰਵਾਹਾਂ ਵਿੱਚ ਰੋਕ ਟਕਾਉਣਾ, ਜਾਂ ਸਮੱਸਿਆ ਸਮਝਣ ਤੱਕ ਲਾਂਚ ਰੋਕਣਾ।
ਇਸ ਨਾਲ ਇੱਕ ਪੇਸ਼ਗੀ ਟਕਰਾਅ ਬਣਦਾ ਹੈ: ਜੇ ਜੋ ਅੰਗਠਾ ਪਹਿਲਾਂ भेजਦਾ ਹੈ ਉਹ ਮਾਰਕੀਟ ਜਿੱਤ ਸਕਦਾ ਹੈ, ਜਦਕਿ ਜੋ ਸਭ ਤੋਂ ਸੁਰੱਖਿਅਤ ਭੇਜੇ ਉਹ ਛੇਤੀ ਨਹੀਂ ਮਹਿਸੂਸ ਹੋ ਸਕਦਾ।
ਤਰੱਕੀ ਨੂੰ ਫ੍ਰੇਮ ਕਰਨ ਦਾ ਇੱਕ ਉਪਯੋਗੀ ਢੰਗ ਇਹ ਨਹੀਂ ਕਿ "ਪੂਰੀ ਤਰ੍ਹਾਂ ਸੁਰੱਖਿਅਤ" ਹੋਵੇ, ਬਲਕਿ ਇਹ ਕਿ "ਜਿਵੇਂ ਸਮਰੱਥਾ ਵਧਦੀ ਹੈ, ਉਵੇਂ ਮਾਪਯੋਗ ਤੌਰ 'ਤੇ ਸੁਰੱਖਿਆ ਸੁਧਾਰ ਹੋਵੇ"। ਇਸਦਾ ਮਤਲਬ ਹੈ ਲਕੜੀਆਂ ਦੀ ਨਿਗਰਾਨੀ: ਜਿਵੇਂ ਕਿ ਮਾਡਲ ਨੂੰ ਸੀਮਿਤ ਨਿਰਦੇਸ਼ ਦੇਣ ਲਈ ਕਿੰਨੀ ਵਾਰ ਪ੍ਰੇਰਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਇਹ ਕਿੰਨੀ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਅਸੁਰੱਖਿਅਤ ਬੇਨਤੀ ਰੱਦ ਕਰਦਾ ਹੈ, ਜਾਂ ਵਿਵਾਦੀ ਪ੍ਰੰਪਟਿੰਗ ਹੇਠਾਂ ਇਹ ਕਿਵੇਂ ਵਹਾਵਾ ਕਰਦਾ ਹੈ—ਅਤੇ ਰਿਲੀਜ਼ ਜਾਂ ਆਟੋਨੋਮੀ ਵਧਾਉਣ ਤੋਂ ਪਹਿਲਾਂ ਸੁਧਾਰ ਲਾਜ਼ਮੀ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ।
ਸੁਰੱਖਿਆ ਮੁਫਤ ਨਹੀਂ। ਮਜ਼ਬੂਤ ਸੁਰੱਖਿਆ ਉਤਪਾਦਕਤਾ ਘਟਾ ਸਕਦੀ ਹੈ (ਵੱਧ ਇਨਕਾਰ), ਖੁਲ੍ਹਾਪਨ ਕੰਮ ਘਟਾ ਸਕਦੀ ਹੈ (ਮਾਡਲ ਵੇਰਵੇ ਜਾਂ ਵਜ਼ਨ ਘੱਟ ਸਾਂਝੇ), ਰਿਲੀਜ਼ ਸਲੋ ਕਰ ਸਕਦੀ ਹੈ (ਵਧੇਰੇ ਟੈਸਟਿੰਗ ਅਤੇ ਗੇਟਿੰਗ), ਅਤੇ ਲਾਗਤ ਵਧਾ ਸਕਦੀ ਹੈ (ਵਧੇਰੇ ਮੁਲਾਂਕਣ, ਮਾਨੀਟਰਿੰਗ, ਅਤੇ ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ)। ਮੁੱਖ ਚੁਣੌਤੀ ਇਹ ਨਿਰਧਾਰਿਤ ਕਰਨੀ ਹੈ ਕਿ ਕਿਹੜੇ ਵਪਾਰ-ਆਧਾਰ ਮਨਜ਼ੂਰਯੋਗ ਹਨ—ਅਤੇ ਇਹ ਫੈਸਲੇ ਇੱਛੇ ਰਹਿਣ ਦੀ ਥਾਂ ਤੇ ਸਪਸ਼ਟ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ, ਨਾ ਕਿ ਅਕਸ্মਾਤ।
ਫਰੰਟੀਅਰ ਏਆਈ ਮਾਡਲ ਲਾਈਨ-ਬਾਈ-ਲਾਈਨ "ਪ੍ਰੋਗਰਾਮ" ਕੀਤੇ ਨਹੀਂ ਜਾਂਦੇ। ਉਹ ਵੱਖ-ਵੱਖ ਸਟੇਜਾਂ ਦੀ ਇੱਕ ਪਾਈਪਲਾਈਨ ਰਾਹੀਂ ਬਣਦੇ ਹਨ—ਹਰ ਸਟੇਜ ਮਾਡਲ ਜੋ ਸਿੱਖਦਾ ਹੈ ਉਸ ਨੂੰ ਅਕਾਰ ਦੇਂਦਾ ਹੈ, ਅਤੇ ਹਰ ਸਟੇਜ ਵੱਖ-ਵੱਖ ਕਿਸਮ ਦੇ ਖਤਰੇ ਲਿਆਉਂਦੀ ਹੈ।
ਟਰੇਨਿੰਗ ਨੂੰ ਇੱਕ ਵਿਦਿਆਰਥੀ ਨੂੰ ਇੱਕ ਵਿਸ਼ਾਲ ਪੁਸਤਕਾਲੇ ਨਾਲ ਭੇਜਣਾ ਸਮਝੋ ਅਤੇ ਕਹਿਣਾ ਕਿ ਉਹ ਭਾਸ਼ਾ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਆਪਣਾਣ ਲਈ ਬਹੁਤ ਕੁਝ ਪੜ੍ਹੇ। ਮਾਡਲ ਲਾਗਤਵਿੱਚ ਲਹਿਰਾਂ ਅਤੇ ਥੋੜੀ-ਬਹੁਤ ਗਲਤ ਜਾਣਕਾਰੀ, ਪੱਖਪਾਤ ਅਤੇ ਅਸੁਰੱਖਿਆ ਨਿਰਦੇਸ਼ ਵੀ ਅੰਦਰ ਲੈ ਲੈਂਦਾ ਹੈ।
ਇੱਥੇ ਖਤਰਾ ਇਸ ਲਈ ਆਉਂਦਾ ਹੈ ਕਿਉਂਕਿ ਤੁਸੀਂ ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਨੁਮਾਨ ਨਹੀਂ ਲਗਾ ਸਕਦੇ ਕਿ ਮਾਡਲ ਕਿਹੜੇ ਨਮੂਨੇ ਅੰਦਰ ਲੈ ਲੇਗਾ। ਡੇਟਾ ਨੂੰ ਧਿਆਨ ਨਾਲ ਚੁਣਿਆ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਵੱਡੇ ਪੱਧਰ ਕਾਰਨ ਅਚਾਨਕ ਵਿਹਾਰ ਲਿਸ਼ਕਾ ਸਕਦੇ ਹਨ।
ਫਾਈਨ-ਟਿਊਨਿੰਗ ਕੋਚਿੰਗ ਦੇ ਨੇੜੇ ਹੈ। ਤੁਸੀਂ ਚੰਗੇ ਜਵਾਬਾਂ, ਸੁਰੱਖਿਅਤ ਇਨਕਾਰਾਂ ਅਤੇ ਮਦਦਗਾਰ ਟੋਨ ਦੇ ਉਦਾਹਰਨ ਦਿਖਾਉਂਦੇ ਹੋ। ਇਸ ਨਾਲ ਮਾਡਲ ਨੂੰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਵਰਤਯੋਗ ਬਣਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਪਰ ਇਸ ਨਾਲ blind spots ਵੀ ਬਣ ਸਕਦੇ ਹਨ: ਮਾਡਲ "ਸੁਰੱਖਿਅਤ ਲੱਗਣਾ" ਸਿੱਖ ਸਕਦਾ ਹੈ ਜਦਕਿ ਕਈ ਐਜ ਕੇਸਾਂ ਵਿੱਚ ਫਿਰ ਵੀ ਅਣਛੁਹੇ ਰਸਤੇ ਲੱਭ ਸਕਦਾ ਹੈ।
ਜਿਵੇਂ ਮਾਡਲ ਵੱਡੇ ਹੁੰਦੇ ਹਨ, ਨਵੀਆਂ ਯੋਗਤਾਵਾਂ ਅਚਾਨਕ ਸਾਹਮਣੇ ਆ ਸਕਦੀਆਂ ਹਨ—ਜਿਵੇਂ ਇੱਕ ਹਵਾਈ ਜਹਾਜ਼ ਡਿਜ਼ਾਈਨ ਜੋ ਵਿੰਡ ਟਨਲ ਚੰਗਾ ਲੱਗਦਾ ਸੀ ਪਰ ਪੂਰੇ ਗਤੀ 'ਤੇ ਵੱਖਰਾ ਵਰਤਾਉਂਦਾ ਹੈ। ਇਹ ਉਪਜੀਵੀ ਵਿਹਾਰ ਹਮੇਸ਼ਾ ਬੁਰੇ ਨਹੀਂ ਹੁੰਦੇ, ਪਰ ਉਹ ਅਣਉਮੀਦਤ ਹੁੰਦੇ ਹਨ, ਜੋ ਕਿ ਸੁਰੱਖਿਆ ਲਈ ਮਾਇਨੀ ਹੈ।
ਕਿਉਂਕਿ ਖਤਰੇ ਕਈ ਸਟੇਜਾਂ 'ਤੇ ਉੱਠਦੇ ਹਨ, ਸੁਰੱਖਿਅਤ ਫਰੰਟੀਅਰ ਏਆਈ ਲਈ ਲੇਅਰਡ ਜ਼ਿੰਦਗੀ ਜ਼ਰੂਰੀ ਹੈ: ਸਾਵਧਾਨ ਡੇਟਾ ਚੋਣਾਂ, ਐਲਾਈਨਮੈਂਟ ਫਾਈਨ-ਟਿਊਨਿੰਗ, ਪ੍ਰੀ-ਡਿਪਲੋਇਮੈਂਟ ਟੈਸਟਿੰਗ, ਰਿਲੀਜ਼ ਬਾਅਦ ਮਾਨੀਟਰਿੰਗ, ਅਤੇ ਸਪਸ਼ਟ ਰੋਕ/ਜਾਓ ਫੈਸਲੇ. ਇਹ ਹਵਾਈ ਯਾਤਰਾ ਦੀ ਸੁਰੱਖਿਆ ਵਾਂਗ—ਡਿਜ਼ਾਈਨ, ਸਿਮੂਲੇਸ਼ਨ, ਟੇਸਟ ਫਲਾਈਟ, ਚੈਕਲਿਸਟ, ਇਨਸਿਡੈਂਟ ਸਮੀਖਿਆ—ਇੱਕ ਵਾਰੀ ਦੀ "ਸੁਰੱਖਿਆ ਸਟੈਂਪ" ਨਹੀਂ।
ਇੱਕ ਸੇਫਟੀ ਫਰੇਮਵਰਕ ਸੰਗਠਨ ਲਈ ਲਿਖਿਆ ਹੋਇਆ, end-to-end ਯੋਜਨਾ ਹੁੰਦੀ ਹੈ ਕਿ ਕਿਵੇਂ ਫੈਸਲਾ ਕੀਤਾ ਜਾਵੇ ਕਿ ਕੋਈ AI ਮਾਡਲ ਹੋਰ ਟਰੇਨ ਕਰਨ, ਰਿਲੀਜ਼ ਕਰਨ ਜਾਂ ਉਤਪਾਦਾਂ ਵਿੱਚ ਇਕੱਠਾ ਕਰਨ ਯੋਗ ਹੈ ਜਾਂ ਨਹੀਂ। ਮੁੱਖ ਗੱਲ ਇਹ ਹੈ ਕਿ ਇਹ ਅਕ੍ਸ਼ਿਕ ਹੋਵੇ: "ਅਸੀਂ ਸੁਰੱਖਿਆ ਨੂੰ ਗੰਭੀਰਤਾ ਨਾਲ ਲੈਂਦੇ ਹਾਂ" ਕਹਿਣ ਦੀ ਥਾਂ, ਇਹ ਨਿਯਮਾਂ, ਮਾਪਦੰਡ ਅਤੇ ਫੈਸਲੇਕਾਰੀ ਅਧਿਕਾਰ ਦਾ ਇੱਕ ਸੈੱਟ ਹੋਵੇ ਜੋ ਆਡਿਟ ਅਤੇ ਦੁਹਰਾਇਆ ਜਾ ਸਕੇ।
ਕਿਸੇ ਭਰੋਸੇਯੋਗ ਸੇਫਟੀ ਫਰੇਮਵਰਕ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਕਈ ਹਿੱਸੇ ਹੁੰਦੇ ਹਨ:
"ਸਪਸ਼ਟ ਡਿਪਲੋਇਮੈਂਟ ਗੇਟ" ਉਹ ਗੋ/ਨੋ-ਗੋ ਚੈੱਕਪੌਇੰਟ ਹਨ ਜੋ ਮਾਪਯੋਗ ਥ੍ਰੈਸ਼ਹੋਲਡ ਨਾਲ ਜੁੜੇ ਹੁੰਦੇ ਹਨ। ਉਦਾਹਰਨ ਵਜੋਂ: "ਜੇ ਮਾਡਲ misuse ਮੁਲਾਂਕਣ 'ਤੇ X ਸਮਰੱਥਾ ਤੋਂ ਉੱਪਰ ਹੋ ਜਾਂਦਾ ਹੈ, ਅਸੀਂ ਪਹੁੰਚ ਨੂੰ ਸਿਰਫ਼ ਵੈਟਡ ਯੂਜ਼ਰਾਂ ਤੱਕ ਸੀਮਿਤ ਕਰਾਂਗੇ," ਜਾਂ "ਜੇ ਕਿਸੇ ਸੁਰੱਖਿਆ-ਨਿੱਚਲੇ ਡੋਮੇਨ ਵਿੱਚ ਹੇਲੂਸੀਨੇਸ਼ਨ ਰੇਟ Y ਤੋਂ ਉੱਪਰ ਹੋਵੇ, ਅਸੀਂ ਉਸ ਉਪਯੋਗ ਨੂੰ ਰੋਕ ਦੇਵਾਂਗੇ।" ਥ੍ਰੈਸ਼ਹੋਲਡ ਅਸਪਸ਼ਟਤਾ ਘਟਾਉਂਦੇ ਹਨ, ਦਬਾਅ ਹੇਠਾਂ ਐਡ-ਹੌਕ ਫੈਸਲਿਆਂ ਨੂੰ ਰੋਕਦੇ ਹਨ, ਅਤੇ ਕਿਸੇ ਮਾਡਲ ਨੂੰ ਸਿਰਫ਼ ਇਸ ਕਰਕੇ ਛੱਡਣ ਤੋਂ ਮੁਸ਼ਕਿਲ ਬਣਾਉਂਦੇ ਹਨ ਕਿ ਉਹ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ।
ਪਾਠਕਾਂ ਨੂੰ ਇੱਕ ਏਆਈ ਪ੍ਰਦਾਤਾ ਦਾ ਅੰਕਲਨ ਕਰਦਿਆਂ ਇਹ ਚੀਜ਼ਾਂ ਦੇਖਣੀ ਚਾਹੀਦੀ ਹੈ: ਪ੍ਰਕਾਸ਼ਤ ਮੁਲਾਂਕਣ ਸ਼੍ਰੇਣੀਆਂ, ਨਿਰਧਾਰਿਤ ਫੈਸਲੇਕਾਰੀ ਵਿਅਕਤੀਆਂ, ਦਸਤাবੰਧੀ ਗੇਟਿੰਗ ਮਾਪਦੰਡ (ਕੇਵਲ ਵਾਅਦੇ ਨਹੀਂ), ਰਿਲੀਜ਼ ਬਾਅਦ ਲਗਾਤਾਰ ਮਾਨੀਟਰਿੰਗ ਦੇ ਸਬੂਤ, ਅਤੇ ਜ਼ਰੂਰਤ ਪੈਣ 'ਤੇ ਟੈਸਟ ਫੇਲ ਹੋਣ 'ਤੇ ਕੀ ਹੁੰਦਾ ਹੈ (ਡੇਲੈ, ਸੀਮਿਤ, ਜਾਂ ਰਦ)।
ਰੇਡ-ਟੀਮਿੰਗ ਇੱਕ ਸੰਰਚਿਤ ਯਤਨ ਹੈ ਜੋ ਮਨੋਂ ਮਕਸਦਨ ਏਆਈ ਸਿਸਟਮ ਨੂੰ "ਤੋੜਨ" ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੀ ਹੈ—ਜਿਵੇਂ ਕਿ ਦੋਸਤਾਨਾ ਵਿਰੋਧੀ ਨੌਕਰੀ 'ਤੇ ਰੱਖਣਾ ਤਾਂ ਕਿ ਕਮਜ਼ੋਰੀਆਂ ਨੂੰ ਉਹਨਾਂ ਦੀਆਂ ਪੀਛਾਣ ਤੋਂ ਪਹਿਲਾਂ ਖੋਜਿਆ ਜਾ ਸਕੇ। ਸਵਾਲ "ਕੀ ਇਹ ਕੰਮ ਕਰਦਾ ਹੈ?" ਦੀ ਥਾਂ, ਰੈਡ-ਟੀਮ ਪੁੱਛਦੀ ਹੈ, "ਇਸ ਨੂੰ ਕਿਵੇਂ ਫੇਲ੍ਹ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਅਤੇ ਇਹ ਕਿੰਨਾ ਬੁਰਾ ਹੋ ਸਕਦਾ ਹੈ?"
ਸਟੈਂਡਰਡ QA ਆਮ ਰਾਹਾਂ ਦੀ ਜਾਂਚ ਕਰਦੀ ਹੈ: ਆਮ ਪ੍ਰੰਪਟ, ਸਧਾਰਨ ਗਾਹਕ ਯਾਤਰਾ, ਅਤੇ ਅਨੁਮਾਨਿਤ ਐਜ-ਕੇਸ. ਵਿਰੋਧੀ ਟੈਸਟਿੰਗ ਵੱਖਰੀ ਹੈ: ਇਹ ਜ਼ੋਰ-ਜ਼ੋਰ ਨਾਲ ਅਜਿਹੇ ਪ੍ਰੰਪਟਾਂ ਦੀ ਖੋਜ ਕਰਦੀ ਹੈ ਜੋ ਮਾਡਲ ਦੇ ਨਮੂਨਿਆਂ ਦਾ ਫਾਇਦਾ ਉਠਾਉਂਦੇ ਹਨ।
ਫਰੰਟੀਅਰ ਮਾਡਲ ਡੈਮੋ ਵਿੱਚ ਵਧੀਆ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ ਪਰ ਦਬਾਅ ਹੇਠਾਂ ਫੇਲ੍ਹ ਹੋ ਸਕਦੇ ਹਨ—ਜਦੋਂ ਪ੍ਰੰਪਟ ਅਸਪਸ਼ਟ, ਭਾਵੁਕ, ਬਹੁ-ਕਦਮੀ, ਜਾਂ ਸਿਸਟਮ ਦੇ ਨਿਯਮਾਂ ਨੂੰ ਧੋਖਾ ਦੇਣ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।
Misuse ਟੈਸਟਿੰਗ ਇਹ ਦੇਖਦੀ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਹਾਨਿਕਾਰਕ ਲਕੜੀਆਂ ਲਈ ਕਿਵੇਂ ਮਨਾ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ—ਸਕੈਮ, ਸਵੈ-ਹਾਨੀ ਉਤਸ਼ਾਹ, ਪ੍ਰਾਈਵੇਸੀ-ਰੀਕैਲ, ਜਾਂ ਗ਼ਲਤ ਕਾਰਜਾਂ ਲਈ ਰਿਕਨਸਿਲੀਏਟ ਕਰਨ ਵਾਲਾ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼। ਰੈਡ-ਟੀਮ ਜੈਲਬ੍ਰੇਕ, ਰੋਲਪਲੇ, ਅਨੁਵਾਦ ਚਾਲਾਂ ਅਤੇ "ਨਿਰਦੋਸ਼ ਫਰੇਮਿੰਗ" ਜਿਹੇ ਤਰੀਕੇ ਅਜ਼ਮਾਉਂਦੀ ਹੈ ਜੋ ਖਤਰਨਾਕ ਨੀਅਤ ਨੂੰ ਛੁਪਾਉਂਦੇ ਹਨ।
Unintended behavior ਟੈਸਟਿੰਗ ਉਹ ਫੇਲ੍ਹਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੀ ਹੈ ਜਦ ਯੂਜ਼ਰ ਦੀ ਨੀਅਤ ਸਦੈਵ ਭਲਕੇ ਹੋਵੇ: ਹੈਲੂਸੀਨੇਟ ਤੱਥ, ਅਸੁਰੱਖਿਅਤ ਮੈਡੀਕਲ ਜਾਂ ਕਾਨੂੰਨੀ ਸਲਾਹ, ਅਤਿਆਤਮਕ ਜਵਾਬ, ਜਾਂ ਪਿਛਲੇ ਵਾਤਾਵਰਣ ਤੋਂ ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਦਾ ਪਰਦਾਫਾਸ਼।
ਵਧੀਆ ਰੈਡ-ਟੀਮਿੰਗ ਨਾਲ ਨਤੀਜੇ ਸਪਸ਼ਟ ਤਬਦੀਲੀਆਂ ਉੱਤੇ ਖਤਮ ਹੁੰਦੇ ਹਨ। ਨਤੀਜੇ ਚੱਲ ਸਕਦੇ ਹਨ:
ਲਕਸ਼ ਇਹ ਨਹੀਂ ਕਿ ਪੂਰਨਤਾ ਮਿਲੇ—ਇਸਦਾ ਟੀਚਾ ਇਹ ਹੈ ਕਿ "ਅਕਸਰ ਕੰਮ ਕਰਦਾ ਹੈ" ਤੋਂ "ਜਦ ਇਹ ਫੇਲ੍ਹ ਕਰੇ ਤਾਂ ਸੁਰੱਖਿਅਤ ਤਰੀਕੇ ਨਾਲ ਫੇਲ੍ਹ ਕਰੇ" ਤੱਕ ਦਾ ਫਾਸਲਾ ਘਟਾਇਆ ਜਾਵੇ।
ਮਾਡਲ ਮੁਲਾਂਕਣ ਢਾਂਚਾਬੱਧ ਟੈਸਟ ਹਨ ਜੋ ਇਕ ਸਧਾਰਨ ਸਵਾਲ ਪੁੱਛਦੇ ਹਨ: ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਹੋਰ ਸਮਰੱਥ ਹੁੰਦਾ ਹੈ, ਕਿਹੜੇ ਨਵੇਂ ਨੁਕਸਾਨ ਸੰਭਵ ਬਣਦੇ ਹਨ—ਅਤੇ ਸੁਰੱਖਿਆ ਉਪਾਇਆ ਕਿੰਨੇ brittle ਹਨ?
ਫਰੰਟੀਅਰ ਸਿਸਟਮ ਬਣਾਉਣ ਵਾਲੀ ਟੀਮਾਂ ਲਈ, ਮੁਲਾਂਕਣ ਇਹ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ "ਸੁਰੱਖਿਆ" ਸਿਰਫ ਇਕ ਮਹਿਸੂਸ ਨਹੀਂ, ਬਲਕਿ ਤੁਹਾਨੂੰ ਮੋਨੀਟਰ ਕਰਨ, ਟ੍ਰੈਂਡ ਕਰਨ ਅਤੇ ਰਿਲੀਜ਼ ਗੇਟਾਂ 'ਤੇ ਫੈਸਲੇ ਕਰਨ ਯੋਗ ਬਣਾਉਂਦੇ ਹਨ।
ਇਕ-ਵਾਰ ਦੀ ਡੈਮੋ ਇਵਾਲ ਨਹੀਂ ਹੁੰਦੀ। ਇੱਕ ਉਪਯੋਗੀ ਇਵਾਲ repeatable ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ: ਇੱਕੋ ਪ੍ਰੰਪਟ ਸੈਟ, ਇੱਕੋ ਸਕੋਰਿੰਗ ਨਿਯਮ, ਇੱਕੋ ਮਾਹੌਲ ਅਤੇ ਸਪਸ਼ਟ ਵਰਜ਼ਨਿੰਗ (ਮਾਡਲ, ਟੂਲ, ਸੇਫਟੀ ਸੈਟਿੰਗ)। ਦੋਹਰਾਏ ਜਾਣ ਯੋਗ ਹੋਣ ਨਾਲ ਤੁਸੀਂ ਟਰੇਨਿੰਗ ਰਨ ਅਤੇ ਡਿਪਲੋਇਮੈਂਟ ਦੇ ਪਾਰ ਨਤੀਜਿਆਂ ਦੀ ਤੁਲਨਾ ਕਰ ਸਕਦੇ ਹੋ, ਅਤੇ ਜਦ ਕੋਈ ਮਾਡਲ ਅੱਪਡੇਟ ਚੁਪਚਾਪ ਵਿਹਾਰ ਬਦਲਦਾ ਹੈ ਤਾਂ ਰਿਗ੍ਰੈਸ਼ਨ ਸਪਸ਼ਟ ਹੋ ਜਾਂਦੇ ਹਨ।
ਵਧੀਆ ਇਵਾਲ ਸੂਟ ਕਈ ਕਿਸਮ ਦੇ ਖਤਰਿਆਂ ਨੂੰ ਕਵਰ ਕਰਦੇ ਹਨ, ਜਿਵੇਂ:
ਬੈਂਚਮਾਰਕਜ਼ ਵਰਤੋਂਯੋਗ ਹਨ ਕਿਉਂਕਿ ਉਹ ਸਟੈਂਡਰਡ ਅਤੇ ਤੁਲਨাযোগਯ ਹੁੰਦੇ ਹਨ, ਪਰ ਉਹ "ਟੈਸਟ ਦੇ ਲਈ ਪਢਾਏ" ਜਾ ਸਕਦੇ ਹਨ। ਅਸਲੀ ਦੁਨੀਆ ਟੈਸਟ (ਅਦਵਰਸਰੀਅਲ ਅਤੇ ਟੂਲ-ਅਗਮੈਂਟਡ ਸੀਨਾਰਿਓਜ਼ ਸਮੇਤ) ਉਹ ਮੁੱਦੇ ਲੱਭਦੇ ਹਨ ਜੋ ਬੈਂਚਮਾਰਕਸ ਨਹੀਂ ਦਿਖਾਉਂਦੇ—ਜਿਵੇਂ ਪ੍ਰੰਪਟ ਇੰਜੈਕਸ਼ਨ, ਬਹੁ-ਬਾਰਤਾਲੀ ਪ੍ਰੇਰਣਾ, ਜਾਂ ਫੇਲ੍ਹ ਜੋ ਸਿਰਫ਼ ਬ੍ਰਾਊਜ਼ਿੰਗ, ਕੋਡ ਐਕਸੀਕਿਊਸ਼ਨ ਜਾਂ ਬਾਹਰੀ ਟੂਲਸ ਦੀ ਐਕਸੈੱਸ ਦੇ ਸਮੇਂ ਵੇਖਣ ਨੂੰ ਮਿਲਦੇ ਹਨ।
ਇਵਾਲ ਨਤੀਜੇ ਇੰਨੇ ਪਾਰਦਰਸ਼ੀ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ ਕਿ ਭਰੋਸਾ ਬਣੇ—ਕੇੜੇ ਟੈਸਟ ਕੀਤੇ, ਕਿਵੇਂ ਸਕੋਰ ਕੀਤਾ ਗਿਆ, ਸਮੇਂ ਦੇ ਨਾਲ ਕੀ ਬਦਲਿਆ—ਬਿਨਾਂ ਐਸੇ ਵੇਰਵੇ ਜਾਰੀ ਕੀਤੇ ਜੋ ਸਿੱਧਾ ਦੁਰੁਪਯੋਗ ਲਈ ਨੁਸਖੇ ਪ੍ਰਦਾਨ ਕਰਨ। ਇੱਕ ਚੰਗਾ ਰਾਹ ਇਹ ਹੈ ਕਿ ਮੈਥਡੋਲੋਜੀ, ਸਰਵਸੰਖੇਪ ਮੈਟ੍ਰਿਕਸ, ਅਤੇ ਸੈਨਿਟਾਈਜ਼ਡ ਉਦਾਹਰਨ ਸਾਂਝਾ ਕਰੋ, ਜਦਕਿ ਸੰਵੇਦਨਸ਼ੀਲ ਪ੍ਰੰਪਟਾਂ, ਬਾਈਪਾਸ ਤਕਨੀਕਾਂ, ਅਤੇ ਵਿਸਥਾਰਿਤ ਫੇਲ੍ਹ ਟਰੇਸਾਂ ਨੂੰ ਨਿਯੰਤਰਿਤ ਚੈਨਲਾਂ ਵਿੱਚ ਰੱਖੋ।
"Constitutional" ਅਪ੍ਰੋਚ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਇੱਕ ਲਿਖਤੀ ਨੀਤੀਆਂ ਦਾ ਸੈੱਟ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ—ਉਸਦੀ "ਸੰਵਿਧਾਨ"—ਜਿਸ ਨੂੰ ਉਹ ਜਵਾਬ ਦਿੰਦੇ ਸਮੇਂ ਜਾਂ ਇਨਕਾਰ ਕਰਨ ਵੇਲੇ ਮਨ ਵਿੱਚ ਰੱਖਦਾ ਹੈ। ਹਜ਼ਾਰਾਂ ਅਨੁਸ਼ਾਸਤਕ ਨਿਯਮਾਂ ਤੇ ਨਿਰਭਰ ਕਰਨ ਦੀ ਥਾਂ, ਮਾਡਲ ਇੱਕ ਛੋਟੇ, ਸਪਸ਼ਟ ਨਿਯਮ-ਕਿਤਾਬ ਦੁਆਰਾ ਮਾਰਗਦਰਸ਼ਿਤ ਹੁੰਦਾ ਹੈ (ਉਦਾਹਰਨ ਲਈ: ਗਲਤ ਕੰਮ ਦੀ ਮਦਦ ਨਾ ਕਰੋ, ਪ੍ਰਾਈਵੇਸੀ ਦਾ ਸਤਿਕਾਰ ਕਰੋ, ਅਣਸ਼ੱਕਤਾ 'ਤੇ ਇਮਾਨਦਾਰ ਰਹੋ, ਅਤੇ ਨੁਕਸਾਨ ਪੈਦਾ ਕਰਨ ਵਾਲੇ ਨਿਰਦੇਸ਼ਾਂ ਨੂੰ ਜਾਣ ਤੋਂ ਰੋਕੋ).
ਟੀਮ ਸਾਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ ਸਿਧਾਂਤ ਲਿਖ ਕੇ ਸ਼ੁਰੂ ਕਰਦੀਆਂ ਹਨ। ਫਿਰ ਮਾਡਲ ਨੂੰ ਅਕਸਰ ਫੀਡਬੈਕ ਲੂਪਾਂ ਰਾਹੀਂ ਉਹਨਾਂ ਸਿਧਾਂਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਟਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਜਦੋਂ ਮਾਡਲ ਜਵਾਬ ਬਣਾਉਂਦਾ ਹੈ, ਇਸਨੂੰ ਆਪਣੀ ਡਰਾਫਟ ਦੀ ਆਤਮ-ਸਮੀਖਿਆ ਕਰਨ ਅਤੇ ਸੁਧਾਰਨ ਲਈ ਸਿਖਾਇਆ ਜਾ ਸਕਦਾ ਹੈ।
ਮੁੱਖ ਵਿਚਾਰ ਇਹ ਹੈ ਕਿ ਨੀਤੀਆਂ ਪੜ੍ਹਨ ਯੋਗ ਹੋਣ, ਮਨੁੱਖ ਇਸਤੇ 'ਤੇ ਚਰਚਾ ਕਰ ਸਕਣ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਅਪਡੇਟ ਕਰ ਸਕਣ। ਇਸ ਨਾਲ ਸੇਫਟੀ ਸਿਸਟਮ ਦੀ "ਇਰਾਦੇ" ਵਧੇਰੇ ਪਾਰਦਰਸ਼ੀ ਬਣਦੀ ਹੈ, ਇੱਕ ਸਾਰੇ ਸਿੱਖੇ ਹੋਏ ਵਿਹਾਰ ਦੇ ਮੁਕਾਬਲੇ ਵਿੱਚ।
ਲਿਖੀ ਗਈ ਸੰਵਿਧਾਨ ਸੇਫਟੀ ਕੰਮ ਨੂੰ ਜ਼ਿਆਦਾ ਆਡੀਟ ਕਰਨਯੋਗ ਬਣਾ ਸਕਦੀ ਹੈ। ਜੇ ਮਾਡਲ ਕਿਸੇ ਪ੍ਰਸ਼ਨ ਦਾ ਇਨਕਾਰ ਕਰਦਾ ਹੈ, ਤੁਸੀਂ ਪੁੱਛ ਸਕਦੇ ਹੋ: ਕਿਸ ਸਿਧਾਂਤ ਨੇ ਇਨਕਾਰ ਨੂੰ ਟ੍ਰਿਗਰ ਕੀਤਾ, ਅਤੇ ਕੀ ਉਹ ਤੁਹਾਡੇ ਨੀਤੀ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ?
ਇਹ ਇੱਕਸਾਰਤਾ ਵੀ ਸੁਧਾਰ ਸਕਦਾ ਹੈ। ਜਦ ਸਿਧਾਂਤ ਸਥਿਰ ਹੁੰਦੇ ਹਨ ਅਤੇ ਟਰੇਨਿੰਗ ਉਹਨਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਦੀ ਹੈ, ਤਾਂ ਮਾਡਲ ਇੱਕ ਵਿਚਾਰ-ਵਾਰਤਾਂ ਵਿੱਚ ਬਹੁਤ permissive ਤੋਂ ਇੱਕ ਹੋਰ ਸੰਵਾਦ ਵਿੱਚ ਬਹੁਤ ਸਖ਼ਤ ਹੋਣ ਤੋਂ ਕੱਟਦਾ ਹੈ। ਉਤਪਾਦਾਂ ਲਈ ਇਹ ਇੱਕਸਾਰਤਾ ਮਹੱਤਵਪੂਰਨ ਹੈ—ਉਪਭੋਗਤਾ ਉਹ ਦੇਖ ਸਕਦੇ ਹਨ ਕਿ ਸਿਸਟਮ ਕੀ ਕਰੇਗਾ ਅਤੇ ਕੀ ਨਹੀਂ।
ਸਿਧਾਂਤ ਟਕਰਾਅ ਕਰ ਸਕਦੇ ਹਨ। "ਮਦਦਗਾਰ ਹੋਵੋ" ਅਤੇ "ਨੁਕਸਾਨ ਰੋਕੋ" ਇੱਕ ਦੂਜੇ ਨਾਲ ਟਕਰਾਉਂਦੇ ਹਨ, ਅਤੇ "ਉਪਭੋਗਤਾ ਦੀ ਨੀਅਤ ਦਾ ਸਤਿਕਾਰ" "ਪ੍ਰਾਈਵੇਸੀ ਦੀ ਰੱਖਿਆ" ਨਾਲ ਵਿਰੋਧ ਕਰ ਸਕਦਾ ਹੈ। ਅਸਲ ਗੱਲ-ਬਾਤ ਗੁੰਝਲਦਾਰ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਅਸਪਸ਼ਟ ਸਥਿਤੀਆਂ ਓਹੀ ਹਨ ਜਿੱਥੇ ਮਾਡਲ ਆਮ ਤੌਰ 'ਤੇ improvisation ਕਰਦੇ ਹਨ।
ਇੱਕ ਹੋਰ ਸਮੱਸਿਆ ਪ੍ਰੰਪਟ ਹਮਲੇ ਹਨ: ਚਤੁਰ ਪ੍ਰੰਪਟ ਮਾਡਲ ਨੂੰ ਸੰਵਿਧਾਨ ਨੂੰ ਦੋਹਰਾਉਣ, ਨਜ਼ਰ ਅੰਦਾਜ਼ ਕਰਨ ਜਾਂ ਰੋਲਪਲੇ ਕਰਕੇ ਬਾਈਪਾਸ ਕਰਨ ਲਈ ਦਬਾਉਂਦੇ ਹਨ। ਇੱਕ ਸੰਵਿਧਾਨ ਇੱਕ ਮਾਰਗਦਰਸ਼ਨ ਹੈ, ਗਾਰੰਟੀ ਨਹੀਂ—ਖ਼ਾਸ ਕਰਕੇ ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਸਮਰੱਥ ਹੋ ਰਿਹਾ ਹੈ।
Constitutional alignment ਨੂੰ ਇੱਕ ਵੱਡੇ ਸੁਰੱਖਿਆ ਸਟੈਕ ਵਿੱਚ ਇੱਕ ਪਰਤ ਵਜੋਂ ਹੀ ਸਮਝਣਾ ਚਾਹੀਦਾ ਹੈ। ਇਹ ਉਹਨਾਂ ਤਕਨੀਕਾਂ ਨਾਲ ਕੁਸ਼ਲਤਾਪੂਰਵਕ ਜੋੜਦਾ ਹੈ ਜੋ ਇਸ ਲੇਖ ਵਿੱਚ ਦੱਸੀਆਂ ਗਈਆਂ ਹਨ—ਜਿਵੇਂ ਰੈਡ-ਟੀਮਿੰਗ ਅਤੇ ਮਾਡਲ ਇਵਾਲ—ਕਿਉਂਕਿ ਤੁਸੀਂ ਜਾਂਚ ਸਕਦੇ ਹੋ ਕਿ ਕੀ ਸੰवਿਧਾਨ ਅਸਲ ਵਿੱਚ ਜ਼ਿਆਦਾ ਸੁਰੱਖਿਅਤ ਵਿਹਾਰ ਪੈਦਾ ਕਰ ਰਿਹਾ ਹੈ, ਅਤੇ ਜਦ ਨਹੀਂ ਕਰ ਰਿਹਾ ਤਾਂ ਅਨੁਕੂਲਤਾਂ ਕਰ ਸਕਦੇ ਹੋ।
ਫਰੰਟੀਅਰ-ਮਾਡਲ ਸੁਰੱਖਿਆ ਸਿਰਫ਼ ਰਿਸਰਚ ਮਸਲਾ ਨਹੀਂ—ਇਹ ਉਤਪਾਦ ਇੰਜੀਨੀਅਰਿੰਗ ਮਸਲਾ ਵੀ ਹੈ। ਇੱਥੇ ਵੀ, ਚੰਗੇ-ਐਲਾਇੰਡ ਮਾਡਲ ਨੂੰ ਵੀ ਦੁਰੁਪਯੋਗ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਐਜ ਕੇਸਾਂ ਵਿੱਚ ਧੱਕਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਜਾਂ ਟੂਲਸ ਨਾਲ ਮਿਲਾ ਕੇ ਐਸੇ ਤਰੀਕੇ ਬਣ ਸਕਦੇ ਹਨ ਜੋ ਖਤਰੇ ਵਧਾਉਂਦੇ ਹਨ। ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ाली ਟੀਮ ਸੁਰੱਖਿਆ ਨੂੰ ਐਸੇ ਪ੍ਰਯੋਗਿਕ ਕੰਟਰੋਲਾਂ ਵਜੋਂ ਦੇਖਦੀਆਂ ਹਨ ਜੋ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹਨ ਕਿ ਮਾਡਲ ਕੀ ਕਰ ਸਕਦਾ ਹੈ, ਕੌਣ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਕਿੰਨੀ ਤੇਜ਼ੀ ਨਾਲ।
ਕੁਝ ਕੰਟਰੋਲ ਬਾਰ-ਬਾਰ ਉੱਥੇ ਹੁੰਦੇ ਹਨ ਕਿਉਂਕਿ ਉਹ ਨੁਕਸਾਨ ਨੂੰ ਘਟਾਉਂਦੇ ਹਨ ਬਿਨਾਂ ਮਾਡਲ ਦੇ ਸੰਪੂਰਨ ਵਰਤਾਰ ਨੂੰ ਲਿਆਏ ਬਦਲਣ ਦੇ।
Rate limits ਅਤੇ throttling ਇਸ ਗੱਲ ਨੂੰ ਸੀਮਿਤ ਕਰਦੇ ਹਨ ਕਿ ਕੋਈ ਕਿੰਨੀ ਤੇਜ਼ੀ ਨਾਲ ਫੇਲ੍ਹ ਪੜਚੋਲ ਕਰ ਸਕਦਾ ਹੈ, ਅਬਿਊਜ਼ ਆਟੋਮੇਸ਼ਨ ਕਰ ਸਕਦਾ ਹੈ, ਜਾਂ ਉੱਚ-ਵੋਲਿਊਮ ਹਾਨਿਕਾਰਕ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ। ਚੰਗੀਆਂ ਲਾਗੂਆਂ ਵੱਖ-ਵੱਖ ਰਿਸਕ ਵਾਲੇ ਐਂਡਪੌਇਂਟਾਂ ਲਈ ਵੱਖ-ਵੱਖ ਹੱਦਾਂ ਰੱਖਦੀਆਂ ਹਨ (ਜਿਵੇਂ tool use, ਲੰਬਾ-ccontext, ਜਾਂ high-permission ਫੀਚਰ), ਅਤੇ ਜਦ વર્તਨ ਸ਼ੱਕੀ ਦਿੱਸਦਾ ਹੈ ਤਾਂ ਅਡਾਪਟਿਵ ਲਿਮਿਟਸ ਕਸਤੀ ਹਨ।
Content filters ਅਤੇ policy enforcement ਦੂਜੀ ਰੱਖਵਾਲੀ ਲਾਈਨ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹਨ। ਇਹ ਪ੍ਰੰਪਟਾਂ 'ਤੇ ਪ੍ਰੀ-ਚੈੱਕ, ਆਉਟਪੁੱਟ 'ਤੇ ਪੋਸਟ-ਚੈੱਕ, ਅਤੇ ਖਾਸ ਸ਼੍ਰੇਣੀਆਂ ਲਈ ਡਿਟੈਕਟਰ ਸ਼ਾਮਲ ਹੋ ਸਕਦੇ ਹਨ—ਜਿਵੇਂ self-harm, ਨਾਬਾਲਗਾਂ ਨਾਲ ਸੰਬੰਧਤ ਯੌਨੀਕ ਸਮੱਗਰੀ, ਜਾਂ ਗਲਤ ਨਿਰਦੇਸ਼। ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਉਨ੍ਹਾਂ ਨੂੰ high-risk ਸ਼੍ਰੇਣੀਆਂ ਲਈ fail-closed ਤਰੀਕੇ ਨਾਲ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਜਾਵੇ ਅਤੇ false positives ਨੰੂ ਮਾਪਿਆ ਜਾਵੇ ਤਾਂ ਕਿ ਕਾਨੂੰਨੀ ਵਰਤੋਂ ਨੂੰ ਲਗਾਤਾਰ ਰੋਕਿਆ ਨਾ ਜਾਵੇ।
Tool permissions ਜਦ ਵੀ ਮਾਡਲ ਕਾਰਵਾਈ ਕਰ ਸਕਦਾ ਹੈ (ਈਮੇਲ ਭੇਜਣਾ, ਕੋਡ ਚਲਾਉਣਾ, ਫਾਇਲਾਂ ਤੱਕ ਪਹੁੰਚ, APIs ਨੂੰ ਕਾਲ ਕਰਨਾ) ਤਾਂ ਮਹੱਤਵਪੂਰਨ ਹਨ। ਸੁਰੱਖਿਅਤ ਉਤਪਾਦ ਟੂਲਜ਼ ਨੂੰ ਪ੍ਰਿਵਿਲੇਜ ਵਾਂਗ ਮੰਨਦੇ ਹਨ: ਮਾਡਲ ਨੂੰ ਸਿਰਫ਼ ਕਾਰਜ ਲਈ ਘੱਟੋ-ਘੱਟ ਵੇਰਵਾ ਦਿੱਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ, ਸਾਫ਼ ਸੀਮਾਵਾਂ ਦੇ ਨਾਲ (ਆਗਿਆਤ ਡੋਮੇਨ, ਖ਼ਰਚ ਹੱਦਾਂ, ਸੀਮਿਤ ਕਮਾਂਡਾਂ, ਪੜ੍ਹਨ-ਕੇਵਲ ਮੋਡ)।
ਹਰ ਯੂਜ਼ਰ ਜਾਂ ਹਰੇਕ ਉਪਯੋਗ ਲਈ ਇਕੋ ਸਮਰੱਥਾ ਨਹੀਂ ਮਿਲਣੀ ਚਾਹੀਦੀ। ਅਮਲੀ ਕਦਮ:
ਇਹ ਖਾਸ ਕਰਕੇ ਉਹਨਾਂ ਫੀਚਰਾਂ ਲਈ ਜ਼ਰੂਰੀ ਹੈ ਜੋ ਲੈਵਰੇਜ ਵਧਾਉਂਦੇ ਹਨ: ਸੁਤੰਤਰ ਟੂਲ ਵਰਤੋਂ, ਬਲਕ ਜਨਰੇਸ਼ਨ, ਜਾਂ ਗਾਹਕ ਵਰਕਫ਼ਲੋਜ਼ ਨਾਲ ਇੰਟਿਗ੍ਰੇਸ਼ਨ।
ਸੁਰੱਖਿਆ ਕੰਟਰੋਲਾਂ ਲਈ ਫੀਡਬੈਕ ਲਾਜ਼ਮੀ ਹੁੰਦੀ ਹੈ। ਲੌਗ ਰੱਖੋ ਜੋ ਜਾਂਚਾਂ ਦਾ ਸਹਾਰਾ ਦੇ ਸਕਣ (ਪਰ ਪ੍ਰਾਈਵੇਸੀ ਦਾ ਆਦਰ ਕਰਦੇ ਹੋਏ), ਅਬਿਊਜ਼ ਪੈਟਰਨ ਲਈ ਮਾਨੀਟਰ ਕਰੋ (ਪ੍ਰੰਪਟ ਇੰਜੈਕਸ਼ਨ, ਮੁੜ ਮੁੜ policy ਹਿੱਟ, ਅਸਧਾਰਨ ਉਚਿਤ ਵੋਲਿਊਮ), ਅਤੇ ਇੱਕ ਸਾਫ਼ ਰਿਸਪਾਂਸ ਲੂਪ ਬਣਾਓ: detect, triage, mitigate, ਅਤੇ learn.
ਚੰਗੇ ਉਤਪਾਦ ਤੇਜ਼ੀ ਨਾਲ ਇਹ ਕਰ ਸਕਦੇ ਹਨ:
ਯੂਜ਼ਰ ਅਨੁਭਵ ਇੱਕ ਸੁਰੱਖਿਆ ਫੀਚਰ ਹੈ। ਸਪਸ਼ਟ ਚੇਤਾਵਨੀਆਂ, ਉੱਚ-ਪ੍ਰਭਾਵ ਵਾਲੇ ਕਦਮਾਂ ਲਈ "ਕੀ ਤੁਸੀਂ ਯਕੀਨ ਹੋ?" ਪੁਸ਼ਟੀਆਂ, ਅਤੇ ਸੁਰੱਖਿਆ ਵੱਲ ਰੁਝਾਣ ਵਾਲੇ ਡਿਫੌਲਟ ਅਣਜਾਣੇ ਨੁਕਸਾਨ ਨੂੰ ਘਟਾਉਂਦੇ ਹਨ।
ਸਧਾਰਨ ਡਿਜ਼ਾਈਨ ਚੋਣਾਂ—ਜਿਵੇਂ ਯੂਜ਼ਰ ਨੂੰ ਟੂਲ ਕਾਰਵਾਈਆਂ ਸਮੀਖਿਆ ਕਰਨ ਲਈ ਕਹਿਣਾ, ਹਵਾਲੇ ਅਤੇ ਅਣਸ਼ੱਕਤਾ ਦਰਸਾਉਣਾ—ਲੋਕਾਂ ਨੂੰ ਮਾਡਲ 'ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਭਰੋਸਾ ਕਰਨ ਤੋਂ ਰੋਕਦੀਆਂ ਹਨ ਅਤੇ ਗਲਤੀਆਂ ਨੂੰ ਜਲਦੀ ਫੜਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀਆਂ ਹਨ।
ਸੁਰੱਖਿਅਤ ਫਰੰਟੀਅਰ ਏਆਈ ਬਣਾਉਣਾ ਸਿਰਫ਼ ਮਾਡਲ-ਡਿਜ਼ਾਈਨ ਦਾ ਮਸਲਾ ਨਹੀਂ—ਇਹ ਆਪਰੇਸ਼ਨ ਦਾ ਮਸਲਾ ਵੀ ਹੈ। ਜਦ ਇੱਕ ਸਿਸਟਮ ਟਰੇਨ, ਇਵਾਲ ਅਤੇ ਰੀਲਿਜ਼ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਸੁਰੱਖਿਆ ਉਨ੍ਹਾਂ ਦੁਹਰਾਏ ਜਾਣ ਯੋਗ ਪ੍ਰਕਿਰਿਆਵਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਜੋ ਟੀਮਾਂ ਨੂੰ ਸਹੀ ਸਮੇਂ 'ਤੇ ਰੋਕੇ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ ਬਣਾਉਂਦੀਆਂ ਹਨ।
ਇਕ ਪ੍ਰਯੋਗਿਕ ਆਪਰੇਸ਼ਨਲ ਸੈਟਅੱਪ ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਅੰਦਰੂਨੀ ਸਮੀਖਿਆ ਤੰਤਰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ ਜੋ ਇੱਕ ਹਲਕਾ ਰੀਲਜ਼ ਬੋਰਡ ਵਾਂਗ ਕੰਮ ਕਰਦਾ ਹੈ। ਮਕਸਦ ਬਿਊਰੋਕਰੇਸੀ ਨਹੀਂ; ਇਹ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਹੈ ਕਿ ਉੱਚ-ਪ੍ਰਭਾਵ ਫੈਸਲੇ ਇਕਲੌਤੇ ਟੀਮ ਦੇ ਦਬਾਅ ਹੇਠ ਨਹੀਂ ਕੀਤੇ ਜਾਂ।
ਆਮ ਤੱਤਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
ਕਾਫ਼ੀ ਟੈਸਟਿੰਗ ਵੀ ਹਰ misuse ਪੈਟਰਨ ਜਾਂ ਉਭਰਦੇ ਵਿਹਾਰ ਨੂੰ ਨਹੀਂ ਫੜ ਸਕਦੀ। ਇਨਸਿਡੈਂਟ ਰਿਸਪਾਂਸ ਦਾ ਤੀਕਾ ਨੁਕਸਾਨ ਘਟਾਉਣਾ ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਸਿੱਖਣਾ ਹੈ। ਇੱਕ ਸੰਵੇਦਨਸ਼ੀਲ ਇਨਸਿਡੈਂਟ ਵਰਕਫਲੋ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ:
ਇਹ ਇੱਕ ਥਾਂ ਹੈ ਜਿੱਥੇ ਆਧੁਨਿਕ ਵਿਕਾਸ ਪਲੇਟਫਾਰਮ ਵਰਤੋਂ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ। ਉਦਾਹਰਨ ਵਜੋਂ, ਜੇ ਤੁਸੀਂ Koder.ai ਵਰਤ ਰਹੇ ਹੋ, ਤੋ snapshots ਅਤੇ rollback ਫੀਚਰ ਇਨਸਿਡੈਂਟ ਕੰਟੇਨਮੈਂਟ ਨਾਲ ਸਿੱਧਾ ਮੇਲ ਖਾਂਦੀਆਂ ਹਨ: ਤੁਸੀਂ ਜਾਣਿਆ-ਸਹੀ ਵਰਜ਼ਨ ਸੰਭਾਲ ਸਕਦੇ ਹੋ, ਮਿਟੀਗੇਸ਼ਨ ਸ਼ਿਪ ਕਰ ਸਕਦੇ ਹੋ, ਅਤੇ ਜੇ ਮਾਨੀਟਰਿੰਗ ਉੱਚ ਖਤਰੇ ਦਿਖਾਵੇ ਤਾਂ ਤੁਰੰਤ ਵਾਪਸ ਕਰ ਸਕਦੇ ਹੋ। ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਆਪਣੇ ਡਿਪਲੋਇਮੈਂਟ ਗੇਟਾਂ ਦਾ ਹਿੱਸਾ ਮੰਨੋ—ਕੇਵਲ ਇੱਕ ਸੁਵਿਧਾ ਨਹੀਂ।
ਤੀਜੀ-ਪੱਖੀ ਆਡੀਟਾਂ ਅਤੇ ਬਾਹਰੀ ਗ੍ਰੰਥੀਕਾਰਾਂ ਨਾਲ ਸਹਿਯੋਗ ਉੱਚ-ਪਦਵੀ ਡਿਪਲੋਇਮੈਂਟ ਲਈ ਇਕ ਹੋਰ ਆਸ਼ਵਾਸ ਹੈ। ਇਹ ਕੋਸ਼ਿਸ਼ਾਂ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕੇ ਨਾਲ ਕੰਮ ਕਰਦੀਆਂ ਹਨ ਜਦ ਉਹ ਸਕੋਪਡ ਹੁੰਦੀਆਂ ਹਨ (ਕੀ ਟੈਸਟ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ), ਦੁਹਰਾਏ ਜਾ ਸਕਣ (ਮੈਥਡ ਅਤੇ ਆਰਟੀਫੈਕਟ), ਅਤੇ ਕਾਰਗਰ ਹੋਣ (ਸੁੱਚੇ ਨਤੀਜੇ ਅਤੇ ਰਿਮੀਡੀਏਸ਼ਨ ਟਰੈਕਿੰਗ)।
ਫਰੰਟੀਅਰ ਏਆਈ ਸੁਰੱਖਿਆ ਇਕੋ ਲੈਬ ਦਾ ਹੀ ਮਸਲਾ ਨਹੀਂ। ਜਦ ਮਾਡਲ ਹਾਂਵੇਂਕੋਪੀ ਕੀਤੇ ਜਾ ਸਕਦੇ, ਫਾਈਨ-ਟਿਊਨ ਹੋ ਸਕਦੇ ਅਤੇ ਹਰ ਤਰ੍ਹਾਂ ਦੇ ਉਤਪਾਦਾਂ ਵਿੱਚ ਛਿਤਰਾਏ ਜਾ ਸਕਦੇ ਹਨ, ਤਾਂ ਖਤਰਾ ਇੱਕ ਕੋਆਰਡੀਨੇਸ਼ਨ ਦੀ ਸਮੱਸਿਆ ਬਣ ਜਾਂਦੀ ਹੈ: ਇਕ ਕੰਪਨੀ ਦੀ ਸੰਭਾਲੀ ਰਿਲੀਜ਼ ਨੀਤੀ ਦੂਜੇ ਐਕਟਰਾਂ (ਚਾਹੇ ਚੰਗੀ ਨੀਅਤ ਵਾਲੇ ਹੋਣ ਜਾਂ ਮਲਿਸੀਅੱਸ) ਨੂੰ ਘੱਟ-ਪੜਤਾਲ ਵਾਲੀ ਕਿਸਮ ਦਾ ਮਾਡਲ ਸ਼ਿਪ ਕਰਨ ਤੋਂ ਨਹੀਂ ਰੋਕਦੀ। ਡੇਰੀਓ ਅਮੋਦੇਈ ਦੇ ਸਾਰਜਨਿਕ ਦਲੀਲਾਂ ਅਕਸਰ ਇਸ ਡਾਇਨਾਮਿਕ ਨੂੰ ਰੋਸ਼ਨ ਕਰਦੀਆਂ ਹਨ: ਸੁਰੱਖਿਆ ਨੂੰ ਇੱਕ ਇਕੋ ਲੈਬ ਤੱਕ ਸੀਮਿਤ ਨਹੀਂ ਰੱਖਿਆ ਜਾ ਸਕਦਾ—ਇਹ ਇਕੋ ਇਕੋ ਇਕੋਸਿਸਟਮ 'ਤੇ ਪੈਣਾ ਚਾਹੀਦਾ ਹੈ।
ਜਿਵੇਂ ਸਮਰੱਥਾ ਵਧਦੀ ਹੈ, ਪ੍ਰੇਰਣਾਵਾਂ ਵੱਖ-ਵੱਖ ਹੋ ਜਾਂਦੀਆਂ ਹਨ। ਕੁਝ ਟੀਮ ਤੇਜ਼ੀ ਨੂੰ ਪਹਿਲ ਦਿੰਦੀਆਂ ਹਨ, ਕੁਝ ਸਾਵਧਾਨੀ ਨੂੰ, ਅਤੇ ਬਹੁਤ ਸਾਰੀਆਂ ਵਿਚਕਾਰ ਹਨ। ਸਾਂਝੇ ਉਮੀਦਾਂ ਦੇ ਬਿਨਾਂ, ਤੁਸੀਂ ਅਸਮਾਨ ਸੇਫਟੀ ਅਭਿਆਸ, ਅਸਮਾਨ ਖੁਲਾਸੇ, ਅਤੇ "ਰੇਸ ਕੰਡੀਸ਼ਨਜ਼" ਪ੍ਰਾਪਤ ਕਰਦੇ ਹੋ ਜਿੱਥੇ ਸਭ ਤੋਂ ਸੁਰੱਖਿਅਤ ਵਿਕਲਪ ਚੁਣਨਾ ਇੱਕ ਮੁਕਾਬਲਾਤੀ ਨੁਕਸਾਨ ਮਹਿਸੂਸ ਹੁੰਦਾ ਹੈ।
ਇੱਕ ਕਾਰਜਯੋਗ ਗਵਰਨੈਂਸ ਟੂਲਕਿੱਟ ਸਾਰਿਆਂ ਨੂੰ ਫਿਲਾਸਫੀ 'ਤੇ ਸਹਿਮਤ ਹੋਣ ਦੀ ਲੋੜ ਨਹੀਂ ਰੱਖਦਾ—ਕੇਵਲ ਮਿਣੀਮਮ ਅਭਿਆਸਾਂ 'ਤੇ ਸਹਿਮਤ ਹੋਣਾ ਕਾਫ਼ੀ ਹੈ:
ਖੁੱਲ੍ਹਾਪਨ ਜ਼ਿਆਦਾ ਜਵਾਬਦੇਹੀ ਅਤੇ ਰਿਸਰਚ ਨੂੰ ਸੁਧਾਰ ਸਕਦਾ ਹੈ, ਪਰ ਤਾਕਤਵਰ ਮਾਡਲਾਂ ਦੇ ਪੂਰੇ ਰਿਲੀਜ਼ ਨਾਲ ਦੁਰੁਪਯੋਗ ਦੀ ਲਾਗਤ ਵੀ ਘਟ ਸਕਦੀ ਹੈ। ਇੱਕ ਦਰਮਿਆਨੀ ਰਾਹ selective transparency ਹੈ: ਇਵਾਲ ਪ੍ਰੋਟੋਕੋਲ, ਸੇਫਟੀ ਰਿਸਰਚ, ਅਤੇ ਕੁੱਲ ਨਤੀਜੇ ਸਾਂਝੇ ਕਰੋ ਪਰ ਉਹ ਵੇਰਵੇ ਜੋ ਸਿੱਧੇ-ਤੌਰ 'ਤੇ ਦੁਰੁਪਯੋਗ ਨੂੰ ਆਸਾਨ ਬਣਾਉਂਦੇ ਹਨ ਉਨ੍ਹਾਂ ਨੂੰ ਸੀਮਿਤ ਰੱਖੋ।
ਇੱਕ ਅੰਦਰੂਨੀ AI ਨੀਤੀ ਗਾਈਡ ਬਣਾਓ ਜੋ ਪਰਿਭਾਸ਼ਾ ਕਰੇ ਕਿ ਕੌਣ ਮਾਡਲ ਡਿਪਲੋਇਮੈਂਟ ਮਨਜ਼ੂਰ ਕਰ ਸਕਦਾ ਹੈ, ਕਿਹੜੇ ਇਵਾਲ ਲਾਜ਼ਮੀ ਹਨ, ਇਨਸਿਡੈਂਟ ਕਿਵੇਂ ਹਲ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਅਤੇ ਕਦੋਂ ਫੀਚਰਾਂ ਨੂੰ ਰੋਕ/ਰੋਲਬੈਕ ਕਰਨਾ ਹੈ। ਇੱਕ ਸ਼ੁਰੂਆਤੀ ਨੁਕਤਾ ਹੋਣ ਲਈ, ਇੱਕ ਇੱਕ-ਪੰਨਾ deployment gate checklist ਡRAFT ਕਰੋ ਅਤੇ ਉਸਨੂੰ ਆਪਣੇ ਟੀਮ ਹੈਂਡਬੁੱਕ ਨਾਲ ਲਿੰਕ ਕਰੋ (ਉਦਾਹਰਨ ਲਈ /security/ai-policy).
Dario Amodei Anthropic ਦਾ CEO ਹਨ ਅਤੇ ਬਹੁਤ ਕਾਬਲ("ਫਰੰਟੀਅਰ") ਏਆਈ ਸਿਸਟਮਾਂ ਦੀ ਵਿਕਾਸ-ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਸੁਰੱਖਿਆ ਅਮਲ ਰੱਖਣ ਲਈ ਜਨਤਕ ਤੌਰ 'ਤੇ ਅੱਗੇ ਆਉਣ ਵਾਲੇ ਲੀਡਰਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹਨ.
ਉਨ੍ਹਾਂ ਦੀ ਅਹਮੀਅਤ ਕਿਸੇ ਇੱਕ ਤਕਨੀਕ ਕਰਕੇ ਨਹੀਂ, ਬਲਕਿ ਇਸ ਗੱਲ 'ਤੇ ਜ਼ੋਰ ਦੇਣ ਕਰਕੇ ਹੈ ਕਿ:
"Frontier" ਉਹ ਸਭ ਤੋਂ ਅਧਿਕ ਸਮਰੱਥ ਵਾਲੇ ਮਾਡਲਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ — ਆਮ ਤੌਰ 'ਤੇ ਵੱਡੇ ਡੇਟਾ ਅਤੇ ਕਮਪਿਊਟ ਨਾਲ ਟਰੇਨ ਕੀਤੇ ਜਾਂਦੇ।
Frontier ਪੱਧਰ ਉੱਤੇ ਮਾਡਲ ਆਮ ਤੌਰ 'ਤੇ:
ਇਹ ਇੱਕ ਅਮਲੀ ਨਤੀਜਿਆਂ ਪੂਰਨ ਲਕੜੀ ਹੈ ਜੋ ਮਜ਼ਬੂਤ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ, ਤੈਨਾਤ ਅਤੇ ਅੱਪਡੇਟ ਕਰਨ ਸਮੇਂ ਨੁਕਸਾਨ ਘਟਾਉਣ ਉੱਤੇ ਧਿਆਨ ਦਿੰਦੀ ਹੈ.
ਅਮਲੀ ਰੂਪ ਵਿੱਚ, "ਸੁਰੱਖਿਅਤ" ਆਮ ਤੌਰ 'ਤੇ ਇਹਨਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਸੁਧਾਰ ਦਾ ਮਤਲਬ ਹੈ:
ਸਕੇਲਿੰਗ ਨਵੇਂ ਕਾਬਲਿਤਾ ਅਤੇ ਨਵੀਆਂ ਫੇਲ੍ਹ ਮੋਡਾਂ ਨੂੰ ਜਨਮ ਦੇ ਸਕਦੀ ਹੈ ਜੋ ਛੋਟੇ ਮਾਡਲਾਂ 'ਚ ਸਪਸ਼ਟ ਨਹੀਂ ਹੁੰਦੀਆਂ.
ਜਿਵੇਂ ਸਮਰੱਥਾ ਵਧਦੀ ਹੈ:
ਇੱਕ safety framework ਲਿਖਤੀ ਹੋਈ, end-to-end ਯੋਜਨਾ ਹੁੰਦੀ ਹੈ ਜੋ ਇਹ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਕੋਈ ਸੰਸਥਾ ਕਿਸ ਤਰ੍ਹਾਂ ਫੈਸਲਾ ਕਰਦੀ ਹੈ ਕਿ ਕੋਈ ਮਾਡਲ ਹੋਰ ਟਰੇਨ ਕਰਨ, ਰਿਲੀਜ਼ ਕਰਨ ਜਾਂ ਐਕਸੈੱਸ ਫੈਲਾਉਣ ਯੋਗ ਹੈ ਜਾਂ ਨਹੀਂ.
ਇੱਕ ਭਰੋਸੇਯੋਗ ਫਰੇਮਵਰਕ ਆਮ ਤੌਰ 'ਤੇ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ:
Deployment gates ਉਹ ਸਪਸ਼ਟ go/no-go ਚੈੱਕਪੌਇੰਟ ਹੁੰਦੇ ਹਨ ਜੋ ਮਾਪੇ ਜਾ ਸਕਣ ਵਾਲੇ ਥ੍ਰੈਸ਼ਹੋਲਡ ਨਾਲ ਜੁੜੇ ਹੁੰਦੇ ਹਨ.
ਗੇਟ ਦੇ ਉਦਾਹਰਨ:
ਇਹਨਾਂ ਨਾਲ ਲਾਂਚ ਦਬਾਅ ਹੇਠਾਂ ਐਡ-ਹੌਕ ਫੈਸਲਿਆਂ ਦੀ ਸੰਭਾਵਨਾ ਘਟਦੀ ਹੈ।
ਰੇਡ-ਟੀਮਿੰਗ ਇਕ ਸੰਗਠਿਤ ਕੋਸ਼ਿਸ਼ ਹੈ ਸਿਸਟਮ ਨੂੰ जानਚਣ ਦੀ — ਦੋਸਤਾਨਾ ਵਿਰੋਧੀਆਂ ਨੂੰ ਰੱਖ ਕੇ ਕਮਜ਼ੋਰੀਆਂ ਲੱਭਣ ਲਈ, ਤਾਂ ਜੋ ਵਾਸਤਵਿਕ ਯੂਜ਼ਰ ਜਾਂ ਖਰਾਬ ਏਕਟਰਾਂ ਪਹਿਲਾਂ ਨਾ ਲੱਭ ਸਕਣ।
ਰੇਡ-ਟੀਮਿੰਗ ਆਮ QA ਤੋਂ ਵੱਖਰੀ ਕਿਉਂ ਹੈ:
ਅਚੀ ਰੈਡ-ਟੀਮਿੰਗ ਦੇ ਨਤੀਜੇ ਸਪਸ਼ਟ ਫਿਕਸਾਂ ਵੱਲ ਲੈ ਜਾਂਦੇ ਹਨ: ਟਰੇਨਿੰਗ ਅੱਪਡੇਟ, ਨੀਤੀ/ਫਿਲਟਰ ਸੁਧਾਰ, UX ਬਦਲਾਅ, ਜਾਂ ਐਕਸੈੱਸ ਸੀਮਤ ਕਰਨਾ।
Model evaluations ਢਾਂਚਾਬੱਧ ਟੈਸਟ ਹੁੰਦੇ ਹਨ ਜੋ ਇਹ ਪੁੱਛਦੇ ਹਨ: ਜਿਵੇਂ ਜਿਵੇਂ ਮਾਡਲ ਸਮਰੱਥ ਬਣਦਾ ਹੈ, ਕਿਹੜੇ ਨਵੇਂ ਨੁਕਸਾਨ ਸੰਭਵ ਬਣਦੇ ਹਨ—ਅਤੇ ਸੁਰੱਖਿਆ ਉਪਾਇਆ ਕਿੰਨੇ ਭਰੋਸੇਯੋਗ ਹਨ?
ਇੱਕ ਵਧੀਆ ਇਵਾਲ ਤੁਹਾਡੇ ਸੁਰੱਖਿਆ ਕੰਮ ਨੂੰ ਮੈਟਰਿਕਸ ਤੇ ਬੇਠਾ ਦਿੰਦੀ ਹੈ ਅਤੇ ਰਿਲੀਜ਼ ਗੇਟਾਂ ਲਈ ਆਧਾਰ ਬਣਦੀ ਹੈ।
ਵਧੀਆ ਇਵਾਲز ਦੀਆਂ ਖਾਸੀਅਤਾਂ:
ਟ੍ਰਾਂਸਪਰੈਂਸੀ ਲਾਜ਼ਮੀ ਹੈ, ਪਰ ਐਕਸਪਲੋਇਟ ਰੀਸੈਪੀਜ਼ ਨੂੰ ਪ੍ਰਕਾਸ਼ਿਤ ਨਾ ਕਰਨਾ ਚਾਹੀਦਾ — ਸਾਂਝਾ ਕਰੋ methodology, aggregate metrics, sanitized examples.
ਸੰਵਿਧਾਨਕ (Constitutional) ਪਹੁੰਚ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਇੱਕ ਲਿਖਤੀ ਨੀਤੀਆਂ ਦੇ ਸੈੱਟ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਟਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ — ਉਸ ਦੀ "ਸੰਵਿਧਾਨ". ਇਸ ਰਾਹੀਂ ਮਾਡਲ ਜਵਾਬ ਦੇਣ ਜਾਂ ਇਨਕਾਰ ਕਰਨ ਵੇਲੇ ਸਪਸ਼ਟ ਨਿਯਮਾਂ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦਾ ਹੈ.
ਕਿਸੇ ਟੀਮ ਨੇ ਆਮ ਤੌਰ 'ਤੇ ਸਿਧਾਂਤ ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ ਲਿਖਦੇ ਹਨ ਅਤੇ ਫਿਰ ਮਾਡਲ ਨੂੰ ਫੀਡਬੈਕ ਲੂਪਾਂ ਰਾਹੀਂ ਉਹਨਾਂ ਨਾਲ ਸਬੰਧਤ ਜਵਾਬ ਪਸੰਦ ਕਰਨ ਲਈ ਸਿਖਾਇਆ ਜਾਂਦਾ ਹੈ। ਮਾਡਲ ਆਪਣਾ ਡਰਾਫਟ ਆਖਣ ਥਾਂ ਤੇ ਉਸਨੂੰ ਸੰਵਿਧਾਨ ਦੇ ਖਿਲਾਫ ਆਤਮ-ਸਮੀਖਿਆ ਤੇ ਸੁਧਾਰ ਵੀ ਕਰ ਸਕਦਾ ਹੈ।
ਫਾਇਦੇ:
ਹਦਾਂ:
ਫਰੰਟੀਅਰ-ਮਾਡਲ ਸੁਰੱਖਿਆ ਸਿਰਫ਼ ਰਿਸਰਚ ਦਾ ਮਸਲਾ ਨਹੀਂ — ਇਹ ਉਤਪਾਦ ਇੰਜੀਨੀਅਰਿੰਗ ਦਾ ਮਸਲਾ ਵੀ ਹੈ. ਚੰਗੇ ਨੀਤੀਆਂ ਵਾਲਾ ਮਾਡਲ ਵੀ ਗਲਤ ਵਰਤੋਂ, ਐਜ ਕੇਸਾਂ ਜਾਂ ਟੂਲਸ ਨਾਲ ਮਿਲ ਕੇ ਖਤਰਾ ਬਣ ਸਕਦਾ ਹੈ.
ਕੁਝ ਕਾਰਗਰ ਉਤਪਾਦ-ਸਤਰ ਦੇ ਕੰਟਰੋਲ:
ਲਾਗਇਨ/ਮੋਨੀਟਰਿੰਗ, ਟੀਅਰਡ ਐਕਸੈੱਸ, ਅਤੇ UX ਚੋਣਾਂ (ਚੇਤਾਵਨੀ, "ਕੀ ਤੁਸੀਂ ਯਕੀਨ ਹੋ?" ਕਾਨਫਰਮੇਸ਼ਨ) ਵੀ ਹੱਲ ਦੇ ਹਿੱਸੇ ਹਨ।
ਸੁਰੱਖਿਅਤ ਫਰੰਟੀਅਰ ਏਆਈ ਬਣਾਉਣਾ ਸਿਰਫ਼ ਮਾਡਲ ਡਿਜ਼ਾਈਨ ਦਾ ਮਸਲਾ ਨਹੀਂ; ਇਹ ਆਪਰੇਸ਼ਨਲ ਪ੍ਰਕਿਰਿਆਵਾਂ ਦਾ ਮਸਲਾ ਵੀ ਹੈ.
ਅੰਤਰਰਾਸ਼ਟਰੀ ਤੌਰ 'ਤੇ ਆਮ ਤਰੀਕੇ:
ਉਦਾਹਰਨ ਦੇ ਤੌਰ 'ਤੇ, ਜੇ ਤੁਸੀਂ ਵਰਤ ਕੇ AI-ਚਲਿਤ ਉਤਪਾਦ ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ snapshots ਅਤੇ rollback ਦੀ ਸਮਰੱਥਾ ਇਨਸਿਡੈਂਟ ਸੰਭਾਲ ਵਿਚ ਮਦਦ ਕਰਦੀ ਹੈ: ਇੱਕ ਜਾਣਿਆ-ਵਧੀਆ ਵਰਜ਼ਨ ਸੰਭਾਲੋ, ਰੀਮਿਟੀਗੇਸ਼ਨ ਤੁਰੰਤ ਸ਼ਿਪ ਕਰੋ, ਅਤੇ ਜੇ ਲੋੜ ਹੋਵੇ ਤਾਂ ਤੁਰੰਤ ਵਾਪਸ ਜਾਓ।
ਫਰੰਟੀਅਰ ਏਆਈ ਸੁਰੱਖਿਆ ਇਕੋ ਲੈਬ ਦਾ ਹੀ ਮਸਲਾ ਨਹੀਂ — ਜਦੋਂ ਮਾਡਲ ਨਕਲ ਕੀਤੇ ਜਾਂ ਸਕਦੇ ਹਨ, ਫਾਈਨ-ਟਿਊਨ ਹੋ ਸਕਦੇ ਹਨ ਅਤੇ ਵੱਖ-ਵੱਖ ਉਤਪਾਦਾਂ ਵਿੱਚ ਤੈਨਾਤ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ, ਤਦ ਖਤਰਾ ਕੋਆਰਡੀਨੇਸ਼ਨ ਦਾ ਮਸਲਾ ਬਣ ਜਾਂਦਾ ਹੈ.
ਕਿਉਂ ਇਹ ਮੁਸ਼ਕਲ ਹੈ:
ਪ੍ਰਾਇਕਟੀਕਲ ਗਵਰਨੈਂਸ ਟੂਲਜ਼:
ਜੇ ਤੁਹਾਡੀ ਟੀਮ API ਰਾਹੀਂ ਤਾਕਤਵਰ ਮਾਡਲ ਵਰਤ ਰਹੀ ਹੈ, ਤਾਂ ਤੁਹਾਡੇ ਉਤਪਾਦ ਦੇ ਫੈਸਲੇ (ਪ੍ਰੰਪਟ, ਟੂਲ, UI, permisions, ਮੋਨੀਟਰਿੰਗ) ਵਾਸਤਵਿਕ ਦੁਨੀਆ ਦੇ ਖਤਰੇ ਵਧਾ ਜਾਂ ਘਟਾ ਸਕਦੇ ਹਨ.
ਇਹ ਬਿਲਕੁਲ ਨਹੀਂ ਹੈ ਕਿ ਸਿਰਫ ਫਰੰਟੀਅਰ ਲੈਬਾਂ ਨੂੰ ਹੀ ਚਿੰਤਾ ਹੋਵੇ — ਛੋਟੇ ਟੀਮਾਂ ਲਈ ਵੀ ਇਹ ਜ਼ਰੂਰੀ ਹੈ.
ਪ੍ਰਯੋਗਿਕ ਨਤੀਜੇ:
ਹਫਤੇ ਦੀ ਲਿਟੇਰੇਟ ਚੈਕਲਿਸਟ:
ਆਪਣੇ AI ਵੈਂਡਰਾਂ ਨੂੰ ਪੁੱਛਣ ਲਈ ਕੁਝ ਮੂਲਭੂਤ ਸਵਾਲ (ਅਤੇ ਆਪਣੇ-ਆਪ ਨੂੰ ਉੱਤਰ ਦੇਣ ਲਈ):
ਇਹਨਾਂ ਨੂੰ ਇੱਕ ਵਾਰੀ ਦੀ ਕਾਗਜ਼ੀ ਕਾਰਵਾਈ ਨਾ ਸਮਝੋ; ਇਹ ਹੁੰਦੇ ਰਹਿਣ ਵਾਲੇ ਮੰਗ-ਪੱਤਰ ਹਨ। ਜੋ ਟੀਮ ਮਾਪ ਅਤੇ ਕੰਟਰੋਲ ਤੇ ਇਤਰਾਫ਼ ਲੱਗਾਤਾਰ ਕੰਮ ਕਰਦੀਆਂ ਹਨ ਵਹ ਤੇਜ਼ ਅਤੇ ਜ਼ਿਆਦਾ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਸ਼ਿਪ ਕਰਦੀਆਂ ਹਨ।
ਇਹ ਇਕ ਇਕੱਲੀ ਚਾਲ ਨਹੀੰ, ਬਲਕਿ ਸੁਰੱਖਿਆ ਸਟੈਕ ਵਿੱਚ ਇੱਕ ਪਰਤ ਹੈ — ਰੈਡ-ਟੀਮਿੰਗ ਅਤੇ ਇਵਾਲ ਨਾਲ ਜੋੜ ਕੇ ਵਰਤੋਂ ਯੋਗ ਬਣਦੀ ਹੈ।
ਖੁੱਲ੍ਹਾ ਪਨ੍ਰ (openness) accountability ਵਧਾਉਂਦਾ ਹੈ ਪਰ ਸਾਰੇ ਵੇਰਵੇ ਜਾਰੀ ਕਰਨ ਨਾਲ ਦੁਰੁਪਯੋਗ ਆਸਾਨ ਹੋ ਸਕਦਾ ਹੈ; ਇਸ ਲਈ selective transparency ਇੱਕ ਸਥਿਰ ਰਾਸ্তা ਹੋ ਸਕਦਾ ਹੈ।
ਜੇ ਤੁਸੀਂ ਗਾਹਕ-ਸਾਮ੍ਹਨੇ ਫੀਚਰ ਬਣਾਉਂਦੇ ਹੋ ਤਾਂ ਆਪਣੀ ਪਹੁੰਚ ਦੀ ਇੱਕ ਛੋਟੀ ਜਨਤਕ ਨੋਟ ਲਿਖਣ 'ਤੇ ਵੀ ਵਿਚਾਰ ਕਰੋ (ਉਦਾਹਰਨ ਵਜੋਂ /blog post) ਅਤੇ ਯੋਜਨਾ ਬਣਾਓ ਕਿ ਵਰਤੋਂ ਅਤੇ ਕੀਮਤ ਨੂੰ ਜ਼ਿੰਮੇਵਾਰ ਤਰੀਕੇ ਨਾਲ ਕਿਵੇਂ ਵਧਾਇਆ ਜਾਵੇ (ਜਿਵੇਂ /pricing).