Question 1

ਡੇਰੀਓ ਅਮੋਦੇਈ ਕੌਣ ਹਨ, ਅਤੇ ਉਹ ਏਆਈ ਸੁਰੱਖਿਆ ਵਿਚਾਰਚਰਚਾਂ ਵਿੱਚ ਕਿਉਂ ਆਉਂਦੇ ਹਨ?

Accepted Answer

Dario Amodei Anthropic ਦਾ CEO ਹਨ ਅਤੇ ਬਹੁਤ ਕਾਬਲ("ਫਰੰਟੀਅਰ") ਏਆਈ ਸਿਸਟਮਾਂ ਦੀ ਵਿਕਾਸ-ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਸੁਰੱਖਿਆ ਅਮਲ ਰੱਖਣ ਲਈ ਜਨਤਕ ਤੌਰ 'ਤੇ ਅੱਗੇ ਆਉਣ ਵਾਲੇ ਲੀਡਰਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹਨ.

ਉਨ੍ਹਾਂ ਦੀ ਅਹਮੀਅਤ ਕਿਸੇ ਇੱਕ ਤਕਨੀਕ ਕਰਕੇ ਨਹੀਂ, ਬਲਕਿ ਇਸ ਗੱਲ 'ਤੇ ਜ਼ੋਰ ਦੇਣ ਕਰਕੇ ਹੈ ਕਿ:

explicit safety frameworks
measurable evaluations
ਸਾਫ਼ go/no-go ਰਿਲੀਜ਼ ਫੈਸਲੇ ("deployment gates")
ਇਹ ਵਿਚਾਰ ਕਿ ਸੁਰੱਖਿਆ ਦਾ ਕਾਰਜ ਮਾਡਲ ਦੀ ਸਮਰੱਥਾ ਨਾਲ ਮਿਲ ਕੇ ਵਧਨਾ ਚਾਹੀਦਾ ਹੈ

Question 2

ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ "ਫਰੰਟੀਅਰ ਸਕੇਲ" ਦਾ ਕੀ ਮਤਲਬ ਹੈ?

Accepted Answer

"Frontier" ਉਹ ਸਭ ਤੋਂ ਅਧਿਕ ਸਮਰੱਥ ਵਾਲੇ ਮਾਡਲਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ — ਆਮ ਤੌਰ 'ਤੇ ਵੱਡੇ ਡੇਟਾ ਅਤੇ ਕਮਪਿਊਟ ਨਾਲ ਟਰੇਨ ਕੀਤੇ ਜਾਂਦੇ।

Frontier ਪੱਧਰ ਉੱਤੇ ਮਾਡਲ ਆਮ ਤੌਰ 'ਤੇ:

ਬਹੁਤ ਸਾਰੀਆਂ ਡੋਮੇਨ ਵਿੱਚ ਜਨਰਲਾਈਜ਼ ਕਰਦੇ ਹਨ
ਜਦੋਂ ਉਤਪਾਦਾਂ ਵਿੱਚ ਜੋੜੇ ਜਾਂਦੇ ਹਨ ਤਾਂ ਵਧੇਰੇ ਅਸਰ ਪੈਦਾ ਕਰਦੇ ਹਨ
ਰੇਅਰ ਫੇਲ੍ਹਿਯਰ ਜਾਂ ਦੁਰੁਪਯੋਗ ਦੇ ਵੱਡੇ ਨੁਕਸਾਨ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ

Question 3

ਸਲੋਗਨਾਂ ਤੋਂ ਬਾਹਰ "ਸੁਰੱਖਿਅਤ ਏਆਈ ਸਿਸਟਮ" ਦਾ ਕੀ ਮਤਲਬ ਹੈ?

Accepted Answer

ਇਹ ਇੱਕ ਅਮਲੀ ਨਤੀਜਿਆਂ ਪੂਰਨ ਲਕੜੀ ਹੈ ਜੋ ਮਜ਼ਬੂਤ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ, ਤੈਨਾਤ ਅਤੇ ਅੱਪਡੇਟ ਕਰਨ ਸਮੇਂ ਨੁਕਸਾਨ ਘਟਾਉਣ ਉੱਤੇ ਧਿਆਨ ਦਿੰਦੀ ਹੈ.

ਅਮਲੀ ਰੂਪ ਵਿੱਚ, "ਸੁਰੱਖਿਅਤ" ਆਮ ਤੌਰ 'ਤੇ ਇਹਨਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਸੁਧਾਰ ਦਾ ਮਤਲਬ ਹੈ:

misuse resistance (ਧੋਖਾ, ਸਕੈਮ, ਹਾਨਿਕਾਰਕ ਨਿਰਦੇਸ਼ ਲਈ ਵਰਤਣਾ ਮੁਸ਼ਕਲ)
reliability (ਨਾਜ਼ੁਕ ਖੇਤਰਾਂ ਵਿੱਚ ਘੱਟ ਗਲਤ ਜਵਾਬ)
(ਆਪਰੇਟਰ ਸੀਮਾ ਤੈਅ ਅਤੇ ਹਸਤਖੇਪ ਰੱਖ ਸਕਣ)

Question 4

ਸਮਰੱਥਾ ਵਧਾਉਣ ਨਾਲ ਖਤਰੇ ਵਧਣ ਦਾ ਕੀ ਕਾਰਨ ਹੈ?

Accepted Answer

ਸਕੇਲਿੰਗ ਨਵੇਂ ਕਾਬਲਿਤਾ ਅਤੇ ਨਵੀਆਂ ਫੇਲ੍ਹ ਮੋਡਾਂ ਨੂੰ ਜਨਮ ਦੇ ਸਕਦੀ ਹੈ ਜੋ ਛੋਟੇ ਮਾਡਲਾਂ 'ਚ ਸਪਸ਼ਟ ਨਹੀਂ ਹੁੰਦੀਆਂ.

ਜਿਵੇਂ ਸਮਰੱਥਾ ਵਧਦੀ ਹੈ:

ਹਾਨਿਕਾਰਕ ਆਉਟਪੁੱਟ ਹੋਰ ਮਨਮੋਹਕ ਅਤੇ ਕਾਰਗਰ ਹੋ ਸਕਦੇ ਹਨ
ਛੋਟੇ ਕਮੀਬੋ ਦੇ ਰਸਤੇ ਬੜੇ ਤੌਰ 'ਤੇ ਸ਼ੋਤੇਬਾਜ਼ੀ ਲਈ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ
ਘੱਟ ਗਲਤੀ ਦਰ ਦਾ ਨੁਕਸਾਨ ਉਹਨਾਂ ਉਪਯੋਗਾਂ ਦੇ ਆਧਾਰ 'ਤੇ ਵੱਡਾ ਹੋ ਜਾਂਦਾ ਹੈ ਜਿੱਥੇ ਵੋਲਿਊਮ ਉੱਚਾ ਹੋਵੇ

Question 5

ਸੇਫਟੀ ਫ੍ਰੇਮਵਰਕ ਕੀ ਹੈ, ਅਤੇ ਇੱਕ ਭਰੋਸੇਯੋਗ ਫ੍ਰੇਮਵਰਕ ਵਿੱਚ ਕੀ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ?

Accepted Answer

ਇੱਕ safety framework ਲਿਖਤੀ ਹੋਈ, end-to-end ਯੋਜਨਾ ਹੁੰਦੀ ਹੈ ਜੋ ਇਹ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਕੋਈ ਸੰਸਥਾ ਕਿਸ ਤਰ੍ਹਾਂ ਫੈਸਲਾ ਕਰਦੀ ਹੈ ਕਿ ਕੋਈ ਮਾਡਲ ਹੋਰ ਟਰੇਨ ਕਰਨ, ਰਿਲੀਜ਼ ਕਰਨ ਜਾਂ ਐਕਸੈੱਸ ਫੈਲਾਉਣ ਯੋਗ ਹੈ ਜਾਂ ਨਹੀਂ.

ਇੱਕ ਭਰੋਸੇਯੋਗ ਫਰੇਮਵਰਕ ਆਮ ਤੌਰ 'ਤੇ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ:

policy ਅਤੇ scope: ਕਿਹੜੇ ਖਤਰੇ ਅੰਦਰ ਹਨ ਅਤੇ ਕੌਣ ਜ਼ਿੰਮੇਵਾਰ ਹੈ
testing ਅਤੇ "gates": ਟਰੇਨਿੰਗ, API ਲਾਂਚ ਅਤੇ ਐਕਸਪੈਂਡ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਲਾਜ਼ਮੀ ਮੁਲਾਂਕਣ
ਮਾਨੀਟਰਿੰਗ ਅਤੇ ਕੰਟਰੋਲ: ਅਬਿਊਜ਼ ਡਿਟੇਕਸ਼ਨ, ਰੇਟ ਲਿਮਿਟ, ਕੰਟੈਂਟ ਕੰਟਰੋਲ ਅਤੇ ਲੌਗਿੰਗ
incident response: ਐਸਕੇਲੇਸ਼ਨ, ਰੋਲਬੈਕ ਯੋਜਨਾਵਾਂ, ਯੂਜ਼ਰ ਕਮਿਊਨਿਕੇਸ਼ਨ ਅਤੇ ਪੋਸਟ-ਇਨਸਿਡੈਂਟ ਸਮੀਖਿਆ

Question 6

Release gates ਜਾਂ deployment gates ਕੀ ਹਨ, ਅਤੇ ਇਹ ਕਿਉਂ ਲਾਭਦਾਇਕ ਹਨ?

Accepted Answer

Deployment gates ਉਹ ਸਪਸ਼ਟ go/no-go ਚੈੱਕਪੌਇੰਟ ਹੁੰਦੇ ਹਨ ਜੋ ਮਾਪੇ ਜਾ ਸਕਣ ਵਾਲੇ ਥ੍ਰੈਸ਼ਹੋਲਡ ਨਾਲ ਜੁੜੇ ਹੁੰਦੇ ਹਨ.

ਗੇਟ ਦੇ ਉਦਾਹਰਨ:

ਜੇ misuse ਮੁਲਾਂਕਣ ਕਿਸੇ ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੋਂ ਉੱਚਾ ਹੋਵੇ ਤਾਂ ਐਕਸੈੱਸ ਸਿਰਫ਼ ਵੈਟਡ ਉਪਭੋਗੀਆਂ ਤੱਕ ਸੀਮਿਤ ਕਰੋ
ਜੇ ਕਿਸੇ ਸੁਰੱਖਿਆ-ਗੰਭੀਰ ਡੋਮੇਨ ਵਿੱਚ ਹੇਲੂਸੀਨੇਸ਼ਨ ਰੇਟ ਜ਼ਿਆਦਾ ਹੋਵੇ ਤਾਂ ਉਸ ਉਪਯੋਗ ਨੂੰ ਰੋਕੋ
ਜਦੋਂ ਰੈੱਗ੍ਰੈਸ਼ਨ ਮਿਲੇ ਤਾਂ ਰਿਲੀਜ਼ ਰੋਕ ਦਿਓ

ਇਹਨਾਂ ਨਾਲ ਲਾਂਚ ਦਬਾਅ ਹੇਠਾਂ ਐਡ-ਹੌਕ ਫੈਸਲਿਆਂ ਦੀ ਸੰਭਾਵਨਾ ਘਟਦੀ ਹੈ।

Question 7

ਰੇਡ-ਟੀਮਿੰਗ ਕੀ ਹੈ, ਅਤੇ ਇਹ ਆਮ QA ਤੋਂ ਕਿਵੇਂ ਵੱਖਰੀ ਹੈ?

Accepted Answer

ਰੇਡ-ਟੀਮਿੰਗ ਇਕ ਸੰਗਠਿਤ ਕੋਸ਼ਿਸ਼ ਹੈ ਸਿਸਟਮ ਨੂੰ जानਚਣ ਦੀ — ਦੋਸਤਾਨਾ ਵਿਰੋਧੀਆਂ ਨੂੰ ਰੱਖ ਕੇ ਕਮਜ਼ੋਰੀਆਂ ਲੱਭਣ ਲਈ, ਤਾਂ ਜੋ ਵਾਸਤਵਿਕ ਯੂਜ਼ਰ ਜਾਂ ਖਰਾਬ ਏਕਟਰਾਂ ਪਹਿਲਾਂ ਨਾ ਲੱਭ ਸਕਣ।

ਰੇਡ-ਟੀਮਿੰਗ ਆਮ QA ਤੋਂ ਵੱਖਰੀ ਕਿਉਂ ਹੈ:

ਨਾਰਮਲ QA ਆਮ ਰਾਹਾਂ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ; ਰੈਡ-ਟੀਮਿੰਗ ਅਜਿਹੇ ਪ੍ਰੈਂਪਟ ਅਤੇ ਤਕਨੀਕਾਂ ਦੀ ਖੋਜ ਕਰਦੀ ਹੈ ਜੋ ਮਾਡਲ ਨੂੰ ਧੋਖਾ ਦੇ ਸਕਣ
ਇਹ misuse (ਜੈਲਬ੍ਰੇਕ, ਫਿਸ਼ਿੰਗ, ਹਾਨਿਕਾਰਕ ਨਿਰਦੇਸ਼) ਅਤੇ unintended ਬਿਹੈਵੀਅਰ (ਹੈਲੂਸੀਨੇਸ਼ਨ, ਪ੍ਰਾਈਵੇਸੀ ਰੀਕੀਲ) ਦੋਹਾਂ ਦੀ ਜਾਂਚ ਕਰਦੀ ਹੈ

ਅਚੀ ਰੈਡ-ਟੀਮਿੰਗ ਦੇ ਨਤੀਜੇ ਸਪਸ਼ਟ ਫਿਕਸਾਂ ਵੱਲ ਲੈ ਜਾਂਦੇ ਹਨ: ਟਰੇਨਿੰਗ ਅੱਪਡੇਟ, ਨੀਤੀ/ਫਿਲਟਰ ਸੁਧਾਰ, UX ਬਦਲਾਅ, ਜਾਂ ਐਕਸੈੱਸ ਸੀਮਤ ਕਰਨਾ।

Question 8

ਮਾਡਲ ਮੁਲਾਂਕਣ ਕੀ ਹਨ, ਅਤੇ ਇੱਕ ਵਰਤਣਯੋਗ ਇਵਾਲ ਦੀਆਂ ਨਿਸ਼ਾਨੀਆਂ ਕੀ ਹਨ?

Accepted Answer

Model evaluations ਢਾਂਚਾਬੱਧ ਟੈਸਟ ਹੁੰਦੇ ਹਨ ਜੋ ਇਹ ਪੁੱਛਦੇ ਹਨ: ਜਿਵੇਂ ਜਿਵੇਂ ਮਾਡਲ ਸਮਰੱਥ ਬਣਦਾ ਹੈ, ਕਿਹੜੇ ਨਵੇਂ ਨੁਕਸਾਨ ਸੰਭਵ ਬਣਦੇ ਹਨ—ਅਤੇ ਸੁਰੱਖਿਆ ਉਪਾਇਆ ਕਿੰਨੇ ਭਰੋਸੇਯੋਗ ਹਨ?

ਇੱਕ ਵਧੀਆ ਇਵਾਲ ਤੁਹਾਡੇ ਸੁਰੱਖਿਆ ਕੰਮ ਨੂੰ ਮੈਟਰਿਕਸ ਤੇ ਬੇਠਾ ਦਿੰਦੀ ਹੈ ਅਤੇ ਰਿਲੀਜ਼ ਗੇਟਾਂ ਲਈ ਆਧਾਰ ਬਣਦੀ ਹੈ।

ਵਧੀਆ ਇਵਾਲز ਦੀਆਂ ਖਾਸੀਅਤਾਂ:

repeatable: ਇੱਕੋ ਪ੍ਰम्पਟ ਸੈਟ, ਇੱਕੋ ਸਕੋਰਿੰਗ ਨਿਯਮ, ਵਰ੍ਹਜਨਿੰਗ
ਬਹੁਤ ਸਾਰੀਆਂ ਖਤਰਾ ਸ਼੍ਰੇਣੀਆਂ ਨੂੰ ਕਵਰ ਕਰਨਾ (dangerous capability, deception, cyber/bio misuse, reliability)
real-world ਟੈਸਟ ਵੀ ਜ਼ਰੂਰੀ ਹਨ ਕਿਉਂਕਿ ਬੇੰਚਮਾਰਕਾਂ ਨੂੰ "ਪੜ੍ਹਾਇਆ" ਜਾ ਸਕਦਾ ਹੈ

ਟ੍ਰਾਂਸਪਰੈਂਸੀ ਲਾਜ਼ਮੀ ਹੈ, ਪਰ ਐਕਸਪਲੋਇਟ ਰੀਸੈਪੀਜ਼ ਨੂੰ ਪ੍ਰਕਾਸ਼ਿਤ ਨਾ ਕਰਨਾ ਚਾਹੀਦਾ — ਸਾਂਝਾ ਕਰੋ methodology, aggregate metrics, sanitized examples.

Question 9

Constitutional alignment ਕੀ ਹੈ, ਅਤੇ ਇਸਦੇ ਫਾਇਦੇ-ਨੁਕਸਾਨ ਕੀ ਹਨ?

Accepted Answer

ਸੰਵਿਧਾਨਕ (Constitutional) ਪਹੁੰਚ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਇੱਕ ਲਿਖਤੀ ਨੀਤੀਆਂ ਦੇ ਸੈੱਟ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਟਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ — ਉਸ ਦੀ "ਸੰਵਿਧਾਨ". ਇਸ ਰਾਹੀਂ ਮਾਡਲ ਜਵਾਬ ਦੇਣ ਜਾਂ ਇਨਕਾਰ ਕਰਨ ਵੇਲੇ ਸਪਸ਼ਟ ਨਿਯਮਾਂ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦਾ ਹੈ. ਕਿਸੇ ਟੀਮ ਨੇ ਆਮ ਤੌਰ 'ਤੇ ਸਿਧਾਂਤ ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ ਲਿਖਦੇ ਹਨ ਅਤੇ ਫਿਰ ਮਾਡਲ ਨੂੰ ਫੀਡਬੈਕ ਲੂਪਾਂ ਰਾਹੀਂ ਉਹਨਾਂ ਨਾਲ ਸਬੰਧਤ ਜਵਾਬ ਪਸੰਦ ਕਰਨ ਲਈ ਸਿਖਾਇਆ ਜਾਂਦਾ ਹੈ। ਮਾਡਲ ਆਪਣਾ ਡਰਾਫਟ ਆਖਣ ਥਾਂ ਤੇ ਉਸਨੂੰ ਸੰਵਿਧਾਨ ਦੇ ਖਿਲਾਫ ਆਤਮ-ਸਮੀਖਿਆ ਤੇ ਸੁਧਾਰ ਵੀ ਕਰ ਸਕਦਾ ਹੈ। ਫਾਇਦੇ: - ਨੀਤੀਆਂ ਪੜ੍ਹਨ ਯੋਗ ਅਤੇ ਆਡੀਟ ਕਰਨਯੋਗ ਬਣਦੀਆਂ ਹਨ - ਇੱਕਸਾਰਤਾ ਵਿੱਚ ਸੁਧਾਰ ਆ ਸਕਦਾ ਹੈ ਹਦਾਂ: - ਸਿਧਾਂਤ ਟਕਰਾਅ ਹੋ ਸਕਦੇ ਹਨ (e.g., "ਮਦਦਗਾਰ ਹੋਵੋ" vs "ਨੁਕਸਾਨ ਰੋਕੋ") - ਚਤੁਰ ਪ੍ਰੰਪਟ ਹਮਲੇ ਮਾਡਲ ਨੂੰ ਸੰਵਿਧਾਨ ਬਾਈਪਾਸ ਕਰਨ ਲਈ ਧੱਕ ਸਕਦੇ ਹਨ ਇਹ ਇਕ ਇਕੱਲੀ ਚਾਲ ਨਹੀੰ, ਬਲਕਿ ਸੁਰੱਖਿਆ ਸਟੈਕ ਵਿੱਚ ਇੱਕ ਪਰਤ ਹੈ — ਰੈਡ-ਟੀਮਿੰਗ ਅਤੇ ਇਵਾਲ ਨਾਲ ਜੋੜ ਕੇ ਵਰਤੋਂ ਯੋਗ ਬਣਦੀ ਹੈ।

Question 10

ਅਸਲੀ ਉਤਪਾਦਾਂ ਵਿੱਚ ਕਿਹੜੇ ਪ੍ਰਯੋਗਿਕ ਸੁਰੱਖਿਆ ਉਪਾਇ ਕੰਮ ਕਰਦੇ ਹਨ?

Accepted Answer

ਫਰੰਟੀਅਰ-ਮਾਡਲ ਸੁਰੱਖਿਆ ਸਿਰਫ਼ ਰਿਸਰਚ ਦਾ ਮਸਲਾ ਨਹੀਂ — ਇਹ ਉਤਪਾਦ ਇੰਜੀਨੀਅਰਿੰਗ ਦਾ ਮਸਲਾ ਵੀ ਹੈ. ਚੰਗੇ ਨੀਤੀਆਂ ਵਾਲਾ ਮਾਡਲ ਵੀ ਗਲਤ ਵਰਤੋਂ, ਐਜ ਕੇਸਾਂ ਜਾਂ ਟੂਲਸ ਨਾਲ ਮਿਲ ਕੇ ਖਤਰਾ ਬਣ ਸਕਦਾ ਹੈ.

ਕੁਝ ਕਾਰਗਰ ਉਤਪਾਦ-ਸਤਰ ਦੇ ਕੰਟਰੋਲ:

Rate limits ਅਤੇ throttling: ਕਿਵੇਂ ਤੇਜ਼ੀ ਨਾਲ ਕੋਈ ਫੇਲ੍ਹ ਪੜਚੋਲ ਸਕਦਾ ਹੈ ਉਹ ਸੀਮਤ ਕਰਨਾ
Content filters ਅਤੇ policy enforcement: ਪ੍ਰੀ-ਚੈੱਕ, ਪੋਸਟ-ਚੈੱਕ ਅਤੇ ਵਿਸ਼ੇਸ਼ ਡਿਟੈਕਟਰ
Tool permissions: ਮਾਡਲ ਨੂੰ ਘੱਟੋ-ਘੱਟ ਜ਼ਰੂਰੀ ਪਰਮੀਸ਼ਨ ਦਿਓ; ਪੜ੍ਹਨ-ਕੇਵਲ ਮੋਡ, spending limits, restricted commands

ਲਾਗਇਨ/ਮੋਨੀਟਰਿੰਗ, ਟੀਅਰਡ ਐਕਸੈੱਸ, ਅਤੇ UX ਚੋਣਾਂ (ਚੇਤਾਵਨੀ, "ਕੀ ਤੁਸੀਂ ਯਕੀਨ ਹੋ?" ਕਾਨਫਰਮੇਸ਼ਨ) ਵੀ ਹੱਲ ਦੇ ਹਿੱਸੇ ਹਨ।

Question 11

ਆਪਰੇਸ਼ਨਲ ਸੁਰੱਖਿਆ ਵਿੱਚ ਕੀ ਸ਼ਾਮਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ (ਪ੍ਰਕਿਰਿਆਵਾਂ, ਆਡੀਟ, ਅਤੇ ਇਨਸਿਡੈਂਟ ਰਿਸਪਾਂਸ)?

Accepted Answer

ਸੁਰੱਖਿਅਤ ਫਰੰਟੀਅਰ ਏਆਈ ਬਣਾਉਣਾ ਸਿਰਫ਼ ਮਾਡਲ ਡਿਜ਼ਾਈਨ ਦਾ ਮਸਲਾ ਨਹੀਂ; ਇਹ ਆਪਰੇਸ਼ਨਲ ਪ੍ਰਕਿਰਿਆਵਾਂ ਦਾ ਮਸਲਾ ਵੀ ਹੈ.

ਅੰਤਰਰਾਸ਼ਟਰੀ ਤੌਰ 'ਤੇ ਆਮ ਤਰੀਕੇ:

ਅੰਦਰੂਨੀ ਗਵਰਨੈਂਸ: ਇੱਕ ਹਲਕਾ ਰੀਲਾਈਜ਼ ਬੋਰਡ ਜਾਂ sign-offs ਜਿਹੜਾ ਉੱਚ ਪ੍ਰਭਾਵ ਵਾਲੇ ਫੈਸਲਿਆਂ ਨੂੰ ਰੋਕਦਾ ਹੈ
ਡਾਕਿੂਮੈਂਟੇਸ਼ਨ: ਮਾਡਲ ਨਾਲ ਜੁੜੀਆਂ ਪਾਬੰਦੀਆਂ, ਮੁਲਾਂਕਣ ਨਤੀਜੇ, ਸੁਰੱਖਿਆ ਰਾਹਤਾਂ ਅਤੇ "ਇਸ ਲਈ ਨਾ ਵਰਤੋ" ਹਦਾਇਤਾਂ
ਇਨਸਿਡੈਂਟ ਰਿਸਪਾਂਸ: ਡੀਟੈਕਸ਼ਨ, ਰੋਲਬੈਕ/ਕੰਟੇਨਮੈਂਟ, ਯੂਜ਼ਰ ਕਮਿਊਨੀਕੇਸ਼ਨ, ਫਿਕਸ ਅਤੇ ਪੋਸਟ-ਮੋਰਟਮ

ਉਦਾਹਰਨ ਦੇ ਤੌਰ 'ਤੇ, ਜੇ ਤੁਸੀਂ ਵਰਤ ਕੇ AI-ਚਲਿਤ ਉਤਪਾਦ ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ snapshots ਅਤੇ rollback ਦੀ ਸਮਰੱਥਾ ਇਨਸਿਡੈਂਟ ਸੰਭਾਲ ਵਿਚ ਮਦਦ ਕਰਦੀ ਹੈ: ਇੱਕ ਜਾਣਿਆ-ਵਧੀਆ ਵਰਜ਼ਨ ਸੰਭਾਲੋ, ਰੀਮਿਟੀਗੇਸ਼ਨ ਤੁਰੰਤ ਸ਼ਿਪ ਕਰੋ, ਅਤੇ ਜੇ ਲੋੜ ਹੋਵੇ ਤਾਂ ਤੁਰੰਤ ਵਾਪਸ ਜਾਓ।

Question 12

ਸਰਕਾਰ ਅਤੇ ਉਦਯੋਗ-ਪੱਧਰੀ ਕੋਆਰਡੀਨੇਸ਼ਨ ਕਿਉਂ ਜਰੂਰੀ ਹੈ?

Accepted Answer

ਫਰੰਟੀਅਰ ਏਆਈ ਸੁਰੱਖਿਆ ਇਕੋ ਲੈਬ ਦਾ ਹੀ ਮਸਲਾ ਨਹੀਂ — ਜਦੋਂ ਮਾਡਲ ਨਕਲ ਕੀਤੇ ਜਾਂ ਸਕਦੇ ਹਨ, ਫਾਈਨ-ਟਿਊਨ ਹੋ ਸਕਦੇ ਹਨ ਅਤੇ ਵੱਖ-ਵੱਖ ਉਤਪਾਦਾਂ ਵਿੱਚ ਤੈਨਾਤ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ, ਤਦ ਖਤਰਾ ਕੋਆਰਡੀਨੇਸ਼ਨ ਦਾ ਮਸਲਾ ਬਣ ਜਾਂਦਾ ਹੈ. ਕਿਉਂ ਇਹ ਮੁਸ਼ਕਲ ਹੈ: - ਤਰਜੀਹਾਂ ਵੱਖ-ਵੱਖ ਹੁੰਦੀਆਂ ਹਨ: ਕੁਝ ਤੇਜ਼ੀ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ, ਕੁਝ ਸਾਵਧਾਨੀ ਨੂੰ - ਬਿਨਾਂ ਸਾਂਝੇ ਉਮੀਦਾਂ ਦੇ ਅਨੁਪਾਤੀ ਸੁਰੱਖਿਆ ਅਭਿਆਸ ਆਉਂਦੇ ਹਨ ਅਤੇ ਰੇਸ ਕੰਡੀਸ਼ਨ ਬਣਦੇ ਹਨ ਪ੍ਰਾਇਕਟੀਕਲ ਗਵਰਨੈਂਸ ਟੂਲਜ਼: - Standards: ਬੇਸਲਾਈਨ ਟੈਸਟਿੰਗ, ਡੇਟਾ ਹੈਂਡਲਿੰਗ, ਐਕਸੈਸ ਕੰਟਰੋਲ ਅਤੇ ਮੋਨੀਟਰਿੰਗ ਲਈ - Reporting: ਆਮ ਇਨਸਿਡੈਂਟ ਸ਼੍ਰੇਣੀਆਂ ਅਤੇ ਟਾਈਮਲਾਈਨ - Evaluation sharing: ਮੈਥਡੋਲੋਜੀ ਅਤੇ ਨਤੀਜੇ ਸਾਂਝਾ ਕਰਨਾ (ਵਜ਼ਨ ਬੰਦ ਰੱਖਦੇ ਹੋਏ) - Licensing/permissions: ਕੁਝ ਉੱਚ-ਖਤਰਾ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਠੇਕੇ/ਵਰਤੋਂ ਵੇਰੀਫਿਕੇਸ਼ਨ/ਨਿਗਰਾਨੀ ਪਿੱਛੇ ਰੱਖਣਾ ਖੁੱਲ੍ਹਾ ਪਨ੍ਰ (openness) accountability ਵਧਾਉਂਦਾ ਹੈ ਪਰ ਸਾਰੇ ਵੇਰਵੇ ਜਾਰੀ ਕਰਨ ਨਾਲ ਦੁਰੁਪਯੋਗ ਆਸਾਨ ਹੋ ਸਕਦਾ ਹੈ; ਇਸ ਲਈ selective transparency ਇੱਕ ਸਥਿਰ ਰਾਸ্তা ਹੋ ਸਕਦਾ ਹੈ।

Question 13

ਅਜਿਹੇ ਟੀਮਾਂ ਲਈ ਕਾਰਗਰ ਸਬਕ ਜੋ ਅੱਜ ਐਆਈ ਜਾਰੀ ਕਰ ਰਹੀਆਂ ਹਨ, ਕੀ ਹਨ?

Accepted Answer

ਜੇ ਤੁਹਾਡੀ ਟੀਮ API ਰਾਹੀਂ ਤਾਕਤਵਰ ਮਾਡਲ ਵਰਤ ਰਹੀ ਹੈ, ਤਾਂ ਤੁਹਾਡੇ ਉਤਪਾਦ ਦੇ ਫੈਸਲੇ (ਪ੍ਰੰਪਟ, ਟੂਲ, UI, permisions, ਮੋਨੀਟਰਿੰਗ) ਵਾਸਤਵਿਕ ਦੁਨੀਆ ਦੇ ਖਤਰੇ ਵਧਾ ਜਾਂ ਘਟਾ ਸਕਦੇ ਹਨ. ਇਹ ਬਿਲਕੁਲ ਨਹੀਂ ਹੈ ਕਿ ਸਿਰਫ ਫਰੰਟੀਅਰ ਲੈਬਾਂ ਨੂੰ ਹੀ ਚਿੰਤਾ ਹੋਵੇ — ਛੋਟੇ ਟੀਮਾਂ ਲਈ ਵੀ ਇਹ ਜ਼ਰੂਰੀ ਹੈ. ਪ੍ਰਯੋਗਿਕ ਨਤੀਜੇ: - ਖਤਰੇ ਨੂੰ ਸਪਸ਼ਟ ਕਰੋ: ਆਪਣੀ ਵਰਤੋਂ ਲਈ 5 ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਫੇਲ੍ਹ ਮੋਡ ਲਿਖੋ - ਇੱਕ ਛੋਟਾ ਲੂਪ ਬਣਾਓ: define → test → ship with guardrails → monitor → improve ਹਫਤੇ ਦੀ ਲਿਟੇਰੇਟ ਚੈਕਲਿਸਟ: - Risk definition: TOP-5 failure modes ਦੀ ਸੂਚੀ - Model evals: ਇਕ ਛੋਟਾ ਟੈਸਟ ਸੈਟ ਬਣਾਓ ਜਿਸ ਵਿੱਚ adversarial prompts ਵੀ ਸ਼ਾਮਲ ਹੋਣ - Red teaming: ਕਿਸੇ ਬਾਹਰੀ ਵਿਅਕਤੀ ਨੂੰ ਇਸਨੂੰ ਤੋੜਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਦਿਓ - Access controls: ਮਾਡਲ ਦੀ ਪਹੁੰਚ ਘੱਟ ਰੱਖੋ; ਡਿਫੌਲਟ read-only ਰੱਖੋ - Safety-by-design UI: ਅਣਸ਼ੱਕਤਾ ਦਿਖਾਓ, ਸਰੋਤ ਦਰਸਾਓ ਅਤੇ "report a problem" ਦਿਓ - Logging + monitoring: inputs/outputs ਲੌਗ ਕਰੋ (PII ਦਾ ਧਿਆਨ ਰੱਖਦੇ ਹੋਏ) ਅਤੇ ਰਿਸਕ ਅਲਰਟ ਸੈੱਟ ਕਰੋ - Human escalation: ਮੈਡੀਕਲ, ਕਾਨੂੰਨੀ, ਆਤਮ-ਹੱਤਿਆ ਜਾਂ ਵੱਡੇ ਆਰਥਿਕ ਨੁਕਸਾਨ ਵਿੱਚ ਮਨੁੱਖੀ ਹਸਤਖੇਪ ਨਿਰਧਾਰਿਤ ਕਰੋ - User feedback loop: ਫੀਡਬੈਕ ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਕਰੋ ਤਾਂ ਜੋ ਫਿਕਸ ਮਾਪੇ ਜਾ ਸਕਣ ਜੇ ਤੁਸੀਂ ਗਾਹਕ-ਸਾਮ੍ਹਨੇ ਫੀਚਰ ਬਣਾਉਂਦੇ ਹੋ ਤਾਂ ਆਪਣੀ ਪਹੁੰਚ ਦੀ ਇੱਕ ਛੋਟੀ ਜਨਤਕ ਨੋਟ ਲਿਖਣ 'ਤੇ ਵੀ ਵਿਚਾਰ ਕਰੋ (ਉਦਾਹਰਨ ਵਜੋਂ /blog post) ਅਤੇ ਯੋਜਨਾ ਬਣਾਓ ਕਿ ਵਰਤੋਂ ਅਤੇ ਕੀਮਤ ਨੂੰ ਜ਼ਿੰਮੇਵਾਰ ਤਰੀਕੇ ਨਾਲ ਕਿਵੇਂ ਵਧਾਇਆ ਜਾਵੇ (ਜਿਵੇਂ /pricing).

Question 14

ਮੈਂ ਆਪਣੇ AI ਵੇਂਡਰ ਨੂੰ ਕਿਹੜੇ ਸਵਾਲ ਪੁੱਛਾਂ?

Accepted Answer

ਆਪਣੇ AI ਵੈਂਡਰਾਂ ਨੂੰ ਪੁੱਛਣ ਲਈ ਕੁਝ ਮੂਲਭੂਤ ਸਵਾਲ (ਅਤੇ ਆਪਣੇ-ਆਪ ਨੂੰ ਉੱਤਰ ਦੇਣ ਲਈ):

ਨਵੇਂ ਮਾਡਲ ਵਰਜ਼ਨ ਰਿਲੀਜ਼ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਤੁਸੀਂ ਕਿਹੜੀਆਂ ਸੇਫਟੀ ਇਵਾਲ ਚਲਾਉਂਦੇ ਹੋ?
ਕੀ ਤੁਸੀਂ ਅਬਿਊਜ਼ ਮੋਨੀਟਰਿੰਗ, ਇਨਸਿਡੈਂਟ ਰਿਪੋਰਟਿੰਗ, ਜਾਂ ਉੱਚ-ਖਤਰਾ ਵਰਤੋਂ ਲਈ ਰਾਹਦਾਰੀ ਦਿੰਦੇ ਹੋ?
ਗਾਹਕ ਡੇਟਾ ਰੱਖਣ, ਗਾਹਕ ਡੇਟਾ 'ਤੇ ਟਰੇਨਿੰਗ ਅਤੇ enterpise privacy controls ਨੂੰ ਤੁਸੀਂ ਕਿਵੇਂ ਸੰਭਾਲਦੇ ਹੋ?
ਜਦੋਂ ਮਾਡਲ ਬਾਹਰਲੀਆਂ ਸਿਸਟਮਾਂ ਨੂੰ ਕਾਲ ਕਰਦਾ ਹੈ ਤਾਂ ਟੂਲ ਮਿਸਯੂਜ਼ ਅਤੇ ਪ੍ਰੰਪਟ ਇੰਜੈਕਸ਼ਨ ਲਈ ਕੀ ਰੋਕਥਾਮ ਮੌਜੂਦ ਹੈ?
ਜੇ ਕੋਈ ਗਲਤ ਹੋਵੇ ਤਾਂ ਸਹਾਇਤਾ ਦਾ ਰਾਹ ਕੀ ਹੈ ਅਤੇ ਉਮੀਦ ਕੀਤੀ ਜਾਣ ਵਾਲੀ ਪ੍ਰਤੀਕਿਰਿਆ ਸਮਾਂ-ਰੇਖਾ ਕੀ ਹੈ?

ਇਹਨਾਂ ਨੂੰ ਇੱਕ ਵਾਰੀ ਦੀ ਕਾਗਜ਼ੀ ਕਾਰਵਾਈ ਨਾ ਸਮਝੋ; ਇਹ ਹੁੰਦੇ ਰਹਿਣ ਵਾਲੇ ਮੰਗ-ਪੱਤਰ ਹਨ। ਜੋ ਟੀਮ ਮਾਪ ਅਤੇ ਕੰਟਰੋਲ ਤੇ ਇਤਰਾਫ਼ ਲੱਗਾਤਾਰ ਕੰਮ ਕਰਦੀਆਂ ਹਨ ਵਹ ਤੇਜ਼ ਅਤੇ ਜ਼ਿਆਦਾ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਸ਼ਿਪ ਕਰਦੀਆਂ ਹਨ।

ਡੇਰੀਓ ਅਮੋਦੇਈ ਫਰੰਟੀਅਰ ਏਆਈ ਸੁਰੱਖਿਆ ਵਿੱਚ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹਨ

"ਫਰੰਟੀਅਰ ਸਕੇਲ" ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ ਕੀ ਹੈ

ਇਸ ਲੇਖ ਦਾ ਧਿਆਨ ਕੀ ਹੋਵੇਗਾ (ਅਤੇ ਕੀ ਨਹੀਂ)

ਮੁੱਖ ਸਵਾਲ

"ਸੁਰੱਖਿਅਤ ਏਆਈ ਸਿਸਟਮ" ਦਾ ਅਸਲ ਮਤਲਬ

ਮੁੱਖ ਸ਼ਬਦ (ਬਿਨਾਂ ਜਾਰਗਨ ਦੇ)

ਨਜ਼ਦੀਕੀ ਨੁਕਸਾਨ ਬਨਾਮ ਲੰਮੇ ਸਮੇਂ ਦੇ ਚਿੰਤਾ

ਕਿਉਂ ਸਕੇਲਿੰਗ ਖਤਰੇ ਦੀ ਪ੍ਰੋਫ਼ਾਇਲ ਬਦਲ ਦਿੰਦੀ ਹੈ

ਇੱਕ ਸਧਾਰਨ ਫੇਲ੍ਹ ਮੋਡ

ਮੁੱਖ ਵਪਾਰ: ਸਮਰੱਥਾ ਵਿਰੁੱਧ ਸੁਰੱਖਿਆ

ਕਿਉਂ "ਤੇਜ਼ੀ ਨਾਲ ਅੱਗੇ ਵਧਣਾ" ਸੁਰੱਖਿਆ ਨਾਲ ਟਕਰਾਉਂਦਾ ਹੈ

ਏਕ ਪ੍ਰਯੋਗਿਕ ਲਕੜੀ: ਮਾਪਯੋਗ ਖਤਰਾ ਕਮੀ

ਅਣਟਾਲਨਯੋਗ ਵਪਾਰ-ਆਧਾਰ

ਫਰੰਟੀਅਰ ਮਾਡਲ ਕਿਵੇਂ ਬਣਦੇ ਹਨ (ਅਤੇ ਕਿੱਥੇ ਖਤਰੇ ਆਉਂਦੇ ਹਨ)

ਸਟੇਜ 1: ਟਰੇਨਿੰਗ — ਆਮ ਨਮੂਨੇ ਸਿਖਾਉਣਾ

ਸਟੇਜ 2: ਫਾਈਨ-ਟਿਊਨਿੰਗ — ਵਿਹਾਰ ਨੂੰ ਸਹੀ ਰਾਹ 'ਤੇ ਲਿਆਉਣਾ

ਕਿਉਂ ਸਕੇਲਿੰਗ ਹੈਰਾਨੀਜਨਕ ਬਦਲਾਅ ਲਿਆਉਂਦੀ ਹੈ

ਇੱਕਿਲੇ ਫਿਕਸ ਦੀ ਥਾਂ ਪਰਤਦਾਰ ਰੱਖਵਾਲੀ

ਸੇਫਟੀ ਫਰੇਮਵਰਕ ਅਤੇ ਸਪਸ਼ਟ ਡਿਪਲੋਇਮੈਂਟ ਗੇਟ

ਇੱਕ ਅਸਲੀ ਫਰੇਮਵਰਕ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਕੀ ਹੁੰਦਾ ਹੈ

ਕਿਉਂ ਡਿਪਲੋਇਮੈਂਟ ਥ੍ਰੈਸ਼ਹੋਲਡ ਮਹੱਤਵਪੂਰਨ ਹਨ

ਭਰੋਸੇਯੋਗ ਸੁਰੱਖਿਆ ਯੋਜਨਾ ਵਿੱਚ ਕੀ ਦੇਖਣਾ ਚਾਹੀਦਾ ਹੈ

ਰੈਡ-ਟੀਮਿੰਗ: ਯੂਜ਼ਰਾਂ ਤੋਂ ਪਹਿਲਾਂ ਫੇਲ੍ਹ ਲੱਭਣਾ

ਸਧਾਰਨ QA ਕਾਫੀ ਕਿਉਂ ਨਹੀਂ ਹੁੰਦੀ

ਦੋ ਵੱਡੀਆਂ ਸ਼੍ਰੇਣੀਆਂ: misuse ਅਤੇ unintended ਵਿਹਾਰ

ਨਤੀਜਿਆਂ ਨੂੰ ਫਿਕਸਾਂ 'ਚ ਤਬਦੀਲ ਕਰਨਾ

ਮਾਡਲ ਮੁਲਾਂਕਣ: ਜਿਵੇਂ ਮਾਡਲਾਂ ਸੁਧਰਦੇ ਹਨ ਤਿਵੇਂ ਖਤਰਾ ਮਾਪਨਾ

ਕਿਉਂ ਇਵਾਲਜ਼ ਦੋਹਰਾਏ ਯੋਗ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ

ਕੀ ਮੁਲਾਂਕਣ 'ਚ ਆਉਂਦਾ ਹੈ (ਮੁੱਖ ਖਤਰਾ ਸ਼੍ਰੇਣੀਆਂ)

ਬੈਂਚਮਾਰਕਸ ਬਨਾਮ ਅਸਲੀ ਦੁਨੀਆ ਟੈਸਟਿੰਗ

ਪਾਰਦਰਸ਼ਤਾ ਬਗੈਰ ਐਕਸਪਲੋਇਟ ਲੀਕ ਕੀਤੇ

ਸੰਵਿਧਾਨਕ ਅੱਪਰੋਚਜ਼ ਤੇ ਐਲਾਈਨਮੈਂਟ

ਇਹ ਅਮਲੀ ਤੌਰ 'ਤੇ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ

ਇਹ ਕਿਉਂ ਪਸੰਦ ਕੀਤਾ ਜਾਂਦਾ ਹੈ

ਇਹ ਕਿੱਥੇ ਅਪੂਰਨ ਰਹਿੰਦਾ ਹੈ

ਇਹ ਸਿਰਫ਼ ਇੱਕ ਟੂਲ ਹੈ

ਅਸਲੀ ਉਤਪਾਦਾਂ ਵਿੱਚ ਪ੍ਰਯੋਗਿਕ ਸੁਰੱਖਿਆ

ਉਤਪਾਦ-ਪੱਧਰ ਦੇ ਕੰਟਰੋਲ ਜਿਹੜੇ ਅਸਲ ਵਿੱਚ ਕੰਮ ਕਰਦੇ ਹਨ

ਉੱਚ-ਖਤਰਾ ਫੀਚਰਾਂ ਲਈ ਆਈਡੈਂਟੀਟੀ ਅਤੇ ਐਕਸੈੱਸ ਕੰਟਰੋਲ

ਲੌਗਿੰਗ, ਮਾਨੀਟਰਿੰਗ, ਅਤੇ ਅਬਿਊਜ਼ ਰਿਸਪਾਂਸ ਲੂਪ

ਅਣਜਾਣੇ ਦੁਰੁਪਯੋਗ ਨੂੰ ਘਟਾਉਣ ਲਈ UX ਚੋਣਾਂ

ਆਪਰੇਸ਼ਨਲ ਸੁਰੱਖਿਆ: ਪ੍ਰਕਿਰਿਆਵਾਂ, ਆਡੀਟ, ਅਤੇ ਇਨਸਿਡੈਂਟ ਰਿਸਪਾਂਸ

ਅੰਦਰੂਨੀ ਗਵਰਨੈਂਸ: ਕੌਣ ਕੀ ਸ਼ਿਪ ਕਰ ਸਕਦਾ ਹੈ (ਅਤੇ ਕਦੋਂ)

ਇਨਸਿਡੈਂਟ ਰਿਸਪਾਂਸ: ਨੁਕਸਾਨ ਦੀ ਯੋਜਨਾ, ਨਾ ਕਿ ਪੂਰਨਤਾ

ਆਡੀਟ ਅਤੇ ਬਾਹਰੀ ਨਿਗਰਾਨੀ

ਗਵਰਨੈਂਸ ਅਤੇ ਉਦਯੋਗ ਸਹਿਯੋਗ

ਫਰੰਟੀਅਰ 'ਤੇ ਕੋਆਰਡੀਨੇਸ਼ਨ ਕਿਉਂ ਔਖਾ ਹੈ

ਗਵਰਨੈਂਸ ਟੂਲ (ਅਮਲੀ ਧਾਰਣਾਵਾਂ ਵਜੋਂ)

ਖੁਲਾਪਨ ਬਨਾਮ ਦੁਰੁਪਯੋਗ

ਟੀਮਾਂ ਲਈ ਨਿ਩ਟਿਰ ਅਗਲਾ ਕਦਮ

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ