Anthropic ਦੇ ਸਥਾਪਨਾ ਤੋਂ ਲੈ ਕੇ Claude ਦੇ ਵਿਕਾਸ ਅਤੇ ਸੁਰੱਖਿਆ-ਕੇਂਦ੍ਰਿਤ ਪ੍ਰਵਿਰਤੀਆਂ ਤੱਕ ਇਸਦੀ ਇਤਿਹਾਸਕ ਯਾਤਰਾ ਨੂੰ ਟ੍ਰੇਸ ਕਰੋ।

Anthropic ਇੱਕ AI ਰਿਸਰਚ ਅਤੇ ਉਤਪਾਦ ਕੰਪਨੀ ਹੈ ਜੋ ਆਪਣੇ Claude ਪਰਿਵਾਰ ਦੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਲਈ ਸਭ ਤੋਂ ਵੱਧ ਜਾਣੀ ਜਾਂਦੀ ਹੈ। ਅਨੁਭਵੀ ਰਿਸਰਚਰਾਂ ਦੁਆਰਾ ਸਥਾਪਿਤ, ਜੋ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ AI ਸਿਸਟਮਾਂ 'ਤੇ ਕੰਮ ਕਰ ਚੁੱਕੇ ਸਨ, Anthropic ਬੁਨਿਆਦੀ ਰਿਸਰਚ, ਕਾਰਗਰ ਉਤਪਾਦ ਅਤੇ AI ਸੁਰੱਖਿਆ/ਅਨੁਕੂਲਤਾ ਦੇ ਕੰਮਾਂ ਦੇ ਵਿਚਕਾਰ ਖੜਾ ਹੈ।
ਇਹ ਲੇਖ Anthropic ਦੀ ਸ਼ੁਰੂਆਤ ਤੋਂ ਲੈ ਕੇ ਮੌਜੂਦਾ ਦਿਨ ਤੱਕ ਇਤਿਹਾਸ ਦੀ ਪੈਦਾਇਸ਼ ਅਤੇ ਵਿਕਾਸ ਦਾ ਰਾਹ ਦਰਸਾਉਂਦਾ ਹੈ, ਉਹਨਾਂ ਮੁੱਖ ਵਿਚਾਰਾਂ, ਫ਼ੈਸਲਿਆਂ ਅਤੇ ਮਾਇਲਸਟੋਨਾਂ ਤੇ ਰੋਸ਼ਨੀ ਪਾਂਉਂਦਾ ਹੈ। ਅਸੀਂ ਕ੍ਰਮਵਾਰ ਅੱਗੇ ਵਧਾਂਗੇ: ਪਹਿਲਾਂ ਉਸ AI ਰਿਸਰਚ ਸੰਦਰਭ ਦੇਖਾਂਗੇ ਜੋ Anthropic ਤੋਂ ਪਹਿਲਾਂ ਸੀ, ਫਿਰ ਸਥਾਪਕਾਂ ਅਤੇ ਸ਼ੁਰੂਆਤੀ ਟੀਮ ਬਾਰੇ, ਕੰਪਨੀ ਦਾ ਮਿਸ਼ਨ ਅਤੇ ਮੁੱਲ, ਤਕਨੀਕੀ ਬੁਨਿਆਦਾਂ, ਫੰਡਿੰਗ ਅਤੇ ਵਾਧਾ, Claude ਤੋਂ Claude 3.5 ਤੱਕ ਉਤਪਾਦੀ ਵਿਕਾਸ, ਅਤੇ ਵੱਡੇ AI ਭਾਈਚਾਰੇ ਵਿੱਚ ਇਸਦਾ ਰੋਲ।
Anthropic ਦੀ ਇਤਿਹਾਸ ਸਿਰਫ਼ ਕੰਪਨੀ ਦੀ ਜਾਣਕਾਰੀ ਨਹੀਂ ਦਿੰਦੀ। ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਇਸਨੇ AI ਸੁਰੱਖਿਆ ਅਤੇ ਅਨੁਕੂਲਤਾ ਨੂੰ ਅਹੰਕਾਰ ਨਾ ਮੰਨਿਆਂ ਹੋਏ ਕੇਂਦਰੀ ਰਿਸਰਚ ਸਵਾਲ ਬਣਾਇਆ। Constitutional AI, ਵਿਸਤ੍ਰਿਤ ਰੈਡ-ਟੀਮਿੰਗ ਅਤੇ ਸੁਰੱਖਿਆ ਲਈ ਮਾਡਲ ਮੁਲਾਂਕਣ ਜਿਵੇਂ ਧਾਰਣਾਵਾਂ ਸਾਈਡ-ਪ੍ਰੋਜੈਕਟ ਨਹੀਂ ਸਨ, ਬਲਕਿ ਇਹ ਉਹ ਤਰੀਕੇ ਸਨ ਜਿਨ੍ਹਾਂ ਰਾਹੀਂ Anthropic ਨੇ ਸਿਸਟਮ ਬਣਾਏ ਅਤੇ ਤੈਨਾਤ ਕੀਤਾ। ਇਹ ਰਵੱਈਆ ਹੋਰ ਲੈਬਜ਼, ਨੀਤੀ-ਨਿਰਮਾਤਾਵਾਂ ਅਤੇ ਗਾਹਕਾਂ 'ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਰਿਹਾ।
ਇਸ ਲੇਖ ਦਾ ਉਦੇਸ਼ ਇੱਕ ਤਥ্যਾਤਮਕ, ਸੰਤੁਲਿਤ ਖਾਕਾ ਦੇਣਾ ਹੈ: ਕੰਪਨੀ ਨੇ ਕੀ ਕੀਤਾ, Claude ਅਤੇ ਸੰਬੰਧਤ ਔਜ਼ਾਰਾਂ 'ਤੇ ਕੰਮ ਕਿਵੇਂ ਬਦਲਿਆ, ਕਿਹੜੀਆਂ ਰਿਸਰਚ ਦਿਸ਼ਾਵਾਂ ਮੈੱਲਦਾਰ ਸਾਬਤ ਹੋਈਆਂ ਅਤੇ ਸੁਰੱਖਿਆਦੀਆਂ ਚਿੰਤਾਵਾਂ ਨੇ ਇਸਦੇ ਟਾਈਮਲਾਈਨ ਅਤੇ ਮਾਈਲਸਟੋਨਾਂ ਨੂੰ ਕਿਵੇਂ ਰੂਪ ਦਿੱਤਾ।
ਅੰਤ ਤੱਕ ਤੁਸੀਂ ਸਮਝ ਪਾ ਲਵੋਗੇ ਕਿ Anthropic ਕਿੱਥੋਂ ਆਇਆ, ਕਿਸ ਤਰ੍ਹਾਂ ਇਸਦੀ ਤਰਜੀਹਾਂ ਨੇ ਉਤਪਾਦ ਅਤੇ ਰਿਸਰਚ ਨੂੰ ਆਕਾਰ ਦਿੱਤਾ, ਅਤੇ ਇਹ ਦ੍ਰਿਸ਼ਟਕੋਣ ਕਿਉਂ ਭਵਿੱਖ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।
2010 ਦੇ ਅਖੀਰੀ ਦਸ਼ਕ ਤੱਕ ਡੀਪ ਲਰਨਿੰਗ ਨੇ ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਅਤੇ ਸਪੀਚ 'ਚ ਬਦਲਾਅ ਲਿਆਏ। ImageNet-ਜਿੱਤਣ ਵਾਲੀ convolutional ਨੈਟਵਰਕਾਂ, ਵੱਡੇ ਪੈਮਾਨੇ ਵਾਲੇ ਸਪੀਚ ਰਿਕਗਨਾਈਜ਼ਰ ਅਤੇ ਪ੍ਰਯੋਗੀ ਮਸ਼ੀਨ ਟ੍ਰਾਂਸਲੇਸ਼ਨ ਸਿਸਟਮਾਂ ਨੇ ਦਿਖਾਇਆ ਕਿ ਡੇਟਾ ਅਤੇ ਕੰਪਿਊਟ 'ਤੇ ਸਕੇਲ ਕਰਕੇ ਨਵੀਆਂ ਸਮਰੱਥਾਵਾਂ ਖੁਲ ਸਕਦੀਆਂ ਹਨ।
2017 ਵਿੱਚ transformer ਆਰਕੀਟੈਕਚਰ ਨੇ ਮੁੱਖ ਪਲੜੀ ਦਿੱਤੀ। RNNs ਦੇ ਬਜਾਏ, transformers ਲੰਬੇ-ਰेंज ਅਨੁਸਾਰਤਾਵਾਂ ਨੂੰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਸਮਭਾਲਦੇ ਹਨ ਅਤੇ GPUs ਉੱਤੇ ਪੈਰਲੈਲ ਪ੍ਰੋਸੈਸਿੰਗ ਲਈ ਬੇਹਤਰ ਹਨ। ਇਸ ਨਾਲ ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਵਿਸ਼ਾਲ ਟੈਕਸਟ ਕੋਰਪਸ ਉੱਤੇ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਰਾਹ ਖੁਲ ਗਈ।
Google ਦੀ BERT (2018) ਨੇ ਦਿਖਾਇਆ ਕਿ generic ਟੈਕਸਟ 'ਤੇ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਅਤੇ ਫ਼ਿਰ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਬਹੁਤ ਸਾਰੀਆਂ NLP ਟਾਸਕਾਂ 'ਚ ਸ਼੍ਰੇਸ਼ਠ ਨਤੀਜੇ ਦੇ ਸਕਦੀ ਹੈ। ਥੋੜ੍ਹੇ ਹੀ ਸਮੇਂ ਬਾਅਦ OpenAI ਦੀ GPT ਸੀਰੀਜ਼ ਨੇ ਇਸ ਵਿਚਾਰ ਨੂੰ ਅੱਗੇ ਵਧਾਇਆ: ਇੱਕ ਵੱਡਾ autoregressive ਮਾਡਲ ਟ੍ਰੇਨ ਕਰੋ ਅਤੇ ਸਕੇਲ ਨਾਲ ਮਿਲੀ ਕਾਬਲਿਯਤ ਅਤੇ ਕਮ ਪੁਰਨੋਦਸ਼ਨਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰੋ।
2019–2020 ਦੇ ਆਸ-ਪਾਸ neural scaling laws 'ਤੇ ਕੰਮ ਨੇ ਵੇਖਾਯਾ ਕਿ ਪ੍ਰੈਟੀਸ਼ਨਰਾਂ ਜੋ ਦੇਖ ਰਹੇ ਸਨ ਉਹ ਵਿਗਿਆਨਿਕ ਢੰਗ ਨਾਲ ਬਿਆਨ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ: ਪੈਰਾਮੀਟਰ, ਡੇਟਾ ਅਤੇ ਕੰਪਿਊਟ ਵਧਣ ਨਾਲ ਪ੍ਰਦਰਸ਼ਨ ਭਵਿੱਧੀ ਰੇਖਿਕ ਢੰਗ ਨਾਲ ਸੁਧਰਦਾ ਹੈ। ਅਧਿਐਨਾਂ ਨੇ ਦਿਖਾਇਆ ਕਿ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲ:
GPT-2 (2019) ਅਤੇ GPT-3 (2020) ਨੇ ਦਰਸਾਇਆ ਕਿ ਸਿਰਫ਼ ਸਕੇਲ ਹੀ ਕਿਸ ਤਰ੍ਹਾਂ ਇੱਕ generic ਟੈਕਸਟ ਮਾਡਲ ਨੂੰ ਕਈ ਕੰਮਾਂ ਲਈ ਲਚਕੀਲਾ ਸਾਧਨ ਬਣਾ ਸਕਦਾ ਹੈ।
ਇਹ ਤਰੱਕੀ ਨਾਲ-ਨਾਲ, ਰਿਸਰਚਰਾਂ ਅਤੇ ਨੀਤੀ-ਨਿਰਮਾਤਾਵਾਂ ਨੂੰ ਚਿੰਤਾ ਹੋਣ ਲਗੀ ਕਿ ਬਢਦੇ ਸਮਰੱਥਾ ਵਾਲੇ ਮਾਡਲਾਂ ਨੂੰ ਕਿਵੇਂ ਬਣਾਇਆ ਅਤੇ ਤੈਨਾਤ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ। ਖਤਰੇ ਜਿਹੜੇ ਚਰਚਾ ਵਿੱਚ ਆਏ:
GPT-2 ਦੇ ਹਿੱਸੇਦਾਰ ਰਿਲੀਜ਼ ਨੂੰ misuse ਖਤਰੇ ਦੇ ਤਹਿਤ ਹੌਲਡ ਕਰਨ ਦਾ ਫੈਸਲਾ ਇਸ ਗੱਲ ਦਾ ਸੰਕੇਤ ਸੀ ਕਿ ਅੱਗੇ ਵਾਲੇ ਲੈਬਜ਼ ਇਹ ਮੁੱਦਿਆਂ 'ਤੇ ਸੰਜੀਦਗੀ ਨਾਲ ਸੋਚ ਰਹੇ ਸਨ।
ਅਕਾਦਮਿਕ ਗੁਟ ਅਤੇ ਗੈਰ-ਨਫ਼ਾ ਸੰਸਥਾਵਾਂ—ਜਿਵੇਂ CHAI (Berkeley), Future of Humanity Institute, Center for Security and Emerging Technology ਆਦਿ—alignment ਰਣਨੀਤੀਆਂ, interpretability ਟੂਲ ਅਤੇ ਸ਼ਾਸਨ ਫਰੇਮਵਰਕ ਤੇ ਕੰਮ ਕਰ ਰਹੀਆਂ ਸਨ। DeepMind ਅਤੇ OpenAI ਨੇ ਵੀ ਅੰਦਰੂਨੀ ਸੁਰੱਖਿਆ ਟੀਮਾਂ ਬਣਾਈਆਂ ਅਤੇ reward learning, scalable oversight ਅਤੇ value alignment ਜਿਹੜੇ ਵਿਸ਼ਿਆਂ 'ਤੇ ਕੰਮ ਜਾਰੀ ਕੀਤਾ।
Early 2020s ਤੱਕ ਮੁੱਖ ਲੈਬਜ਼ ਅਤੇ ਟੈਕ ਕੰਪਨੀਆਂ ਵਿਚ ਮੁਕਾਬਲੇ ਦੇ ਦਬਾਅ ਨੇ ਮਾਡਲਾਂ ਦੇ ਤੇਜ਼ ਸਕੇਲਿੰਗ ਅਤੇ ਤੇਜ਼ ਡਿਪਲੋਇਮੈਂਟ ਵੱਲ ਧੱਕਿਆ। ਜਨਤਕ ਡੈਮੋ ਅਤੇ ਕਮਰਸ਼ਲ APIs ਨੇ ਜੈਨਰੇਟਿਵ AI ਦੀ ਬੇਹਦ ਮੰਗ ਦਿਖਾਈ, ਜਿਸ ਨਾਲ ਨਿਵੇਸ਼ ਆਇਆ।
ਉਸੇ ਸਮੇਂ, ਬਹੁਤ ਸਾਰੇ ਰਿਸਰਚਰ ਕਹਿੰਦੇ ਸਨ ਕਿ ਸੁਰੱਖਿਆ, ਭਰੋਸੇਯੋਗਤਾ ਅਤੇ ਸ਼ਾਸਨ ਸਮਰੱਥਾ ਵਧਣ ਦੀ ਰਫਤਾਰ ਨਾਲ ਨਹੀਂ ਚੱਲ ਰਹੀਆਂ। ਅਨੁਕੂਲਤਾ ਲਈ ਤਕਨੀਕੀ ਸੁਝਾਵ ਅਜੇ ਸ਼ੁਰੂਆਤੀ ਸਨ, ਫੇਲਿਅਰ ਮੋਡਾਂ ਦੀ ਸਮਝ ਸੀਮਿਤ ਸੀ, ਅਤੇ ਮੁਲਾਂਕਣ ਅਭਿਆਸ ਵਿਕਸਤ ਹੋ ਰਹੇ ਸਨ।
ਇਹ ਟਕਰਾਅ—ਅਤੇ ਤੇਜ਼, ਜਨਰਲ ਮਾਡਲਾਂ ਨੂੰ ਤਿਆਰ ਕਰਨ ਦੀ ਚਾਹਤ—Anthropic ਦੀ ਸਥਾਪਨਾ ਤੋਂ ਪਹਿਲਾਂ ਦੇ ਰਿਸਰਚ ਵਾਤਾਵਰਣ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦੀ ਸੀ।
Anthropic 2021 ਵਿੱਚ ਭਰਾ-ਭੈਣ Dario ਅਤੇ Daniela Amodei ਅਤੇ ਉਹਨਾਂ ਦੇ ਕੁਝ ਸਾਥੀਆਂ ਵੱਲੋਂ ਸਥਾਪਿਤ ਕੀਤਾ ਗਿਆ। ਇਹ ਸਾਰੇ ਲੋਕ ਓਲੇ OpenAI ਅਤੇ ਹੋਰ ਉਦਯੋਗਕ ਲੈਬਜ਼ ਵਿੱਚ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ 'ਤੇ ਕਾਰਗਰ ਅਨੁਭਵ ਰੱਖਦੇ ਸਨ।
Dario ਨੇ OpenAI ਵਿੱਚ ਭਾਸ਼ਾਈ ਮਾਡਲ ਟੀਮ ਦੀ ਅਗਵਾਈ ਕੀਤੀ ਸੀ ਅਤੇ scaling laws, interpretability ਅਤੇ AI safety 'ਤੇ ਮਹੁਤਵਪੂਰਕ ਕੰਮ ਦਿੱਤਾ। Daniela ਨੇ OpenAI ਵਿੱਚ ਸੇਫਟੀ ਅਤੇ ਨੀਤੀ ਕੰਮ ਦੀ ਅਗਵਾਈ ਕੀਤੀ ਅਤੇ ਪਹਿਲਾਂ ਨਿਊਰੋਸਾਇੰਸ ਅਤੇ ਕਮਪਿਊਟੇਸ਼ਨਲ ਅਧਿਐਨ 'ਚ ਕੰਮ ਕੀਤਾ—ਜੋ ਜਟਿਲ ਸਿਸਟਮਾਂ ਦੇ ਵਿਹਾਰ ਅਤੇ ਫੇਲਿਅਰ ਪੈਟਰਨਾਂ ਨੂੰ ਸਮਝਣ 'ਤੇ ਕੇਂਦਰਿਤ ਸੀ। ਉਨ੍ਹਾਂ ਦੇ ਨਾਲ ਉਹ ਰਿਸਰਚਰ, ਇੰਜੀਨੀਅਰ ਅਤੇ ਨੀਤੀ ਵਿਸ਼ੇਸ਼ਗਿਆ ਵੀ ਸਨ ਜੋ OpenAI, Google Brain, DeepMind ਆਦਿ ਵਿਖੇ ਕੰਮ ਕਰ ਚੁੱਕੇ ਸਨ।
2020–2021 ਦੀ ਅਵਧੀ ਤਕ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲ ਸਿਫਾਰਸ਼ੀ ਰਿਸਰਚ ਤੋਂ ਅਸਲੀ ਪ੍ਰਣਾਲੀਆਂ ਤੱਕ ਬਦਲੇ ਹੋਏ ਸਨ ਜੋ ਉਤਪਾਦਾਂ, ਯੂਜ਼ਰਾਂ ਅਤੇ ਜਨਤਕ ਗੱਲ-ਬਾਤ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰ ਰਹੇ ਸਨ। ਸਥਾਪਕ ਸਮੂਹ ਨੇ ਤੇਜ਼ ਸਮਰੱਥਾ ਵਧੋ-ਚੜ੍ਹੋ, ਉਭਰਦੀਆਂ ਵਿਵਹਾਰਕਾਂ ਅਤੇ ਅਜੇ ਤੱਕ ਅਪ-specified ਸੁਰੱਖਿਆ ਤਕਨੀਕਾਂ ਨੂੰ ਨੇੜੇ ਤੋਂ ਵੇਖਿਆ।
ਕੁਝ ਮੁੱਖ ਚਿੰਤਾਵਾਂ ਜਿਨ੍ਹਾਂ ਨੇ Anthropic ਬਨਾਉਣ ਲਈ ਪ੍ਰੇਰਿਤ ਕੀਤਾ:
Anthropic ਨੂੰ ਇੱਕ ਐਸਾ AI ਰਿਸਰਚ ਕੰਪਨੀ ਵਜੋਂ ਸੋਚਿਆ ਗਿਆ ਸੀ ਜਿਸਦਾ ਕੇਂਦਰ ਨਿਯੰਤਰਣਯੋਗਤਾ ਅਤੇ ਸੁਰੱਖਿਆ ਹੋਵੇ—ਸੁਰੱਖਿਆ ਨੂੰ ਅਖੀਰਲਾ ਜੋੜ ਨਹੀਂ ਸਮਝਿਆ ਗਿਆ।
ਸ਼ੁਰੂ ਤੋਂ ਹੀ, Anthropic ਦਾ ਦ੍ਰਿਸ਼ਟਿਕੋਣ ਅੱਗੇ ਦੀਆਂ AI ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣਾ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਵੱਧ ਸਮਝਣਯੋਗ, ਨਿਯੰਤਰਣਯੋਗ ਅਤੇ ਉਪਯੋਗੀ ਬਣਾਉਣਾ ਸੀ। ਇਹਦਾ ਅਰਥ ਸੀ:
ਸਥਾਪਕ ਇੱਕ ਐਸੀ ਸੰਸਥਾ ਬਣਾਉਣ ਦਾ ਮੌਕਾ ਵੇਖਦੇ ਸਨ ਜਿੱਥੇ ਮਾਡਲਾਂ ਦੇ ਸਕੇਲ, ਸਮਰੱਥਾ ਖੋਲ੍ਹਣ ਅਤੇ ਗਾਹਕ ਸਾਥੀਆਂ ਦੀਆਂ ਚੋਣਾਂ ਸਿਸਟਮਿਕ ਸੁਰੱਖਿਆ ਅਤੇ ਨੈਤਿਕਤਾ ਧਰਮਾਂ 'ਤੇ ਫਿਲਟਰ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, ਨਾ ਕਿ ਹਰੇਕ ਫੈਸਲੇ ਨੂੰ ਵਪਾਰਕ ਦਬਾਅ ਹੇਠਾਂ ਕੱਢਿਆ ਜਾਵੇ।
Anthropic ਦੀਆਂ ਪਹਿਲੀਆਂ ਭਰਤੀਆਂ ਇਸ ਫ਼ਿਲਾਸਫੀ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਸਨ। ਸ਼ੁਰੂਆਤੀ ਟੀਮ ਵਿੱਚ ਸ਼ਾਮਲ ਸੀ:
ਇਹ ਮਿਕਸ Anthropic ਨੂੰ AI ਵਿਕਾਸ ਨੂੰ ਸਮਾਜ-ਤਕਨੀਕੀ ਪ੍ਰਾਜੈਕਟ ਵਜੋਂ ਦੇਖਣ ਦੀ ਸਮਰੱਥਾ ਦਿੰਦਾ ਸੀ, ਨਾ ਕਿ ਸਿਰਫ਼ ਇੰਜੀਨੀਅਰਿੰਗ ਚੁਣੌਤੀ। ਮਾਡਲ ਡਿਜ਼ਾਈਨ, ਢਾਂਚਾ, ਮੁਲਾਂਕਣ ਅਤੇ ਡਿਪਲੋਇਮੈਂਟ ਨੀਤੀਆਂ ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਰਿਸਰਚਰਾਂ, ਇੰਜੀਨੀਅਰਾਂ ਅਤੇ ਨੀਤੀ ਕਰਮਚਾਰੀਆਂ ਦੁਆਰਾ ਇਕੱਠੇ ਵਿਚਾਰੀਆਂ ਜਾਂਦੀਆਂ ਸਨ।
ਕੰਪਨੀ ਦੀ ਸਿਰਜਣਾ ਉਸ ਸਮੇਂ ਦੀਆਂ ਗਹਿਰੀਆਂ ਚਰਚਾਵਾਂ ਨਾਲ ਮਿਲਦੀ ਹੈ: ਖੁੱਲ੍ਹੀ ਪਹੁੰਚ ਬਨਾਮ gated APIs, open-sourcing ਬਨਾਮ ਕੰਟਰੋਲਡ ਰਿਲੀਜ਼,compute ਦਾ ਕੇਂਦਰੀਕਰਨ, ਅਤੇ ਲੰਬੀ ਅਵਧੀ ਦੀ ਅਨੁਕੂਲਤਾ ਦੇ ਖਤਰੇ।
Anthropic ਨੇ ਆਪਣੇ ਆਪ ਨੂੰ ਇਸ ਪ੍ਰਸ਼ਨ ਦਾ ਇੱਕ ਜਵਾਬ ਦਿੰਦਾ ਰੂਪ ਵਿੱਚ ਰੱਖਿਆ: ਇੱਕ ਫਰੰਟਿਅਰ AI ਲੈਬ ਜਿਸ ਦੀ ਬਣਤਰ, ਤਰੀਕੇ ਅਤੇ ਸਭਿਆਚਾਰ ਸੁਰੱਖਿਆ ਅਤੇ ਲੰਬੀ-ਅਵਧੀ ਦੀ ਜ਼ਿੰਮੇਵਾਰੀ ਦੇ ਆਸ-ਪਾਸ ਘੁੰਮਦੇ ਹੋਣ, ਪਰ ਫਿਰ ਵੀ ਰਿਸਰਚ ਅੱਗੇ ਵਧਾਉਣ।
ਸ਼ਨ, ਮੁੱਲ ਅਤੇ AI ਸੁਰੱਖਿਆ 'ਤੇ ਧਿਆਨ
Anthropic ਦਾ ਮਿਸ਼ਨ ਸਪਸ਼ਟ ਸੀ: ਐਸੇ AI ਸਿਸਟਮ ਬਣਾਉਣਾ ਜੋ ਭਰੋਸੇਯੋਗ, ਵਿਆਖਿਆयोगਯ ਅਤੇ ਨਿਯੰਤਰਣਯੋਗ ਹੋਣ ਅਤੇ ਸਮਾਜ ਨੂੰ ਲਾਭ ਪਹੁੰਚਾਉਣ। ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਕੰਪਨੀ ਨੇ ਆਪਣੇ ਕੰਮ ਨੂੰ ਸਿਰਫ ਸਮਰੱਥਾ ਬਣਾਣਾ ਨਹੀਂ, ਬਲਕਿ ਉਦੋਂ ਵੀ ਅੱਗੇ ਆਉਣ ਵਾਲੇ ਪ੍ਰਭਾਵਾਂ ਦੇ ਰੂਪ-ਰੰਗਾਂ ਨੂੰ ਆਕਾਰ ਦੇਣ ਵਜੋਂ ਵੇਖਿਆ।
Anthropic ਆਪਣੇ AI ਵਿਹਾਰ ਦੇ ਮੁੱਲਾਂ ਨੂੰ ਤਿੰਨ ਸ਼ਬਦਾਂ ਵਿੱਚ ਸਰਲ ਕਰਦਾ ਹੈ: helpful, honest, harmless।
ਇਹ ਮੁੱਲ ਬੁਲਾਅ ਨਹੀਂ; ਇੰਜੀਨੀਅਰਿੰਗ ਦੇ ਹਦਫ਼ ਹਨ। ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ, ਮੁਲਾਂਕਣ ਸੂਟ ਅਤੇ ਡਿਪਲੋਇਮੈਂਟ ਨੀਤੀਆਂ ਸਾਰੇ ਇਨ੍ਹਾਂ ਤਿੰਨ ਮਾਪਦੰਡਾਂ ਦੇ ਅਧਾਰ 'ਤੇ ਤਿਆਰ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।
Anthropic ਸੁਰੱਖਿਆ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਬਾਅਦ ਵਿਚ ਦੀ ਚੀਜ਼ ਨਹੀਂ ਮੰਨਦੀ। ਇਸ ਨੇ ਵੱਡੇ ਨਿਵੇਸ਼ ਕੀਤੇ:
ਕੰਪਨੀ ਦੀਆਂ ਜਨਤਕ ਗੱਲਬਾਤਾਂ ਵਿੱਚ ਲੰਬੀ-ਅਵਧੀ ਵਾਲੇ ਖਤਰਿਆਂ 'ਤੇ ਜ਼ੋਰ ਅਤੇ ਪੇਸ਼ਗੋਈਯੋਗ ਵਿਹਾਰ ਦੀ ਜ਼ਰੂਰਤ ਦੀ ਵਾਰ-ਵਾਰ ਬੇਨਤੀ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਆਪਣੇ ਮੁੱਲਾਂ ਨੂੰ ਕਾਰਜਨਵੀਂ ਬਣਾਉਣ ਲਈ, Anthropic ਨੇ Constitutional AI ਨੂੰ ਪੇਸ਼ ਕੀਤਾ। ਮਨੁੱਖੀ ਫੀਡਬੈਕ 'ਤੇ ਹੀ ਆਧਾਰ ਨ ਰੱਖ ਕੇ, Constitutional AI ਉੱਚ-ਸਤਰੀਆਂ ਨੀਤੀਆਂ ਦੀ ਲਿਖਤੀ "ਸੰਵਿਧਾਨ" ਵਰਤਦਾ ਹੈ—ਜੋ ਮਨੁੱਖੀ ਅਧਿਕਾਰਾਂ ਅਤੇ ਆਮ ਸੁਰੱਖਿਆ ਨਿਯਮਾਂ ਵਰਗੀਆਂ ਪ੍ਰਮਾਣਿਤ ਰੁਕਾਵਟਾਂ 'ਤੇ ਆਧਾਰਿਤ ਹੁੰਦੀਆਂ ਹਨ।
ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਾਇਆ ਜਾਂਦਾ ਹੈ:
ਇਹ ਤਰੀਕਾ alignment supervision ਨੂੰ ਸਕੇਲ ਕਰਦਾ ਹੈ: ਇੱਕ ਢੁਕਵੀਂ ਤਰੀਕੇ ਨਾਲ ਚੁਣੀਆਂ ਗਈਆਂ ਨੀਤੀਆਂ ਬਹੁਤ ਸਾਰੀਆਂ ਟਰੇਨਿੰਗ ਇੰਟਰੈਕਸ਼ਨਾਂ ਨੂੰ ਦਿਸ਼ਾ ਦੇ ਸਕਦੀਆਂ ਹਨ ਬਿਨਾਂ ਹਰ ਜਵਾਬ ਲਈ ਮਨੁੱਖੀ ਮਾਪਣ ਦੀ ਲੋੜ ਪਏ। ਇਸ ਨਾਲ ਵਿਹਾਰ ਵਧੇਰੇ ਪਾਰਦਰਸ਼ੀ ਬਣਦਾ ਹੈ ਕਿਉਂਕਿ ਨਿਯਮ ਪੜ੍ਹੇ ਅਤੇ ਬਦਲੇ ਜਾ ਸਕਦੇ ਹਨ।
Anthropic ਦਾ ਮਿਸ਼ਨ ਅਤੇ ਸੁਰੱਖਿਆ 'ਤੇ ਧਿਆਨ ਇਹ ਤੈਅ ਕਰਦਾ ਹੈ ਕਿ ਕਿਹੜੇ ਰਿਸਰਚ ਦਿਸ਼ਾਵਾਂ ਨੂੰ ਤਰਜੀਹ ਦਿੱਤੀ ਜਾਵੇ ਅਤੇ ਉਤਪਾਦ ਕਿਵੇਂ ਅਨੁਕੂਲ ਕੀਤੇ ਜਾਣ।
ਰਿਸਰਚ ਪਾਸੇ, ਇਹ ਪ੍ਰੋਜੈਕਟਾਂ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦਾ ਹੈ ਜੋ:
ਉਤਪਾਦ ਪਾਸੇ, Claude ਵਰਗੇ ਟੂਲ ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਸੁਰੱਖਿਆ ਨਿਯਮਾਂ ਨਾਲ ਡਿਜ਼ਾਈਨ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਰਿਫਿਊਜ਼ਲ ਵਿਹਾਰ, ਸਮੱਗਰੀ ਫਿਲਟਰੀੰਗ ਅਤੇ ਸੰਵਿਧਾਨਕ ਪ੍ਰਿੰਸੀਪਲਾਂ 'ਤੇ ਆਧਾਰਿਤ ਸਿਸਟਮ ਪ੍ਰਾਂਪਟ ਉਤਪਾਦ ਦੇ ਮੁੱਖ ਲੱਛਣ ਹਨ। ਐਨਟਰਪ੍ਰਾਈਜ਼ ਪੇਸ਼ਕਸ਼ਾਂ ਵਿੱਚ ਆਡੀਟੇਬਿਲਿਟੀ, ਸਪਸ਼ਟ ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ ਅਤੇ ਪੇਸ਼ਗੋਈਯੋਗ ਵਿਹਾਰ 'ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ।
ਆਪਣੇ ਮਿਸ਼ਨ ਨੂੰ ਉਚਿਤ ਤਕਨੀਕੀ ਚੋਣਾਂ ਨਾਲ ਜੁੜਕੇ—helpful, honest, harmless ਵਿਵਹਾਰ; constitutional training ਪੈਦਾ ਕਰਨ; interpretability ਅਤੇ ਸੁਰੱਖਿਆ ਰਿਸਰਚ—Anthropic ਨੇ ਆਪਣੀ ਇਤਿਹਾਸ ਅਤੇ ਵਿਕਾਸ ਨੂੰ ਇਸ ਸਵਾਲ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਰੱਖਿਆ ਕਿ ਵਧੀ ਹੋਈ ਸਮਰੱਥਾ ਵਾਲੇ AI ਸਿਸਟਮਾਂ ਨੂੰ ਮਨੁੱਖੀ ਮੁੱਲਾਂ ਨਾਲ ਕਿਵੇਂ ਜੋੜਿਆ ਜਾ ਸਕੇ।
ਸ਼ੁਰੂ ਦੇ ਮਹੀਨਿਆਂ ਤੋਂ ਹੀ Anthropic ਨੇ ਸੁਰੱਖਿਆ ਰਿਸਰਚ ਅਤੇ ਸਮਰੱਥਾ ਕਾਰਜ ਨੂੰ ਇੱਕ-ਦੂਜੇ ਨਾਲ ਜੋੜਿਆ। ਕੰਪਨੀ ਦੀਆਂ ਮੁੱਖ ਤਕਨੀਕੀ ਤਰਜੀਹਾਂ ਕੁਝ ਅਹੰਕਾਰਕ ਧਾਰਾਵਾਂ ਵਿੱਚ ਵੰਡੀ ਜਾ ਸਕਦੀਆਂ ਹਨ।
ਸ਼ੁਰੂਆਤੀ ਰਿਸਰਚ ਇਹ ਵੇਖਣ ਉੱਤੇ ਕੇਂਦਰਤ ਸੀ ਕਿ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲ ਵੱਖ-ਵੱਖ ਪ੍ਰਾਂਪਟ, ਟ੍ਰੇਨਿੰਗ ਸਿਗਨਲ ਅਤੇ ਡਿਪਲੋਇਮੈਂਟ ਸੈਟਿੰਗਾਂ 'ਚ ਕਿਵੇਂ ਵਰਤਾਉਂਦੇ ਹਨ। ਟੀਮਾਂ ਨੇ ਸਿਸਟਮੈਟਿਕ ਤੌਰ 'ਤੇ ਪੁੱਛਿਆ:
ਇਸ ਕੰਮ ਨੇ “helpfulness” ਅਤੇ “harmlessness” ਦੇ ਢੰਗਾਂ ਦਾ ਸਥਿਰ ਮੁਲਾਂਕਣ ਕੀਤਾ ਅਤੇ ਅੰਦਰੂਨੀ ਬੈਂਚਮਾਰਕ ਬਣਾਏ ਜੋ ਦੋਹਾਂ ਵਿਚਕਾਰ ਟਰੇਡ-ਆਫ਼ ਨੂੰ ਟਰੈਕ ਕਰਦੇ ਹਨ।
Anthropic ਨੇ RLHF ਦੇ ਅਧਾਰ 'ਤੇ ਕੰਮ ਕੀਤਾ, ਪਰ ਆਪਣੀਆਂ ਤਰ੍ਹਾਂ ਵੀ ਸੁਧਾਰ ਕਿੱਥੇ। ਰਿਸਰਚਰਾਂ ਨੇ ਪ੍ਰਯੋਗ ਕੀਤੇ:
ਇਹ ਕੋਸ਼ਿਸ਼ਾਂ Constitutional AI ਦੇ ਸ਼ੁਰੂਆਤੀ ਕੰਮ ਵਿੱਚ ਫੀਡ ਹੋਈਆਂ: ਇਕ ਲਿਖਤੀ ਸੰਵਿਧਾਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਾਡਲਾਂ ਨੂੰ ਸਿੱਖਾਉਣਾ, ਨਾ ਕਿ ਹਰ ਜਵਾਬ ਲਈ ਮਨੁੱਖੀ ਤਰਜੀਹ ਰੰਕਿੰਗ 'ਤੇ ਹੀ ਨਿਰਭਰ ਰਹਿਣਾ।
ਇੱਕ ਹੋਰ ਸ਼ੁਰੂਆਤੀ ਖੰਭ interpretability ਸੀ—ਇਹ ਦੇਖਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਿ ਮਾਡਲ ਅੰਦਰ "ਕੀ ਜਾਣਦਾ" ਹੈ। Anthropic ਨੇ ਨੈਟਵਰਕ ਫੀਚਰਾਂ ਅਤੇ ਸਿਰਕਿਟਾਂ 'ਤੇ ਪੇਪਰ ਦਿੱਤੇ, ਪਰਤਾਂ ਅਤੇ ਐਕਟਿਵੇਸ਼ਨਾਂ 'ਚ ਧਾਰਣਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ।
ਇਹ ਅਧਿਐਨ ਮਕੈਨਿਸ਼ਮਿਕ interpretability ਲਈ ਆਗਲਾ ਮਕਸਦ ਰੱਖਣ ਦੀ ਬੁਨਿਆਦ ਬਣੇ ਅਤੇ ਇਹ ਦਰਸਾਇਆ ਕਿ ਕੰਪਨੀ ਕਾਲੇ ਬਕਸੇ ਸਿਸਟਮਾਂ ਨੂੰ ਖੋਲ੍ਹਣ 'ਤੇ ਗੰਭੀਰ ਹੈ।
ਸਭ ਕੁਝ ਸਮਰੱਥ ਬਣਾਉਣ ਲਈ, Anthropic ਨੇ ਮੁਲਾਂਕਣ ਵਿੱਚ ਭਾਰੀ ਨਿਵੇਸ਼ ਕੀਤਾ। ਦੇਡੀਕੇਟਡ ਟੀਮਾਂ ਨੇ ਵਿਰੋਧੀ ਪ੍ਰਾਂਪਟ, ਦ੍ਰਿਸ਼-ਟੈਸਟ ਅਤੇ ਆਟੋਮੈਟਡ ਚੈੱਕ ਡਿਜ਼ਾਈਨ ਕੀਤੇ ਤਾਂ ਜੋ ਡਿਪਲੋਇਮੈਂਟ ਤੋਂ ਪਹਿਲਾਂ ਐਡਜ ਕੇਸ ਖੋਜੇ ਜਾ ਸਕਣ।
ਮੁਲਾਂਕਣ ਫਰੇਮਵਰਕਾਂ ਨੂੰ ਪਹਿਲੀ-ਸ਼੍ਰੇਣੀ ਰਿਸਰਚ ਆਰਟੀਫੈਕਟ ਮੰਨ ਕੇ—ਜਿਨ੍ਹਾਂ ਨੂੰ ਇਤਰਾਖੇ, ਵਰਜ਼ਨ ਕੀਤੇ ਅਤੇ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ ਗਿਆ—Anthropic ਨੇ ਤੁਰੰਤ ਹੀ AI ਰਿਸਰਚ ਭਾਈਚਾਰੇ ਵਿੱਚ ਇੱਕ ਸਖ਼ਤ, ਸੁਰੱਖਿਆ-ਚਲਿਤ ਪਧਤੀ ਲਈ ਪ੍ਰਤੀਖਿਆਪੂਰਨ ਖਿਆਤੀ ਹਾਸਲ ਕੀਤੀ।
Anthropic ਦੀ ਯਾਤਰਾ ਦੀ ਸ਼ੁਰੂਆਤ ਬਹੁਤ ਵੱਡੇ ਫੰਡ ਨਾਲ ਹੋਈ। ਜਨਤਕ ਰਿਪੋਰਟਾਂ ਦੇ ਅਨੁਸਾਰ ਇਹਨਾਂ ਨੇ 2020–2021 ਵਿੱਚ seed ਫੇਜ਼ ਅਤੇ 2021 ਵਿੱਚ ਲਗਭਗ $100M+ ਵਾਲਾ Series A ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜਿਸ ਨਾਲ ਮੁੱਖ ਰਿਸਰਚਰਾਂ ਦੀ ਭਰਤੀ ਅਤੇ ਪਹਿਲੀਆਂ ਮਾਡਲ ਟ੍ਰੇਨਿੰਗ ਚੱਲ ਸਕਣ।
2022 ਵਿੱਚ ਇੱਕ ਵੱਡੇ Series B (ਰਿਪੋਰਟ ਕੀਤੇ ਅਨੁਸਾਰ ਲਗਭਗ $580M) ਦਾ ਐਲਾਨ ਹੋਇਆ। ਇਹ ਰਾਊਂਡ ਤਕਨੀਕੀ ਨਿਵੇਸ਼ਕਾਂ ਅਤੇ ਕੁਝ crypto-ਸਬੰਧੀ ਪੂੰਜੀਆਂ ਨਾਲ ਸਮਰਥਿਤ ਸੀ, ਜਿਸ ਨੇ ਕੰਪਨੀ ਨੂੰ ਵੱਡੇ ਪੈਮਾਨੇ 'ਤੇ AI ਰਿਸਰਚ ਵਿੱਚ ਮੁਕਾਬਲਾ ਕਰਨ ਯੋਗ ਬਣਾਇਆ।
2023 ਤੋਂ ਬਾਅਦ, ਫੰਡਿੰਗ ਵੱਡੇ ਕਲਾਉਡ ਭਾਗੀਦਾਰੀਆਂ ਵੱਲ ਸਰੀਕੀ ਹੋ ਗਈ। ਜਨਤਕ ਐਲਾਨਾਂ ਵਿੱਚ Google ਅਤੇ Amazon ਨਾਲ ਬਹੁ-ਅਰਬ ਡਾਲਰ ਦੀਆਂ ਰਣਨੀਤਿਕ ਭਾਗੀਦਾਰੀਆਂ ਦਿਖਾਈ ਗਈਆਂ, ਜੋ ਸ਼ੇਅਰ ਹਿੱਸਾ ਅਤੇ ਡੀਪ ਕਲਾਉਡ/ਹਾਰਡਵੇਅਰ ਵਚਨਬੱਧਤਾਵਾਂ ਦੀ ਸੰਰਚਨਾ 'ਤੇ ਆਧਾਰਤ ਸਨ। ਇਹ ਭਾਗੀਦਾਰੀਆਂ ਪੂੰਜੀ ਦੇ ਨਾਲ-ਨਾਲ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ GPU ਅਤੇ TPU ਢਾਂਚੇ ਦੀ ਐਕਸੈਸ ਵੀ ਦੇਣ ਗਈਆਂ।
ਇਹ ਫੰਡ ਕੰਪਨੀ ਨੂੰ ਸਿੱਧੀ ਤਰ੍ਹਾਂ ਯੋਗ ਬਣਾਉਂਦਾ:
ਕੰਪਨੀ ਛੋਟੀ ਸਥਾਪਕ ਸਮੂਹ ਤੋਂ (ਜੋ ਜ਼ਿਆਦਾਤਰ OpenAI ਦੇ ਰਿਸਰਚਰ ਸਨ) ਇੱਕ ਵੱਡੀ ਸੰਗਠਨ ਵੱਲ ਵਧੀ। ਜਿਵੇਂ ਕਿ headcount ਸੈਂਕੜਿਆਂ ਵਿੱਚ ਵਧਿਆ, ਰਿਸਰਚ ਤੋਂ ਇਲਾਵਾ ਨਵੇਂ ਭੂਮਿਕਾ ਢੁਕਵੀਆਂ ਕੀਤੀਆਂ ਗਈਆਂ।
ਫੰਡ ਨੇ Anthropic ਨੂੰ ਇਹ ਭਰਤੀਆਂ ਕਰਨ ਯੋਗ ਬਣਾਇਆ:
ਇਹ ਮਿਲਾਪ ਦਰਸਾਉਂਦਾ ਕਿ Anthropic ਸੁਰੱਖਿਆ ਨੂੰ ਸਿਰਫ਼ ਰਿਸਰਚ ਥੀਮ ਨਹੀਂ, ਬਲਕਿ ਇਕ ਸੰਗਠਨਾਤਮਕ ਫੰਕਸ਼ਨ ਮੰੰਨਦਾ ਹੈ।
ਜਿਵੇਂ ਫੰਡ ਵਧੇ, Anthropic ਦੇ ਕੋਲ ਲੰਬੀ-ਅਵਧੀ ਰਿਸਰਚ ਅਤੇ ਲਘੁ-ਅਵਧੀ ਉਤਪਾਦ ਦੋਹਾਂ ਨੂੰ ਕਾਂਮ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਆ ਗਈ। ਸ਼ੁਰੂ ਵਿੱਚ ਜ਼ਿਆਦਾਤਰ ਸੰਸਾਧਨ ਮੁਢਲੀ ਰਿਸਰਚ ਅਤੇ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲਾਂ ਦੀ ਟ੍ਰੇਨਿੰਗ 'ਤੇ ਗਏ। ਬਾਅਦ ਵਿੱਚ ਰਾਊਂਡਾਂ ਅਤੇ ਰਣਨੀਤਿਕ ਕਲਾਉਡ ਭਾਗੀਦਾਰੀਆਂ ਨਾਲ ਕੰਪਨੀ ਯੋਗ ਹੋਈ ਕਿ:
ਨਤੀਜਾ ਇਹ ਹੋਇਆ ਕਿ ਇੱਕ ਛੋਟੀ, ਰਿਸਰਚ-ਭਾਰੀ ਸਥਾਪਨ ਟੀਮ ਤੋਂ ਇੱਕ ਵੱਡੀ, ਜਿਆਦਾ ਬਣੀਬੱਧ ਸੰਸਥਾ ਵੱਲ ਰੂਪਾਂਤਰਣ ਕੀਤਾ ਗਿਆ ਜੋ Claude ਨੂੰ ਵਪਾਰਕ ਉਤਪਾਦ ਵੱਜੋਂ ਤਿਆਰ ਕਰ ਸਕਦੀ ਸੀ, ਫਿਰ ਵੀ ਸੁਰੱਖਿਆ-ਨਿਆਤ ਕੁਝ ਅਹੰਕਾਰਕ ਰਿਸਰਚ ਅਤੇ ਅੰਦਰੂਨੀ ਗਵਰਨੈਂਸ ਪ੍ਰਥਾਵਾਂ ਵਿੱਚ ਨਿਵੇਸ਼ ਜਾਰੀ ਰਿਹਾ।
Claude Anthropic ਦੀ ਮੁੱਖ ਉਤਪਾਦ ਲਾਈਨ ਰਹੀ ਹੈ ਅਤੇ ਇਹ ਰਿਸਰਚ ਦਾ ਜਨਤਕ ਚਿਹਰਾ ਹੈ। ਪਹਿਲੇ invite-only ਰਿਲੀਜ਼ਾਂ ਤੋਂ Claude 3.5 Sonnet ਤਕ, ਹਰ ਜਨਰੇਸ਼ਨ ਨੇ ਸਮਰੱਥਾ ਵਧਾਉਣ ਨਾਲ-ਨਾਲ ਭਰੋਸੇਯੋਗਤਾ ਅਤੇ ਸੁਰੱਖਿਆ ਨੂੰ ਕੱਸਿਆ।
ਸ਼ੁਰੂਆਤੀ Claude ਵਰਜ਼ਨ 2022 ਅਤੇ 2023 ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ ਛੋਟੇ ਸਾਥੀਆਂ ਨਾਲ ਟੈਸਟ ਕੀਤੇ ਗਏ। ਇਹ ਜਨਰਲ-ਪਰਪਜ਼ ਟੈਕਸਟ ਸਹਾਇਕ ਵਜੋਂ ਲਿਖਾਈ, ਵਿਸ਼ਲੇਸ਼ਣ, ਕੋਡਿੰਗ ਅਤੇ ਗੱਲਬਾਤ ਲਈ ਬਣਾਏ ਗਏ ਸਨ। ਇਹ ਮਾਡਲ Anthropic ਦੇ harmless ਫੋਕਸ ਨੂੰ ਦਰਸਾਉਂਦੇ: ਖਤਰਨਾਕ ਬੇਨਤੀਆਂ 'ਤੇ ਜ਼ਿਆਦਾ consistent ਰਿਫਿਊਜ਼ਲ, ਸੀਮਾਵਾਂ ਦੀ ਸਪਸ਼ਟ ਵਿਵਰਣਤਾ, ਅਤੇ ਮਨੋਭਾਵ ਦੀ ਬਜਾਏ ਸੱਚਾਈ ਉੱਤੇ ਜ਼ੋਰ।
ਇਸੇ ਸਮੇਂ, Anthropic ਨੇ context length ਨੂੰ ਵਧਾਇਆ, ਜਿਸ ਨਾਲ Claude ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ ਅਤੇ ਬਹੁ-ਕਦਮ ਚੈਟਾਂ 'ਤੇ ਕੰਮ ਕਰਨ ਯੋਗ ਹੋਇਆ—ਜੋ ਸੰਖੇਪ, ਸੰਮਤ, ਅਤੇ ਰਿਸਰਚ ਵਰਕਫਲੋਜ਼ ਲਈ ਲਾਭਦਾਇਕ ਸੀ।
Claude 2 (mid-2023) ਨਾਲ Anthropic ਨੇ Claude app ਅਤੇ APIs ਰਾਹੀਂ ਐਕਸੈਸ ਚੌੜਾ ਕੀਤਾ। ਮਾਡਲ ਨੇ ਸੰਰਚਿਤ ਲਿਖਾਈ, ਕੋਡਿੰਗ ਅਤੇ ਜਟਿਲ ਨਿਰਦੇਸ਼ਾਂ ਨੂੰ ਫਾਲੋ ਕਰਨ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕੀਤਾ, ਅਤੇ ਲੰਬੇ context ਵਿੰਡੋ ਲਈ ਬਹਿਤਰੀ ਦਿਖਾਈ।
Claude 2.1 ਨੇ ਇਹ ਸੁਧਾਰ ਹੋਰ ਨਿਖਾਰੇ: ਤੱਥ-ਅਧਾਰਤ ਟਾਸਕਾਂ 'ਤੇ ਘੱਟ hallucinations, ਬਿਹਤਰ ਲੰਬੇ-ਪ੍ਰਸੰਗ ਯਾਦ, ਅਤੇ ਵਧੀਕ ਸੁਰੱਖਿਆ ਵਿਹਾਰ। ਐਨਟਰਪ੍ਰਾਈਜ਼ ਇਸਨੂੰ ਗਾਹਕ ਸਹਾਇਤਾ ਖਾਕੇ, ਨੀਤੀ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਅੰਦਰੂਨੀ ਗਿਆਨ ਸਹਾਇਕਾਂ ਲਈ ਵਰਤਣ ਲੱਗੇ।
Claude 3 ਪਰਿਵਾਰ (Opus, Sonnet, Haiku) ਨੇ ਤਰਕਸ਼ਕਤੀ, ਗਤੀ ਅਤੇ ਮਲਟੀਮੋਡਲ ਇਨਪੁਟ 'ਚ ਵੱਡੇ ਕਦਮ ਲਏ, ਜਿਸ ਨਾਲ ਯੂਜ਼ਰ ਹੁਣ ਚਿੱਠੀਆਂ ਤੋਂ ਇਲਾਵਾ ਚਿੱਤਰ ਅਤੇ ਜਟਿਲ ਦਸਤਾਵੇਜ਼ ਵੀ ਪੁੱਛ ਸਕਦੇ ਸਨ। ਵੱਡੇ context ਵਿੰਡੋ ਅਤੇ ਨਿਰਦੇਸ਼ਾਂ ਦੇ ਅਨੁਸ਼ਾਰ ਸੁਧਾਰਿਆ ਵਿਹਾਰ ਨਵੇਂ ਉਪਯੋਗਾਂ ਲਈ ਰਸਤੇ ਖੋਲ੍ਹੇ—ਜਿਵੇਂ ਐਨਾਲਿਟਿਕਸ, ਉਤਪਾਦ ਵਿਕਾਸ ਅਤੇ ਡੇਟਾ ਖੋਜ।
Claude 3.5 Sonnet (released mid-2024) ਨੇ ਇਸ ਨੂੰ ਹੋਰ ਅੱਗੇ دھਕੇਆ। ਇਸਨੇ ਮੱਧ-ਕੀਮਤ ਟੀਅਰ 'ਤੇ ਉੱਚ ਤਰਕਸ਼ਕਤੀ ਅਤੇ ਕੋਡਿੰਗ ਕੁਆਲਟੀ ਦਿਤੀ, ਤੇਜ਼ ਜਵਾਬ ਦਿੱਤੇ ਜੋ ਇੰਟਰਐਕਟਿਵ ਉਤਪਾਦਾਂ ਲਈ موزੂਨ ਰਹੇ। ਇਹ ਟੂਲ-ਯੂਜ਼ ਅਤੇ ਸੰਰਚਿਤ ਆਉਟਪੁੱਟ 'ਚ ਵੀ ਖਾਸ ਸੁਧਾਰ ਲਿਆ, ਜਿਹੜਾ function calling, ਡੇਟਾਬੇਸ ਅਤੇ ਬਾਹਰੀ APIs ਨਾਲ ਇੰਟੈਗਰੇਸ਼ਨ ਨੂੰ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ।
ਹਰ ਵਰਜ਼ਨ 'ਚ Anthropic ਨੇ ਪ੍ਰਦਰਸ਼ਨ ਵਾਧੇ ਨੂੰ ਵਧੀਕ ਸੁਰੱਖਿਆ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਜੋੜਿਆ। Constitutional AI, ਵਿਸਤ੍ਰਿਤ ਰੈਡ-ਟੀਮਿੰਗ, ਅਤੇ ਸਿਸਟਮੈਟਿਕ ਮੁਲਾਂਕਣ ਹਰ ਰਿਲੀਜ਼ ਨਾਲ ਅਪਡੇਟ ਹੁੰਦੇ ਰਹੇ ਤਾਂ ਜੋ ਰਿਫਿਊਜ਼ਲ ਵਿਹਾਰ, ਗੋਪਨੀਯਤਾ ਸੰਰੱਖਣ ਅਤੇ ਪਾਰਦਰਸ਼ਤਾ ਸਮਰੱਥਾ ਵਧਦੀ ਰਹੇ।
ਯੂਜ਼ਰ ਅਤੇ ਗਾਹਕ ਫੀਡਬੈਕ ਨੇ ਵੀ ਇਸ ਵਿਕਾਸ 'ਚ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ ਨਿਭਾਈ: ਲੌਗ (ਖਤਰਨਾਕ ਨਿੱਜੀ ਨੀਤੀਆਂ ਦੇ ਅਧੀਨ ਸੰਭਾਲੇ ਜਾਂਦੇ), ਸਪੋਰਟ ਟਿਕਟ ਅਤੇ ਭਾਗੀਦਾਰ ਪ੍ਰੋਗਰਾਮਾਂ ਨੇ ਦਰਸਾਇਆ ਕਿ ਕਿੱਥੇ Claude ਨਿਰਦੇਸ਼ਾਂ ਨੂੰ ਗਲਤ ਸਮਝਦਾ, ਜ਼ਿਆਦਾ ਰਿਫਿਊਜ਼ ਕਰਦਾ ਜਾਂ ਅਸਪੱਸ਼ਟ ਜਵਾਬ ਦਿੰਦਾ। ਇਹ ਜਾਣਕਾਰੀਆਂ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ, ਮੁਲਾਂਕਣ ਸੂਟ ਅਤੇ ਉਤਪਾਦ ਡਿਜ਼ਾਈਨ ਵਿੱਚ ਫੀਡ ਕੀਤੀਆਂ ਗਈਆਂ, ਜਿਸ ਨਾਲ Claude ਇੱਕ ਪ੍ਰਯੋਗਾਤਮਕ ਸਹਾਇਕ ਤੋਂ ਤੱਕਣੀਕੀ-ਤਿਆਰ ਉਤਪਾਦ ਵੱਲ ਵਧਿਆ।
Anthropic ਦੇ ਮਾਡਲ ਅਪ-ਟੂ-ਰੇਸਰਚ ਲੈਬ ਤੋਂ ਪ੍ਰੋਡਕਸ਼ਨ ਸਿਸਟਮਾਂ ਤੱਕ ਨਹੀਂ ਰਹਿੰਦੜੇ; ਉਹਨਾਂ ਦੀ ਮਾਂਗ ਨੇ ਉਹਨਾਂ ਨੂੰ ਉਦਯੋਗਾਂ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਪ੍ਰਵਾਨ ਕੀਤਾ।
ਅਗਲੇ ਉਪਭੋਗਤਾ ਸੈਗਮੈਂਟ ਪ੍ਰਮੁੱਖ ਰਹੇ:
ਇਸ ਮਿਲਾਵਟ ਨੇ Anthropic ਨੂੰ Claude ਨੂੰ ਕਾਪਲਾਈਅੰਸ-ਭਾਰ ਪਰੀਬੇਸ਼ ਅਤੇ ਫਿਰ ਲਚਕੀਲੇ ਪ੍ਰੋਡਕਟ ਟੀਮਾਂ ਦੋਹਾਂ ਲਈ ਟਿਊਨ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕੀਤੀ।
ਕਈ ਜਨਤਕ ਸਹਿਯੋਗ Anthropic ਦੀ ਮੈਦਾਨ-ਪਹੁੰਚ ਦਰਸਾਉਂਦੇ ਹਨ:
ਇਹ ਸਮਝੌਤੇ Anthropic ਦੀ ਪਹੁੰਚ ਨੂੰ ਸਿੱਧੀ API ਗਾਹਕਾਂ ਤੋਂ ਕਾਫੀ ਬਾਹਰ ਲੈ ਗਏ।
Anthropic ਨੇ ਆਪਣੀ API ਨੂੰ ਇੱਕ ਜਨਰਲ-ਪਰਪਜ਼ reasoning ਅਤੇ ਸਹਾਇਕ ਲੇਅਰ ਵਜੋਂ ਦਰਸਾਇਆ, ਇੱਕ ਸੰਕੀর্ণ ਚੈਟ ਸੇਵਾ ਦੀ ਤਰ੍ਹਾਂ ਨਹੀਂ। ਡੌਕਯੂਮੇਂਟੇਸ਼ਨ ਅਤੇ ਉਦਾਹਰਨਾਂ ਵਿੱਚ ਜ਼ੋਰ ਦਿੱਤਾ ਗਿਆ:
ਇਸ ਨਾਲ Claude ਨੂੰ ਮੌਜੂਦਾ ਉਤਪਾਦਾਂ, ਅੰਦਰੂਨੀ ਐਪਲੀਕੇਸ਼ਨਾਂ ਅਤੇ ਡੇਟਾ ਪਾਈਪਲਾਈਨਾਂ ਵਿੱਚ ਮਿਲਾਉਣਾ ਆਸਾਨ ਹੋ ਗਿਆ।
ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ 'ਚ ਕੁਝ ਪੈਟਰਨ ਉਭਰੇ:
ਇਹ ਵਰਤੋਂ ਆਮਤੌਰ 'ਤੇ Claude ਦੀ ਭਾਸ਼ਾਈ ਸਮਰੱਥਾ ਨੂੰ ਗਾਹਕ ਡੇਟਾ ਅਤੇ ਕਾਰੋਬਾਰੀ ਲਾਜਿਕ ਦੇ ਨਾਲ ਮਿਲਾਕੇ ਵਰਤਦੇ ਹਨ।
Anthropic ਦੀ ਵਪਾਰਕ ਸੰਦੇਸ਼ਿੰਗ ਨੇ ਹਮੇਸ਼ਾਂ ਸੁਰੱਖਿਆ, steerability ਅਤੇ ਪੇਸ਼ਗੋਈਯੋਗਤਾ ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ। ਡੌਕਸ ਅਤੇ ਮਾਰਕੀਟਿੰਗ ਪਤਰਾਂ ਵਿੱਚ ਇਹਨਾਂ ਨੂੰ ਹਾਈਲਾਈਟ ਕੀਤਾ ਗਿਆ:
ਖ਼ਤਰੇ-ਸੰਵੇਦਨਸ਼ੀਲ ਗਾਹਕਾਂ—ਵਿੱਤੀ ਸੰਸਥਾਵਾਂ, ਸਿਹਤ ਸੇਵਾ ਅਤੇ ਸਿੱਖਿਆ ਪਲੇਟਫਾਰਮ—ਲਈ ਇਹ ਦ੍ਰਿਸ਼ਟੀ ਅਕਸਰ ਕੱਚੀ ਸਮਰੱਥਾ ਵਰਗੇ ਹੀ ਮਹੱਤਵਪੂਰਨ ਸੀ, ਜਿਸ ਨੇ Claude ਨੂੰ ਕਿਸੇ ਕਿੱਸਮ ਦੇ ਉਤਪਾਦ ਵਿੱਚ ਕਿੱਥੇ ਅਤੇ ਕਿਵੇਂ ਤੈਨਾਤ ਕਰਨਾ ਹੈ, ਇਹ ਨਿਰਧਾਰਿਤ ਕੀਤਾ।
ਸ਼ੁਰੂ ਤੋਂ ਹੀ Anthropic ਨੇ ਗਵਰਨੈਂਸ ਅਤੇ ਸੁਰੱਖਿਆ ਨੂੰ ਮੁੱਖ ਡਿਜ਼ਾਈਨ ਜ਼ਰੂਰੀਅਤ ਮੰਨਿਆ। ਇਹ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ, ਮੁਲਾਂਕਣ ਕਰਨ, ਰਿਲੀਜ਼ ਕਰਨ ਅਤੇ ਸਮੇਂ-ਸਾਰਨ ਮਿਲਾਕੇ ਨਿਗਰਾਨੀ ਕਰਨ ਦੇ ਢੰਗ ਵਿੱਚ ਪਰਤ ਬਣਕੇ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ।
Anthropic ਜਨਤਕ ਤੌਰ 'ਤੇ staged deployment ਅਤੇ internal safety reviews ਦੇ ਨਾਲ ਰਿਲੀਜ਼ ਕਰਨ ਦੀ ਵਚਨਬੱਧਤਾ ਰੱਖਦੀ ਹੈ। ਵੱਡੀਆਂ ਰਿਲੀਜ਼ਾਂ ਤੋਂ ਪਹਿਲਾਂ, ਟੀਮਾਂ ਸੰਭਾਵਤ ਖ਼ਤਰਨਾਕ ਸਮਰੱਥਾਵਾਂ (ਜਿਵੇਂ ਸਾਇਬਰ ਮਿਸਯੂਜ਼, ਪ੍ਰੇਰਨ, ਜਾਂ ਜੈਵਿਕ ਖ਼ਤਰਾ ਮਦਦ) 'ਤੇ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਕਰਦੀਆਂ ਹਨ ਅਤੇ ਉਹਨਾਂ ਨਤੀਜਿਆਂ ਦੇ ਆਧਾਰ 'ਤੇ ਮਾਡਲ ਨੂੰ ਸ਼ਿਪ, ਸੀਮਤ ਜਾਂ ਹੋਰ ਹਾਰਡਨ ਕਰਨ ਦਾ ਫੈਸਲਾ ਕਰਦੇ ਹਨ।
ਰੈਡ-ਟੀਮਿੰਗ ਕਦਮ ਕੇਂਦਰੀ ਹਿੱਸਾ ਹੈ। ਵਿਸ਼ੇਸ਼ਗਿਆ ਅਤੇ ਬਾਹਰੀ ਮਾਹਿਰਾਂ ਨੂੰ ਮਾਡਲਾਂ ਨੂੰ probe ਕਰਨ ਲਈ ਬੁਲਾਇਆ ਜਾਂਦਾ ਹੈ ਤਾਂ ਜੋ ਫੇਲਿਅਰ ਮੋਡ ਪਤਾ ਲੱਗ ਸਕਣ ਅਤੇ ਉਹਨਾਂ ਨਤੀਜਿਆਂ ਨੂੰ safety fine-tuning, ਉਤਪਾਦ guardrails ਅਤੇ ਨੀਤੀਆਂ ਵਿੱਚ ਸ਼ਾਮਲ ਕੀਤਾ ਜਾ ਸਕੇ।
ਸੁਰੱਖਿਆ ਸਮੀਖਿਆਵਾਂ ਲਾਂਚ 'ਤੇ ਖਤਮ ਨਹੀਂ ਹੁੰਦੀਆਂ। Anthropic misuse ਰਿਪੋਰਟਾਂ ਨੂੰ ਟਰੈਕ ਕਰਦਾ ਹੈ, ਅਪਡੇਟਾਂ ਦਰਮਿਆਨ ਵਿਹਾਰਕ drift ਨਗਰਾਨੀ ਕਰਦਾ ਹੈ, ਅਤੇ ਗਾਹਕ ਫੀਡਬੈਕ ਅਤੇ ਘਟਨਾ ਰਿਪੋਰਟਾਂ ਨੂੰ ਮਾਡਲ ਕਨਫਿਗਰੇਸ਼ਨ, ਪਹੁੰਚ ਨਿਯੰਤਰਣ ਅਤੇ ਡੀਫਾਲਟ ਸੈਟਿੰਗਜ਼ ਸਧਾਰਨ ਲਈ ਵਰਤਦਾ ਹੈ।
Constitutional AI Anthropic ਦੀ ਸਭ ਤੋਂ ਵਿਸ਼ੇਸ਼ ਸਕੀਮ ਹੈ। ਮਨੁੱਖੀ ਰੇਟਰਾਂ 'ਤੇ ਸਿਰਫ ਨਿਰਭਰ ਨਾ ਰਹਿ ਕੇ, ਮਾਡਲਾਂ ਨੂੰ ਇੱਕ ਲਿਖਤੀ "ਸੰਵਿਧਾਨ" ਦੇ ਅਧਾਰ 'ਤੇ ਆਪਣੀਆਂ ਜਵਾਬਾਂ ਨੂੰ ਆਲੋਚਨਾ ਕਰਨ ਅਤੇ ਸੋਧਣ ਲਈ ਸਿਖਾਇਆ ਜਾਂਦਾ ਹੈ।
ਇਹ ਸਿਧਾਂਤ ਮਨੁੱਖੀ ਅਧਿਕਾਰਾਂ ਵਰਗੀਆਂ ਪਛਾਣ ਕੀਤੀਆਂ ਸ്രੋਤਾਂ ਅਤੇ ਆਮ AI ਨੈਤਿਕਤਾ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ ਤੋਂ ਲਏ ਜਾਂਦੇ ਹਨ। ਉਦੇਸ਼ ਇਹ ਹੈ ਕਿ ਮਾਡਲ ਸਮਝਾ ਸਕੇ ਕਿ ਕਿਉਂ ਕੋਈ ਜਵਾਬ ਨਾ-ਉਪਯੋਗੀ ਹੈ ਅਤੇ ਕਿ ਓਹਨੂੰ ਕਿਵੇਂ ਬਿਹਤਰ ਕੀਤਾ ਜਾਵੇ—ਕੇਵਲ ਹਾਰਡ ਫਿਲਟਰ ਨਹੀਂ।
Constitutional AI ਇਸ ਤਰ੍ਹਾਂ Anthropic ਦੇ ਮਿਸ਼ਨ ਨੂੰ ਕਾਰਜਨਵੀਂ ਬਣਾਂਦਾ: ਤਾਕਤਵਰ ਸਿਸਟਮਾਂ ਨੂੰ ਸਪਸ਼ਟ, ਪਾਠਯੋਗ ਨੀਤੀਆਂ ਨਾਲ ਅਨੁਕੂਲ ਕਰਨਾ ਅਤੇ ਇਹ ਪ੍ਰਕਿਰਿਆ ਇਤਨੀ ਪਾਰਦਰਸ਼ੀ ਹੋਵੇ ਕਿ ਬਾਹਰੀ ਲੋਕ ਵੀ ਇਸਦੀ ਸਮੀਖਿਆ ਕਰ ਸਕਣ।
Anthropic ਦੀ ਗਵਰਨੈਂਸ ਕੇਵਲ ਅੰਦਰੂਨੀ ਨਹੀਂ। ਕੰਪਨੀ ਸਰਕਾਰਾਂ ਅਤੇ ਸਮਕक्ष ਲੈਬਜ਼ ਦੇ ਨਾਲ ਸੁਰੱਖਿਆ-ਵਚਨਾਂ ਵਿੱਚ ਭਾਗ ਲੈਂਦੀ ਹੈ, ਟੈਕਨੀਕਲ ਬੈਂਚਮਾਰਕ ਤੇ ਯੋਗਦਾਨ ਪਾਉਂਦੀ ਹੈ, ਅਤੇ frontier ਮਾਡਲਾਂ ਲਈ ਸਾਂਝੇ ਮਿਆਰ ਤੇ ਮੁਲਾਂਕਣ ਦੇ ਵਿਕਾਸ ਵਿੱਚ ਸਹਿਯੋਗ ਕਰਦੀ ਹੈ।
ਜਨਤਕ ਰਿਕਾਰਡ ਵਿੱਚ ਨੀਤੀ-ਨਿਰਮਾਤਾਵਾਂ ਨਾਲ ਸੁਣਵਾਈਆਂ, ਸਲਾਹਕਾਰ ਭੂਮਿਕਾਵਾਂ ਅਤੇ ਸਲਾਹ-ਸੁਝਾਅ ਸ਼ਾਮਲ ਹਨ, ਅਤੇ ਮੁਲਾਂਕਣ ਸੰਗਠਨਾਂ ਅਤੇ ਮਿਆਰ-ਬੋਡੀਜ਼ ਨਾਲ ਸਹਿਯੋਗ ਕੀਤਾ ਗਿਆ ਹੈ ਤਾ ਕਿ ਖ਼ਤਰਨਾਕ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਅਨੁਕੂਲਤਾ ਦੀ ਜਾਂਚ ਲਈ ਟੈਸਟ ਬਣਾਏ ਜਾ ਸਕਣ।
ਇਹ ਬਾਹਰੀ ਚੈਨਲ ਦੋ ਕਰਤਵਿਆਂ ਦੀ ਪੂਰੇ ਕਰਦੀਆਂ ਹਨ: Anthropic ਦੀਆਂ ਪ੍ਰਥਾਵਾਂ ਬਾਹਰੀ ਆਲੋਚਨਾ ਲਈ ਖੁਲ੍ਹੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ, ਅਤੇ ਸੁਰੱਖਿਆ, ਮੁਲਾਂਕਣ ਅਤੇ ਅਨੁਕੂਲਤਾ ਦੇ ਤਕਨੀਕੀ ਨਤੀਜੇ ਨਿਯਮਾਂ ਅਤੇ ਸਰਵਣੀਤ ਰੂਪਾਂ ਵਿੱਚ ਤਬਦੀਲ ਹੋ ਸਕਦੇ ਹਨ।
ਇਸ ਤਰ੍ਹਾਂ, ਗਵਰਨੈਂਸ ਪ੍ਰਥਾਵਾਂ, ਰੈਡ-ਟੀਮਿੰਗ ਅਤੇ Constitutional AI ਵਰਗੀਆਂ ਸੰਰਚਨਾਵਾਂ ਕੰਪਨੀ ਦੇ ਮੂਲ ਮਿਸ਼ਨ ਨੂੰ ਸਿੱਧਾ ਦਰਸਾਉਂਦੀਆਂ ਹਨ: ਸਮਰੱਥਾ ਵਾਲੇ AI ਸਿਸਟਮ ਬਣਾਉਂਦੇ ਸਮੇਂ ਜੋਖਮ ਘਟਾਉਣਾ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ ਵਧਾਉਣਾ।
Anthropic OpenAI, DeepMind, Google ਅਤੇ Meta ਦੇ ਨਾਲ ਫਰੰਟਿਅਰ ਲੈਬਜ਼ ਵਿੱਚ ਬੈਠਦੀ ਹੈ, ਪਰ ਇਸਨੇ ਆਪਣੀ ਵੱਖਰੀ ਪਛਾਣ ਇਸ ਤਰੀਕੇ ਨਾਲ ਬਣਾਈ ਕਿ ਸੁਰੱਖਿਆ ਅਤੇ interpretability ਨੂੰ ਮੁੱਖ ਰਿਸਰਚ ਸਮੱਸਿਆਵਾਂ ਵਜੋਂ ਰੱਖਿਆ ਗਿਆ।
ਮੁਢਲੇ ਪੇਪਰਾਂ ਤੋਂ ਹੀ Anthropic ਉਹਨਾਂ ਸਵਾਲਾਂ 'ਤੇ ਧਿਆਨ ਦਿੱਤਾ ਜੋ ਕਈ ਹੋਰ ਲੈਬਜ਼ ਦੂਜੇ ਮਾਮਲਿਆਂ ਵਿੱਚ ਦੂਜੇ ਨੰਬਰ 'ਤੇ ਰੱਖਦੇ ਹਨ: ਅਨੁਕੂਲਤਾ, ਫੇਲਿਅਰ ਮੋਡ ਅਤੇ ਸਕੇਲਿੰਗ-ਸੰਬੰਧੀ ਖਤਰੇ। Constitutional AI, ਰੈਡ-ਟੀਮਿੰਗ ਪਧਤੀਆਂ ਅਤੇ interpretability 'ਤੇ ਕੀਤੇ ਕੰਮ ਨੂੰ ਉਹਨਾਂ ਰਿਸਰਚਰਾਂ ਨੇ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਪੜ੍ਹਿਆ ਜੋ ਵੱਡੇ ਮਾਡਲਾਂ 'ਤੇ ਕੰਮ ਕਰਦੇ ਹਨ, ਭਾਵੇਂ ਉਹ ਮੁਕਾਬਲਾਕਾਰੀ ਸੰਸਥਾਵਾਂ ਵਿੱਚ ਹੀ ਕਿਉਂ ਨਾ ਹੋਣ।
ਜਨਤਕ ਪ੍ਰਕਾਸ਼ਨ ਅਤੇ ਕੰਫਰੰਸ ਪੇਸ਼ਕਸ਼ਾਂ ਰਾਹੀਂ, Anthropic ਦੇ ਰਿਸਰਚਰਾਂ ਨੇ ਉਹੇ ਸਾਂਝੇ ਢੇਰ ਦੇ ਢੰਗ ਅਤੇ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਯੋਗਦਾਨ ਦਿੱਤਾ ਜੋ ਹੋਰ ਲੈਬਜ਼ ਨੂੰ ਵੀ ਪ੍ਰਗਟਾਵਾ ਦਿੰਦੇ ਹਨ—ਇਸ ਸਭ ਵਿੱਚ ਉਹ ਹਮੇਸ਼ਾ ਨਿਯੰਤਰਣਯੋਗਤਾ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਦੇ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਨਤੀਜਿਆਂ ਨਾਲ ਜੋੜਦੇ ਹਨ।
Anthropic ਜਨਤਕ ਚਰਚਾਵਾਂ ਵਿੱਚ ਅਸਧਾਰਣ ਰੂਪ ਨਾਲ ਸ਼ਾਮਿਲ ਰਹੀ। ਕੰਪਨੀ ਦੇ ਨੇਤਾ ਅਤੇ ਰਿਸਰਚਰ:
ਇਹ ਰਚਨਾਂ ਵਿੱਚ Anthropic ਅਕਸਰ ਟੈਸਟ-ਯੋਗ ਸੁਰੱਖਿਆ ਮਿਆਰ, ਸਵੈਤੰਤ੍ਰ ਮੁਲਾਂਕਣ ਅਤੇ ਸਭ ਤੋਂ ਸਮਰੱਥਾ ਵਾਲੇ ਸਿਸਟਮਾਂ ਦੀ ਧੀਰੇ-ਧੀਰੇ ਡਿਪਲੋਇਮੈਂਟ ਦੀ ਵਕੀਲ ਹੁੰਦੀ ਹੈ।
Anthropic ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਲਈ ਸਾਂਝੇ ਬੈਂਚਮਾਰਕਾਂ ਅਤੇ ਮੁਲਾਂਕਣ ਯਤਨਾਂ ਵਿੱਚ ਭਾਗ ਲੈਂਦੀ ਹੈ, ਵਿਸ਼ੇਸ਼ ਕਰਕੇ ਉਹ ਬੈਂਚਮਾਰਕ ਜਿਹੜੇ ਮਾਡਲਾਂ ਨੂੰ ਹਾਨਿਕਾਰਕ ਸਮਰੱਥਾਵਾਂ, ਮਿਸਯੂਜ਼ ਸੰਭਾਵਨਾ ਜਾਂ ਧੋਖਾਧੜੀ ਲਾਇਕ ਵਿਹਾਰ ਲਈ ਤਣਾਅ ਦੇਂਦੇ ਹਨ।
Anthropic ਦੇ ਰਿਸਰਚਰ ਪੇਪਰ ਪ੍ਰਕਾਸ਼ਿਤ ਕਰਦੇ ਹਨ, ਵਰਕਸ਼ਾਪਾਂ 'ਚ ਪੇਸ਼ ਕਰਦੇ ਹਨ, ਅਤੇ ਅਕਾਦਮਿਕਾਂ ਨਾਲ interpretability, scaling ਵਿਹਾਰ ਅਤੇ preference learning 'ਤੇ ਸਹਿਯੋਗ ਕਰਦੇ ਹਨ। ਕੁਝ ਚੁਣਿੰਦੀਆਂ ਡੇਟਾਸੈੱਟਾਂ, ਪੇਪਰਾਂ ਅਤੇ ਟੂਲਾਂ ਨੂੰ ਬਾਹਰ ਰਿਹਾ ਗਿਆ ਤਾਂ ਜੋ ਬਾਹਰੀ ਰਿਸਰਚਰ ਵੀ ਮਾਡਲ ਵਿਹਾਰ ਅਤੇ ਅਨੁਕੂਲਤਾ ਤਕਨੀਕਾਂ ਦੀ ਜਾਂਚ ਕਰ ਸਕਣ।
ਹਾਲਾਂਕਿ Anthropic ਆਪਣੀਆਂ ਸਭ ਤੋਂ ਵੱਡੀਆਂ ਮਾਡਲਾਂ ਨੂੰ ਖੁੱਲ੍ਹਾ-ਸ्रोत ਨਹੀਂ ਕਰਦਾ, ਇਸਦੇ ਤਰੀਕੇ ਅਤੇ ਨਤੀਜੇ ਖੁੱਲ੍ਹੀ ਕੰਮ-ਕਰਮਾਂ ਤੇ ਪ੍ਰਭਾਵ ਪਾਉਂਦੇ ਹਨ: Constitutional AI ਵਰਗੀਆਂ ਤਕਨੀਕਾਂ ਅਤੇ ਨਿਰਦਿਸ਼ਿਤ ਮੁਲਾਂਕਣ ਅਭਿਆਸ ਖੁੱਲ੍ਹੇ-ਸਰੋਤ ਪਰਿਯੋਜਨਾਵਾਂ ਵਿੱਚ ਵੀ ਅਡਾਪਟ ਕੀਤੇ ਜਾ ਰਹੇ ਹਨ।
Anthropic ਦੀ ਯਾਤਰਾ ਉਸ ਵੱਡੇ ਬਦਲਾਅ ਦਾ ਪ੍ਰਤੀਬਿੰਬ ਹੈ ਜੋ ਇਹ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਕਿੱਰਕ-ਮਾਡਲਾਂ ਦੇ ਵਿਕਾਸ ਦੇ ਪਹਿਲੇ ਦੌਰ raw capability gains ਤੇ ਧਿਆਨ ਦਿੰਦੇ ਸਨ; ਸਮੇਂ ਦੇ ਨਾਲ-ਨਾਲ misuse, ਪ੍ਰਣਾਲੀਕ ਖਤਰੇ ਅਤੇ ਲੰਬੀ-ਅਵਧੀ ਅਨੁਕੂਲਤਾ ਦੇ ਮੁੱਦੇ ਕੇਂਦਰ ਵਿੱਚ ਆ ਗਏ।
Anthropic ਨੇ ਖੁਦ ਨੂੰ ਸੁਰੱਖਿਆ ਦੇ ਆਸ-ਪਾਸ ਜੋੜ ਕੇ, ਵਿਸ਼ਾਲ ਪੈਮਾਨੇ 'ਤੇ interpretability 'ਤੇ ਨਿਵੇਸ਼ ਕਰਕੇ ਅਤੇ ਸਰਕਾਰਾਂ ਨਾਲ frontier model oversight 'ਤੇ ਗੱਲ-ਬਾਤ ਕਰਕੇ ਇਸ ਬਦਲਾਅ ਨੂੰ ਤੇਜ਼ ਕੀਤਾ ਹੈ। ਇਸਦੀ ਇਤਿਹਾਸ ਦਿਖਾਉਂਦੀ ਹੈ ਕਿ ਅੱਜ-ਕੱਲ੍ਹ ਕਿਸ ਤਰ੍ਹਾਂ ਉੱਚ ਪੱਧਰੀ ਵਿਦਿਆ ਅਤੇ ਸਖ਼ਤ ਸੁਰੱਖਿਆ ਕੰਮ ਇੱਕ-ਦੂਜੇ ਨਾਲ ਜੁੜੇ ਉਮੀਦਾਂ ਬਣ ਗਏ ਹਨ।
Anthropic ਦੀ ਕਹਾਣੀ ਇੱਕ ਕੇਂਦਰੀ ਟੇਨਸ਼ਨ ਨੂੰ ਉਭਾਰਦੀ ਹੈ: ਮਾਨਨੀਯੋਗ ਸੁਰੱਖਿਆ ਕੰਮ ਆਮ ਤੌਰ 'ਤੇ ਸਮਰੱਥਾ ਨੂੰ ਅੱਗੇ ਧਕਦੇ ਹੋਏ ਕੰਮ ਕਰਨ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਪਰ ਹਰ ਤਰੱਕੀ ਨਵੀਆਂ ਸੁਰੱਖਿਆ ਪ੍ਰਸ਼ਨ ਲੈ ਕੇ ਆਉਂਦੀ ਹੈ। ਕੰਪਨੀ ਦੀ ਇਤਿਹਾਸ ਇੱਕ ਪ੍ਰਯੋਗ ਦੀ ਤਰ੍ਹਾਂ ਹੈ ਕਿ ਇਹ ਟੇਨਸ਼ਨ ਨੂੰ ਜਨਤਕ ਤੌਰ 'ਤੇ ਕਿਵੇਂ ਪ੍ਰਬੰਧਿਤ ਕਰਦੀ ਹੈ।
Anthropic ਦੀ ਸ਼ੁਰੂਆਤ ਉਹਨਾਂ ਰਿਸਰਚਰਾਂ ਵੱਲੋਂ ਹੋਈ ਜੋ ਚਿੰਤਤ ਸਨ ਕਿ ਜਨਰਲ-ਪਰਪਜ਼ AI ਪ੍ਰਣਾਲੀਆਂ ਵੱਧ ਸਮਰੱਥਾ ਪ੍ਰਾਪਤ ਕਰਨ 'ਤੇ ਨਿਯੰਤਰਣਯੋਗ ਰਹਿਣੀਆਂ ਮੁਸ਼ਕਿਲ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਇਸ ਚਿੰਤਾ ਨੇ ਮੁੱਢਲੇ ਤਰਜੀਹਾਂ ਨੂੰ ਰੂਪ ਦਿੱਤਾ: interpretability ਰਿਸਰਚ, Constitutional AI ਵਰਗੀਆਂ ਅਨੁਕੂਲਤਾ ਵਿਧੀਆਂ, ਅਤੇ ਧੀਰੇ-ਧੀਰੇ ਡਿਪਲੋਇਮੈਂਟ ਪ੍ਰਥਾਵਾਂ।
ਜਿਵੇਂ Claude ਮਾਡਲਾਂ ਜ਼ਿਆਦਾ ਸਮਰੱਥਾ ਅਤੇ ਵਪਾਰਕ ਮਾਨਤਾ ਹਾਸਲ ਕਰ ਰਹੀਆਂ ਹਨ, ਸ਼ੁਰੂਆਤੀ ਪ੍ਰੇਰਣਾਂ ਅਜੇ ਵੀ ਨਜ਼ਰ ਆਉਂਦੀਆਂ ਹਨ ਪਰ ਹੁਣ ਵਾਸਤਵਿਕ-ਦੁਨੀਆ ਦਬਾਅ ਵੀ ਮੁਕਾਬਲੇ 'ਚ ਹਨ: ਗਾਹਕ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ, ਮੁਕਾਬਲਾ ਅਤੇ ਤੇਜ਼ ਮਾਪ 'ਤੇ ਲਾਗੂ ਹੋਣ। ਕੰਪਨੀ ਦੀ ਯਾਤਰਾ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਇਹ ਇੱਕ ਕੋਸ਼ਿਸ਼ ਹੈ ਕਿ ਸੁਰੱਖਿਆ ਰਿਸਰਚ ਅਤੇ ਉਤਪਾਦ ਵਿਕਾਸ ਨੂੰ ਕੱਠੇ ਹੀ ਰੱਖਿਆ ਜਾਵੇ।
ਇਹ ਜੋਰ ਸਿਰਫ਼ ਪ੍ਰਮਾਣਿਕ ਵੱਡੀਆਂ ਨੁਕਸਾਨਾਂ ਨੂੰ ਰੋਕਣ 'ਤੇ ਨਹੀਂ, ਬਲਕਿ ਇੱਕ ਐਸਾ ਤਕਨਾਲੋਜੀ ਬਣਾਉਣ 'ਤੇ ਹੈ ਜੋ ਵੱਖ-ਵੱਖ ਸੰਸਥਾਵਾਂ ਦੁਆਰਾ ਭਰੋਸੇਯੋਗੀ ਤਰੀਕੇ ਨਾਲ ਚਲਾਇਆ ਜਾ ਸਕੇ ਜਦੋਂ ਮਾਡਲਾਂ ਪਰਿਵਰਤਨਕਾਰਕ ਪ੍ਰਭਾਵਾਂ ਨੂੰ ਛੂਹਣ ਲੱਗਣ।
ਮਹੱਤਵਪੂਰਣ ਅਣਿਸ਼ਚਿਤਤਾਵਾਂ ਰਹਿੰਦੀਆਂ ਹਨ—Anthropic ਲਈ ਅਤੇ ਸਮੂਹ ਲਈ:
Anthropic ਦੀ ਇਤਿਹਾਸ ਸਮਝਣਾ ਉਸਦੇ ਮੌਜੂਦਾ ਕੰਮ ਨੂੰ ਸੰਦਰਭ ਵਿੱਚ ਰੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਮਾਡਲ ਰਿਲੀਜ਼ਾਂ, ਸੁਰੱਖਿਆ ਰਿਪੋਰਟਾਂ, ਬਾਹਰੀ ਮੁਲਾਂਕਣਾਂ ਨਾਲ ਸਾਂਝੇਦਾਰੀ ਅਤੇ ਨੀਤੀ ਚਰਚਾਵਾਂ ਵਿੱਚ ਭਾਗੀਦਾਰੀ ਵਾਲੇ ਫੈਸਲੇ ਅਲੱਗ-ਅਲੱਗ ਨਹੀਂ ਹਨ; ਉਹ ਸਥਾਪਨਾ ਵਾਲੀਆਂ ਚਿੰਤਾਵਾਂ ਅਤੇ ਮੁੱਲਾਂ ਤੋਂ ਉਤਪੰਨ ਹਨ।
ਜਿਵੇਂ Anthropic ਹੋਰ ਸਮਰੱਥ Claude ਮਾਡਲਾਂ ਅਤੇ ਵਿਆਪਕ ਵਰਤੋਂ ਦੀਆਂ ਮੌਜੂਦਗੀ ਲਈ ਕੰਮ ਕਰਦੀ ਹੈ, ਇਸਦੀ ਪਿਛੋਕੜ ਇੱਕ ਲਹਿਰ ਦਿੰਦੀ ਹੈ: ਤਰੱਕੀ ਅਤੇ ਸਾਵਧਾਨੀ ਇਕੱਠੇ ਲਾਈ ਜਾ ਰਹੇ ਹਨ, ਅਤੇ ਇਸ ਸੰਤੁਲਨ ਦੀ ਕਾਮਯਾਬੀ ਨਾ ਸਿਰਫ਼ ਕੰਪਨੀ ਦਾ ਭਵਿੱਖ, ਬਲਕਿ AI ਵਿਕਾਸ ਦਾ ਰੁਖ ਵੀ ਨਿਰਧਾਰਤ ਕਰੇਗੀ।
Anthropic ਇੱਕ AI ਰਿਸਰਚ ਅਤੇ ਉਤਪਾਦ ਕੰਪਨੀ ਹੈ ਜੋ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ 'ਤੇ ਕੰਮ ਕਰਦੀ ਹੈ ਅਤੇ Claude ਪਰਿਵਾਰ ਲਈ ਮਸ਼ਹੂਰ ਹੈ। ਇਹ ਤਿੰਨ ਚੀਜਾਂ ਦੇ ਮਿਲਾਪ 'ਤੇ ਖੜੀ ਹੈ:
ਸ਼ੁਰੂ ਤੋਂ ਹੀ, Anthropic ਨੇ ਸੁਰੱਖਿਆ ਅਤੇ ਅਨੁਕੂਲਤਾ ਨੂੰ ਆਮ ਰਿਸਰਚ ਮੁੱਦੇ ਵਜੋਂ ਲਿਆ ਹੈ, ਨਾ ਕਿ ਰੂੜੀਕ੍ਰਮਿਕ ਜੋੜ-ਤੋੜ ਦੇ ਰੂਪ ਵਿੱਚ, ਅਤੇ ਇਹ ਦ੍ਰਿਸ਼ਟਕੋਣ ਉਸਦੀ ਤਕਨੀਕੀ ਕਾਰਜ, ਉਤਪਾਦ ਅਤੇ ਸ਼ਾਸਨ ਰੀਤੀਆਂ ਨੂੰ ਆਕਾਰ ਦਿੰਦਾ ਹੈ।
Anthropic ਨੂੰ 2021 ਵਿੱਚ Dario ਅਤੇ Daniela Amodei ਅਤੇ OpenAI, Google Brain, DeepMind ਵਰਗੇ ਲੈਬਜ਼ ਦੇ ਸਾਥੀਆਂ ਨੇ ਸਥਾਪਿਤ ਕੀਤਾ। ਸਥਾਪਕਾਂ ਨੇ ਪਹਿਲਾਂ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਦੀ ਸਿਖਲਾਈ ਅਤੇ ਤੈਨਾਤੀ 'ਤੇ ਕੰਮ ਕੀਤਾ ਸੀ ਅਤੇ ਉਹਨਾਂ ਨੇ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਦੀਆਂ ਸਮਭਾਵਨਾਵਾਂ ਅਤੇ ਖਤਰਨਾਂ ਦੋਹਾਂ ਨੂੰ ਨੇੜੇ ਤੋਂ ਵੇਖਿਆ।
ਉਨ੍ਹਾਂ ਨੇ Anthropic ਕਿਉਂ ਸ਼ੁਰੂ ਕੀਤਾ:
Anthropic ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਸੋਚਿਆ ਗਿਆ ਸੀ ਕਿ ਲੰਬੀ ਅਵਧੀ ਦੇ ਫਾਇਦੇ ਅਤੇ ਸੁਰੱਖਿਆ ਮੁੱਦਿਆਂ ਨੂੰ ਮੁੱਢਲੀ ਡਿਜ਼ਾਈਨ ਨੀਤੀ ਬਣਾਇਆ ਜਾਵੇ।
Anthropic ਨੇ ਆਪਣੇ AI ਵਿਹਾਰ ਲਈ ਤਿੰਨ ਵਿਭਿੰਨ ਲਕਸ਼ਾਂ ਨੂੰ ਵੱਖ ਕਰਕੇ ਰੱਖਿਆ ਹੈ:
ਇਹ ਸਿਰਫ ਨारे ਨਹੀਂ ਹਨ; ਇਹ ਇੰਜੀਨੀਅਰਿੰਗ ਲਕੜੀ ਹਨ: ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ, ਮਾਪ-ਦੰਡ ਅਤੇ ਨੀਤੀਆਂ ਇਨ੍ਹਾਂ ਮਾਪਦੰਡਾਂ ਦੇ ਆਧਾਰ 'ਤੇ ਬਣਾਈਆਂ ਜਾਂਦੀਆਂ ਹਨ।
Constitutional AI Anthropic ਦੀ ਇੱਕ ਵਿਧੀ ਹੈ ਜੋ ਮਾਡਲ ਦੇ ਵਿਹਾਰ ਨੂੰ ਲਿਖਤ "ਸੰਵਿਧਾਨ" ਨਾਲ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ ਦਿੰਦੀ ਹੈ, ਬਲਕੀ ਕੇਵਲ ਮਨੁੱਖੀ ਰੇਟਿੰਗ 'ਤੇ ਨਿਰਭਰ ਨਾ ਰਹੇ।
ਵਾਸਤਵ ਵਿੱਚ, Anthropic:
ਇਹ ਤਰੀਕਾ:
Anthropic ਦੀ ਮੁੱਖ ਤਕਨੀਕੀ ਤਰਜੀਹਾਂ ਨੇ ਕੈਪੇਬਿਲਿਟੀ ਅਤੇ ਸੁਰੱਖਿਆ ਦੋਹਾਂ ਨੂੰ ਜੋੜ ਕੇ ਰੱਖਿਆ:
Anthropic ਨੇ ਵੱਡੇ ਫੰਡ ਰਾਊਂਡ ਅਤੇ ਰਣਨੀਤਿਕ ਭਾਗੀਦਾਰੀਆਂ ਰਾਹੀਂ ਆਪਣੀ ਵਾਧ ਨੂੰ ਵਿੱਤੀਕ ਕੀਤਾ:
ਇਹ ਪੂੰਜੀ ਮੁੱਖ ਤੌਰ 'ਤੇ Claude ਮਾਡਲਾਂ ਦੀ ਸਿਖਲਾਈ ਲਈ ਕੰਪਿਊਟ, ਸੁਰੱਖਿਆ-ਉਦੇਸ਼ਕ ਰਿਸਰਚ ਲਈ ਟੂਲਿੰਗ ਅਤੇ ਬਹੁ-ਵਿਭਾਗੀ ਟੀਮਾਂ ਦੇ ਵਧਣ ਲਈ ਵਰਤੀ ਗਈ।
Claude ਨੇ Anthropic ਦੇ ਰਿਸਰਚ ਦਾ ਸਰਗਰਮ ਰੂਪ ਹੋਣ ਦੇ ਨਾਂ ਤੇ ਲੋਕਾਂ ਦੇ ਸਾਹਮਣੇ ਆਉਂਦਾ ਹੈ। ਮੁੱਖ ਵਿਕਾਸ ਜਨਰੇਸ਼ਨਾਂ ਵਿੱਚ ਹਰ ਵਾਰੀ ਸਮਰੱਥਾ ਵਧਾਉਣ ਦੇ ਨਾਲ-ਨਾਲ ਭਰੋਸੇਯੋਗਤਾ ਤੇ ਸੁਰੱਖਿਆ ਨੂੰ ਨਿਸ਼ਾਨਾ بنایا ਗਿਆ:
ਹਰ ਜਨਰੇਸ਼ਨ ਨਾਲ ਸੁਰੱਖਿਆ, ਰੈਡ-ਟੀਮਿੰਗ ਅਤੇ ਮੁਲਾਂਕਣ ਵੀ ਅਪਡੇਟ ਕੀਤੇ ਗਏ।
Anthropic ਦੇ ਮਾਡਲ ਤੇਜ਼ੀ ਨਾਲ ਰਿਸਰਚ ਲੈਬ ਤੋਂ ਪ੍ਰੋਡਕਸ਼ਨ ਤੱਕ ਆਏ, ਉਹਨਾਂ ਸੰਸਥਾਵਾਂ ਦੀ ਮੰਗ ਵਲੋਂ ਜੋ ਤਰਕਸ਼ਕ, ਨਿਯੰਤਰਣਯੋਗ ਅਤੇ ਭਰੋਸੇਯੋਗ ਵਿਵਹਾਰ ਚਾਹੁੰਦੇ ਸਨ।
ਕੌਣ Claude ਨੂੰ ਅਪਨਾਇਆ:
ਨੋਟ ਕਰਨਯੋਗ ਸਾਂਝੇਦਾਰੀਆਂ ਵਿੱਚ Quora’s Poe, Notion, DuckDuckGo ਦੇ ਪ੍ਰਯੋਗ, ਅਤੇ Amazon (Bedrock) ਅਤੇ Google Cloud ਜਿਹੇ ਕਲਾਉਡ ਭਾਗੀਦਾਰ ਸ਼ਾਮਲ ਹਨ।
Anthropic ਨੇ ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਸ਼ਾਸਨ ਅਤੇ ਸੁਰੱਖਿਆ ਨੂੰ ਮੁੱਖ ਡਿਜ਼ਾਈਨ ਬੰਧਨ ਬਣਾਇਆ। ਇਹ ਚੀਜ਼ ਮਾਡਲਾਂ ਦੀ ਟ੍ਰੇਨਿੰਗ, ਝਾਂਚ, ਰਿਲੀਜ਼ ਅਤੇ ਸਮੇਤਾਨੁਸਾਰੀ ਨਿਗਰਾਨੀ ਵਿਚ ਦਿੱਸਦੀ ਹੈ।
Anthropic ਬਾਹਰਲੇ ਆਰਥਿਕ ਅਤੇ ਨੀਤੀ-ਸੰਬੰਧੀ ਫੋਰਮਾਂ ਵਿੱਚ ਭੀ ਸਰਗਰਮ ਹੈ, ਜਿਸ ਨਾਲ ਉਸਦੀ ਪ੍ਰੈਕਟਿਸ ਬਾਹਰਲੀ ਜਾਂਚ ਅਤੇ ਨਿਯਮਾਂ ਵਾਲੇ ਪ੍ਰਬੰਧਾਂ ਦੇ ਨਾਲ ਮਿਲਦੀ ਰਹਿੰਦੀ ਹੈ।
Anthropic ਹੋਰ ਫਰੰਟਿਅਰ ਲੈਬਜ਼ ਨਾਲ ਇਕਠੇ ਕੰਮ ਕਰਦਾ ਹੈ ਪਰ ਇਸ ਦੀ ਪਛਾਣ ਸੁਰੱਖਿਆ ਅਤੇ ਵਿਵਿਆਖਿਆਤਮਕ ਕੰਮ ਨੂੰ ਕੇਂਦਰ ਵਿਚ ਰੱਖਣ ਨਾਲ ਵੱਖਰੀ ਬਣਦੀ ਹੈ।
Anthropic ਦੀ ਯਾਤਰਾ ਇਹ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਕਿਵੇਂ ਸਮਰੱਥਾ ਅਤੇ ਸੁਰੱਖਿਆ ਇਕ ਦੂਜੇ ਨਾਲ ਗੁੰਝੀ ਹੋ ਰਹੀਆਂ ਹਨ।
Anthropic ਦੀ ਕਹਾਣੀ ਇੱਕ ਕੇਂਦਰੀ ਟੇਨਸ਼ਨ ਨੂੰ ਉਭਾਰਦੀ ਹੈ: ਅਸਲ ਸੁਰੱਖਿਆ ਵਾਲਾ ਕੰਮ ਆਮ ਤੌਰ 'ਤੇ ਉੱਚ ਸਮਰੱਥਾ ਵਾਲੇ ਮਾਡਲਾਂ 'ਤੇ ਕੰਮ ਕਰਨਾ ਲੋੜੀਂਦਾ ਹੈ, ਪਰ ਹਰ ਉਕੰਠਾ ਨਵੀਆਂ ਸੁਰੱਖਿਆ ਚੁਣੌਤੀਆਂ ਲੈਂਦੀ ਹੈ।
ਲੰਬੇ ਸਮੇਂ ਦੇ ਲਕਸ਼:
ਖੁਲੇ ਸਵਾਲ ਰਹਿੰਦੇ ਹਨ: ਕੀ ਅਨੁਕੂਲਤਾ ਤਕਨੀਕਾਂ ਸਮਰੱਥਾ ਵਾਧੇ ਦੇ ਨਾਲ ਕਦਮ ਮਿਲਾਕੇ ਚੱਲ ਸਕਦੀਆਂ ਹਨ? ਕੀ ਵਪਾਰਕ ਤੇ ਜਿਓਪੋਲਿਟਿਕਲ ਪ੍ਰੇਰਣਾਵਾਂ ਧੀਮੇ ਵਿਕਾਸ ਦਾ ਸਹਿਯੋਗ ਕਰਨਗੀਆਂ? ਇਨ੍ਹਾਂ ਸਵਾਲਾਂ ਦੀ ਜਵਾਬਦਾਰੀ ਭਵਿੱਖ ਦੇ ਨੀਤੀਆਂ ਅਤੇ ਸੰਸਥਾਨਕ ਵਿਵਸਥਾਵਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰੇਗੀ।
ਇਹ ਸਭ Claude ਦੇ ਵਿਕਾਸ ਨਾਲ ਘੁਰੇ ਹੋਏ ਸਨ, ਨਾ ਕਿ ਉਤਪਾਦ ਤੋਂ ਅਲੱਗ।
ਵਰਤੋਂ ਦੇ ਆਮ ਕੇਸ: ਗਿਆਨ ਕਾਰਜ-ਸਹਾਇਤਾ, ਕੋਡਿੰਗ ਮਦਦ, ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਵਿਸ਼ਲੇਸ਼ਣ, ਅਤੇ ਗਾਹਕ-ਨੂੰ-ਸਮਰੱਥ ਬਰਤਾਓ ਸਹਾਇਕ।