10 ਨਵੰ 2025·8 ਮਿੰਟ
LLM ਹੈਲੂਸੀਨੇਸ਼ਨ ਸਪਸ਼ਟੀਕਰਣ: ਇਹ ਕੀ ਹਨ ਅਤੇ ਕਿਉਂ ਹੁੰਦੇ ਹਨ
ਸਮਝੋ ਕਿ LLM ਹੈਲੂਸੀਨੇਸ਼ਨ ਕੀ ਹਨ, ਕਿਉਂ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ ਕਦੇ-ਕਦੇ ਤੱਥ ਘੜਦੇ ਹਨ, ਅਸਲ ਉਦਾਹਰਣ, ਖ਼ਤਰੇ, ਅਤੇ ਉਨ੍ਹਾਂ ਦੀ ਪਛਾਣ ਅਤੇ ਘਟਾਉਣ ਦੇ ਵਿਹਾਰਕ ਤਰੀਕੇ।
ਹੁਣ LLM ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਦਾ ਮਹੱਤਵ\n\nਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ (LLMs) ਉਹ AI ਸਿਸਟਮ ਹਨ ਜੋ ਭਾਸ਼ਾ ਉਤਪੰਨ ਅਤੇ ਰੂਪਾਂਤਰਣ ਲਈ ਵੱਡੇ ਟੈਕਸਟ ਸੰਗ੍ਰਹਨਾਂ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ ਜਾਂਦੇ ਹਨ: ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣਾ, ਈਮੇਲ ਲਿਖਣਾ, ਦਸਤਾਵੇਜ਼ਾਂ ਦਾ ਸਾਰ, ਕੋਡ ਲਿਖਣਾ ਅਤੇ ਹੋਰ। ਇਹ ਹੁਣ ਖੋਜ ਇੰਜਣਾਂ, ਦਫ਼ਤਰੀ ਉਪਕਰਨਾਂ, ਗਾਹਕ-ਸੇਵਾ ਚੈਟ, ਡਿਵੈਲਪਰ ਵਰਕਫ਼ਲੋਅਜ਼ ਅਤੇ ਸੰਵੇਦਨਸ਼ੀਲ ਖੇਤਰਾਂ ਵਿੱਚ ਸਹਾਇਤਾ ਪ੍ਰਣਾਲੀਆਂ ਵਿੱਚ ਸ਼ਾਮਿਲ ਹੋ ਰਹੇ ਹਨ।\n\nਜਿਵੇਂ-ਜਿਵੇਂ ਇਹ ਮਾਡਲ ਰੋਜ਼ਮਰਾ ਦੇ ਟੂਲਾਂ ਦਾ ਹਿੱਸਾ ਬਣਦੇ ਹਨ, ਉਨ੍ਹਾਂ ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਸਿਧਾਂਤਿਕ ਚਿੰਤਾ ਨਹੀਂ ਰਹਿੰਦੀ। ਜਦੋਂ ਇੱਕ LLM ਐਸਾ ਜਵਾਬ ਦਿੰਦਾ ਹੈ ਜੋ ਪੱਕਾ ਅਤੇ ਪ੍ਰਾਥਮਿਕ ਲੱਗਦਾ ਹੈ ਪਰ ਅਸਲ ਵਿੱਚ ਗਲਤ ਹੁੰਦਾ ਹੈ, ਲੋਕ ਇਸ 'ਤੇ ਭਰੋਸਾ ਕਰਨ ਦੇ ਰੁਝਾਨ ਰੱਖਦੇ ਹਨ—ਖ਼ਾਸ ਕਰਕੇ ਜਦੋਂ ਇਹ ਸਮਾਂ ਬਚਾਉਂਦਾ ਹੋਵੇ ਜਾਂ ਉਹਨਾਂ ਦੀ ਆਸ ਨੂੰ ਪੁਸ਼ਟੀ ਕਰਦਾ ਹੋਵੇ।\n\n### "ਗਲਤ ਜਵਾਬ" ਤੋਂ "ਹੈਲੂਸੀਨੇਸ਼ਨ" ਤੱਕ\n\nAI ਸਮੁਦਾਇ ਅਕਸਰ ਇਹਨਾਂ ਬਰੁਦਾ, ਵਿਸ਼ੇਸ਼ ਪਰ ਗਲਤ ਜਵਾਬਾਂ ਨੂੰ ਹੈਲੂਸੀਨੇਸ਼ਨ ਕਹਿੰਦਾ ਹੈ। ਇਹ ਸ਼ਬਦ ਦੋ ਚੀਜ਼ਾਂ 'ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ:\n\n- ਮਾਡਲ ਸਿਰਫ਼ ਇੱਕ ਛੋਟੀ ਭੁੱਲ ਨਹੀਂ ਕਰ ਰਿਹਾ; ਇਹ ਤੱਥ, ਸਰੋਤ ਜਾਂ ਘਟਨਾਵਾਂ ਰਚ ਸਕਦਾ ਹੈ।\n- ਆਉਟਪੁੱਟ ਅੰਦਰੋਂ ਨੂੰ ਤਰਤੀਬਵਾਰ ਅਤੇ fluent ਹੋ ਸਕਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਸਮਝਣ ਦੀ ਭ੍ਰਮ ਪੈਦਾ ਹੁੰਦੀ ਹੈ।\n\nਇਹ ਭ੍ਰਮ LLM ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਬਹੁਤ ਖ਼ਤਰਨਾਕ ਬਣਾਉਂਦੀ ਹੈ। ਇੱਕ ਖੋਜ ਨਤੀਜੇ ਦਾ ਟੁਕੜਾ ਜੋ ਇੱਕ ਸਿਟੇਸ਼ਨ ਘੜਦਾ ਹੈ, ਇੱਕ ਕੋਡ ਸਹਾਇਕ ਜੋ ਮੌਜੂਦ ਨਾ ਰਹਿਣ ਵਾਲੀ API ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ, ਜਾਂ ਇੱਕ ਮੈਡੀਕਲ ਚੈਟਬੋਟ ਜੋ ਗੜਬੜ ਡੋਜ਼ ਦੱਸਦਾ ਹੈ—ਸਾਰੇ ਇਹ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਨੁਕਸਾਨ ਪਹੁੰਚਾ ਸਕਦੇ ਹਨ ਜੇ ਉਹ ਉਨ੍ਹਾਂ 'ਤੇ ਅਮਲ ਕਰ ਲੈਂ।\n\n### ਇਹ ਹੁਣ ਕਿਉਂ ਜ਼ਰੂਰੀ ਹੈ\n\nLLMs ਐਸੇ ਸੰਦਰਭਾਂ ਵਿੱਚ ਵਰਤੇ ਜਾ ਰਹੇ ਹਨ ਜਿੱਥੇ ਲੋਕ:\n\n- ਸਵਤੰਤਰ ਤਸਦੀਕ ਛੱਡ ਦੇ ਸਕਦੇ ਹਨ ਕਿਉਂਕਿ ਜਵਾਬ ਮਾਹਿਰ ਵਾਂਗ ਲੱਗਦਾ ਹੈ।\n- AI ਆਉਟਪੁੱਟ ਨੂੰ ਸਿੱਧਾ ਵਰਕਫਲੋਅ (ਕੋਡ, ਠੇਕੇ, ਰਿਪੋਰਟ) ਵਿੱਚ ਸ਼ਾਮਿਲ ਕਰ ਲੈਂਦੇ ਹਨ।\n- ਉਹਨਾਂ ਵਿਸ਼ਿਆਂ 'ਤੇ AI 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ ਜਿੱਥੇ ਉਹਨਾਂ ਕੋਲ ਖੁਦ ਡੋਮੇਨ ਗਿਆਨ ਨਾ ਹੋਵੇ।\n\nਫਿਰ ਵੀ, ਕੋਈ ਵੀ ਮਾਡਲ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਹੀ ਜਾਂ ਸੱਚ ਨਹੀਂ ਹੈ। ਅਜੇ ਵੀ state-of-the-art ਪ੍ਰণਾਲੀਆਂ ਹੈਲੂਸੀਨੇਟ ਕਰੇਂਗੀਆਂ, ਕਈ ਵਾਰੀ ਸਧਾਰਨ ਸਵਾਲਾਂ 'ਤੇ ਵੀ। ਇਹ ਕੋਈ ਵਿਰਲ ਐਜ ਕੇਸ ਨਹੀਂ, ਬਲਕਿ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ ਦੇ ਕੰਮ ਕਰਨ ਦੇ ਤਰੀਕੇ ਵਿੱਚ ਇੱਕ ਬੁਨਿਆਦੀ ਸੁਭਾਵ ਹੈ।\n\nਇਸ ਸੀਮਿਤੀ ਨੂੰ ਸਮਝ ਕੇ—ਅਤੇ ਪ੍ਰਾਂਪਟ, ਉਤਪਾਦ, ਅਤੇ ਨੀਤੀਆਂ ਨੂੰ ਇਸ ਦੇ ਆਸਪਾਸ ਡਿਜ਼ਾਈਨ ਕਰਕੇ—ਅਸੀਂ LLMs ਨੂੰ ਸੁਰੱਖਿਅਤ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰ ਤਰੀਕੇ ਨਾਲ ਵਰਤ ਸਕਦੇ ਹਾਂ, ਬਿਨਾਂ ਇਸ 'ਤੇ ਬੇ-ਜਰੂਰ ਭਰੋਸੇ ਦੇ।\n\n## LLM ਹੈਲੂਸੀਨੇਸ਼ਨ ਕੀ ਹਨ?\n\n### ਵਰਕਿੰਗ ਪਰਿਭਾਸ਼ਾ\n\nLLM ਹੈਲੂਸੀਨੇਸ਼ਨ ਉਹ ਆਉਟਪੁੱਟ ਹਨ ਜੋ fluent ਅਤੇ ਭਰੋਸੇਯੋਗ ਲੱਗਦੇ ਹਨ, ਪਰ ਤੱਥਤਮਕ ਤੌਰ 'ਤੇ ਗਲਤ ਜਾਂ ਪੂਰੀ ਤਰ੍ਹਾਂ ਘੜੇ ਹੋਏ ਹੁੰਦੇ ਹਨ।\n\nਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ: ਇੱਕ ਹੈਲੂਸੀਨੇਸ਼ਨ ਉਸ ਵੇਲੇ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਇੱਕ ਵੱਡਾ ਭਾਸ਼ਾ ਮਾਡਲ ਐਸਾ ਸਮੱਗਰੀ ਪੈਦਾ ਕਰਦਾ ਹੈ ਜੋ ਅਸਲਤਾਂ ਵਿੱਚ ਨਹੀਂ ਜਾਂ ਉਹਨਾਂ ਸਰੋਤਾਂ ਵਿੱਚ ਨਹੀਂ ਹੈ ਜਿਨ੍ਹਾਂ 'ਤੇ ਇਹ ਨਿਰਭਰ ਹੋਣਾ ਚਾਹੀਦਾ ਸੀ, ਫਿਰ ਵੀ ਇਸਨੂੰ ਸੱਚ ਵਾਂਗ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਮਾਡਲ ਮਨੁੱਖੀ ਤਰੀਕੇ ਨਾਲ "ਝੂਠ" ਨਹੀਂ ਬੋਲ ਰਿਹਾ; ਇਹ ਡੇਟਾ ਦੇ ਪੈਟਰਨਾਂ ਦੀ ਪਾਲਣਾ ਕਰ ਰਿਹਾ ਹੈ ਅਤੇ ਕਈ ਵਾਰੀ ਉਹਨਾਂ ਤੋਂ ਐਸੇ ਵੇਰਵੇ ਨਿਕਲ ਆਉਂਦੇ ਹਨ ਜੋ ਘੜੇ ਹੋਏ ਲੱਗਦੇ ਹਨ।\n\n### ਹੈਲੂਸੀਨੇਸ਼ਨ ਅਤੇ ਆਮ ਅਣਿਸ਼ਚਿਤਤਾ ਵਿਚ ਫ਼ਰਕ\n\nਹੈਲੂਸੀਨੇਸ਼ਨ ਨੂੰ ਆਮ ਅਣਜਾਣਗੀ ਤੋਂ ਵੱਖਰਾ ਸਮਝਣਾ ਮਦਦਗਾਰ ਹੈ:\n\n- ਅਣਜਾਣਗੀ / ਅਣਿਸ਼ਚਿਤਤਾ: ਮਾਡਲ ਕਹਿੰਦਾ ਹੈ ਕਿ ਉਹਨੂੰ ਪਤਾ ਨਹੀਂ ਹੈ, ਜਾਂ ਨਰਮ ਜਵਾਬ ਦਿੰਦਾ ਹੈ। ਉਦਾਹਰਣ: “ਮੈਨੂੰ ਯਕੀਨ ਨਹੀਂ ਹੈ,” “ਮੇਰੇ ਕੋਲ ਉਹ ਡੇਟਾ ਨਹੀਂ ਹੈ,” ਜਾਂ ਇਹ ਕਈ ਸੰਭਾਵਨਾਵਾਂ ਦਿੰਦਾ ਹੈ ਬਿਨਾਂ ਕਿਸੇ ਇਕ ਨੂੰ ਫੈਕਟ ਵਜੋਂ ਦਿਤੇ।\n- ਹੈਲੂਸੀਨੇਸ਼ਨ: ਮਾਡਲ ਇੱਕ ਖ਼ਾਸ, ਪ੍ਰਧਾਨ-ਅਵਾਜ਼ ਵਾਲਾ ਜਵਾਬ ਦਿੰਦਾ ਹੈ ਜੋ ਗਲਤ ਜਾਂ ਅਸੁਪਠਾਵਾਂਯੋਗ ਹੁੰਦਾ ਹੈ, ਬਿਨਾਂ ਕਿਸੇ ਸੰਦੇਹ ਦੇ ਨਿਸ਼ਾਨ ਦੇ। ਇਹ ਖਾਲੀਆਂ ਭਰਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਦਾ ਹੈ instead of ਗੈਪ ਮਨਨ ਦੇ।\n\nਦੋਹਾਂ ਇੱਕੋ prediction ਪ੍ਰਕਿਰਿਆ ਤੋਂ ਆਉਂਦੇ ਹਨ, ਪਰ ਹੈਲੂਸੀਨੇਸ਼ਨ ਖ਼ਤਰਨਾਕ ਹਨ ਕਿਉਂਕਿ ਉਹ ਭਰੋਸੇਯੋਗ ਲੱਗਦੇ ਹਨ ਜਦਕਿ ਗਲਤ ਹੁੰਦੇ ਹਨ।\n\n### ਹੈਲੂਸੀਨੇਸ਼ਨ ਕਿਸ ਤਰ੍ਹਾਂ ਦੇਖਾਈ ਦੇ ਸਕਦੀਆਂ ਹਨ\n\nਹੈਲੂਸੀਨੇਸ਼ਨ ਸਿਰਫ਼ ਸਧਾਰਨ ਪਾਠ ਵਿੱਚ ਨਹੀਂ ਹੁੰਦੀਆਂ। ਉਹ ਕਈ ਰੂਪਾਂ ਵਿੱਚ ਆ ਸਕਦੀਆਂ ਹਨ, ਜਿਵੇਂ:\n\n- ਕਥਾਕਾਰ ਟੈਕਸਟ: ਘੜੀਆਂ ਹੋਈਆਂ ਜਿੰਦਗੀਆਂ, ਕਦੇ ਹੋਈਆਂ ਘਟਨਾਵਾਂ ਜਾਂ ਗਲਤ ਤੌਰ 'ਤੇ ਉਦੋਂ-ਕਿਹਾ ਕਹਿਣਾਂ।\n- ਸਿਟੇਸ਼ਨ ਅਤੇ ਰਿਫਰੈਂਸ: ਯਥਾਰਥ-ਲੱਗਦੀਆਂ ਪਰ ਮੌਜੂਦ ਨਹੀਂ ਪੇਪਰਾਂ, URLs, ਕਾਨੂੰਨੀ ਮਾਮਲੇ ਜਾਂ ਸਟੈਂਡਰਡ।\n- ਕੋਡ: ਅਜਿਹੀਆਂ ਫੰਕਸ਼ਨਲיטי ਦੀ ਵਰਤੋਂ ਜਿਹੜੀਆਂ ਮੌਜੂਦ ਨਹੀਂ, ਗਲਤ APIs, ਜਾਂ ਕਲਾਕਲਪਿਤ ਲਾਇਬ੍ਰੇਰੀਆਂ ਤੇ ਆਧਾਰਿਤ ਕੋਡ।\n- ਡੇਟਾ ਅਤੇ ਅੰਕੜੇ: ਘੜੇ ਹੋਏ ਨੰਬਰ, ਨਕਲੀ ਟੇਬਲਾਂ, ਸੰਕੇਤਕ ਸਰਵੇ ਨਤੀਜੇ, ਜਾਂ ਬਣਾਏ ਹੋਏ ਬੈਂਚਮਾਰਕ।\n\nਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਔਖਾ ਬਣਾਉਣ ਵਾਲੀ ਗੱਲ ਇਹ ਹੈ ਕਿ ਭਾਸ਼ਾ, ਫਾਰਮੈਟਿੰਗ, ਅਤੇ ਰਚਨਾ ਅਕਸਰ ਇੱਕੋ ਜਿਹੇ ਉਚ-ਗੁਣਵੱਤਾ ਵਿਸ਼ੇਸ਼ਗਿਆਨ ਵਾਲੇ ਆਉਟਪੁੱਟ ਵਾਂਗ ਲੱਗਦੇ ਹਨ, ਇਸ ਲਈ ਜੇ ਤੱਕ ਤੁਸੀਂ ਧਿਆਨ ਨਾਲ ਜਾਂਚ ਨਹੀਂ ਕਰਦੇ, ਇਹਨਾਂ 'ਤੇ ਭਰੋਸਾ ਕਰਨਾ ਆਸਾਨ ਹੋ ਸਕਦਾ ਹੈ।\n\n## LLM ਗੈਰ-ਸੱਚਾਈ ਨਾਲ ਪੇਦਾ ਕਰਦੀਆਂ ਹਨ\n\nਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ "ਸੋਚਦੇ" ਨਹੀਂ ਜਾਂ ਤੱਥ ਖੋਜਦੇ ਨਹੀਂ। ਉਹ ਪੈਟਰਨ ਮਸ਼ੀਨਾਂ ਹਨ ਜੋ ਟੈਕਸਟ ਨੂੰ ਐਸਾ ਜਾਰੀ ਰੱਖਣ ਲਈ ਟ੍ਰੇਨ ਕੀਤੇ ਜਾਂਦੇ ਹਨ ਜੋ ਆਮ ਤੌਰ 'ਤੇ ਯਥਾਰਥਵਾਨ ਲੱਗਦਾ ਹੈ।\n\n### ਟਰੇਨਿੰਗ ਦਾ ਇੱਕ ਛੋਟਾ, ਗੈਰ-ਤਕਨੀਕੀ ਨਜ਼ਰੀਆ\n\nਟ੍ਰੇਨਿੰਗ ਉਹਨਾਂ ਵੱਡੀਆਂ ਮਾਤਰਾਂ ਦੇ ਟੈਕਸਟ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ: ਕਿਤਾਬਾਂ, ਲੇਖ, ਕੋਡ, ਵੈੱਬਸਾਈਟਸ ਅਤੇ ਹੋਰ। ਮਾਡਲ ਨੂੰ ਇਹ ਸਿਖਾਇਆ ਨਹੀਂ ਜਾਂਦਾ ਕਿ "ਇਹ ਸੱਚ ਹੈ" ਜਾਂ "ਇਹ ਗਲਤ ਹੈ"।\n\nਇਸ ਦੀ ਬਜਾਏ, ਇਹ ਵਾਰ-ਵਾਰ ਵਾਕਾਂ ਨੂੰ ਇਕ ਛੋਟਾ ਹਿੱਸਾ ਲੁਕਾ ਕੇ ਵੇਖਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਗੁੱਸਾ ਲਗਾਉਣ ਲਈ ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਉਦਾਹਰਣ ਲਈ:\n\n> "ਪੈਰਿਸ ___ ਦਾ ਰਾਜਧਾਨੀ ਹੈ"\n\nਮਾਡਲ ਆਪਣੇ ਅੰਦਰਲੀ ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਢਾਲਦਾ ਹੈ ਕਿ ਉਸਦੇ ਅੰਦਾਜ਼ੇ ਅਸਲ ਟੈਕਸਟ ਦੇ ਨਜ਼ਦੀਕ ਆ ਜਾਣ। ਇਹ ਪ੍ਰਕਿਰਿਆ ਬਿਲੀਅਨਜ਼ ਵਾਰੀ ਹੋਣਦੀ ਹੈ ਅਤੇ ਵੱਖ-ਵੱਖ ਸੰਦਰਭਾਂ 'ਚ ਦੋਹਰਾਈ ਜਾਂਦੀ ਹੈ। ਸਮੇਂ ਨਾਲ, ਮਾਡਲ ਭਾਸ਼ਾ ਅਤੇ ਦੁਨੀਆ ਦੇ सांਖੇਤਿਕ ਰੁਝਾਨਾਂ ਨੂੰ ਅੰਦਰ ਰੱਖ ਲੈਂਦਾ ਹੈ।\n\n### Next-token prediction ਅਤੇ probability distributions\n\nਟੈਕਨੀਕੀ ਰੂਪ ਵਿੱਚ, ਮਾਡਲ ਹਰ ਕਦਮ 'ਤੇ ਅਗਲਾ ਟੋਕਨ (ਸ਼ਬਦ ਦਾ ਹਿੱਸਾ, ਪੂਰਾ ਸ਼ਬਦ, ਜਾਂ ਵਿਚਹਰ) ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ ਜੋ ਪਹਿਲਾਂ ਆਏ ਟੋਕਨ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ।\n\nਹਰ ਕਦਮ ਲਈ, ਇਹ ਸਾਰੇ ਸੰਭਵ ਅਗਲੇ ਟੋਕਨਾਂ 'ਤੇ ਇੱਕ ਸੰਭਾਵਨਾ ਵੰਡ ਮੁਹੱਈਆ ਕਰਦਾ ਹੈ:\n\n- "Paris" ਨੂੰ 0.82 ਮਿਲ ਸਕਦਾ ਹੈ\n- "London" 0.05\n- "city" 0.03\n- ਆਦਿ\n\nਫਿਰ ਇੱਕ ਡੀਕੋਡਿੰਗ ਅਲਗੋਰਿਦਮ ਇਸ ਵੰਡ ਵਿੱਚੋਂ ਨਮੂਨਾ ਲੈਂਦਾ ਜਾਂ ਸਭ ਤੋਂ ਮੌਜੂਦਾ ਚੁਣਦਾ ਹੈ ਤਾਂ ਜੋ ਅਗਲਾ ਟੋਕਨ ਚੁਣਿਆ ਜਾਵੇ। ਇਸ ਤਰ੍ਹਾਂ, ਟੋਕਨ-ਦਰ-ਟੋਕਨ ਦੁਹਰਾਈ ਨਾਲ ਪੂਰੇ ਵਾਕ ਅਤੇ ਲੰਬੇ ਜਵਾਬ ਬਣਦੇ ਹਨ।\n\n### ਪਲਾਜ਼ੀਬਲਿਟੀ ਲਈ optimize ਕੀਤਾ ਗਿਆ, ਸੱਚ ਲਈ ਨਹੀਂ\n\nਮੁੱਖ ਉਦੇਸ਼ ਇਹ ਹੈ: ਟ੍ਰੇਨਿੰਗ ਵਿੱਚ ਦੇਖੇ ਗਏ ਕਿਸਮ ਦੇ ਟੈਕਸਟ ਨੂੰ ਮਿਲਣਾ। ਮੁੱਖ ਤੌਰ 'ਤੇ ਕੋਈ ਵੱਖਰਾ ਉਪਕਰਨ ਨਹੀਂ ਹੁੰਦਾ ਜੋ ਤੱਥਾਂ ਦੀ ਜਾਂਚ ਕਰੇ, ਕਿਸੇ ਡੇਟਾਬੇਸ ਨਾਲ ਤਲਾਸ਼ ਕਰੇ, ਜਾਂ ਲਾਜ਼ਮ ਲਾਗੂ ਕਰੇ।\n\nਇਸ ਲਈ ਮਾਡਲ ਪਲਾਜ਼ੀਬਲ-ਲੱਗਣ ਵਾਲੀਆਂ ਪੂਰਕਾਂ ਪੈਦਾ ਕਰਨ ਲਈ optimize ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਨਾ ਕਿ ਇਹ ਗਾਰੰਟੀ ਕਰਨ ਲਈ ਕਿ ਜੋ ਇਹ ਕਹਿੰਦਾ ਹੈ ਉਹ ਸਹੀ, ਅਪ-ਟੂ-ਡੇਟ ਜਾਂ ਪ੍ਰਮਾਣਿਤ ਹੈ। ਜੇ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਵਿੱਚ ਅਕਸਰ ਕੋਈ ਗਲਤਫ਼ਹਮੀ ਦਰਜ ਹੋਈ ਹੋਵੇ, ਤਾਂ ਉਹ ਗਲਤਫ਼ਹਮੀ ਮੁੜ ਸਕਦੀ ਹੈ।\n\n### ਸਕੇਲ, ਪੈਟਰਨ ਅਤੇ “ਜਾਣਕਾਰੀ” ਦੀਆਂ ਸੀਮਾਵਾਂ\n\nਕਿਉਂਕਿ LLMs ਨੂੰ ਵਿਸ਼ਾਲ ਡੇਟਾਸੈਟਸ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਉਹ ਅਮੂਮਨ ਪੈਟਰਨਾਂ ਬਹੁਤ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਮਝ ਲੈਂਦੇ ਹਨ: ਵਿਆਕਰਨ, ਆਮ ਤਰਕ-ਟੈਮਪਲੇਟ, ਆਮ ਉੱਤਰ, ਅਤੇ ਸੰਕਲਪਾਂ ਵਿਚਕਾਰ ਐਸੋਸਿਏਸ਼ਨ।\n\nਪਰ ਉਹ ਇਕ ਸਹੀ, ਖੋਜਯੋਗ ਤੱਥਾਂ ਦੀ ਸੂਚੀ ਸਟੋਰ ਨਹੀਂ ਕਰਦੇ। ਉਨ੍ਹਾਂ ਦੀ "ਨੌਲੇਜ਼" ਇੰਟਰਨਲ ਵਜ਼ਨਾਂ 'ਚ ਸਪਤ ਹੋਈ ਹੁੰਦੀ ਹੈ। ਇਸੀ ਲਈ ਉਹ fluent, ਸੰਦਰਭ-ਸਬੰਧੀ ਲਿਖਤ ਬਣਾਉਂਦੇ ਹੋਏ ਵੀ ਕਈ ਵਾਰੀ ਐਸੇ ਵੇਰਵਿਆਂ ਨੂੰ ਘੜ ਸਕਦੇ ਹਨ ਜੋ ਦਿਖਦੇ ਤਾਂ ਠੀਕ ਹਨ ਪਰ ਗਲਤ ਹੁੰਦੇ ਹਨ।\n\n## ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਦੇ ਮੁੱਖ ਤਕਨੀਕੀ ਕਾਰਨ\n\nਹੈਲੂਸੀਨੇਸ਼ਨ random ਗਲਤੀਆਂ ਨਹੀਂ ਹਨ; ਉਹ ਸਿੱਧਾ ਹੀ LLMs ਦੀ ਬਣਤਰ ਅਤੇ ਟ੍ਰੇਨਿੰਗ ਤੋਂ ਨਿਕਲਦੀਆਂ ਹਨ।\n\n### 1. ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਵਿੱਚ ਖ਼ਾਲੀਆਂ, ਸ਼ੋਰ ਅਤੇ ਪੁਰਾਣਾਪਨ\n\nਮਾਡਲ ਵੱਡੇ ਟੈਕਸਟ ਕਾਰਪਸ ਤੋਂ ਸਿੱਖਦੇ ਹਨ ਜੋ ਵੈੱਬ, ਕਿਤਾਬਾਂ, ਕੋਡ ਅਤੇ ਹੋਰ ਸਰੋਤਾਂ ਤੋਂ scraped ਹੁੰਦੇ ਹਨ। ਇਸ ਡੇਟਾ ਵਿੱਚ ਕੁਝ ਮੁੱਦੇ ਹੁੰਦੇ ਹਨ:\n\n- ਖ਼ਾਲੀਆਂ: ਕਈ ਵਿਸ਼ੇ underrepresented ਹੁੰਦੇ ਹਨ (ਨਿੱਛੇ ਡੋਮੇਨ, ਗੈਰ-ਅੰਗ੍ਰੇਜ਼ੀ ਸਰੋਤ, ਪ੍ਰਾਪਰਾਈਟਰੀ ਗਿਆਨ)। ਜਦੋਂ ਤੁਸੀਂ ਇਨ੍ਹਾਂ ਬਾਰੇ ਪੁੱਛਦੇ ਹੋ, ਮਾਡਲ ਕਮਜ਼ੋਰ ਸਿਗਨਲ ਤੋਂ ਇੰਟਰਪੋਲੇਟ ਕਰਦਾ ਹੈ ਅਤੇ ਘੜਣਾ ਵੱਧ ਹੁੰਦਾ ਹੈ।\n- ਸ਼ੋਰ ਅਤੇ ਗਲਤੀਆਂ: ਟ੍ਰੇਨਿੰਗ ਸੈੱਟ ਵਿੱਚ ਸਪੈਮ, outdated ਬਲੌਗ, ਗਲਤ ਫੋਰਮ ਉੱਤਰ ਅਤੇ ਟਕਰਾਅ ਵਾਲੀਆਂ ਦਾਵਾਂ ਹੁੰਦੀਆਂ ਹਨ। ਮਾਡਲ ਉਹਨਾਂ ਗੱਲਾਂ ਦੇ ਪੈਟਰਨਾਂ ਤੋਂ ਵੀ ਸਿੱਖਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਗਲਤ ਦਾਅਵੇ ਵੀ ਸ਼ਾਮਲ ਹਨ।\n- ਪੁਰਾਣੀ ਜਾਣਕਾਰੀ: ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਂ ਇੱਕ ਨਿਸ਼ਚਿਤ ਸਮੇਂ 'ਤੇ ਫ੍ਰੋਜ਼ਨ ਹੋ ਜਾਂਦੀਆਂ ਹਨ। ਜਿਹੜੀ ਵੀ ਜਾਣਕਾਰੀ ਉਸ ਤੋਂ ਬਾਅਦ ਬਦਲਦੀ ਹੈ (ਨਿਯਮ, ਕੰਪਨੀ ਵੇਰਵੇ, ਰਿਸਰਚ ਨਤੀਜੇ), ਮਾਡਲ ਪੁਰਾਣੇ ਪੈਟਰਨਾਂ ਤੋਂ ਅਨੁਮਾਨ ਲਗਾਉਂਦਾ ਹੈ, ਇਸ ਲਈ ਇਹ ਅਪ-ਟੂ-ਡੇਟ ਜਾਣਕਾਰੀ ਨੂੰ ਮੌਜੂਦਾ ਤੱਥ ਵਜੋਂ ਪੇਸ਼ ਕਰ ਸਕਦਾ ਹੈ।\n\nਜਦੋਂ ਮਾਡਲ ਕਿਸੇ ਐਸੇ ਸਵਾਲ ਦਾ ਸਾਹਮਣਾ ਕਰਦਾ ਹੈ ਜੋ ਉਸਦੇ ਮਜ਼ਬੂਤ ਡੇਟਾ ਖੇਤਰਾਂ ਤੋਂ ਬਾਹਰ ਹੈ, ਇਹ ਫਿਰ ਵੀ fluent ਅਨੁਮਾਨ ਦੇਵੇਗਾ।\n\n### 2. ਉਦੇਸ਼ ਦਾ ਅਣਮਿਲਾਪ: likelihood ਵਿਰੁੱਧ truth\n\nਬੇਸ ਟ੍ਰੇਨਿੰਗ ਉਦੇਸ਼ ਇਹ ਹੈ: \n\n> ਦਿੱਤੇ ਗਏ ਪਿਛਲੇ ਟੋਕਨਾਂ ਦੇ ਆਧਾਰ 'ਤੇ, training distribution ਵਿੱਚ ਸਭ ਤੋਂ ਸੰਭਾਵਤ ਅਗਲਾ ਟੋਕਨ ਭਵਿੱਖਬਾਣੀ ਕਰੋ।\n\nਇਹ ਭਾਸ਼ਾਈ ਪਲਾਜ਼ੀਬਲਿਟੀ ਲਈ optimize ਕਰਦਾ ਹੈ, ਨਾ ਕਿ ਤੱਥ ਦੀ ਸਹੀਤਾ ਲਈ। ਜੇ ٹ੍ਰੇਨਿੰਗ ਡੇਟਾ ਵਿੱਚ ਸਭ ਤੋਂ ਸੰਭਾਵਤ ਅਗਲਾ ਵਾਕ ਇੱਕ ਨਿਸ਼ਚਿਤ ਪਰ ਗਲਤ ਬਿਆਨ ਹੈ, ਤਾਂ ਮਾਡਲ ਨੂੰ ਉਸਨੂੰ ਪੈਦਾ ਕਰਨ 'ਤੇ ਇਨਾਮ ਮਿਲਦਾ ਹੈ।\n\nਇਸ ਲਈ, ਮਾਡਲ ਉਹ ਲਿਖਤ ਜਾਰੀ ਕਰਨਾ ਸਿੱਖ ਲੈਂਦਾ ਹੈ ਜੋ ਸੱਚਾਈ ਜਿਹਾ ਲੱਗਦਾ ਹੈ, ਭਾਵੇਂ ਇਸਦਾ ਕੋਈ ਬੁਨਿਆਦੀ ਆਧਾਰ ਨਾ ਹੋਵੇ।\n\n### 3. ਡੀਕੋਡਿੰਗ ਨੀਤੀਆਂ ਅਤੇ ਸਮਪਲਿੰਗ ਪ੍ਰਭਾਵ\n\nਜਨਰੇਸ਼ਨ ਦੌਰਾਨ, ਡੀਕੋਡਿੰਗ ਅਲਗੋਰਿਦਮ ਹੈਲੂਸੀਨੇਸ਼ਨ ਦੀ ਦਰ 'ਤੇ ਅਸਰ ਪਾਂਦੀਆਂ ਹਨ:\n\n- Greedy decoding ਹਰ ਕਦਮ 'ਤੇ ਸਭ ਤੋਂ ਵੱਧ ਸੰਭਾਵਨਾ ਵਾਲਾ ਟੋਕਨ ਚੁਣਦਾ ਹੈ। ਇਹ randomness ਘਟਾ ਸਕਦਾ ਹੈ ਪਰ ਪਹਿਲੀਆਂ ਗਲਤੀਆਂ ਨੂੰ ਲੌਕ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਆਤਮ-ਵਿਸ਼ਵਾਸ ਵਾਲੀਆਂ ਦੁਹਰਾਈਆਂ ਗਲਤੀਆਂ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ।\n- Temperature sampling probability ਨੂੰ scale ਕਰਦਾ ਹੈ ਤਾਂ ਜੋ ਆਉਟਪੁੱਟ ਹੋਰ ਜ਼ਿਆਦਾ ਜਾਂ ਘੱਟ ਰੈਂਡਮ ਹੋ ਜਾਵੇ। ਉੱਚ temperature ਰਚਨਾਤਮਿਕਤਾ ਵਧਾਉਂਦਾ ਹੈ ਪਰ factual drift ਦਾ ਖ਼ਤਰਾ ਵੀ ਵਧਦਾ ਹੈ।\n- Top-k / nucleus (top-p) sampling ਉਮੀਦਵਾਰ ਟੋਕਨਾਂ ਦੇ ਉਪਸੈੱਟ ਨੂੰ ਸੀਮਤ ਕਰਦਾ ਹੈ। ਖ਼ਰਾਬ ਟਿਊਨਿੰਗ ਮਾਡਲ ਨੂੰ ਬਹੁਤ deterministic (ਤੇ ਉੱਤਰ ਜੋ canned ਪਰ ਗਲਤ ਹੋ) ਜਾਂ ਬਹੁਤ stochastic (ਅਜਿਹੇ ਵੇਰਵੇ ਘੜਨਾ) ਕਰ ਸਕਦੀ ਹੈ।\n\nਡੀਕੋਡਿੰਗ ਕਦੇ ਵੀ ਗਿਆਨ ਜੋੜਦੀ ਨਹੀਂ; ਇਹ ਕੇਵਲ ਮੌਜੂਦਾ probability distribution ਨੂੰ ਖੋਜਣ ਦਾ ਢੰਗ ਬਦਲਦੀ ਹੈ। ਕਿਸੇ ਵੀ ਕਮਜ਼ੋਰੀ ਨੂੰ aggressive sampling ਹੋਰ ਹੈਲੂਸੀਨੇਸ਼ਨ ਵਿੱਚ ਤਬਦੀਲ ਕਰ ਸਕਦਾ ਹੈ।\n\n### 4. Alignment ਅਤੇ RLHF ਦੇ ਸਾਈਡ-ਇਫੈਕਟ\n\nਆਧੁਨਿਕ ਮਾਡਲ RLHF ਵਰਗੀਆਂ ਤਕਨੀਕਾਂ ਨਾਲ fine-tune ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ। ਰੇਟਿੰਗ ਕਰਨ ਵਾਲੇ ਮਨੁੱਖ ਉੱਤਰਾਂ ਨੂੰ ਉਹਨਾਂ ਦੀ ਮਦਦਗਾਰਤਾ, ਸੁਰੱਖਿਆ ਅਤੇ ਨਮਰਤਾ ਦੇ ਆਧਾਰ 'ਤੇ ਇਨਾਮ ਦਿੰਦੇ ਹਨ।\n\nਇਸ ਨਾਲ ਨਵੇਂ ਦਬਾਅ ਉਤਪੰਨ ਹੁੰਦੇ ਹਨ:\n\n- ਜਵਾਬ ਦੇਣ ਦਾ ਦਬਾਅ: ਮਨੁੱਖੀ ਰੇਟਿੰਗਕਾਰ ਅਕਸਰ ਇੱਕ ਪੂਰਾ, ਮਦਦਗਾਰ ਜਵਾਬ ਨੂੰ ਇੱਕ ਇਮਾਨਦਾਰ "ਮੈਨੂੰ ਪਤਾ ਨਹੀਂ" ਉੱਤਰ ਉਤੇ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ। ਕਈ training steps ਦੇ ਬਾਅਦ, ਮਾਡਲ ਸਿੱਖ ਜਾਂਦਾ ਹੈ ਕਿ ਵਿਸ਼ਵਾਸੀ ਤਰੀਕੇ ਨਾਲ ਕੁਝ ਕਹਿਣਾ ਆਮ ਤੌਰ 'ਤੇ ਬਿਹਤਰ ਹੁੰਦਾ ਹੈ।\n- ਸਟਾਈਲ ਉਪਰ ਜ਼ੋਰ, ਜਾਂ epistemics 'ਤੇ ਘੱਟ: RLHF ਸੁਲੇਖਨ ਅਤੇ ਫਾਰਮੈਟ 'ਤੇ ਬਹੁਤ ਪ੍ਰਭਾਵ ਰੱਖਦਾ ਹੈ (ਸਪੱਠ ਵਿਆਖਿਆਵਾਂ, ਕਦਮ-ਦਰ-ਕਦਮ ਤਰਕ) ਪਰ ਸੱਚਾਈ ਨੂੰ ਸਿਧਾ ਤੌਰ 'ਤੇ ਬਹੁਤ ਘੱਟ ਹੀ ਸੰਵਾਰਦਾ ਹੈ। ਮਾਡਲ reasoning ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਬਹੁਤ ਚੰਗਾ ਕਰ ਲੈਂਦਾ ਹੈ, ਭਾਵੇਂ ਅੰਦਰੂਨੀ ਸਮੱਗਰੀ ਅਨੁਮਾਨੀ ਹੋਵੇ।\n\nਅਲਾਈਨਮੈਂਟ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਉਪਯੋਗਿਤਾ ਅਤੇ ਸੁਰੱਖਿਆ ਵਿੱਚ ਕਾਫ਼ੀ ਸੁਧਾਰ ਲਿਆਉਂਦੀ ਹੈ, ਪਰ ਇਹ ਅਣਜਾਣੇ ਤੌਰ 'ਤੇ ਭਰੋਸੇਯੋਗ ਅਨੁਮਾਨ ਨੂੰ ਪ੍ਰੋਤਸਾਹਿਤ ਵੀ ਕਰ ਸਕਦੀ ਹੈ। ਮਦਦਗਾਰਤਾ ਅਤੇ ਠੀਕ-ਮਾਤਰਾ-ਵਿਸ਼ਵਾਸ ('calibrated uncertainty') ਦੇ ਵਿਚਕਾਰ ਇਹ ਦਬਾਅ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਦਾ ਇੱਕ ਮੁੱਖ ਤਕਨੀਕੀ ਕਾਰਨ ਹੈ।\n\n## ਆਮ ਪੈਟਰਨ ਅਤੇ LLM ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਦੀਆਂ ਕਿਸਮਾਂ\n\nLLM ਹੈਲੂਸੀਨੇਸ਼ਨ ਆਮ ਤੌਰ 'ਤੇ ਪਛਾਣਯੋਗ ਪੈਟਰਨਾਂ ਦਾ ਪਾਲਣ ਕਰਦੀਆਂ ਹਨ। ਇਹਨਾਂ ਪੈਟਰਨਾਂ ਨੂੰ ਸਿੱਖ ਕੇ ਤੁਸੀਂ ਆਉਟਪੁੱਟ ਨੂੰ ਸ਼ੱਕ ਕਰਨ ਅਤੇ ਬਿਹਤਰ ਫਾਲੋ-ਅਪ ਪ੍ਰਸ਼ਨ ਪੁੱਛਣ ਵੱਲ ਜਾ ਸਕਦੇ ਹੋ।\n\n### 1. ਘੜੇ ਹੋਏ ਤੱਥ, ਕੋਟਸ, ਸਰੋਤ ਅਤੇ ਅੰਕੜੇ\n\nਇੱਕ ਬਹੁਤ ਹੀ ਦਿੱਖਣ ਵਾਲੀ ਫੇਲਯੂਰ ਮੋਡ ਭਰੋਸੇਯੋਗ ਘੜਤਾਂ ਹੈ:\n\n- ਤੱਥ: ਮਾਡਲ ਅਜਿਹੇ ਤਰੀਕੇ ਨਾਲ ਤਾਰੀਖਾਂ, ਨਾਮਾਂ, ਜਾਂ ਪਰਿਭਾਸ਼ਾਵਾਂ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਯਥਾਰਥ-ਲੱਗਦੀਆਂ ਪਰ ਅਸਲ ਵਿੱਚ ਮੌਜੂਦ ਨਹੀਂ।\n- ਕੋਟਸ: ਇਹ ਮਸ਼ਹੂਰ ਵਿਅਕਤੀਆਂ ਨੂੰ polished ਪੰਜਾਬੀ ਵਿਚ quote ਕਰ ਸਕਦਾ/ਸਕਦੀ ਹੈ ਬਿਨਾਂ ਕਿਸੇ ਪ੍ਰਮਾਣਿਕ ਸਰੋਤ ਦੇ।\n- ਅੰਕੜੇ: ਨਿਗਰਾਨ-ਲੱਗਣ ਵਾਲੇ ਨੰਬਰ (ਪ੍ਰਤੀਸ਼ਤ, ਸੈਂਪਲ-ਸਾਈਜ਼, ਮਾਰਜਿਨ ਆਫ਼ ਏਰਰ) ਉਤਪੰਨ ਕਰਦਾ ਹੈ ਜੋ ਨਾ ਤਾਂ ਉਲਾੜੇ ਜਾਂ ਪੁਨਰਉਤਪਾਦਿਤ ਹੋ ਸਕਦੇ ਹਨ।\n- ਸਰੋਤ: "ਸਟਡੀਜ", "ਰਿਪੋਰਟਾਂ" ਜਾਂ "ਸਰਵੇ" ਦਾ ਜ਼ਿਕਰ ਕਰਦਾ ਹੈ ਬਿਨਾਂ ਟ੍ਰੇਸ ਕਰਨਯੋਗ ਵੇਰਵੇ ਦਿੱਤੇ।\n\nਇਹ ਜਵਾਬ ਅਕਸਰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਲੱਗਦੇ ਹਨ, ਜਿਸ ਕਰਕੇ ਯੂਜ਼ਰ ਜੇ ਚੈੱਕ ਨਾ ਕਰੇ ਤਾਂ ਨੁਕਸਾਨ ਹੋ ਸਕਦਾ ਹੈ।\n\n### 2. ਘੜੇ ਹੋਏ ਰਿਫਰੈਂਸ ਅਤੇ ਨਕਲੀ URLs\n\nLLMs ਅਕਸਰ ਬਣਾਉਂਦੇ ਹਨ:\n\n- ਅਜੇਹੇ ਪੇਪਰ ਜਾਂ ਕਿਤਾਬਾਂ ਜੋ ਮੌਜੂਦ ਨਹੀਂ ਹੁੰਦੀਆਂ ਪਰ ਸਿਰਲੇਖ, ਸਮਭਾਵਿਤ ਨਾਲ-ਲੇਖਕ ਅਤੇ ਪਛਾਣਪਤਰ ਤੋਂ ਯਥਾਰਥ-ਲੱਗਦੀਆਂ ਹੁੰਦੀਆਂ ਹਨ।\n- ਨਕਲੀ URLs ਜੋ ਢਾਂਚੇ ਵਿੱਚ ਸਹੀ ਲੱਗਦੇ ਹਨ (ਜਿਵੇਂ /research/ ਜਾਂ /blog/ paths) ਪਰ ਕਿਸੇ ਵੀ ਵਾਸਤਵਿਕ ਪੰਨੇ ਵੱਲ ਨਹੀਂ ਲੈ ਜਾਂਦੇ।\n\nਮਾਡਲ ਸਿਟੇਸ਼ਨ ਅਤੇ ਲਿੰਕਾਂ ਦੇ ਬਣਤਰ ਤੋਂ ਪੈਟਰਨ-ਮੈਚ ਕਰ ਰਿਹਾ ਹੁੰਦਾ ਹੈ, ਨਾ ਕਿ ਕਿਸੇ ਡੇਟਾਬੇਸ ਜਾਂ ਲਾਈਵ ਵੈੱਬ ਨੂੰ ਚੈੱਕ ਕਰਕੇ।\n\n### 3. ਗਲਤ attribution, ਸਰੋਤਾਂ ਦਾ ਮਿਲਾਓ ਅਤੇ ਗਲਤ ਟਾਈਮਲਾਈਨ\n\nਇਕ ਹੋਰ ਪੈਟਰਨ ਹੈ ਕਈ ਸਰੋਤਾਂ ਨੂੰ ਇਕਿੱਠਾ ਕਰਕੇ ਫਲੈੱਟ ਕਰ ਦੇਣਾ:\n\n- ਦੋ ਵੱਖ-ਵੱਖ ਅਧਿਐਨ ਨੂੰ ਇੱਕ ਕੱਲਪਨਿਕ ਅਧਿਐਨ ਵਿੱਚ ਮਿਕਸ ਕਰਨਾ।\n- ਕਿਸੇ ਖੋਜ ਦੀ ਖੋਜਕ ਨੂੰ ਗਲਤ ਵਿਅਕਤੀ ਜਾਂ ਸੰਗਠਨ ਨੂੰ ਦੇਖਾਉਣਾ।\n- ਘਟਨਾਵਾਂ ਨੂੰ ਸਮੇਂ 'ਚ ਗਲਤ ਢੰਗ ਨਾਲ ਰੱਖਣਾ, ਜਿਵੇਂ ਇਕ ਉਪਕਰਣ ਦੀ ਖੋਜ ਨੂੰ ਗਲਤ ਦਹਾਕੇ 'ਚ ਰੱਖਣਾ ਜਾਂ ਕਾਰਨ ਅਤੇ ਪ੍ਰਭਾਵ ਨੂੰ ਉਲਟਣਾ।\n\nਇਹ ਅਕਸਰ ਤਦੋਂ ਹੁੰਦਾ ਹੈ ਜਦੋਂ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ ਮਿਲਦੇ-ਜੁਲਦੇ ਕਹਾਣੀਆਂ ਜਾਂ ਓਵਰਲੈਪਿੰਗ ਵਿਸ਼ਿਆਂ ਹੁੰਦੇ ਹਨ।\n\n### 4. ਘੜੇ ਹੋਏ ਤਰਕ ਕਦਮ ਅਤੇ ਗਲਤ ਕਾਰਨਾਤਮਕ ਚੇਨ\n\nLLMs ਇਹ ਵੀ ਘੜਦੇ ਹਨ ਕਿ ਕਿਸ ਤਰ੍ਹਾਂ ਜਾਂ ਕਿਉਂ ਕੋਈ ਘਟਨਾ ਵਾਪਰਦੀ ਹੈ:
- ਇੱਕ ਤਰਕ-ਕੈਡਮ ਸੀਰੀਜ਼ ਪੇਸ਼ ਕਰਦੇ ਹਨ ਜਿੱਥੇ ਦਰਮਿਆਨੀ ਕਦਮ ਸੁਤਲੀ-ਪੈਮਾਨੇ 'ਤੇ ਗਲਤ ਹੁੰਦੇ ਹਨ।
- ਨਤੀਜਿਆਂ ਨੂੰ ਸਾਫ-ਸੁਥਰੇ ਪਰ ਗਲਤ ਕਾਰਨਾਤਮਕ ਕਹਾਣੀਆਂ ਨਾਲ ਸਮਝਾਉਂਦੇ ਹਨ।
- ਵਿਸਤ੍ਰਿਤ ਦਰਜ਼ੀਬੰਦੀ ਜਾਂ ਪ੍ਰਮਾਣਾਂ ਪੇਦਾ ਕਰਦੇ ਹਨ ਜੋ ਇੱਕ ਨਜ਼ਰ 'ਤੇ ਸਹੀ ਲੱਗਦੇ ਹਨ ਪਰ ਅੰਦਰੋਂ ਪਿਛਲੇ ਤਰਕ ਵਿੱਚ ਗਲਤੀਆਂ ਹੁੰਦੀਆਂ ਹਨ।
ਕਿਉਂਕਿ ਟੈਕਸਟ fluent ਅਤੇ ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ consistent ਹੁੰਦਾ ਹੈ, ਇਹ ਤਰਕ-ਹੈਲੂਸੀਨੇਸ਼ਨ ਸਧਾਰਨ ਗਲਤ ਤੱਥ ਨਾਲੋਂ ਵੱਧ ਔਖੇ ਪਛਾਣੇ ਜਾਂਦੇ ਹਨ।\n\n## ਮਾਡਲਾਂ ਵਿੱਚ ਸੁਧਾਰ ਹੋਣ ਦੇ ਬਾਵਜੂਦ ਹੈਲੂਸੀਨੇਸ਼ਨ ਕਿਉਂ ਰਹਿੰਦੇ ਹਨ\n\nਵੱਡੇ, ਬਿਹਤਰ ਮਾਡਲ ਘੱਟ ਹੈਲੂਸੀਨੇਟ ਕਰਦੇ ਹਨ—ਪਰ ਉਹ ਫਿਰ ਵੀ ਕਰਦੇ ਹਨ, ਅਤੇ ਕਈ ਵਾਰੀ ਹੋਰ ਪ੍ਰਵੀਂ ਵਿਧੀਆਂ ਵਿੱਚ। ਕਾਰਨ ਆਮ ਤੌਰ 'ਤੇ ਮਾਡਲਾਂ ਦੀ ਬਣਤਰ ਵਿੱਚ ਜੋ ਪੱਕਾ ਹੈ, ਉਹੀ ਹਨ।\n\n### ਵੱਡੇ ਮਾਡਲ = ਬਿਹਤਰ ਅਨੁਮਾਨ, ਨਾ ਕਿ ਜ਼ਰੂਰੀ ਤੌਰ 'ਤੇ ਸੱਚ\n\nਮਾਡਲ ਦਾ ਆਕਾਰ, ਡੇਟਾ ਅਤੇ ਟ੍ਰੇਨਿੰਗ ਵਧਾਉਣ ਨਾਲ ਆਮ ਤੌਰ 'ਤੇ ਬੈਂਚਮਾਰਕ, fluent ਅਤੇ ਤੱਥ ਸਹੀਤਾ ਬਿਹਤਰ ਹੁੰਦੀ ਹੈ। ਪਰ ਮੁੱਖ ਉਦੇਸ਼ ਅਜੇ ਵੀ ਅਗਲਾ ਟੋਕਨ ਭਵਿੱਖਬਾਣੀ ਹੁੰਦਾ ਹੈ, ਨਾ ਕਿ ਦੁਨੀਆ ਬਾਰੇ ਸੱਚ ਦੀ ਜਾਂਚ।\n\nਇਸ ਲਈ ਵੱਡਾ ਮਾਡਲ:
- ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਦੇ ਪੈਟਰਨਾਂ ਨੂੰ ਜ਼ਿਆਦਾ ਠੀਕ ਮਿਲਾਉਂਦਾ ਹੈ
- ਸੰਦਰਭ ਵਿੱਚ ਖਾਲੀਆਂ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਭਰਦਾ ਹੈ
- ਹੋਰ ਵਿਸਤ੍ਰਿਤ, ਸੰਗਤਿ-ਭਰਪੂਰ ਉੱਤਰ ਪੈਦਾ ਕਰਦਾ ਹੈ
ਇਹੀ ਤਾਕਤਾਂ ਉਹਨਾਂ ਨੂੰ ਇਸ ਯੋਗ ਬਣਾਉਂਦੀਆਂ ਹਨ ਕਿ ਇਹ ਭਰੋਸੇਯੋਗ ਸੁਣਵਾਈ ਕਰ ਸਕਦੇ ਹਨ—ਪਰ ਇਸ ਗੱਲ ਦੀ ਗਾਰੰਟੀ ਨਹੀਂ ਕਿ ਉਹ ਗ਼ਲਤੀਆਂ ਨੂੰ ਨਾਹ ਤੇੜ ਸਕਣ।\n\n### ਪੈਟਰਨ ਤੋਂ ਹੋਰ-ਜਿਆਦਾ ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ\n\nLLMs ਐਸੇ ਪੈਟਰਨਾਂ ਨੂੰ ਅੰਦਰ ਕਰ ਲੈਂਦੇ ਹਨ ਜਿਵੇਂ “Wikipedia ਕਿਵੇਂ ਲਿਖੀ ਜਾਂਦੀ ਹੈ” ਜਾਂ “ਰਿਸਰਚ ਪੇਪਰ ਦੀ ਸਿਟੇਸ਼ਨ ਕਿਵੇਂ ਦਿਖਦੀ ਹੈ”। ਜਦੋਂ ਤੁਹਾਡਾ ਪ੍ਰਾਂਪਟ ਉਹਨਾਂ ਦੀ ਅਨੁਭਵ ਸਥਿਤੀ ਤੋਂ ਹਟ ਕੇ ਹੋਵੇ, ਉਹ ਅਕਸਰ:
- ਪੈਟਰਨਾਂ ਨੂੰ ਉਹਨਾਂ ਦੀ ਸੀਮਾਵਾਂ ਤੋਂ ਆਗੇ ਵਧਾ ਦਿੰਦੇ ਹਨ
- ਕਈ ਉਦਾਹਰਣਾਂ ਨੂੰ ਇਕ plausible ਕੰਪੋਜ਼ਟ ਵਿੱਚ ਮਿਲਾ ਦੈਂਦੇ ਹਨ
- coherence ਬਣਾਈ ਰੱਖਣ ਲਈ ਘੱਟ-ਮੌਜੂਦ ਟੁਕੜੇ ਘੜ ਲੈਂਦੇ ਹਨ
ਇਹ overgeneralization ਉਹਨਾਂ ਨੂੰ ਦ੍ਰਿੜ ਰੂਪ ਵਿੱਚ ਇੱਕ useful drafting ਅਤੇ brainstorming ਟੂਲ ਬਣਾਉਂਦੀ ਹੈ—ਪਰ ਜੇ ਹਕੀਕਤ ਸਿੱਖੇ ਪੈਟਰਨ ਨਾਲ ਮਿਲਦੀ ਨਹੀਂ ਤਾਂ ਇਹ ਹੈਲੂਸੀਨੇਸ਼ਨ ਚਲਾਉਂਦੀ ਹੈ।\n\n### ਕੈਲਿਬਰੇਸ਼ਨ: ਭਰੋਸਾ ਵਾਰੀ vs. ਸਹੀਤਾ\n\nਜ਼ਿਆਦਾਤਰ ਬੇਸ ਮਾਡਲ ਖ਼ਰਾਬ ਤਰੀਕੇ ਨਾਲ calibrate ਕੀਤੇ ਹੁੰਦੇ ਹਨ: ਉਹ ਜੋ ਉੱਤਰ ਦੇਣ ਵੇਲੇ ਦਿੱਤੀ ਭਰੋਸੇਯੋਗਤਾ ਅਕਸਰ ਇਸ Gall ਨੂੰ ਦਰਸਾਉਂਦੀ ਨਹੀਂ ਕਿ ਜਵਾਬ ਸਹੀ ਹੈ।\n\nਮਾਡਲ ਉੱਚ-ਭਰੋਸੇਯੋਗ continuation ਚੁਣ ਸਕਦਾ ਹੈ ਕਿਉਂਕਿ ਉਹ ਡਾਇਲੋਗ ਅਤੇ ਸ਼ੈਲੀ ਵਿੱਚ ਫਿੱਟ ਹੁੰਦੀ ਹੈ, ਨਾ ਕਿ ਕਿਉਂਕਿ ਇਸਦੇ ਕੋਲ ਮਜ਼ਬੂਤ ਸੁਬੂਤ ਹਨ। ਜੇ ਤੱਕ ਸਪਸ਼ਟ ਤਰੀਕੇ ਨਾਲ “ਮੈਨੂੰ ਪਤਾ ਨਹੀਂ” ਕਹਿਣ ਜਾਂ claims ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਟੂਲ ਦਿੱਤੇ ਨਾ ਜਾਣ, ਉੱਚ ਭਰੋਸਾ ਅਕਸਰ ਸਿਰਫ਼ "pattern-ਉੱਤੇ ਹੋਣਾ" ਦਿਖਾਉਂਦਾ ਹੈ, ਨਾ ਕਿ ਤੱਥ-ਕਲਿਕ।\n\n### ਡੋਮੇਨ ਸ਼ਿਫਟ: ਜਦੋਂ ਪ੍ਰਾਂਪਟ ਟ੍ਰੇਨਿੰਗ ਸੰਦਰਭਾਂ ਨਾਲ ਮਿਲਦਾ ਨਹੀਂ\n\nਮਾਡਲ ਵੱਡੇ, ਗੁੰਝਲਦਾਰ ਟੈਕਸਟ ਮਿਕਸ 'ਤੇ ਟ੍ਰੇਨ ਹੁੰਦੇ ਹਨ। ਤੁਹਾਡਾ ਪ੍ਰਾਂਪਟ ਹੋ ਸਕਦਾ ਹੈ ਕਿਸੇ ਐਸੇ distribution ਤੋਂ ਹੋਵੇ ਜੋ ਮਾਡਲ ਨੇ ਅਸਲ 'ਚ ਨਹੀਂ ਵੇਖੀ:
- ਨਿੱਛੇ ਡੋਮੇਨ (ਖ਼ਾਸ ਤਬੀ, ਕਾਨੂੰਨੀ, ਇੰਜੀਨੀਅਰਿੰਗ)\n- ਨਵੀਂ ਜਾਣਕਾਰੀ (ਹਾਲੀਆ ਰਿਸਰਚ, ਬਦਲੇ ਨਿਯਮ)\n- ਅਜਿਹੇ ਫਾਰਮੈਟ (ਕਸਟਮ schema, proprietary jargon)
ਜਦੋਂ ਪ੍ਰਾਂਪਟ ਪਛਾਣਯੋਗ ਪੈਟਰਨਾਂ ਤੋਂ ਹਟਦਾ ਹੈ, ਮਾਡਲ ਫਿਰ ਵੀ ਇੱਕ ਜਵਾਬ ਦੇਣਾ ਹੈ। ਸਹੀ ਮੇਲ ਨਾ ਹੋਣ 'ਤੇ, ਇਹ ਆਪਣੇ ਸਭ ਤੋਂ ਨੇੜੇ ਪੈਟਰਨ ਤੋਂ improvisation ਕਰਦਾ ਹੈ। ਉਹ improvisation fluent ਲੱਗਦੀ ਹੈ ਪਰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਘੜੀ ਹੋ ਸਕਦੀ ਹੈ।\n\nਸੰਖੇਪ ਵਿੱਚ, ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਸੁਧਰਦੇ ਹਨ, ਹੈਲੂਸੀਨੇਸ਼ਨ ਮਿਟਦੇ ਨਹੀਂ—ਉਹ ਘੱਟ ਹੁੰਦਿਆਂ ਹੋਏ ਵੀ ਹੋਰ ਨਿੱਪੁੰਨ ਬਣ ਜਾਂਦੀਆਂ ਹਨ, ਅਤੇ ਇਸ ਲਈ ਉਨ੍ਹਾਂ ਨੂੰ ਪਛਾਣਨਾ ਅਤੇ ਸੰਭਾਲਣਾ ਹੋਰ ਜ਼ਰੂਰੀ ਹੋ ਜਾਂਦਾ ਹੈ।\n\n## ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਦੇ ਰੀਅਲ-ਵਰਲਡ ਖਤਰੇ ਅਤੇ ਨਤੀਜੇ\n\nLLM ਹੈਲੂਸੀਨੇਸ਼ਨ ਸਿਰਫ਼ ਤਕਨੀਕੀ ਗੜਬੜੀਆਂ ਨਹੀਂ ਹਨ; ਉਹ ਲੋਕਾਂ ਅਤੇ ਸੰਗਠਨਾਂ ਲਈ ਸਿੱਧੇ ਨਤੀਜੇ ਰੱਖਦੀਆਂ ਹਨ।\n\n### ਰੋਜ਼ਮਰਾ ਦੇ ਉਦਾਹਰਣ ਜੋ ਚੁੱਪਚਾਪ ਨੁਕਸਾਨ ਪਹੁੰਚਾਉਂਦੇ ਹਨ\n\nਸਧਾਰਨ, ਨੀਵੇਂ ਸਵਾਲ ਵੀ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਗਲਤ ਰਾਹ ਤੇ ਲੈ ਜਾ ਸਕਦੇ ਹਨ:\n\n- ਮਾਡਲ ਵਿਸ਼ਵਾਸ ਨਾਲ ਅਜਿਹੀ ਲੈਪਟਾਪ ਸੁਝਾਅ ਦੇ ਸਕਦਾ ਹੈ ਜੋ ਮੌਜੂਦ ਨਹੀਂ ਹੈ ਜਾਂ ਕਿਸੇ ਡਿਵਾਈਸ ਦੀਆਂ ਖ਼ਾਸੀਅਤਾਂ ਗਲਤ ਦਰਸਾ ਦਿੰਦਾ ਹੈ। ਖਰੀਦਦਾਰ ਘੰਟਿਆਂ ਤੱਕ ਐਸੀ ਚੀਜ਼ ਦੀ ਖੋਜ ਕਰਦੇ ਰਹਿੰਦੇ ਹਨ ਜੋ ਹੋਈ ਹੀ ਨਹੀਂ।\n- ਕੋਈ ਘਰ ਦਾ ਰਾਊਟਰ ਰਿਸੈਟ ਕਰਨਾ ਜਾਂ ਟੈਕਸ ਸਾਫਟਵੇਅਰ ਸੰਰਚਨਾ ਬਾਰੇ ਪੁੱਛਦਾ ਹੈ—ਮਾਡਲ ਉਹਨਾਂ ਮੈਨੂ ਵਿਕਲਪ ਘੜਦਾ ਹੈ ਜੋ ਮੌਜੂਦ ਨਹੀਂ, ਇਸ ਲਈ ਯੂਜ਼ਰ ਸੋਚਦਾ ਹੈ ਕਿ ਉਹ "ਗਲਤ ਕਰ ਰਹੇ" ਹਨ ਅਤੇ ਪ੍ਰੋਡਕਟ ਤੇ ਆਪਣੇ ਭਰੋਸੇ ਨੂੰ ਖੋ ਦੇਂਦਾ ਹੈ।\n- ਇੱਕ ਵਿਦਿਆਰਥੀ ਇੱਕ ਨਿੱਛੇ ਖੇਤਰ ਲਈ "ਸਰੇਸ਼ਠ" ਯੂਨੀਵਰਸਿਟੀ ਪ੍ਰੋਗਰਾਮ ਬਾਰੇ ਪੁੱਛਦਾ ਹੈ; LLM ਰੈਂਕਿੰਗ ਅਤੇ ਸਕਾਲਰਸ਼ਿਪਾਂ ਨੂੰ ਘੜਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਚੋਣਾਂ ਐਸੇ ਜਾਣਕਾਰੀਆਂ 'ਤੇ ਆਧਾਰਿਤ ਹੁੰਦੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਦਾ ਕੋਈ ਆਧਾਰ ਨਹੀਂ।\n\nਇਹ ਗਲਤੀਆਂ ਅਕਸਰ ਸ਼ਾਂਤ, ਪ੍ਰਧਾਨ-ਅਵਾਜ਼ ਵਾਲੀ ਟੋਨ ਵਿੱਚ ਦਿੱਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, ਜੋ ਨਹੀਂ ਜਾਣਦੇ ਵਰਗੇ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਬਿਸ਼ਵਾਸਯੋਗ ਹੋਣ ਨਾਲ ਆਸਾਨੀ ਨਾਲ ਮੰਨੀਆਂ ਜਾਂਦੀਆਂ ਹਨ।\n\n### ਉੱਚ-ਖਤਰੇ ਵਾਲੇ ਖੇਤਰ: ਦਵਾਈ, ਕਾਨੂੰਨ, ਫਾਇਨੈਂਸ, ਸੁਰੱਖਿਆ\n\nਜਦੋਂ ਨਿਰਦੇਸ਼ਣ ਨਿਯਮਕ ਜਾਂ ਸੁਰੱਖਿਆ-ਲੜੀ ਵਾਲਾ ਹੋਵੇ ਤਾਂ ਸਟੇਕਸ ਕਾਫੀ ਵੱਧ ਜਾਂਦੇ ਹਨ:\n\n- ਮਾਡਲ off-label ਦਵਾਈ ਵਰਤੋਂ, ਘੜੇ ਡੋਜ਼ ਰੇਂਜ, ਜਾਂ ਅਸਲ-ਨਹੀਂ ਹੋਈ clinical trials ਬਾਰੇ ਸੁਝਾਅ ਦੇ ਸਕਦਾ ਹੈ। ਮਰੀਜ਼ ਡਾਕਟਰ ਦੇ ਕੋਲ ਜਾਣ ਦੀ ਥਾਂ ਮਾਡਲ 'ਤੇ ਭਰੋਸਾ ਕਰਕੇ ਗਲਤ ਫੈਸਲੇ ਲੈ ਸਕਦੇ ਹਨ।\n- ਹੈਲੂਸੀਨੇਟ ਕੈਸ ਸਿਟੇਸ਼ਨਾਂ ਅਤੇ ਗਲਤ-ਉਦਾਸੀਕ ਨਤੀਆਂ ਅਸਲ ਕੋਰਟ ਫਾਈਲਿੰਗਜ਼ ਵਿੱਚ ਆ ਚੁੱਕੀਆਂ ਹਨ, ਜਿਸ ਨਾਲ ਵਕੀਲਾਂ ਖ਼ਿਲਾਫ਼ ਸਜ਼ਾ ਜਾਂ ਗ੍ਰੇਸ਼-ਨਤੀਜੇ ਆ ਸਕਦੇ ਹਨ।\n- ਇਕ LLM ਕੰਪਨੀ ਦੀ ਆਮਦਨੀ ਦਾ सार ਦੇ ਕੇ ਅੰਕਾਂ ਦਾ ਅਨੁਮਾਨ ਲਾ ਸਕਦਾ ਹੈ, ਜਾਂ ਲੇਖਾ-ਕਾਨੂੰਨ ਦੇ ਕਾਇਦੇ ਘੜ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਨਿਵੇਸ਼ਕ ਫੈਸਲੇ ਅਤੇ ਅਨੁਪਾਲਨ ਪ੍ਰਭਾਵਿਤ ਹੋ ਸਕਦੇ ਹਨ।\n- ਇੱਕ ਘੜਾ ਹੋਇਆ ਸੁਰੱਖਿਆ-ਪੈਚ ਪ੍ਰਕਿਰਿਆ ਜਾਂ ਗਲਤ encryption ਸੈਟਿੰਗ ਦੀ ਵਰਣਨਾ ਸਿਸਟਮਾਂ ਨੂੰ ਘਾਟੇ ਵਿੱਚ ਛੱਡ ਸਕਦੀ ਹੈ, ਜਦਕਿ ਟੀਮਾਂ ਨੂੰ ਝੂਠਾ ਭਰੋਸਾ ਮਿਲਦਾ ਹੈ।\n\n### ਸੰਗਠਨਾਤਮਕ, ਨੈਤਿਕ ਅਤੇ ਕੰਪਲਾਇੰਸ ਨਤੀਜੇ\n\nਕੰਪਨੀਆਂ ਲਈ, ਹੈਲੂਸੀਨੇਸ਼ਨ ਚੇਨ-ਰਿਆਕਸ਼ਨ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ:
\n- ਜਦੋਂ ਯੂਜ਼ਰ ਗਲਤ ਜਵਾਬਾਂ 'ਤੇ ਅਮਲ ਕਰਦੇ ਹਨ ਤਾਂ ਉਹ ਬਰਾਂਡ ਨੂੰ ਦੋਸ਼ ਦਿੰਦੇ ਹਨ, ਮਾਡਲ ਨੂੰ ਨਹੀਂ।\n- ਸਿਹਤ, ਫਾਇਨੈਂਸ, ਜਾਂ ਰੋਜ਼ਗਾਰ ਸੰਬੰਧੀ ਗਲਤ ਸਲਾਹ ਖੇਤਰ-ਨਿਰਧਾਰਿਤ ਕਾਨੂੰਨਾਂ ਜਾਂ ਉਪਭੋਗਤਾ ਸੁਰੱਖਿਆ ਨਿਯਮਾਂ ਦੀ ਉਲੰਘਣਾ ਕਰ ਸਕਦੀ ਹੈ।\n- ਐਸੇ ਹੈਲੂਸੀਨੇਸ਼ਨ ਜੋ ਰੱਖੇ ਹੋਏ ਲੱਛਣਾਂ (ਜਿਵੇਂ ਅਪਰਾਧੀ ਇਤਿਹਾਸ ਜਾਂ ਮੈਡੀਕਲ ਹਾਲਤਾਂ) ਨੂੰ ਘੜਦੇ ਹਨ, ਪੱਖਪਾਤ ਅਤੇ ਨੁਕਸਾਨ ਨੂੰ ਵਧਾ ਸਕਦੇ ਹਨ।\n\nਜੋ ਸੰਗਠਨ LLMs ਦੀ ਤਾਇਨਾਤੀ ਕਰਦੇ ਹਨ ਉਨ੍ਹਾਂ ਨੂੰ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਇੱਕ ਮੁੱਖ ਖ਼ਤਰੇ ਵਜੋਂ ਲੈਣਾ ਚਾਹੀਦਾ ਹੈ: ਉਹਨਾਂ ਨੂੰ ਵਰਕਫਲੋਅਜ਼, ਖੰਡੇ-ਨੋਟਿਸਾਂ, ਨਿਰੀਖਣ ਅਤੇ ਮਾਨੀਟਰਿੰਗ ਇਤਿਆਦੀ ਨਾਲ ਡਿਜ਼ਾਈਨ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਭਰੋਸੇਯੋਗ, ਵਿਸਥਾਪਨ-ਪੂਰਨ ਜਵਾਬ ਵੀ ਜ਼ਰੂਰੀ ਨਹੀਂ।\n\n## ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣ ਅਤੇ ਮਾਪਣ ਦੇ ਤਰੀਕੇ\n\nਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣਾ ਆਸਾਨ ਨਹੀਂ, ਕਿਉਂਕਿ ਮਾਡਲ fluent ਅਤੇ ਭਰੋਸੇਯੋਗ ਲੱਗ ਸਕਦਾ ਹੈ ਜਦੋਂ ਕਿ ਉਹ ਪੂਰੀ ਤਰ੍ਹਾਂ ਗਲਤ ਹੋਵੇ। ਇਸਨੂੰ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਵੱਡੀ ਪੱਧਰ 'ਤੇ ਮਾਪਣਾ ਇੱਕ ਖੁੱਲ੍ਹਾ ਰਿਸਰਚ ਮੁੱਦਾ ਹੈ, ਨ ਕਿ ਇੱਕ ਹੱਲ ਹੋਇਆ ਇੰਜੀਨੀਅਰਿੰਗ ਟਾਸਕ।\n\n### ਆਟੋਮੈਟਿਕ ਪਛਾਣ ਕਿਉਂ ਮੁਸ਼ਕਲ ਹੈ\n\nਹੈਲੂਸੀਨੇਸ਼ਨ ਸੰਦਰਭ-ਨਿਰਭਰ ਹੁੰਦੀਆਂ ਹਨ: ਇੱਕ ਵਾਕ ਇੱਕ ਸਥਿਤੀ ਵਿੱਚ ਸਹੀ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਦੂਜੀ ਵਿੱਚ ਗਲਤ। ਮਾਡਲ ਨਕਲੀ ਪਰ ਮੰਨਣਯੋਗ ਸਰੋਤ ਬਣਾਉਂਦਾ ਹੈ, ਸੱਚ ਅਤੇ ਝੂਠ ਨੂੰ ਮਿਲਾ-ਝੁਲਾ ਕਰਦਾ ਹੈ, ਅਤੇ ਤੱਥਾਂ ਨੂੰ ਅਜਿਹਾ ਤਰੀਕੇ ਨਾਲ ਪੇਸ਼ ਕਰਦਾ ਹੈ ਜੋ ਸਨੁਹਪਤਾ ਨਾਲ reference ਡੇਟਾ ਨਾਲ ਤੁਲਨਾ ਕਰਨਾ ਔਖਾ ਬਣਾਂਦਾ ਹੈ।\n\nਉੱਪਰ ਓਸਤਰੇ:
\n- ਬਹੁਤ ਸਾਰੇ ਟਾਸਕਾਂ ਲਈ ਇੱਕ-ਹੀ "ਸਹੀ" ਜਵਾਬ ਨਹੀਂ ਹੋਂਦਾ।\n- ground truth ਅਧੂਰਾ ਜਾਂ ਮਹਿੰਗਾ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।\n- ਮਾਡਲ ਕਈ ਵਾਰੀ ਇਹ ਵੀ ਕਹਿ ਸਕਦਾ ਹੈ ਕਿ ਕੋਈ ਅਧਿਐਨ ਮੌਜੂਦ ਨਹੀਂ ਹੈ, ਜਦੋਂ ਕਿ ਉਹ ਮੌਜੂਦ ਹੈ—ਇਸਕਾ ਪਤਾ ਲਗਾਉਣਾ ਕਠਿਨ ਹੈ।\n\nਇਸ ਲਈ, ਪੂਰੀ ਤਰ੍ਹਾਂ ਆਟੋਮੈਟਿਕ ਹੈਲੂਸੀਨੇਸ਼ਨ ਡਿਟੇਕਸ਼ਨ ਅਜੇ ਵੀ ਅਨਪ੍ਰਮਾਣਿਤ ਹੈ ਅਤੇ ਅਕਸਰ ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਨਾਲ ਜੋੜੀ ਜਾਂਦੀ ਹੈ।\n\n### ਅਮਲੀ ਮੁੱਲਾਂਕਣ ਤਰੀਕੇ\n\n ਰਿਸਰਚਰ curated datasets ਵਰਤਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਸਵਾਲ ਅਤੇ ਜਾਣੇ-ਪਛਾਣੇ ਉੱਤਰ ਹੁੰਦੇ ਹਨ (ਉਦਾਹਰਣ ਵਜੋਂ QA ਜਾਂ fact-checking ਬੈਂਚਮਾਰਕ)। ਮਾਡਲ ਨੂੰ exact match, similarity ਜਾਂ correctness ਲੇਬਲ 'ਤੇ ਸਕੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। Benchmarks ਮਾਡਲਾਂ ਦੀ ਤੁਲਨਾ ਲਈ ਲਾਭਦਾਇਕ ਹਨ, ਪਰ ਉਹ ਤੁਹਾਡੇ ਖ਼ਾਸ use-case ਨੂੰ ਬਹੁਤ ਘੱਟ ਸਮਝਦੇ ਹਨ।\n\n ਮਾਹਿਰ ਲੇਬਲਰ ਆਉਟਪੁੱਟਸ ਨੂੰ correct, partially correct, ਜਾਂ incorrect ਦੇ ਤੌਰ 'ਤੇ ਲੇਬਲ ਕਰਦੇ ਹਨ। ਇਹ ਖ਼ਾਸ ਤੌਰ 'ਤੇ ਦਵਾਈ, ਕਾਨੂੰਨ ਅਤੇ ਫਾਇਨੈਂਸ ਵਰਗੇ ਖੇਤਰਾਂ ਵਿੱਚ ਸੋਨੇ ਦਾ ਮਿਆਰ ਹੈ।\n\n ਟੀਮਾਂ ਅਕਸਰ ਇੱਕ ਹਿੱਸਾ ਆਉਟਪੁੱਟਸ ਦਾ ਮੈਨੁਅਲ ਨਿਰੀਖਣ ਕਰਦੀਆਂ ਹਨ—ਯਾ ਤਾਂ random ਜਾਂ ਉਹਨਾਂ ਉੱਚ-ਖਤਰੇ ਪ੍ਰਾਂਪਟਸ ਨੂੰ ਤਰਜੀਹ ਦੇ ਕੇ। ਇਹ ਉਹ ਫੇਲਯੂਰ ਮੋਡਜ਼ ਦਿਖਾਉਂਦਾ ਹੈ ਜੋ benchmarks ਨਹੀਂ ਫੜਦੇ।\n\n### ਤੱਥਤਾ ਸਕੋਰ ਅਤੇ ਰੈਫਰੈਂਸ-ਅਧਾਰਿਤ ਜਾਂਚਾਂ\n\nਬਾਇਨਰੀ "ਸਹੀ/ਗਲਤ" ਤੋਂ ਅੱਗੇ ਵੱਧਣ ਲਈ, ਕਈ ਮੁੱਲਾਂਕਣ ਵਰਤਦੇ ਹਨ—ਨੰਬਰਾਤਮਕ ਰੇਟਿੰਗ ਕਿ ਜਵਾਬ ਕਿੰਨਾ ਟ੍ਰੱਸਟਡ ਸਬੂਤਾਂ ਨਾਲ ਮਿਲਦਾ ਹੈ।\n\nਦੋ ਆਮ ਤਰੀਕੇ:
\n- ਮਾਡਲ ਦੇ ਦਾਅਵਿਆਂ ਨੂੰ ਇੱਕ ਰੈਫਰੈਂਸ ਦਸਤਾਵੇਜ਼ ਜਾਂ ਡੇਟਾਸੈੱਟ (ਜਿਵੇਂ ਸੋర్స్ ਆਰਟੀਕਲ) ਦੇ ਖਿਲਾਫ ਤੁਲਨਾ ਕਰਦੇ ਹਨ। ਇਹ summarization, doc-over-QA ਜਾਂ structured data ਲਈ ਚੰਗਾ ਕੰਮ ਕਰਦਾ ਹੈ।\n- ਇੱਕ ਦੂਜਾ ਮਾਡਲ, ਜਾਂ ਉਨ੍ਹਾਂ ਹੀ ਮਾਡਲ ਨੂੰ ਵੱਖਰੇ ਪ੍ਰਾਂਪਟ ਨਾਲ, ਨਿਰੀਖਣਕ/ਜਜ ਵਜੋਂ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਇਹ ਨੂੰ ਸੰਦ-ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਸਮਝਿਆ ਜਾ ਸਕਦਾ—ਕਿਉਂਕਿ ਜੱਜ ਮਾਡਲ ਵੀ ਹੈਲੂਸੀਨੇਟ ਕਰ ਸਕਦਾ ਹੈ—ਪਰ ਇਹ ਪੂਰੇ ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਨਾਲੋਂ ਜ਼ਿਆਦਾ ਸਕੇਲ ਕਰਨਯੋਗ ਹੁੰਦਾ ਹੈ।\n\n### ਟੂਲਿੰਗ ਅਤੇ automated cross-checks\n\nਆਧੁਨਿਕ ਟੂਲਿੰਗ ਵਧਤ ਤੋਂ ਵਧਤ ਬਾਹਰੀ ਸਰੋਤਾਂ 'ਤੇ ਨਿਰਭਰ ਰਹਿ ਕੇ ਹੈਲੂਸੀਨੇਸ਼ਨ ਨੂੰ ਫੜਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੀ ਹੈ:
\n- ਵੈੱਬ ਜਾਂ ਅੰਦਰੂਨੀ ਗਿਆਨ-ਬੇਸ ਨੂੰ query ਕਰਕੇ ਮੁੱਖ ਇਲੈਕਟਸ, ਤਾਰੀਖਾਂ ਅਤੇ ਦਾਅਵਿਆਂ ਦੀ ਜਾਂਚ ਕਰਦੇ ਹਨ।\n- ਪੁਸ਼ਟੀ ਕਰਦੇ ਹਨ ਕਿ ਜਿਸ ਸਰੋਤ ਨੂੰ attribution ਦਿੱਤੀ ਗਈ ਹੈ ਉਹ ਹਕੀਕਤ ਵਿੱਚ ਉਸ ਬਿਆਨ ਨੂੰ ਸਮਰਥਨ ਕਰਦਾ ਹੈ।\n- ਆਉਟਪੁੱਟਸ ਨੂੰ ਸਰਕਾਰੀ ਡੇਟਾਬੇਸ ਜਾਂ APIs (ਉਦਾਹਰਣ ਲਈ product catalog, ICD codes, stock tickers) ਨਾਲ ਤੁਲਨਾ ਕਰਦੇ ਹਨ।\n\nਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ, ਟੀਮਾਂ ਆਮ ਤੌਰ 'ਤੇ ਇਨ੍ਹਾਂ ਟੂਲਾਂ ਨੂੰ ਬਿਜ਼ਨਸ ਨਿਯਮਾਂ ਨਾਲ ਜੋੜਦੀਆਂ ਹਨ: ਉਹਨਾਂ ਜਵਾਬਾਂ ਨੂੰ flag ਕਰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਕੋਲ ਸਿਟੇਸ਼ਨ ਨਹੀਂ, ਜੋ ਅੰਦਰੂਨੀ ਰਿਕਾਰਡਾਂ ਦੇ ਵਿਰੁੱਧ ਹੋ, ਜਾਂ automated checks ਫੇਲ ਹੋਣ 'ਤੇ ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਲਈ ਰੂਟ ਕਰਦੇ ਹਨ।\n\n## ਯੂਜ਼ਰਾਂ ਲਈ ਅਮਲੀ ਤਰੀਕੇ ਜਿਨ੍ਹਾਂ ਨਾਲ ਹੈਲੂਸੀਨੇਸ਼ਨ ਘਟ ਸਕਦੇ ਹਨ\n\nਮਾਡਲ ਨੂੰ ਬਦਲਣ ਦੇ ਬਿਨਾਂ ਵੀ, ਉਪਭੋਗਤਾ ਆਪਣੇ ਸਵਾਲ ਪੁੱਛਣ ਦੇ ਢੰਗ ਅਤੇ ਉੱਤਰਾਂ ਨੂੰ ਵਰਤ ਕੇ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਕਾਫ਼ੀ ਘਟਾ ਸਕਦੇ ਹਨ।\n\n### ਤੰਗ, ਸਪਸ਼ਟ ਪ੍ਰਾਂਪਟ ਡਿਜ਼ਾਈਨ ਕਰੋ\n\nਢਿੱਲੇ ਪ੍ਰਾਂਪਟ ਮਾਡਲ ਨੂੰ ਅਨੁਮਾਨ ਲਾਉਣ ਲਈ ਮੌਕਾ ਦਿੰਦੇ ਹਨ। ਤੁਸੀਂ ਜ਼ਿਆਦਾ ਭਰੋਸੇਯੋਗ ਜਵਾਬਾਂ ਪ੍ਰਾਪਤ ਕਰੋਂਗੇ ਜੇ ਤੁਸੀਂ:
\n- "Tell me everything about X" ਦੀ ਥਾਂ "X ਦੇ 3 ਫਾਇਦੇ ਅਤੇ 3 ਨੁਕਸਾਨ ਛੋਟੇ ਟੀਮਾਂ ਲਈ" ਵਰਗਾ ਪ੍ਰਸ਼ਨ ਕਰੋ।\n- ਉਦਾਹਰਣ: "5 ਬੁਲੇਟ ਪਾਇੰਟਸ ਵਿੱਚ ਜਵਾਬ ਦਿਓ, ਹਰ ਇੱਕ ਵਿੱਚ ਇੱਕ ਸੈਂਟੈਂਸ ਅਤੇ ਇੱਕ ਸਰੋਤ ਦੇਵੋ।"\n- ਸੰਬੰਧਤ ਵੇਰਵੇ (ਡੋਮੇਨ, ਦਰਸ਼ਕ, ਪਾਬੰਦੀਆਂ) ਸ਼ਾਮਿਲ ਕਰੋ ਤਾਂ ਕਿ ਮਾਡਲ ਕੋਲ ਘੱਟ ਖਾਲੀ ਥਾਂ ਹੋਵੇ।\n- ਹੁਕਮ ਸ਼ਾਮਿਲ ਕਰੋ ਜਿਵੇਂ "ਜੇ ਤੁਹਾਨੂੰ ਯਕੀਨ ਨਹੀਂ, ਤਾਂ 'ਮੈਨੂੰ ਯਕੀਨ ਨਹੀਂ' ਕਹੋ ਅਤੇ ਦੱਸੋ ਕਿਉਂ।"\n\n### ਅਣਿਸ਼ਚਿਤਤਾ, ਸਰੋਤ ਤੇ ਤਰਕ ਮੰਗੋ\n\nਮਾਡਲ ਨੂੰ polished ਜਵਾਬ ਦੇਣ ਦੀ ਥਾਂ ਆਪਣਾ ਕੰਮ ਦਿਖਾਉਣ ਲਈ ਪ੍ਰਾਂਪਟ ਕਰੋ:
\n- "ਆਪਣਾ ਜਵਾਬ ਦਿਓ ਅਤੇ ਆਪਣੀ ਭਰੋਸੇਯੋਗਤਾ 1–10 'ਤੇ ਦਰਜ ਕਰੋ। ਜੋ ਕੁਝ ਤੁਹਾਨੂੰ ਅਣਪੱਕਾ ਲੱਗਦਾ ਹੈ ਉਹ ਵੀ ਦੱਸੋ।"
- "ਆਖ਼ਰੀ ਜਵਾਬ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ ਆਪਣੀ ਤਰਕ-ਕਦਮ ਵੱਖ-ਵੱਖ ਦਿਖਾਓ।"
- ਹਰ ਕੁਐਰੀ ਲਈ ਸੰਦੇਸ਼ਤ ਖੋਜ ਨਾਲ ਸੰਦਰਭ ਰਿਟਰੀਵ ਕਰੋ।
- ਪ੍ਰਾਂਪਟ ਨੂੰ ਰਿਟਰੀਵ ਕੀਤੇ ਗਏ ਟੁਕੜਿਆਂ ਨਾਲ augment ਕਰੋ।
- ਜਵਾਬ ਪੈਦਾ ਕਰੋ ਜੋ ਉਹ ਸੰਦਰਭ ਹਵਾਲਾ ਕਰਦੇ ਹੋਣ।\n\nਐਫੈਕਟਿਵ RAG ਸੈਟਅਪ:
\n- ਮਾਡਲ ਨੂੰ ਕੇਵਲ ਦਿੱਤੇ ਗਏ ਸੰਦਰਭ ਤੋਂ ਜਵਾਬ ਦੇਣ 'ਤੇ ਸੀਮਤ ਕਰੋ ਅਤੇ ਜਦੋਂ ਸਬੂਤ ਨਹੀਂ ਮਿਲਦਾ ਤਾਂ "ਮੈਨੂੰ ਪਤਾ ਨਹੀਂ" ਕਹਿਣ ਦੀ ਨਿਰਦੇਸ਼ ਦਿਓ।
ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ
What is an LLM hallucination?
ਇੱਕ LLM hallucination ਉਹ ਜਵਾਬ ਹੈ ਜੋ fluent ਅਤੇ ਭਰੋਸੇਯੋਗ ਲੱਗਦਾ ਹੈ ਪਰ ਤੱਥਤਮਕ ਤੌਰ 'ਤੇ ਗਲਤ ਜਾਂ ਪੂਰੀ ਤਰ੍ਹਾਂ ਘੜਿਆ ਹੋਇਆ ਹੁੰਦਾ ਹੈ।
ਉਸਦੀ ਮੁੱਖ ਖਾਸੀਅਤਾਂ ਇਹ ਹਨ:
- ਇਹ ਅਸਲਤਾ ਜਾਂ ਉਹਨਾਂ ਸਰੋਤਾਂ 'ਤੇ ਆਧਾਰਿਤ ਨਹੀਂ ਹੁੰਦਾ ਜਿਨ੍ਹਾਂ 'ਤੇ ਮਾਡਲ ਨਿਰਭਰ ਕਰਨ ਦੀ ਸੋਚੀ ਜਾਂਦੀ ਸੀ।
- ਇਹ ਬਿਨਾਂ ਕਿਸੇ ਸੋਧ ਦੇ ਸੱਚ ਵਾਂਗ ਪੇਸ਼ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਅਕਸਰ ਸੰਦੇਹ ਦਾ ਕੋਈ ਇਜ਼ਹਾਰ ਨਹੀਂ ਹੁੰਦਾ।
ਮਾਡਲ ਮਨੁੱਖੀ ਤਰੀਕੇ ਨਾਲ ਜਾਣ-ਝੂਠ ਨਹੀਂ ਕਰ ਰਿਹਾ; ਇਹ ਆਪਣੇ ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਦੇ ਪੈਟਰਨਾਂ ਦਾ ਪਾਲਣ ਕਰ ਰਿਹਾ ਹੈ ਅਤੇ ਕਈ ਵਾਰੀ ਐਸੇ ਤਸੀਂ-ਝੀਲੇ ਵੇਰਵੇ ਉਤਪੰਨ ਕਰ ਲੈਂਦਾ ਹੈ ਜੋ ਫਜ਼ੀਬਲ ਲੱਗਦੇ ਹਨ।
Why do hallucinations happen in large language models?
ਹੈਲੂਸੀਨੇਸ਼ਨ ਉਸ ਤਰੀਕੇ ਤੋਂ ਨਿਕਲਦੀ ਹੈ ਜਿਵੇਂ LLMs ਨੂੰ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ:
- ਮਾਡਲਾਂ ਨੂੰ ਅਗਲਾ ਟੋਕਨ ਭਾਵੇਂ ਕਿਹੜਾ ਹੋਵੇ ਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ optimize ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਸੱਚ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਨਹੀਂ।
- ਟ੍ਰੇਨਿੰਗ ਡੇਟਾ ਵਿੱਚ ਗੈਪ, ਸ਼ੋਰ, ਤੇ ਔਲਡ ਜਾਣਕਾਰੀ ਹੁੰਦੀ ਹੈ।
- ਡੀਕੋਡਿੰਗ ਸੈਟਿੰਗਾਂ (ਜਿਵੇਂ temperature ਅਤੇ sampling) ਮਾਡਲ ਨੂੰ ਹੋਰ ਅਨੁਮਾਨੀ ਟੈਕਸਟ ਵੱਲ ਧੱਕ ਸਕਦੀਆਂ ਹਨ।
- ਐਲਾਈਨਮੈਂਟ ਅਤੇ ਮਨੁੱਖੀ ਫੀਡਬੈਕ ਅਕਸਰ ਦੇਣ ਨੂੰ ਇਨਾਮ ਦਿੰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਸੱਚ-ਮੁਸ਼ਕਿਲ ਜਾਂ ‘ਮੈਨੂੰ ਪਤਾ ਨਹੀਂ’ ਵਰਗੀਆਂ ਇਮਾਨਦਾਰ ਬਿਆਨਬਾਜ਼ੀਆਂ ਘੱਟ ਹੁੰਦੀਆਂ ਹਨ।
How are hallucinations different from normal mistakes or uncertainty?
ਹੈਲੂਸੀਨੇਸ਼ਨ ਆਮ ਗ਼ਲਤੀਆਂ ਜਾਂ ਅਣਜਾਣਗੀ ਤੋਂ ਢੰਗ ਵਿੱਚ ਵੱਖਰੀ ਹੁੰਦੀ ਹੈ:
- ਅਣਜਾਣਗੀ / ਅਨਿਸ਼ਚਿਤਤਾ: ਮਾਡਲ ਆਖਦਾ ਹੈ ਕਿ ਉਹਨੂੰ ਪਤਾ ਨਹੀਂ ਹੈ (ਉਦਾਹਰਣ: “ਮੈਨੂੰ ਪੂਰੀ ਜਾਣਕਾਰੀ ਨਹੀਂ ਹੈ”, “ਮੈਂ ਠੀਕ ਨਹੀਂ ਜਾਣਦਾ”) ਜਾਂ ਸੰਭਾਵਨਾਵਾਂ ਦਿੰਦਾ ਹੈ ਬਿਨਾਂ ਕਿਸੇ ਇਕ ਨੂੰ факт ਵਜੋਂ ਦਰਸਾਉਣ ਦੇ।
- ਹੈਲੂਸੀਨੇਸ਼ਨ: ਮਾਡਲ ਇਕ ਖ਼ਾਸ, ਪ੍ਰਧਾਨ-ਅਵਾਜ਼ ਵਾਲਾ ਜਵਾਬ ਦਿੰਦਾ ਹੈ ਜੋ ਗਲਤ ਜਾਂ ਪੁਸਤੀਯੋਗ ਨਹੀਂ ਹੁੰਦਾ, ਤੇ ਕੋਈ ਸੰਕੇਤ ਨਹੀਂ ਦਿੰਦਾ ਕਿ ਇਹ ਅਣਪੱਕੀ ਹੈ।
ਦੋਹਾਂ ਇੱਕੋ prediction ਪ੍ਰਕਿਰਿਆ ਤੋਂ ਉਤਪੰਨ ਹੁੰਦੇ ਹਨ, ਪਰ ਹੈਲੂਸੀਨੇਸ਼ਨ ਜ਼ਿਆਦਾ ਖ਼ਤਰਨਾਕ ਹਨ ਕਿਉਂਕਿ ਉਹ ਭਰੋਸੇਯੋਗ ਲੱਗਦੇ ਹਨ ਜਦਕਿ ਗਲਤ ਹੁੰਦੇ ਹਨ।
In what situations are LLM hallucinations most dangerous?
ਹੈਲੂਸੀਨੇਸ਼ਨ ਸਭ ਤੋਂ ਖ਼ਤਰਨਾਕ ਹੋਂਦੀਆਂ ਹਨ ਜਦੋਂ:
- ਉਪਭੋਗਤਾ ਡੋਮੇਨ ਗਿਆਨ ਨਹੀਂ ਰੱਖਦੇ (ਜਿਵੇਂ ਕਾਨੂੰਨ, ਦਵਾਈ, ਫਾਇਨੈਂਸ) ਅਤੇ ਸਹੀ ਦੀ ਆਸਾਨੀ ਨਾਲ ਜਾਂਚ ਨਹੀਂ ਕਰ ਸਕਦੇ।
- ਆਉਟਪੁੱਟਾਂ ਸਿੱਧੇ ਵਰਕਫਲੋ ਵਿੱਚ ਜੋੜੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, ਜਿਵੇਂ ਕੋਡ, ਠੇਕਿਆਂ, ਨੀਤੀਆਂ ਜਾਂ ਰਿਪੋਰਟਾਂ।
- ਸੰਦਰਭ ਨਿਯਮਿਤ ਜਾਂ ਸੁਰੱਖਿਆ-ਸੰਬੰਧੀ ਹੈ, ਜਿਥੇ ਗਲਤ ਜਾਣਕਾਰੀ ਸਿੱਧਾ ਨੁਕਸਾਨ ਪਹੁੰਚਾ ਸਕਦੀ ਹੈ।
ਇਹ ਖੇਤਰ ਰਿਅਲ-ਵਰਲਡ ਨੁਕਸਾਨ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ—ਗਲਤ ਫੈਸਲੇ, ਕਾਨੂੰਨੀ ਜਾਂ ਨਿਯਮਕ ਨਤੀਜੇ, ਅਤੇ ਸੁਰੱਖਿਆ-ਸਬੰਧੀ ਰਿਸਕ।
How can individual users reduce the impact of hallucinations?
ਤੁਸੀਂ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਰੋਕ ਨਹੀਂ ਸਕਦੇ, ਪਰ ਆਪਣੇ ਖ਼ਤਰੇ ਨੂੰ ਘਟਾ ਸਕਦੇ ਹੋ:
- ਫੋਕਸਡ ਪ੍ਰਸ਼ਨਾਂ ਪੁੱਛੋ ਜਿਨ੍ਹਾਂ ਦੀ ਸਪਸ਼ਟ ਸਕੋਪ ਅਤੇ ਫਾਰਮੈਟ ਹੋਵੇ।
- , ਉਦਾਹਰਣ: “ਆਪਣੀ ਭਰੋਸੇਯੋਗਤਾ 1–10 'ਤੇ ਦਰਜ ਕਰੋ ਅਤੇ ਘੱਟੋ-ਘੱਟ ਦੋ ਸੰਦਰਭ ਦਿਓ।”
What can developers do to mitigate hallucinations in their applications?
ਡਿਵੈਲਪਰ ਕਈ ਤਕਨੀਕਾਂ ਦੇ ਮਿਲਾਓ ਨਾਲ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਘਟਾ ਸਕਦੇ ਹਨ:
Can retrieval-augmented generation completely eliminate hallucinations?
ਨਹੀਂ। RAG ਬਹੁਤ ਸਾਰੇ ਕਿਸਮਾਂ ਦੀਆਂ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ ਪਰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹਟਾਉਂਦਾ ਨਹੀਂ।
RAG ਇਹਨਾਂ ਤਰੀਕਿਆਂ ਨਾਲ ਮਦਦ ਕਰਦਾ ਹੈ:
- ਜਵਾਬਾਂ ਨੂੰ ਖਾਸ retrieved ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚ ਗ੍ਰਾਊਂਡ ਕਰਨਾ।
- ਜਦੋਂ ਕੋਈ ਸਭੰਧਤ ਸਬੂਤ ਨਾ ਮਿਲੇ ਤਾਂ ਸਿਸਟਮ ਨੂੰ “ਮੈਨੂੰ ਪਤਾ ਨਹੀਂ” ਕਹਿਣ ਦੀ ਆਸਾਨੀ ਦਿੰਦਾ।
- ਦਾਵਿਆਂ ਦੀ ਤਸਦੀਕ ਲਈ ਸਿਟੇਸ਼ਨ/ਪਾਸੇਜ ਆਈਡੀਜ਼ ਮੁਹੱਈਆ ਕਰਵਾ ਕੇ ਟ੍ਰੇਸੇਬਿਲਟੀ ਦੇਣ ਦੀ ਆਸਾਨੀ।
ਫਿਰ ਵੀ, ਮਾਡਲ:
How can organizations detect and measure hallucinations in production?
ਪਢ਼ਤਾਲ ਆਮ ਤੌਰ 'ਤੇ automated ਚੈੱਕਾਂ ਅਤੇ ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਦੇ ਮਿਲਾਪ ਨਾਲ ਕੀਤੀ ਜਾਂਦੀ ਹੈ:
- Benchmarks ਅਤੇ ਟੈਸਟ ਸੈੱਟ ਵਰਤੋ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਜਾਣੇ-ਮਾਨੇ ਉੱਤਰ ਹੋਣ ਤਾਂ ਹੀ ਮਾਡਲਾਂ ਦੀ ਤੁਲਨਾ ਅਤੇ regression ਟ੍ਰੈਕਿੰਗ ਕਰ ਸਕੋ।
- ਖ਼ਾਸ ਤੌਰ 'ਤੇ ਉੱਚ-ਖਤਰੇ ਖੇਤਰਾਂ ਲਈ (subject-matter experts) ਚਲਾਓ।
Are newer, larger models still prone to hallucinations?
ਹਾਂ। ਵੱਡੇ, ਨਵੇਂ ਮਾਡਲ ਆਮ ਤੌਰ 'ਤੇ ਘੱਟ hallucinate ਕਰਦੇ ਹਨ, ਪਰ ਉਹ ਫਿਰ ਵੀ ਕਰਦੇ ਹਨ—ਅਤੇ ਜ਼ਿਆਦਾ polished ਢੰਗ ਨਾਲ।
Scale ਨਾਲ, ਮਾਡਲ:
- ਪੈਟਰਨਾਂ ਨੂੰ ਹੋਰ ਬਰੀਕੀ ਨਾਲ ਮਿਲਾਉਂਦੇ ਹਨ ਅਤੇ ਖਾਲੀਆਂ ਭਰਨਾ ਹੁਣ ਹੋਰ ਵਿਸ਼ਵਸਨੀਯ ਢੰਗ ਨਾਲ ਕਰਦੇ ਹਨ।
- ਲੰਬੇ, coherent ਸਪੱਸ਼ਟੀਕਰਨ ਪੈਦਾ ਕਰਦੇ ਹਨ, ਭਾਵੇਂ ਉਹ ਗਲਤ ਹੋਣ।
ਇਨ੍ਹਾਂ ਗੁਣਾਂ ਕਰਕੇ ਉਹਨਾਂ ਦੀਆਂ ਗਲਤੀਆਂ ਪਛਾਣਣਾ ਔਖਾ ਹੋ ਸਕਦਾ ਹੈ; ਸੁਧਾਰਾਂ ਆਵਿਰਤਾ ਘਟਾਉਂਦੀਆਂ ਹਨ, ਪ੍ਰਮਾਣਿਕ ਸਮਭਾਵਨਾ ਨਹੀਂ।
When should I avoid using LLMs altogether?
ਉਸ ਸਮੇਂ LLMs ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਾਂ ਵਰਤੋ ਜਦੋਂ ਗਲਤੀਆਂ ਗੰਭੀਰ ਨੁਕਸਾਨ ਪੈਦਾ ਕਰ ਸਕਦੀਆਂ ਹਨ। ਖ਼ਾਸ ਕਰਕੇ, ਏਸ ਕਿਸਮ ਦੀਆਂ ਸਥਿਤੀਆਂ:
- ਤਬੀ, ਕਾਨੂੰਨੀ ਜਾਂ ਵਿੱਤੀ ਫੈਸਲੇ
- ਸੁਰੱਖਿਆ-ਸੰਬੰਧੀ ਇੰਜੀਨੀਅਰਿੰਗ ਜਾਂ ਓਪਰੇਸ਼ਨਲ ਚੋਣਾਂ
- ਨਿਯਮਕ ਜਾਂ ਕੰਪਲਾਇੰਸ ਵਿਵਹਾਰਾਂ ਦੀ ਵਿਆਖਿਆ
ਇਨ੍ਹਾਂ ਖੇਤਰਾਂ ਵਿੱਚ, LLMs ਨੂੰ ਸਿਰਫ਼ brainstorming, ਵਿਕਲਪ ਤਿਆਰ ਕਰਨ ਜਾਂ ਡਰਾਫਟ ਲਿਖਵਾਉਣ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ; ਫੈਸਲੇ ਅਤੇ ਆਖ਼ਰੀ ਸਮੀਖਿਆ ਸਰਟੀਫਾਈਡ ਮਨੁੱਖਾਂ ਅਤੇ ਪ੍ਰਮਾਣਿਤ ਡੇਟਾ 'ਤੇ ਆਧਾਰਿਤ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ।
ਉਤਪਾਦ ਸਲਾਹ:
How-to ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼:
ਨਿੱਜੀ ਜੀਵਨ ਫੈਸਲੇ:
ਤਬੀ:
ਕਾਨੂੰਨ:
ਫਾਇਨੈਂਸ:
ਸੁਰੱਖਿਆ:
ਸ਼ੋਹਰਤ ਦੀ ਖ਼ਰਾਬੀ:
ਨਿਯਮਕ ਖ਼ਤਰਾ:
ਨੈਤਿਕ ਮੁੱਦੇ:
Benchmarks.
ਮਾਨਵੀ ਸਮੀਖਿਆ.
Spot checks ਅਤੇ ਨਮੂਨਾ ਲੈਣਾ.
ਫੈਕਚੁਅਲਟੀ ਸਕੋਰ
ਰੈਫਰੈਂਸ-ਅਧਾਰਿਤ ਜਾਂਚਾਂ।
ਮਾਡਲ-ਸਹਾਇਤਤ ਗਰੇਡਿੰਗ।
Search-augmented checkers
Citation validators
Structured validators
ਟਾਸਕ ਨੂੰ ਸੰਗੀਨ ਕਰੋ:
ਸਕੋਪ ਅਤੇ ਫਾਰਮੈਟ ਦੱਸੋ:
ਸੰਦਰਭ ਦਿਓ:
ਸੀਮਾਵਾਂ ਸਪਸ਼ਟ ਕਰੋ:
ਅਣਿਸ਼ਚਿਤਤਾ:
ਤਰਕ:
ਸਰੋਤ: "ਘੱਟੋ-ਘੱਟ 2 ਬਾਹਰੀ ਸਰੋਤ ਦਿਓ ਅਤੇ ਦੱਸੋ ਕਿ ਉਹ ਕਿਉਂ ਮੰਨੇ ਜਾਂਦੇ ਹਨ।"
\nਫਿਰ, ਤਰਕ ਨੂੰ ਤਨਕੀਦ ਨਾਲ ਪੜ੍ਹੋ। ਜੇ ਕਦਮ ਢਿੱਲੇ ਜਾਂ ਆਪਸ ਵਿੱਚ ਬਿਰੋਧੀ ਲੱਗਦੇ ਹਨ ਤਾਂ ਨਤੀਜੇ ਨੂੰ ਵਿਸ਼ਵਾਸਯੋਗ ਨਾ ਮੰਨੋ।\n\n### ਮਹੱਤਵਪੂਰਨ ਦਾਵਿਆਂ ਦੀ ਤਸਦੀਕ ਕਰੋ\n\nਜੋ ਕੁਝ ਵੀ ਮਹੱਤਵਪੂਰਨ ਹੋ:
\n- ਤੱਥਾਂ ਨੂੰ ਖੋਜ ਇੰਜਣ ਜਾਂ ਭਰੋਸੇਯੋਗ ਡੇਟਾਬੇਸ ਨਾਲ ਤਸਦੀਕ ਕਰੋ।ਮਾਡਲ ਦੁਆਰਾ ਬਣਾਇਆ ਕੋਡ ਟੈਸਟ ਕਰੋ; ਇਸਨੂੰ ਸਿੱਧਾ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਪੇਸਟ ਨਾ ਕਰੋ।ਨੰਬਰਾਂ ਲਈ, ਪੁਨ:ਗਣਨਾ ਕਰੋ ਜਾਂ ਕੈਲਕੂਲੇਟਰ/ਸਪ੍ਰੈਡਸ਼ੀਟ ਵਰਤੋਂ।\n\nਜੇ ਤੁਸੀਂ ਕਿਸੇ ਪਾਇੰਟ ਨੂੰ ਸੁਤੰਤਰ ਤਰੀਕੇ ਨਾਲ ਪ੍ਰਮਾਣਿਤ ਨਹੀਂ ਕਰ ਸਕਦੇ, ਤਾਂ ਉਸਨੂੰ ਸਚ ਵਜੋਂ ਨਹੀਂ, ਇਸਤਵਾਰ ਵਜੋਂ ਲਵੋ।\n\n### ਉੱਚ-ਖਤਰੇ ਫੈਸਲਿਆਂ ਲਈ LLMs ਤੋਂ ਬਚੋ\n\nLLMs ਸ੍ਰੇਸ਼ਠ ਹਨ brainstorming ਅਤੇ ਡਰਾਫਟਿੰਗ ਲਈ; ਉਹ ਆਖ਼ਰੀ ਅਧਿਕਾਰੀ ਨਹੀਂ। ਅਨੁਸ਼ਾਸਨ ਕਰੋ ਕਿ ਉਹਨਾਂ 'ਤੇ ਨਿਰਭਰ ਨਾ ਹੋਵੋ ਜਦੋਂ:
\n- ਦਵਾਈ, ਕਾਨੂੰਨ ਜਾਂ ਵਿੱਤੀ ਸਲਾਹ ਲੋੜੀਂਦੀ ਹੋਵੇ\n- ਸੁਰੱਖਿਆ-ਾਸ਼ਟੀ-ਸੰਬੰਧੀ ਇੰਜੀਨੀਅਰਿੰਗ ਜਾਂ ਓਪਰੇਸ਼ਨ ਹੋਣ\n- ਕਮਪਲਾਇੰਸ ਅਤੇ ਨਿਯਮਕ ਵਿਆਖਿਆ ਦੀ ਲੋੜ ਹੋਵੇ\n\nਇਨ੍ਹਾਂ ਖੇਤਰਾਂ ਵਿੱਚ, ਮਾਡਲ ਨੂੰ ਵਰਤਣਾ (ਜੇ ਵਰਤਣਾ ਕਦੇ ਹੁੰਦਾ) ਤਾਂ ਵੀ ਕੇਵਲ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਫ੍ਰੇਮ ਕਰਨ, ਵਿਕਲਪ ਉਤਪੰਨ ਕਰਨ ਜਾਂ ਪਹਿਚਾਨ ਬਣਾਉਣ ਲਈ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ—ਆਖ਼ਰੀ ਫੈਸਲਾ ਯੋਗ੍ਯ ਮਨੁੱਖਾਂ ਅਤੇ ਤਸਦੀਕ ਕੀਤੇ ਸਰੋਤਾਂ ਵੱਲੋਂ ਹੋਵੇ।\n\n## ਡਿਵੈਲਪਰ ਜੋ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਘਟਾਉਂਦੇ ਹਨ ਉਹ ਵਰਤਦੇ ਤਰੀਕੇ\n\nਡਿਵੈਲਪਰ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਹੀਂ ਹਟਾ ਸਕਦੇ, ਪਰ ਉਹ ਇਹਨਾਂ ਦੀਆਂ ਘਟਿਆ ਮਾਤਰਾ ਅਤੇ ਗੰਭੀਰਤਾ ਨੂੰ ਬਹੁਤ ਘਟਾ ਸਕਦੇ ਹਨ। ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਥਿਆਰ ਚਾਰ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਆਉਂਦੇ ਹਨ: ਮਾਡਲ ਨੂੰ ਭਰੋਸੇਯੋਗ ਡੇਟਾ ਨਾਲ ਜੁੜਨਾ, ਆਉਟਪੁੱਟ ਨੂੰ ਸੀਮਿਤ ਕਰਨਾ, ਜੋ ਇਹ ਸਿਖਦਾ ਹੈ ਉਸ ਦੀ ਸੁਰਤ-ਸੰਭਾਲ ਅਤੇ ਲਗਾਤਾਰ ਨਿਗਰਾਨੀ।\n\n### ਗ੍ਰਾਊਂਡਿੰਗ retrieval-augmented generation (RAG) ਨਾਲ\n\nRetrieval-augmented generation (RAG) ਇੱਕ ਭਾਸ਼ਾ ਮਾਡਲ ਨੂੰ ਇੱਕ ਖੋਜ ਜਾਂ ਡੇਟਾਬੇਸ ਲੇਅਰ ਨਾਲ ਜੋੜਦਾ ਹੈ। ਮਾਡਲ ਆਪਣੇ ਅੰਦਰੂਨੀ ਪੈਰਾਮੀਟਰਾਂ 'ਤੇ ਹੀ ਨਿਰਭਰ ਹੋਣ ਦੀ ਥਾਂ, ਪਹਿਲਾਂ ਸੰਬੰਧਤ ਦਸਤਾਵੇਜ਼ ਰਿਟਰੀਵ ਕਰਦਾ ਹੈ ਅਤੇ ਫਿਰ ਉਸ ਸਬੂਤ ਦੇ ਆਧਾਰ 'ਤੇ ਜਵਾਬ ਪੈਦਾ ਕਰਦਾ ਹੈ।\n\nਇੱਕ ਆਮ RAG ਪਾਈਪਲਾਈਨ:
\n1. ਭਰੋਸੇਯੋਗ ਡੇਟਾ ਇੰਡੈਕਸ ਕਰੋ: ਦਸਤਾਵੇਜ਼, ਗਿਆਨ-ਬੇਸ, APIs, ਡੇਟਾਬੇਸ।ਦਸਤਾਵੇਜ਼ ਸਿਟੇਸ਼ਨ ਜਾਂ ਪੈਸੇਜ ID ਸ਼ਾਮਿਲ ਕਰੋ ਤਾਂ ਜੋ ਉਪਭੋਗਤਾ ਦਾਦਾ ਦੀ ਜਾਂਚ ਕਰ ਸਕੇ।ਕਿਊਰੇਟਡ, ਵਰਜ਼ਨ ਕੀਤੇ ਸਰੋਤ (ਜਿਵੇਂ ਅੰਦਰੂਨੀ KBs) ਨੂੰ ਅਣ-ਚੈੱਕ ਕੀਤੇ ਵੈੱਬ ਸਮੱਗਰੀ ਤੋਂ ਵਧੇਰੇ ਤਰਜੀਹ ਦਿਓ।\n\nਗ੍ਰਾਊਂਡਿੰਗ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਹਟਾਉਂਦੀ ਨਹੀਂ, ਪਰ ਇਹ ਸੰਭਾਵਤ ਗਲਤੀਆੰ ਦਾ ਖੇਤਰ ਘਟਾਉਂਦੀ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਪਛਾਣਨਾ ਆਸਾਨ ਬਣਾ ਦਿੰਦੀਆਂ ਹੈ।\n\n### ਸੀਮਿਤ ਜਨਰੇਸ਼ਨ: ਟੂਲ, APIs ਅਤੇ schemas\n\nਹੋਰ ਇਕ ਮੁੱਖ ਰਾਹ ਇਹ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਜੋ ਕਹਿਣੀ ਮਨਜ਼ੂਰ ਹੈ ਉਹ ਸੀਮਿਤ ਕਰੋ।\n\nਟੂਲ ਅਤੇ API calling. ਮਾਡਲ ਨੂੰ ਫੈਕਟ ਘੜਨ ਦੀ ਥਾਂ ਟੂਲ ਦਿੱਤੇ ਜਾਂਦੇ ਹਨ:
\n- ਲਾਈਵ ਡੇਟਾ ਲਈ ਡੇਟਾਬੇਸ ਕ్వੈਰੀਜ਼\n- ਸਰਚ APIs\n- ਕੈਲਕੂਲੇਟਰ ਜਾਂ ਕੋਡ ਐਗਜ਼ਿਕਿਊਸ਼ਨ\n- ਬਿਜ਼ਨਸ ਸਿਸਟਮ (CRM, ਟਿਕਟਿੰਗ, ਇੰਨਵੈਂਟਰੀ)
\nਮਾਡਲ ਦਾ ਕੰਮ ਬਣ ਜਾਂਦਾ ਹੈ: ਫੈਸਲਾ ਕਰਨਾ ਕਿ ਕਿਹੜਾ ਟੂਲ ਕਾਲ ਕਰਨਾ ਹੈ ਅਤੇ ਕਿਵੇਂ, ਫਿਰ ਨਤੀਜੇ ਦੀ ਵਿਆਖਿਆ ਕਰਨੀ। ਇਹ factual ਜ਼ਿੰਮੇਵਾਰੀ ਨੂੰ ਮਾਡਲ ਦੇ ਵਜ਼ਨਾਂ ਤੋਂ ਬਾਹਰੀ ਪ੍ਰਣਾਲੀਆਂ ਵੱਲ ਟਰਾਂਸਫਰ ਕਰ ਦਿੰਦਾ ਹੈ।\n\nSchema-guided outputs. ਸੰਰਚਿਤ ਟਾਸਕਾਂ ਲਈ, ਡਿਵੈਲਪਰ output ਫਾਰਮੈਟ ਨੂੰ ਨਿਯਮਤ ਕਰਦੇ ਹਨ ਜਿਵੇਂ:
\n- JSON schemasFunction-calling interfacesTyped parameter definitions
\nਮਾਡਲ ਨੂੰ ਐਸਾ ਆਉਟਪੁੱਟ ਪੈਦਾ ਕਰਨਾ ਹੁੰਦਾ ਹੈ ਜੋ schema ਨੂੰ validate ਕਰੇ, ਜਿਸ ਨਾਲ off-topic rambling ਘਟਦੀ ਹੈ ਅਤੇ unsupported fields ਨੂੰ ਘੜਨਾ ਔਖਾ ਹੁੰਦਾ ਹੈ। ਉਦਾਹਰਣ ਲਈ, ਸਪੋਰਟ ਬੋਟ ਨੂੰ ਬੇਨਤੀ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ ਕਿ ਇਹ ਇਕ ਸੰਤੁਲਿਤ JSON ਆਉਟਪੁੱਟ ਦੇਵੇ।\n\nValidation ਲੇਅਰ malformed ਜਾਂ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ inconsistent ਆਉਟਪੁੱਟਸ ਨੂੰ reject ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਮਾਡਲ ਨੂੰ ਦੁਬਾਰਾ ਜਨਰੇਟ ਕਰਨ ਲਈ ਕਹਿ ਸਕਦਾ ਹੈ।\n\n### ਡੇਟਾ, ਟ੍ਰੇਨਿੰਗ ਉਦੇਸ਼ ਅਤੇ ਸਿਸਟਮ ਪ੍ਰਾਂਪਟਸ\n\nਹੈਲੂਸੀਨੇਸ਼ਨਾਂ 'ਤੇ ਨਿਯੰਤਰਣ ਉਸ ਗੱਲ 'ਤੇ ਵੀ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਕੀ ਦਿੱਤਾ ਗਿਆ ਅਤੇ ਇਹਨੂੰ ਕਿਵੇਂ steer ਕੀਤਾ ਗਿਆ।\n\nਡੇਟਾਸੈਟ ਕਿਊਰੇਸ਼ਨ. ਡਿਵੈਲਪਰ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਘਟਾਉਣ ਲਈ:
\n- ਘੱਟ-ਗੁਣਵੱਤਾ, ਇੱਕ-ਦੂਜੇ ਨਾਲ ਟਕਰਾਅ ਵਾਲੇ ਜਾਂ spammy ਟੈਕਸਟ ਨੂੰ ਫਿਲਟਰ ਕਰਦੇ ਹਨ\n- ਹੋਰ ground-truth datasets (QA ਜੋੜੇ, ਦਸਤਾਵੇਜ਼) ਸ਼ਾਮਿਲ ਕਰਦੇ ਹਨ\n- ਉਨ੍ਹਾਂ ਉਦਾਹਰਣਾਂ ਨੂੰ ਸ਼ਾਮਿਲ ਕਰਦੇ ਹਨ ਜਿੱਥੇ ਸਹੀ ਉੱਤਰ "ਮੈਨੂੰ ਪਤਾ ਨਹੀਂ" ਹੁੰਦਾ ਹੈ\n\nਟ੍ਰੇਨਿੰਗ ਉਦੇਸ਼ ਅਤੇ ਫਾਈਨ-ਟਿਊਨਿੰਗ. raw next-token prediction ਤੋਂ ਇਲਾਵਾ, alignment ਅਤੇ instruction-tuning ਦੇ ਫੇਜ਼:
\n- ਸੱਚਾਈ ਅਤੇ ਸਰੋਤ ਸਿਤਾਈ ਨੂੰ ਇਨਾਮ ਦੇ ਸਕਦੇ ਹਨਜੋ ਕੁਝ ਸਬੂਤ ਦੇ ਵਿਰੁੱਧ ਨਿਸ਼ਚਿਤ वक्तव्य ਹਨ ਉਨ੍ਹਾਂ ਨੂੰ ਸਜ਼ਾ ਦੇ ਸਕਦੇ ਹਨਜਦੋਂ ਪ੍ਰਾਂਪਟ ਅਸਪਸ਼ਟ ਹੋ, ਤਾਂ clarification questions ਪੁੱਛਣ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰ ਸਕਦੇ ਹਨ
\nਸਿਸਟਮ ਪ੍ਰਾਂਪਟ ਅਤੇ ਨੀਤੀਆਂ. ਰਨਟਾਈਮ 'ਤੇ system messages guardrails ਨਿਰਧਾਰਤ ਕਰਦੇ ਹਨ ਜਿਵੇਂ:
\n- "ਜੇ ਤੁਹਾਨੂੰ ਯਕੀਨ ਨਹੀਂ, ਤਾਂ ਖੁੱਲ੍ਹ ਕੇ ਕਹੋ ਕਿ ਤੁਸੀਂ ਅਣਪੱਕੇ ਹੋ।""ਕੇਵਲ ਦਿੱਤੇ ਗਏ ਸੰਦਰਭ ਨੂੰ ਵਰਤੋ; ਪੂਰਵ-ਜਾਣਕਾਰੀ 'ਤੇ ਭਰੋਸਾ ਨਾ ਕਰੋ।""ਕਾਨੂੰਨੀ, ਮੈਡੀਕਲ ਜਾਂ ਵਿੱਤੀ ਸਲਾਹ ਦੇਣ ਤੋਂ ਇਨਕਾਰ ਕਰੋ ਅਤੇ ਸਕੂਨੀ ਪেশੇਵਰਾਂ ਨੂੰ ਸੁਝਾਓ।"
\nਚੰਗੇ ਤਰੀਕੇ ਨਾਲ ਬਣਾਏ ਗਏ system prompts ਮਾਡਲ ਦੇ ਮੁਢਲੇ ਰੁਝਾਨਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਹੀਂ ਬਦਲ ਸਕਦੇ, ਪਰ ਇਹ ਉਸਦੇ ਡਿਫੌਲਟ ਵਰਤਾਰ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਬਦਲ ਸਕਦੇ ਹਨ।\n\n### ਮਾਨੀਟਰਿੰਗ, ਫੀਡਬੈਕ ਲੂਪ ਅਤੇ ਗਾਰਡਰੇਲਜ਼\n\nਮਿਟੀਗੇਸ਼ਨ ਇਕ ਇੱਕ-ਵਾਰੀ ਸੈਟ-ਅੱਪ ਨਹੀਂ ਹੈ; ਇਹ ਇਕ ਲਗਾਤਾਰ ਪ੍ਰਕਿਰਿਆ ਹੈ।\n\nਮਾਨੀਟਰਿੰਗ. ਟੀਮਾਂ prompts, outputs ਅਤੇ ਯੂਜ਼ਰ ਇੰਟਰੈਕਸ਼ਨਾਂ ਨੂੰ ਲੌਗ ਕਰਦੀਆਂ ਹਨ ਤਾਂ ਜੋ:
\n- ਹੈਲੂਸੀਨੇਸ਼ਨ ਪੈਟਰਨ (ਟਾਪਿਕਸ, ਫਾਰਮੈਟ, edge-cases) ਪਛਾਣੇ ਜਾ ਸਕਣ\n- metrics ਜਿਵੇਂ error rates, refusal rates, ਅਤੇ user correction rates ਨੂੰ ਟ੍ਰੈਕ ਕੀਤਾ ਜਾ ਸਕੇ\n\nਫੀਡਬੈਕ ਲੂਪ. ਮਨੁੱਖੀ ਸਮੀਖਿਆਕਾਰ ਅਤੇ ਯੂਜ਼ਰ ਗਲਤ ਜਾਂ ਅਸੁਰੱਖਿਅਤ ਉੱਤਰਾਂ ਨੂੰ ਫਲੈਗ ਕਰ ਸਕਦੇ ਹਨ। ਇਹ ਉਦਾਹਰਣ:
\n- fine-tuning datasets ਵਿੱਚ ਫੀਡ ਹੁੰਦੀਆਂ ਹਨ\n- ਢਾਰਾ-ਸੂਚੀਆਂ ਅਤੇ ਰ retrieval indexes ਨੂੰ ਅਪਡੇਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ\n- ਬਿਹਤਰ ਪ੍ਰਾਂਪਟਸ ਅਤੇ ਟੂਲ ਵਿਕਸਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ\n\nਗਾਰਡਰੇਲਜ਼ ਅਤੇ ਨੀਤੀ ਲੇਅਰ. ਵੱਖਰੇ ਸੇਫਟੀ ਲੇਅਰ ਇਹ ਕਰ ਸਕਦੇ ਹਨ:
\n- ਅਣ-ਉਪਯੋਗ ਜਾਂ ਆਉਟ-ਆਫ-ਸਕੋਪ ਬੇਨਤੀਆਂ ਨੂੰ classify ਅਤੇ block ਕਰਨ\n- ਮਾਡਲ ਆਉਟਪੁੱਟਸ ਨੂੰ post-process ਕਰਕੇ ਨੀਤੀ ਉਲੰਘਣਾ ਹਟਾਉਣਾ\n- ਉੱਚ-ਖਤਰੇ ਸਥਿਤੀਆਂ (ਹੈਲਥਕੇਅਰ, ਫਾਇਨੈਂਸ, ਲਾ) ਲਈ ਮਨੁੱਖੀ ਸਮੀਖਿਆ trigger ਕਰਨਾ\n\nਗ੍ਰਾਊਂਡਿੰਗ, ਸੀਮਾਜ਼ਦਾਰੀ, ਸੋਚ-ਸਮਝ ਕੇ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਲਗਾਤਾਰ ਨਿਗਰਾਨੀ ਨੂੰ ਇਕੱਠੇ ਕਰਨ ਨਾਲ ਮਾਡਲਾਂ ਨੂੰ ਐਸਾ ਬਣਾਇਆ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਘੱਟ ਹੈਲੂਸੀਨੇਟ ਕਰਦੇ ਹਨ, uncertainty ਨੂੰ ਜ਼ਿਆਦਾ ਸਪਸ਼ਟ ਦਿਖਾਉਂਦੇ ਹਨ, ਅਤੇ ਅਸਲ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਵਧੇਰੇ ਭਰੋਸੇਯੋਗ ਹੁੰਦੇ ਹਨ।\n\n## ਭਵਿੱਖ ਦੇ ਰੁਖ ਅਤੇ ਯਥਾਰਥਪੂਰਕ ਉਮੀਦਾਂ ਰੱਖਣੀਆਂ\n\nLLMs ਨੂੰ probabilistic assistants ਵਜੋਂ ਸਮਝੋ: ਉਹ ਲਿਖਤ ਦੇ ਸੰਭਾਵਤ continuation ਪੈਦਾ ਕਰਦੇ ਹਨ, ਨਾ ਕਿ ਸੰਸਾਰ ਬਾਰੇ ਪੱਕੇ ਤੱਥ। ਭਵਿੱਖੀ ਤਰੱਕੀ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਘਟਾਏਗੀ, ਪਰ इन्हें ਪੂਰੀ ਤਰ੍ਹਾਂ ਖਤਮ ਨਹੀਂ ਕਰੇਗੀ। ਇਸ ਬਾਰੇ ਉਮੀਦਾਂ ਸਪਸ਼ਟ ਰੱਖਣਾ ਜ਼ਰੂਰੀ ਹੈ।\n\n### ਜਿੱਥੇ ਸੁਧਾਰ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ\n\nਕਈ ਤਕਨੀਕੀ ਦਿਸ਼ਾਵਾਂ ਹੈਲੂਸੀਨੇਸ਼ਨ ਦੀਆਂ ਦਰਾਂ ਨੂੰ ਘਟਾਉਣਗੀਆਂ:
\n- ਬਾਹਰੀ ਟੂਲਾਂ ਅਤੇ ਡੇਟਾ ਨਾਲ ਮਜਬੂਤ ਗ੍ਰਾਊਂਡਿੰਗ (ਸਰਚ, ਅੰਦਰੂਨੀ KBs, structured APIs), ਤਾਂ ਜੋ ਮਾਡਲ memory 'ਤੇ ਘੱਟ ਨਿਰਭਰ ਹੋਵੇ ਅਤੇ ਵੋਰੇਫਾਇਅਬਲ ਸਰੋਤਾਂ 'ਤੇ ਅਧਾਰਿਤ ਹੋਵੇ।ਵਧੀਆ ਟ੍ਰੇਨਿੰਗ ਸੰਕੇਤ, ਜਿਸ ਵਿੱਚ RLHF, Preference modeling ਅਤੇ automated red-teaming ਸ਼ਾਮਿਲ ਹਨ ਜੋ ਖ਼ਾਸ ਤੌਰ 'ਤੇ ਹੈਲੂਸੀਨੇਸ਼ਨ ਵਿਹਾਰਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੇ ਹਨ।ਇੰਟਿਗ੍ਰੇਟ ਨਿਯੰਤਰਣ/ਵੈਰੀਫਿਕੇਸ਼ਨ ਕਦਮ, ਜਿਥੇ ਸਿਸਟਮ ਆਪਣੇ ਆਉਟਪੁੱਟ ਦੀ ਜਾਂਚ ਵੱਖ-ਵੱਖ ਮਾਡਲਾਂ, retrieval ਜਾਂ ਸਿਮਬੋਲਿਕ ਲਾਜਿਕ ਨਾਲ ਕਰਦਾ ਹੈ।ਧਨੂੜ uncertainty ਅੰਦਾਜ਼ੇ, ਤਾਂ ਜੋ ਮਾਡਲ "ਮੈਨੂੰ ਪਤਾ ਨਹੀਂ" ਵਧੇਰੇ ਕਹੇ ਅਤੇ calibrated confidence ਦਿਖਾਏ।\n\nਇਹ ਤਰੱਕੀਆਂ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਘੱਟ, ਪਛਾਣਨ-ਯੋਗ ਅਤੇ ਘੱਟ ਨੁਕਸਾਨਕਰ ਬਣਾਉਣਗੀਆਂ—ਪਰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਰੋਕ ਨਹੀਂ ਸਕਦੀਆਂ।\n\n### ਕਿਹੜੀਆਂ ਚੀਜ਼ਾਂ ਮੁਸ਼ਕਲ ਹੀ ਰਹਿਣਗੀਆਂ\n\nਕੁਝ ਚੁਣੌਤੀਆਂ ਹਮੇਸ਼ਾ ਰਹਿਣਗੀਆਂ:
\n- ਖੁੱਲ੍ਹੇ-ਅੰਤ ਸਵਾਲ ਜਿਨ੍ਹਾਂ ਲਈ ਇੱਕਲਿਆ-ਸਹੀ ਉੱਤਰ ਨਹੀਂ ਹੁੰਦਾ।\n- ਘੱਟ ਜਾਂ ਟਕਰਾਅ ਵਾਲਾ ਡੇਟਾ, ਜਿੱਥੇ ਮਨੁੱਖ ਵੀ ਰਾਏ ਗਲਤ ਹੋ ਸਕਦੇ ਹਨ।\n- ਵਿਰੋਧੀ ਜਾਂ ਅਸਪਸ਼ਟ ਪ੍ਰਾਂਪਟ ਜੋ ਮਾਡਲ ਨੂੰ ਗੁਆਂਢ ਕਰਨ ਲਈ ਹੀ ਬਣਾਏ ਗਏ ਹੋਂਦੇ ਹਨ।\n- ਲੰਬੀਆਂ ਤਰਕ-ਚੇਨ ਜਿੱਥੇ ਛੋਟੀ ਗਲਤੀਆਂ ਇੱਕ ਵੱਡੇ, ਭਰੋਸੇਯੋਗ ਪਰ ਗਲਤ ਨਤੀਜੇ ਵੱਲ ਲੈ ਜਾਂਦੀਆਂ ਹਨ।\n\nਕਿਉਂਕਿ LLMs ਸਾਂਖੇਤਿਕ ਢੰਗ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ, ਉਹ ਹਮੇਸ਼ਾਂ ਨਾਨ-ਜ਼ੀਰੋ ਫੇਲਿਯਰ ਦਰਾਂ ਰੱਖਣਗੇ, ਖ਼ਾਸ ਕਰਕੇ ਜਦੋਂ ਪ੍ਰਾਂਪਟ ਟ੍ਰੇਨਿੰਗ distribution ਤੋਂ ਬਹੁਤ ਦੂਰ ਹੋਵੇ।\n\n### ਆਖ਼ਰੀ ਉਪਭੋਗਤਿਆਂ ਨੂੰ ਸੀਮਾਵਾਂ ਕਿਵੇਂ ਦੱਸਣੀਆਂ ਚਾਹੀਦੀਆਂ ਹਨ\n\nਜਿੰਮੇਵਾਰ ਤੌਰ 'ਤੇ ਤਾਇਨਾਤੀ ਲਈ ਸਪਸ਼ਟ ਸੰਚਾਰ ਜ਼ਰੂਰੀ ਹੈ:
\n- ਸਿਸਟਮ ਦੇ ਸਕਣ ਦੀ ਗੱਲ ਸਪਸ਼ਟ ਕਰੋ ਕਿ ਇਹ ਵੇਰਵੇ ਘੜ ਸਕਦਾ ਹੈ।\n- ਜੇ ਸੰਭਵ ਹੋਵੇ ਤਾਂ confidence ਲੈਵਲ ਅਤੇ ਸਰੋਤ ਦਿਖਾਓ।\n- ਉੱਚ-ਖਤਰੇ ਵਰਤੋਂ ਲਈ ਜਾਂਚ ਕਰਨ ਦੀ ਪ੍ਰੇਰਣਾ ਕਰੋ।\n- ਜਾਣ-ਪਛਾਣ ਮੁੱਕਰਾਂ ਅਤੇ ਮੁੱਲਾਂਕਣ ਨਤੀਜਿਆਂ ਦਾ ਦਸਤਾਵੇਜ਼ ਰੱਖੋ।\n\n### ਸੁਰੱਖਿਅਤ, ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਵਰਤੋਂ ਲਈ ਮੁੱਖ ਨਿੱਕਾਲ\n\n- LLMs ਨੂੰ ਸਹਾਇਕ, ਦਿਵਾਲੀਆਂ ਵਜੋਂ ਵਰਤੋ, ਨਾ ਕਿ ਅਜਿਹੇ ਔਰਾਕਲ ਵਜੋਂ।ਉਨ੍ਹਾਂ ਨੂੰ ਖਾਕਾ ਤਿਆਰ ਕਰਨ, ਵਿਕਲਪ ਸਮਝਣ ਅਤੇ ਵਿਆਖਿਆ ਕਰਨ ਲਈ ਵਰਤੋ, ਫਿਰ ਮਨੁੱਖੀ ਨਿਣੇਣ ਲਗਾਓ।ਜਦੋਂ ਨਤੀਜੇ ਨਜੀਰਦਾਰ ਹੋਣ, ਵਰਕਫਲੋਅ ਵਿੱਚ ਵੈਰੀਫਿਕੇਸ਼ਨ ਬਣਾਓ: ਹੋਰ ਟੂਲ, ਡੇਟਾ, ਜਾਂ ਵਿਸ਼ੇਸ਼ਗਿਆਨੀਆਂ ਨਾਲ cross-check ਕਰੋ।ਪ੍ਰਾਂਪਟ ਇੰਜੀਨੀਅਰਿੰਗ ਅਤੇ ਸਿਸਟਮ ਡਿਜ਼ਾਈਨ ਵਰਤੋ ਤਾਂ ਕਿ ਟਾਸਕਾਂ ਨੂੰ ਸੀਮਿਤ ਕੀਤਾ ਜਾ ਸਕੇ, ਅਸਪਸ਼ਟਤਾ ਘਟਾਈ ਜਾ ਸਕੇ ਅਤੇ uncertainty surface ਕੀਤਾ ਜਾਵੇ।\n\nਭਵਿੱਖ ਵਿੱਚ ਹੋਰ ਭਰੋਸੇਯੋਗ ਮਾਡਲ ਅਤੇ ਵਧੀਆ ਗਾਰਡਰੇਲਜ਼ ਆਉਣਗੇ, ਪਰ ਸ਼ੱਕ, ਨਿਗਰਾਨੀ ਅਤੇ ਸੋਚ-ਸਮਝ ਕੇ ਅਸਲ ਵਰਕਫਲੋਜ਼ ਵਿੱਚ ਇੰਟਿਗਰੇਸ਼ਨ ਕਰਨ ਦੀ ਲੋੜ ਸਦਾ ਰਹੇਗੀ।ਮਦਦਗਾਰ, ਪੂਰਾ ਜਵਾਬ
ਇਹ ਸਾਰੇ ਕਾਰਕ ਇਕੱਠੇ ਮਿਲ ਕੇ ਭਰੋਸੇਯੋਗ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਇੱਕ ਕੁਦਰਤੀ ਵਰਤਾਰ ਹੈ, ਨਾ ਕਿ ਕੋਈ ਅਜਿਹਾ ਦਰੂਲਤੀ ਬੱਗ।
ਅਣਿਸ਼ਚਿਤਤਾ ਅਤੇ ਸਰੋਤ ਮੰਗੋ
ਸੰਦਰਭ ਦਿੱਤੋ (ਦਰਸ਼ਕ, ਡੋਮੇਨ, ਪਾਬੰਦੀਆਂ) ਤਾਂ ਕਿ ਮਾਡਲ ਨੂੰ ਘੱਟ ਖਾਲੀਆਂ ਭਰਣੀਆਂ ਪੈਣ।ਮਹੱਤਵਪੂਰਨ ਦਾਵਿਆਂ ਦੀ ਆਜ਼ਾਦ ਤਸਦੀਕ ਕਰੋ—ਟ੍ਰੱਸਟਡ ਸਰੋਤਾਂ ਜਾਂ ਟੂਲਾਂ ਨਾਲ।ਅਣ-ਪ੍ਰਮਾਣਿਤ ਆਉਟਪੁੱਟਸ ਨੂੰ ਤਥਿਆਂ ਦੀ ਬਜਾਏ ਧਾਰਣਾ/ਸੁਝਾਅ ਵਜੋਂ ਲਵੋ, ਖ਼ਾਸ ਕਰਕੇ ਜੇ ਨਤੀਜੇ ਨਤੀਜਾਕਾਰੀ ਹਨ।Retrieval-augmented generation (RAG) ਵਰਤੋਂ, ਤਾਂ ਜੋ ਜਵਾਬ ਭਰੋਸੇਯੋਗ ਦਸਤਾਵੇਜ਼ਾਂ ਜਾਂ ਡੈਟਾਬੇਸਾਂ 'ਤੇ ਆਧਾਰਿਤ ਹੋਣ।ਮਾਡਲ ਨੂੰ ਟੂਲ/ਆਪੀਆਈਜ਼ ਦੇ ਕੇ ਦੇਵੋ (ਸਰਚ, ਡੈਟਾਬੇਸ, ਕੈਲਕੂਲੇਟਰ), ਨਾ ਕਿ ਇਹਨੂੰ ਤੱਥ ਖੁਦ ਤੋਂ ਰਚਣ ਦੇਵੋ।ਆਉਟਪੁੱਟਸ 'ਤੇ schemas ਅਤੇ validation ਲਾਗੂ ਕਰੋ (ਜਿਵੇਂ JSON, function-calling) ਤਾਂ ਕਿ ਨਿਰਧਾਰਿਤ ਫਾਰਮੈਟ ਦੀ ਪਾਲਨਾ ਹੋਵੇ।ਡੇਟਾ ਅਤੇ ਟ੍ਰੇਨਿੰਗ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਤਯਾਰ ਕਰੋ ਕਿ ਸੱਚਾਈ ਅਤੇ ਅਣਿਸ਼ਚਿਤਤਾ ਨੂੰ ਇਨਾਮ ਮਿਲੇ ਨਾ ਕਿ ਸਿਰਫ਼ fluent ਹੋਣ ਨੂੰ।ਉੱਚ-ਖਤਰੇ ਵਾਲੇ ਮਾਮਲਿਆਂ ਲਈ ਮਾਨਪੱਤਰ, ਨਿਗਰਾਨੀ, ਅਤੇ ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਸ਼ਾਮਿਲ ਕਰੋ।ਇਹ ਤਰੀਕੇ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਮੁੱਕ ਨਹੀਂ ਦਿੰਦੀਆਂ, ਪਰ ਉਹਨਾਂ ਦੀ ਅਵਿਰਤਾ ਘਟਾਉਂਦੀਆਂ, ਉਹਨਾਂ ਨੂੰ ज़ਿਆਦਾ ਦਿਖਣਯੋਗ ਬਣਾਉਂਦੀਆਂ ਅਤੇ ਨੁਕਸਾਨ ਘਟਾਉਂਦੀਆਂ ਹਨ।
- retrieved ਸਮੱਗਰੀ ਨੂੰ ਗਲਤ ਸਮਝ ਸਕਦਾ/ਸਕਦੀ ਹੈ ਜਾਂ ਉਸਦਾ ਗਲਤ ਸਾਰ ਨਿਕਾਲ ਸਕਦਾ/ਸਕਦੀ ਹੈ।
- retrieved ਤੱਥਾਂ ਨੂੰ ਘੜੇ ਹੋਏ ਵੇਰਵਿਆਂ ਨਾਲ ਮਿਲਾ ਕੇ ਫੈਲ-ਮਿਸਲ-ਕਨਫ਼ਿਗਰ ਕਰ ਸਕਦਾ/ਸਕਦੀ ਹੈ।
ਇਸ ਲਈ RAG ਨੂੰ validation, ਮਾਨੀਟਰਿੰਗ ਅਤੇ ਉਪਭੋਗਤਾ ਨੂੰ ਸੀਮਾਵਾਂ ਬਾਰੇ ਸਪਸ਼ਟ ਸੰਦੇਸ਼ ਦੇਣ ਨਾਲ ਜੋੜਨਾ ਚਾਹੀਦਾ ਹੈ।
ਮਾਨਵ ਮੁੱਲਾਂਕਣ
Reference-based checks ਲਗਾਓ—ਆਉਟਪੁੱਟਸ ਨੂੰ ਸਰੋਤ ਦਸਤਾਵੇਜ਼ਾਂ ਜਾਂ ਡੇਟਾਬੇਸਾਂ ਨਾਲ ਤੁਲਨਾ ਕਰੋ, ਖ਼ਾਸ ਕਰਕੇ summarization ਜਾਂ doc-over-QA ਲਈ।ਟੂਲਿੰਗ (ਸਰਚ-ਆਧਾਰਿਤ validators, citation checkers, structured validators) ਨਾਲ ਉਹਨਾਂ ਜਵਾਬਾਂ ਨੂੰ flag ਕਰੋ ਜੋ ਟਾਰਗੇਟ ਤੋਂ ਵੱਖਰੇ ਹੋਣ।ਅਸਲੀ ਯੂਜ਼ਰ ਇੰਟਰੈਕਸ਼ਨਾਂ ਨੂੰ sample ਕਰਕੇ edge-cases ਅਤੇ failure modes ਲੱਭੋ।ਕੋਈ ਇੱਕ ਤਰੀਕਾ ਕਾਮਯਾਬੀ ਦੀ ਗਾਰੰਟੀ ਨਹੀਂ ਦਿੰਦਾ; ਬਹੁ-ਸਤਰੀ ਮੂਲਿਆੰਕਨ ਹਰ ਵਰਤੋਂ ਲਈ ਚੰਗਾ ਕੰਮ ਕਰਦਾ ਹੈ।
LLM ਹੈਲੂਸੀਨੇਸ਼ਨ ਸਪਸ਼ਟੀਕਰਣ: ਇਹ ਕੀ ਹਨ ਅਤੇ ਕਿਉਂ ਹੁੰਦੇ ਹਨ | Koder.ai