نوام شازير ومعماريّة الترانسفورمر وراء نماذج اللغة الكبيرة

Q: ما هو الترانسفورمر بلغة بسيطة؟

الترانسفورمر هو بنية شبكات عصبية لمعطيات التسلسل تستخدم الانتباه الذاتي لربط كل توكن بكل توكن آخر في نفس المدخل. بدلاً من تمرير المعلومات خطوة بخطوة (كما في RNNs/LSTMs)، يبني السياق عن طريق تحديد ما الذي يجب الانتباه إليه عبر كامل التسلسل، مما يحسن الفهم بعيد المدى ويجعل التدريب أكثر قابلية للتوازي.

Q: لماذا استبدلت الترانسفورمرز الـ RNNs والـ LSTMs في كثير من مهام معالجة اللغة؟

تتعامل RNNs وLSTMs مع النص توكين بعد توكين ، ما يجعل التدريب أصعب على التوازي ويخلق عنق زجاجة في الاعتماد طويل المدى. الترانسفورمرز تستخدم الانتباه لربط التوكنات البعيدة مباشرة، ويمكنها حساب تداخلات كثيرة بين التوكنات بالتوازي أثناء التدريب—مما يجعلها أسرع في التدرج عند توفر بيانات وحساب أكبر.

Q: ما هو "الانتباه" وكيف أفكر فيه؟

الانتباه هو آلية للإجابة على: "ما التوكنات الأخرى ذات الأهمية لفهم هذا التوكن الآن؟" يمكنك تشبيهه بمحرك بحث مصغر داخل الجملة: - الاستعلام (Query) يسأل عن المعلومات المطلوبة - المفاتيح (Keys) تمثل ما يقدمه كل توكن - القيم (Values) هي المعلومات التي تُستخرج وتُخلط الناتج هو مزيج موزون من التوكنات ذات الصلة، فيعطي لكل موضع تمثيلاً واعياً للسياق.

Q: ما الفرق بين الانتباه والانتباه الذاتي؟

الانتباه الذاتي يعني أن توكنات التسلسل تُنبه إلى توكنات أخرى في نفس التسلسل . هو الأداة الأساسية التي تسمح للنموذج بحل مرجعيات مثل من تشير إليه الضمائر (مثل "هو/هي/ذلك")، وعلاقات الفاعل–الفعل عبر فواصل، واعتماديات تظهر بعيداً في النص—دون تمرير كل شيء عبر ذاكرة متسلسلة واحدة.

Q: لماذا تستخدم الترانسفورمرز الانتباه متعدد الرؤوس؟

الانتباه متعدد الرؤوس يُجري عدة عمليات انتباه متوازية ، ويمكن لكل رأس أن يتخصص في أنماط مختلفة. عملياً، غالباً ما يركز كل رأس على علاقات مختلفة (البنية النحوية المحلية، الروابط بعيدة المدى، حل مرجع الضمائر، إشارات الموضوع)، ثم يجمع النموذج هذه النظرات المتعددة في تمثيل موحد يسمح بالتقاط عدة هياكل في آن واحد.

Q: ما الذي يوجد داخل كتلة الترانسفورمر بخلاف الانتباه؟

كتلة الترانسفورمر تَجمع عادة بين: - الانتباه : ينقل المعلومات بين التوكنات - شبكة تغذوية أمامية (FFN/MLP) : تعالج المعلومات داخل كل توكن بشكل مستقل - وصلات الباقي (Residual connections) : تسهّل تدفق التدرجات وتسمح للطبقات بإجراء تعديلات طفيفة - تطبيع الطبقات (Layer normalization) : يثبت قيم التفعيلات عبر طبقات عميقة تكديس العديد من هذه الكتل ينتج عمقاً يمكّن النموذج من تعلم ميزات أغنى وسلوك أقوى عند الحجم الكبير.

Q: مشفّر–مفكّك مقابل مفكّك فقط: أيهما يستخدمه الـ LLM؟

الترانسفورمر الأصلي في ورقة Attention Is All You Need كان بنية مشفّر–مفكّك (encoder–decoder) : - المشفّر يقرأ المدخل بغرض فهمه ثنائياً - المفكّك يولّد المخرَج توكين بعد توكين باستخدام انتباه عرضي إلى مخرجات المشفّر اليوم معظم نماذج اللغة الكبيرة هي نموذج مفكّك فقط (decoder-only) تُدرَّب على توقع التوكن التالي باستخدام انتباه ذاتي مُقنَّع (causal/masked) ، ما يتوافق مع التوليد من اليسار إلى اليمين ويُسهّل التوسع على مجموعات نصية ضخمة.

Q: ما دور نوام شازير في اختراع الترانسفورمر؟

نوام شازير كان أحد مؤلفي ورقة 2017 "Attention Is All You Need" التي قدمت الترانسفورمر. من الصحيح اعتباره مساهماً رئيسياً، لكن من غير الدقيق عرضه كمخترع وحيد—الترانسفورمر صُمِّم بواسطة فريق في جوجل، وتأثيره نابع أيضاً من التحسينات اللاحقة التي أضافتها المجتمع والصناعة.

تسجيل الدخول ابدأ الآن

لماذا لا يزال الترانسفورمر مهماً

الترانسفورمر هو وسيلة لمساعدة الحواسيب على فهم التسلسلات — أشياء يكون فيها الترتيب والسياق مهمين، مثل الجمل، الكود، أو سلسلة استعلامات بحث. بدلاً من قراءة توكن واحد في كل مرة وحمل ذاكرة هشة للأمام، ينظر الترانسفورمر عبر كامل التسلسل ويقرر ما يجب الانتباه إليه عند تفسير كل جزء.

هذا التحوّل البسيط اتضح أنه ذو تأثير كبير. إنه سبب رئيسي في أن نماذج اللغة الكبيرة الحديثة يمكنها الحفاظ على السياق، اتباع التعليمات، كتابة فقرات متماسكة، وتوليد كود يشير إلى دوال ومتغيرات سابقة.

لماذا تتصادف مع الترانسفورمر مراراً

إذا استخدمت شات بوت، ميزة "لخّص هذا"، بحث دلالي، أو مساعد برمجي، فقد تفاعلت مع أنظمة مبنية على الترانسفورمر. نفس المخطط الأساسي يدعم:

أدوات الدردشة ودعم العملاء التي تتتبّع ما قلته سابقاً
أنظمة البحث والتوصية التي تطابق المعنى، لا الكلمات المفتاحية فقط
التلخيص الذي يوازن بين ما هو مركزي وما هو تفصيلي جانبي
أدوات الكود التي تربط التعاريف والاستخدام والنية عبر الملفات

ما ستتعلمه في هذا المقال

سنفكك الأجزاء الرئيسية — الانتباه الذاتي، الانتباه متعدد الرؤوس، الترميزات الموضعية، والكتلة الأساسية للترانسفورمر — ونوضّح لماذا ينجح هذا التصميم في التوسع مع تكبير النماذج.

سنلمس أيضاً المتغيّرات الحديثة التي تحافظ على الفكرة الأساسية لكنها تُعدّل لأجل السرعة، التكلفة، أو نوافذ سياق أطول.

ما الذي تتوقعه (وما لا تتوقعه)

هذه جولة عالية المستوى بتفسيرات بلغة بسيطة وقليل من الرياضيات. الهدف بنية الفهم: ما الذي تفعله القطع، لماذا تعمل معاً، وكيف يترجم ذلك إلى قدرات منتج حقيقية.

دور نوام شازير في قصة الترانسفورمر

نوام شازير هو باحث ومهندس في الذكاء الاصطناعي معروف كأحد المؤلفين المشاركين لورقة 2017 Attention Is All You Need. قدمت تلك الورقة بنية الترانسفورمر، التي أصبحت لاحقًا أساساً للعديد من نماذج اللغة الكبيرة الحديثة. عمل شازير جزء من جهد جماعي: الترانسفورمر صممه فريق من الباحثين في جوجل، ومن المهم نسب الفضل بهذه الطريقة.

ما الذي غيرته ورقة 2017

قبل الترانسفورمر، اعتمدت العديد من أنظمة معالجة اللغة على نماذج متسلسلة كانت تعالج النص خطوة بخطوة. أظهر اقتراح الترانسفورمر أنه يمكنك نمذجة التسلسلات بفعالية دون تكرار عن طريق استخدام الانتباه كآلية رئيسية للجمع بين المعلومات عبر الجملة.

أهميّة هذا التحوّل أنه سهّل توازي التدريب (يمكن معالجة العديد من التوكنات دفعة واحدة)، وفتح الباب لتكبير النماذج والبيانات بطريقة أصبحت عملية بسرعة للمنتجات الحقيقية.

من فكرة بحثية إلى لبنة بناء للمنتج

مساهمة شازير — إلى جانب المؤلفين الآخرين — لم تبقَ محصورة في المقاييس الأكاديمية. أصبح الترانسفورمر وحدة قابلة لإعادة الاستخدام يمكن للفرق تكييفها: تبديل المكوّنات، تغيير الحجمال، ضبطها لمهام معينة، ومن ثم تدريبه على نطاق واسع.

هكذا تنتقل العديد من الاختراعات: ورقة تقدم وصفة عامة ونظيفة؛ المهندسون يحسّنونها؛ الشركات تطبّقها؛ وفي النهاية تصبح خياراً افتراضياً لبناء ميزات لغوية.

الحفاظ على دقّة النسبة

من الدقيق القول إن شازير كان مساهماً رئيسياً وأحد مؤلفي الورقة. ومن غير الدقيق أن تُقدَمه كمخترع وحيد. الأثر ناتج عن التصميم الجماعي — وعن التحسينات الكثيرة التي أضافها المجتمع بعد المخطط الأصلي.

ما سبق الترانسفورمر: الشبكات المتكررة وLSTMs وحدودها

قبل الترانسفورمر، كانت معظم مشاكل التسلسل (الترجمة، الكلام، توليد النص) تهيمن عليها الشبكات العصبية المتكررة (RNNs) ولاحقاً LSTMs. الفكرة الأساسية بسيطة: قراءة النص توكن واحد في كل مرة، الاحتفاظ بـ "ذاكرة" جارية (حالة مخفية)، واستخدام تلك الحالة للتنبؤ بما سيأتي بعد.

لمحة سريعة عن كيفية عملها

تعالج الـ RNN الجملة كسلسلة. كل خطوة تحدّث الحالة المخفية بناءً على الكلمة الحالية والحالة السابقة. حسّن الـ LSTM ذلك بإضافة بوابات تقرر ما يُحتفظ به، وما يُنسى، وما يُصدر — مما يجعل الاحتفاظ بالإشارات المفيدة أطول أمداً أسهل.

لماذا كانت الاعتماديات بعيدة المدى صعبة

في الممارسة، الذاكرة المتسلسلة لها عنق زجاجة: الكثير من المعلومات يجب ضغطها عبر حالة واحدة مع ازدياد طول الجملة. حتى مع LSTMs، يمكن أن تتلاشى الإشارات من كلمات سابقة أو تُستبدل.

هذا جعل بعض العلاقات صعبة التعلم بشكل موثوق — مثل ربط ضمير بالاسم الصحيح بعد كلمات عديدة، أو تتبّع موضوع عبر فواصل متعددة.

تحديات التدريب والتوسع

الـ RNNs والـ LSTMs بطيئة أيضاً في التدريب لأنها لا تستطيع التوازي الكامل عبر الزمن. يمكنك تجميع أمثلة مختلفة في دفعة، لكن داخل جملة واحدة، الخطوة 50 تعتمد على 49، التي تعتمد على 48، وهكذا.

هذا الحساب خطوة بخطوة يصبح قيداً جاداً عندما تريد نماذج أكبر، بيانات أكثر، وتجارب أسرع.

الدافع لتصميم مناسب للتوازي

كان الباحثون بحاجة إلى تصميم يمكنه ربط الكلمات ببعضها دون السير بدقة من اليسار إلى اليمين أثناء التدريب — طريقة لنمذجة العلاقات بعيدة المدى مباشرةً والاستفادة أفضل من العتاد الحديث. هذا الضغط مهّد الطريق لنهج الانتباه الذي قدّمته ورقة Attention Is All You Need.

الانتباه، مفسر دون رياضيات

الانتباه هو طريقة النموذج للسؤال: "أي الكلمات الأخرى يجب أن أنظر إليها الآن لأفهم هذه الكلمة؟" بدلاً من قراءة الجملة بصرامة من اليسار إلى اليمين والاعتماد على ذاكرة قصيرة الأمد، يسمح الانتباه للنموذج بالتطلع إلى أهم أجزاء الجملة عند الحاجة.

فكرة "البحث والاسترجاع"

نموذج ذهني مفيد هو محرك بحث صغير يعمل داخل الجملة.

الاستعلام (Query): ما الذي تبحث عنه الكلمة الحالية (السؤال)
المفاتيح (Keys): ما الذي يقدمه كل توكن (الوسوم على المطابقات المحتملة)
القيم (Values): المعلومات الفعلية التي تُسترجَع إن كان هناك تطابق (المحتوى)

فيشكل النموذج استعلامًا للموقع الحالي، يُقارن بالمفاتيح لكل المواقع، ثم يسترجع مزيجًا من القيم.

درجات الصلة → أوزان الانتباه

تنتج تلك المقارنات درجات صلة: إشارات تقريبية "ما مدى ارتباط هذا؟". يحولها النموذج بعد ذلك إلى أوزان انتباه، وهي نسب تجمع إلى 1.

إذا كانت كلمة واحدة ذات صلة كبيرة، تحصل على جزء أكبر من تركيز النموذج. إذا كانت عدة كلمات مهمة، ينتشر الانتباه بينها.

مثال بسيط (الضمائر والقواعد)

خذ: "ماريا أخبرت جينا أنها ستتصل لاحقاً."

لفهم "هي"، يجب على النموذج النظر إلى مرشحين مثل "ماريا" و"جينا". يمنح الانتباه وزناً أعلى للاسم الذي يناسب السياق.

أو فكّر: "المفاتيح في الخزانة مفقودة." يساعد الانتباه على ربط "هي/هو" أو التصريف الصحيح بالفعل مع "المفاتيح" (الفاعل الحقيقي)، وليس "الخزانة"، حتى لو كانت أقرب. هذه هي الفائدة الأساسية: الانتباه يربط المعنى عبر المسافة، عند الطلب.

الانتباه الذاتي: الآلية الأساسية

الانتباه الذاتي هو فكرة أن كل توكن في التسلسل يمكنه النظر إلى توكنات أخرى في نفس التسلسل ليقرر ما الذي يهم الآن. بدلاً من معالجة الكلمات من اليسار إلى اليمين كما كانت تفعل النماذج المتكررة القديمة، يتيح الترانسفورمر لكل توكن جمع دلائل من أي مكان في المدخل.

التوكنات تنتبه إلى توكنات

تخيّل الجملة: "صببت الماء في الكوب لأن هو/هي كان فارغاً." يجب أن يتصل توكن "هو/هي" بـ "الكوب"، لا بـ "الماء". مع الانتباه الذاتي، يمنح توكن "هو/هي" أهمية أكبر للتوكنات التي تحل معه معناه ("الكوب"، "فارغ") وأهمية أقل لغير ذات الصلة.

كيف يُبنى السياق

بعد الانتباه الذاتي، لم يعد كل توكن مجرد نفسه. يصبح نسخة واعية للسياق — مزيج موزون من معلومات التوكنات الأخرى. يمكنك التفكير فيه كأن كل توكن يصنع ملخّصًا مُخصّصًا للجملة، مضبوطًا لما يحتاجه ذلك التوكن.

عملياً، يعني ذلك أن تمثيل "الكوب" قد يحمل إشارات من "صببت"، "الماء"، و"فارغ"، بينما يستخرج "فارغ" ما يصفه.

لماذا يمكن التدريب أن يكون متوازياً

لأن كل توكن يمكنه حساب انتباهه على كامل التسلسل في نفس الوقت، لا يحتاج التدريب للانتظار لمعالجة التوكنات السابقة خطوة بخطوة. هذا التوازي في المعالجة سبب رئيسي في كفاءة تدريب الترانسفورمرز على مجموعات بيانات كبيرة وقدرتها على التوسع إلى نماذج هائلة.

لماذا هو قوي في العلاقات بعيدة المدى

يجعل الانتباه الذاتي من السهل الربط بين أجزاء بعيدة من النص. يمكن لتوكن أن يركز مباشرة على كلمة ذات صلة بعيدة — دون تمرير المعلومات عبر سلسلة طويلة من الخطوات الوسيطة.

ذلك يساعد في مهام مثل التعريف المرجعي ("هي"، "ذلك"، "هم"), تتبّع المواضيع عبر فقرات، ومعالجة تعليمات تعتمد على تفاصيل سابقة.

الانتباه متعدد الرؤوس: عدة زوايا على نفس الجملة

أطلق التطبيق بكامل مكوناته

أنشئ واجهة React وخادم Go ومخطط PostgreSQL من مطالبة بسيطة.

إنشاء تطبيق

آلية انتباه واحدة قوية، لكنها قد تشبه فهم محادثة عبر زاوية كاميرا واحدة فقط. فالجملة قد تحتوي على عدة علاقات في آن واحد: من فعل ماذا، ما الذي تشير إليه الضمائر، أي الكلمات تضبط النبرة، وما هو الموضوع العام.

لماذا رؤية انتباه واحدة قد لا تكفي

عند قراءة "الجائزة لم تدخل في الحقيبة لأنها كانت صغيرة جداً"، قد تحتاج لتتبّع عدة دلائل: نحوياً، دلالياً، وسياق العالم الواقعي. قد يركز رأس واحد على الاسم الأقرب؛ ورأس آخر على العبارة الفعلية ليقرر ما تشير إليه "كانت".

ماذا تفعل الرؤوس المتعددة

الانتباه متعدد الرؤوس يجري عدة حسابات انتباه بالتوازي. يُشجَّع كل "رأس" على النظر إلى الجملة من عدسة مختلفة — توصف غالبًا كفراغات فرعية.

عملياً، يمكن أن تتخصص الرؤوس في أنماط مثل:

البنية المحلية (مثلاً صفة → اسم)
الروابط بعيدة المدى (فاعل ↔ فعل عبر جملة فرعية)
حل المرجع (ضمير → كيان)
إشارات الموضوع (كلمات تحدد الموضوع أو المشاعر)

كيف تُدمج رؤوس الانتباه

بعد أن ينتج كل رأس ملاحظاته، لا يختار النموذج واحداً فقط. بل يضمّ مخرجات الرؤوس (يرصّها جانباً بجانب) ثم يسقطها مرة أخرى إلى "مساحة العمل" الرئيسية للنموذج عبر طبقة خطية متعلّمة.

فكر في الأمر كمزج عدة ملاحظات جزئية في ملخّص واحد واضح يمكن للطبقة التالية استخدامه. النتيجة تمثيل قادر على التقاط العديد من العلاقات مرة واحدة — أحد أسباب نجاح الترانسفورمرز عند التوسع.

الترميز الموضعي: تعليم النموذج ترتيب الكلمات

الانتباه الذاتي رائع في رصد العلاقات — لكنه لوحده لا يعرف من جاء أولاً. إذا قلبت كلمات الجملة، يمكن لطبقة انتباه بسيطة أن تعامل النسخة المبدلة كمكافئة لأنها تقارن التوكنات دون أي إحساس مدمج بالمكان.

الترميز الموضعية تحلّ هذا بإدخال معلومات "أين أنا في التسلسل؟" إلى تمثيلات التوكن. بعد إلحاق الموضع، يمكن للانتباه أن يتعلّم أنماطاً مثل "الكلمة التالية مباشرة بعد نفي مهمة جداً" أو "الفاعل يظهر عادة قبل الفعل" بدون أن يستنتج الترتيب من النِفَاض.

كيف تضيف الترميزات الموضعية الترتيب

الفكرة الأساسية بسيطة: يتم دمج تضمين كل توكن مع إشارة موقعية قبل دخوله كتلة الترانسفورمر. يمكن التفكير بإشارة الموقع كميزات إضافية تضع وسم "هذا هو التوكن رقم 1"، "رقم 2"، وهكذا.

هناك بعض الأساليب الشائعة:

مواقع مطلقة ثابتة: استخدمت الترانسفورمرز الكلاسيكية أنماطاً جيبية (sinusoidal) حتمية. هذه لا تضيف معلمات جديدة ويمكنها التعميم إلى أطوال أبعد مما شوهد أثناء التدريب (لحد ما).
مواقع مطلقة قابلة للتعلم: يتعلّم النموذج متجهًا لـ "الموقع 1"، "الموقع 2"، إلخ. قد يعمل ذلك جيداً، لكنه غالباً ما يربط النموذج بنافذة سياق أقصى تم تدريبه عليها.
المواضع النسبية: بدلاً من ترميز "هذا هو التوكن 57"، يركّز النموذج على المسافات مثل "هذا التوكن يسبقه/يليه ثلاث خطوات". المتغيرات الحديثة (بما في ذلك الأساليب الدوارية) عادة تقع ضمن هذه العائلة.

لماذا يهم ذلك لمهام السياق الطويل

خيارات الترميز الموضعي يمكن أن تؤثر ملحوظاً على نمذجة السياق الطويل — مثل تلخيص تقرير طويل، تتبّع الكيانات عبر فقرات كثيرة، أو استرجاع تفاصيل ذُكرت قبل آلاف التوكنات.

مع المدخلات الطويلة، لا يتعلم النموذج اللغة فقط؛ يتعلم أين ينظر. أساليب النسبية والدوّارية تميل إلى تسهيل مقارنة التوكنات البعيدة والحفاظ على الأنماط مع زيادة السياق، بينما بعض الأساليب المطلقة قد تتدهور أسرع عند تجاوز نافذة التدريب.

عملياً، الترميز الموضعي قرار تصميم هادئ لكنه قد يحدّد ما إذا كان LLM يبدو دقيقاً ومتسقاً عند 2000 توكن — وما إذا كان يظل متماسكاً عند 100000 توكن.

كتلة الترانسفورمر: الانتباه + MLP + عناصر التثبيت

شارك عرضًا تجريبيًا حقيقيًا

ضع نموذجك أمام المستخدمين بنطاقات مخصصة واستضافة.

أضف نطاقًا

الترانسفورمر ليس مجرد "انتباه". العمل الحقيقي يحدث داخل وحدة متكررة — غالباً ما تُسمى كتلة الترانسفورمر — التي تخلط المعلومات بين التوكنات ثم تُنقّحها. رصّ العديد من هذه الكتل يعطي العمق الذي يجعل نماذج اللغة الكبيرة قادرة للغاية.

بعد الانتباه: ماذا تفعل FFN/MLP

الانتباه هو خطوة التواصل: كل توكن يجمع سياقاً من توكنات أخرى.

شبكة التغذية الأمامية (FFN)، وتُسمى أيضاً MLP، هي خطوة التفكير: تأخذ تمثيل كل توكن بعد التحديث وتُطبّق نفس الشبكة الصغيرة عليه بشكل مستقل.

بعبارة بسيطة، تُحوّل FFN وتُعيد تشكيل ما يعرفه كل توكن الآن، وتساعد النموذج على بناء ميزات أغنى (مثل أنماط النحو، الحقائق، أو دلائل الأسلوب) بعد أن جمع السياق ذي الصلة.

لماذا تتناوب الكتل بين الانتباه وFFN

التناوب مهم لأن الجزأين يقومان بمهام مختلفة:

الانتباه ينقل المعلومات بين التوكنات (من يتأثر بمن)
FFN يعالج المعلومات داخل كل توكن (كيف نحول ذلك السياق لميزات مفيدة)

تكرار هذا النمط يسمح للنموذج ببناء معنى أعلى تدريجياً: تواصل، حساب، تواصل مرة أخرى، حساب مرة أخرى.

وصلات الباقي: "ممرات التخطي"

كل طبقة فرعية (انتباه أو FFN) تُحاط بوصلة باقي: يُضاف الإدخال إلى الإخراج. هذا يساعد النماذج العميقة على التدريب لأن التدرجات يمكنها المرور عبر "ممر التخطي" حتى لو كانت طبقة معينة لا تزال تتعلم. كما يسمح للطبقة بإجراء تعديلات صغيرة بدلاً من إعادة تعلم كل شيء من الصفر.

تطبيع الطبقات: الحفاظ على ثبات الإشارات

تطبيع الطبقات هو مُثبِّت يحافظ على تفعيلات الشبكة من أن تنجرف كبيرة جداً أو صغيرة جداً أثناء مرورها عبر طبقات عديدة. فكّر فيه كمحافظة على مستوى الصوت حتى لا تُغرق أو تُجفف الطبقات اللاحقة الإشارة — ما يجعل التدريب أكثر سلاسة وموثوقية، خاصة عند مقياس نماذج اللغة الكبيرة.

مشفّر–مفكّك مقابل مفكّك فقط: أيهما يقود الـ LLMs؟

الترانسفورمر الأصلي في ورقة Attention Is All You Need بُني للترجمة الآلية، حيث تحول تسلسل (مثل الفرنسية) إلى تسلسل آخر (مثل الإنجليزية). هذه المهمة تنقسم طبيعياً إلى دورين: قراءة المدخل جيداً، وكتابة المخرَج بسلاسة.

مشفّر–مفكّك: "اقرأ، ثم اكتب"

في ترانسفورمر مشفّر–مفكّك، يعالج المشفّر كامل جملة المدخل دفعة واحدة وينتج مجموعة غنية من التمثيلات. ثم يقوم المفكّك بتوليد المخرَج توكينًا تلو الآخر.

الأهم أن المفكّك لا يعتمد فقط على التوكنات الماضية الخاصة به؛ بل يستخدم أيضاً انتباهًا عرضياً للعودة إلى إخراج المشفّر، مما يساعده على البقاء متجذِّراً في النص المصدر.

هذا الإعداد لا يزال ممتازاً عندما تحتاج إلى تكيُّف محكم مع مدخل — الترجمة، التلخيص، أو الإجابة على سؤال بنص معين.

مفكّك فقط: نموذج واحد يبقى يتنبأ

معظم نماذج اللغة الكبيرة الحديثة هي مفكّك فقط. تُدرَّب على مهمة بسيطة وفعّالة: توقع التوكن التالي.

لتعمل هذه الفكرة، تستخدم الانتباه الذاتي المُقنّع (المسمى غالبًا الانتباه السببي). كل موضع يمكنه الانتباه فقط إلى التوكنات الأسبق، لا المستقبلية، لذا يبقى التوليد متسقاً: يكتب النموذج من اليسار إلى اليمين، ويطيل التسلسل باستمرار.

هذا منتشر لأنه بسيط للتدريب على مجموعات نصية ضخمة، ويتماشى مباشرة مع حالة استخدام التوليد، ويقاس بكفاءة مع البيانات والحساب.

أين تتناسب النماذج المشفّرة فقط

النماذج المشفّرة فقط (على غرار BERT) لا تولِّد نصاً؛ بل تقرأ المدخل كاملاً ثنائياً. هي رائعة للتصنيف، البحث، والتضمينات — أي مهمة حيث فهم قطعة نص أهم من إنتاج استمرار طويل.

لماذا تتوسع الترانسفورمرز إلى نماذج لغة كبيرة

اتضح أن الترانسفورمرز مناسبة للغاية للتوسع: إذا منحتها نصاً أكثر، حساباً أكثر، ونماذج أكبر، فهي تستمر في التحسن بطريقة متوقعة.

سبب كبير هو البساطة الهيكلية. الترانسفورمر مبني من كتل متكررة (انتباه ذاتي + شبكة تغذوية أمامية صغيرة + تطبيع)، وتتصرف تلك الكتل بشكل مماثل سواءً كنت تدرب على مليون كلمة أو تريليون.

التوازي في التدريب هي القوة الخفية

نماذج التسلسل السابقة (مثل RNNs) كانت تضطر لمعالجة التوكنات واحداً تلو الآخر، ما يحد من العمل الممكن في آن واحد. الترانسفورمرز، بالمقابل، تستطيع معالجة كل التوكنات في التسلسل بالتوازي أثناء التدريب.

هذا يجعلها مناسبة جداً لوحدات معالجة الرسوميات/TPUs والإعدادات الموزعة الكبيرة — بالضبط ما تحتاجه عند تدريب LLMs الحديثة.

"نافذة السياق" ولماذا تهم

نافذة السياق هي جزء النص الذي يمكن للنموذج "رؤيته" في وقت واحد — المطالبة الخاصة بك زائد أي تاريخ محادثة أو نص وثيقة حديث. نافذة أكبر تسمح للنموذج بربط أفكار عبر جمل أو صفحات أكثر، تتبع القيود، والإجابة على أسئلة تعتمد على تفاصيل سابقة.

لكن السياق ليس مجاناً.

القيد الرئيسي: تكلفة الانتباه تنمو مع الطول

الانتباه الذاتي يقارن التوكنات مع بعضها. كلما طالت السلسلة، نما عدد المقارنات بسرعة (تقريباً مع مربع طول التسلسل).

لهذا السبب قد تكون النوافذ السياقية الطويلة مكلفة من حيث الذاكرة والحساب، ولماذا تركز الجهود الحديثة على جعل الانتباه أكثر كفاءة.

التوسع أطلق سلوكاً عاماً قابلاً للتطبيق

عندما تُدرَّب الترانسفورمرز على نطاق واسع، فهي لا تتحسن لمهمة ضيقة واحدة فقط. غالباً ما تبدأ بإظهار قدرات عامة ومرنة — التلخيص، الترجمة، الكتابة، الكودينغ، والتفكير — لأن نفس آلية التعلم العامة تُطبّق عبر بيانات ضخمة ومتنوعه.

متغيرات حديثة مبنية على نفس المخطط

اصنع نموذجًا أوليًا لتدفقات RAG

اختبر الاسترجاع والتضمينات وحلقات الأدوات دون إعادة بناء نفس البنية.

اصنع نموذج RAG

تصميم الترانسفورمر الأصلي ما زال نقطة الإشارة، لكن معظم نماذج الإنتاج هي "ترانسفورمر زائد": تعديلات عملية صغيرة تحافظ على الكتلة الأساسية (الانتباه + MLP) بينما تحسّن السرعة، الاستقرار، أو طول السياق.

تحسينات شائعة سترىها

العديد من الترقيات هي أقل عن تغيير ماهية النموذج وأكثر عن جعله يُتمرّن ويعمل بشكل أفضل:

طرق موضعية أفضل: بدائل للمواضع الجيبية التقليدية (غالباً روتاري أو أساليب نسبية) يمكن أن تجعل التعامل مع المدى الطويل أكثر سلاسة.
تحسينات الانتباه: تنفيذات تقلل استخدام الذاكرة وتزيد الإنتاجية (مثلاً، نوى مدمجة أو حسابات انتباه أكثر كفاءة).
تعديلات التطبيع: تغييرات في مكان وكيفية تطبيق التطبيع يمكن أن تحسّن استقرار التدريب وتقلّل الحساسية للمعاملات الفائقة.

هذه التغييرات عادة لا تغير "طبيعة" الترانسفورمر — بل تصقله.

نهج السياق الطويل (مستوى عالٍ)

تمديد السياق من بضعة آلاف توكن إلى عشرات أو مئات الآلاف يعتمد غالباً على الانتباه المتفرق (الانتباه فقط إلى توكنات مختارة) أو متغيرات انتباه فعّالة (تقريب أو إعادة هيكلة الانتباه لتقليل الحساب).

المقايضة عادة بين الدقة، الذاكرة، وتعقيد الهندسة.

مزيج من الخبراء (Mixture-of-Experts، MoE): سعة أكبر بدون تكلفة خطية

نماذج MoE تضيف عدة شبكات فرعية "خبيرة" وتوجّه كل توكن عبر جزء منها فقط. مفهوماً: تحصل على عقل أكبر، لكنك لا تُفعّل كلّه في كل مرة.

هذا يمكن أن يخفض الحساب لكل توكن بالنسبة لعدد معلمات معين، لكنه يزيد تعقيد النظام (التوجيه، موازنة الخبراء، التقديم).

كيفية تقييم ادعاءات المتغيرات

عندما يروّج نموذج لنسخة ترانسفورمر جديدة، اسأل عن:

معايير قياس مرتبطة بمهامك (لا تكتفي بالنتائج البارزة العامة)
الكمون (الوقت حتى أول توكن والسرعة بالتوكنات/ثانية)
التكلفة (التدريب والاستدلال)، بما في ذلك الذاكرة واحتياجات العتاد

معظم التحسينات حقيقية — لكنها نادراً ما تكون مجانية.

ماذا يعني هذا للفرق التي تبني باستخدام LLMs

أفكار الترانسفورمر مثل الانتباه الذاتي والتوسع مثيرة — لكن فرق المنتج تشعر بها أساساً كصِفَق: كم من النص يمكنك إرساله، كم بسرعة تحصل على إجابة، وكم يكلفك كل طلب.

اختيار نموذج أو مزوِّد: أربعة مقايضات

طول السياق: سياق أطول يسمح بإدراج مستندات، تاريخ دردشة، وتعليمات أكثر. لكنه يزيد إنفاق التوكنات ويمكن أن يبطئ الاستجابات. إذا كانت ميزتك تعتمد على "اقرأ هذه 30 صفحة وأجب"، فاعطِ أولوية لطول السياق.

الكمون: تجارب الدردشة المواجهة للمستخدم وأدوات المساعد الحي تعتمد على زمن الاستجابة. الإخراج المتدفق يساعد، لكن اختيار النموذج، المنطقة، وتجميع الطلبات أيضاً مهمة.

التكلفة: التسعير غالباً بالتوكن (المدخل + المخرج). نموذج أفضل بنسبة 10% قد يكلف 2–5× أكثر. استخدم مقارنات على أساس التسعير لتقرر أي مستوى جودة يستحق الدفع.

الجودة: عرّفها بالنسبة لحالتك: الدقة الموضوعية، اتّباع التعليمات، النبرة، استخدام الأدوات، أو الكود. قيّم باستخدام أمثلة حقيقية من مجالك، لا مقاييس عامة فقط.

متى تتفوّق التضمينات على التوليد

إذا كنت تحتاج أساساً إلى بحث، إزالة تكرار، تجميع، توصيات، أو "إيجاد المشابه"، فعادة ما تكون التضمينات (نماذج من نوع المشفّر) أرخص، أسرع، وأكثر استقراراً من استدعاء نموذج دردشة للتوليد. استخدم التوليد فقط في الخطوة النهائية (تلخيصات، شروحات، مسودات) بعد الاسترجاع.

لشرح أعمق، وفّر لفريقك رابطاً لشرح تقني مثل /blog/embeddings-vs-generation.

أين يظهر هذا في سير عمل الشحن الحقيقي

عند تحويل قدرات الترانسفورمر إلى منتج، الجزء الصعب عادةً أقل ارتباطاً بالهندسة المعمارية وأكثر ارتباطاً بسير العمل حولها: تجريب المطالبات، التأريض، التقييم، والنشر الآمن.

مسار عملي هو استخدام منصة تطوير سريعة لتجريب ونشر ميزات معززة بـ LLMs: يمكنك وصف تطبيق الويب، نقاط النهاية الخلفية، ونموذج البيانات في المحادثة، التجريب في وضع التخطيط، ثم تصدير كود المصدر أو النشر مع استضافة ومجالات مخصّصة وعودة عبر لقطات. هذا مفيد خصوصاً عند تجربة الاسترجاع، التضمينات، أو حلقات استدعاء الأدوات وتحتاج دورات تكرار ضيقة دون إعادة بناء بنية أساسية من الصفر.

قائمة تحقق للتبنّي العملي

اكتب مواصفة صفحة واحدة: هدف المستخدم، أوضاع الفشل، وما يعنيه "جيد".
قرر ما الذي يجب أن يستند إلى بياناتك (RAG، استشهادات، أو استدعاءات أدوات).
حدد ميزانيات للتوكنات، الكمون، والإنفاق الشهري؛ قِسها في بيئة الاختبار.
أضف دروع أمان: رفضات، إخفاء بيانات، وسلوك "لا أعرف".
بُنِ التقييم مبكراً: مطالبات ذهبية، اختبارات تراجعية، ومراجعة بشرية.
خطط لتبديل النماذج: اجعل المطالبات والتوجيه قابلة للتهيئة.

الأسئلة الشائعة

ما هو الترانسفورمر بلغة بسيطة؟

الترانسفورمر هو بنية شبكات عصبية لمعطيات التسلسل تستخدم الانتباه الذاتي لربط كل توكن بكل توكن آخر في نفس المدخل.

بدلاً من تمرير المعلومات خطوة بخطوة (كما في RNNs/LSTMs)، يبني السياق عن طريق تحديد ما الذي يجب الانتباه إليه عبر كامل التسلسل، مما يحسن الفهم بعيد المدى ويجعل التدريب أكثر قابلية للتوازي.

لماذا استبدلت الترانسفورمرز الـ RNNs والـ LSTMs في كثير من مهام معالجة اللغة؟

تتعامل RNNs وLSTMs مع النص توكين بعد توكين، ما يجعل التدريب أصعب على التوازي ويخلق عنق زجاجة في الاعتماد طويل المدى.

الترانسفورمرز تستخدم الانتباه لربط التوكنات البعيدة مباشرة، ويمكنها حساب تداخلات كثيرة بين التوكنات بالتوازي أثناء التدريب—مما يجعلها أسرع في التدرج عند توفر بيانات وحساب أكبر.

ما هو "الانتباه" وكيف أفكر فيه؟

الانتباه هو آلية للإجابة على: "ما التوكنات الأخرى ذات الأهمية لفهم هذا التوكن الآن؟"

يمكنك تشبيهه بمحرك بحث مصغر داخل الجملة:

الاستعلام (Query) يسأل عن المعلومات المطلوبة
المفاتيح (Keys) تمثل ما يقدمه كل توكن
القيم (Values) هي المعلومات التي تُستخرج وتُخلط

الناتج هو مزيج موزون من التوكنات ذات الصلة، فيعطي لكل موضع تمثيلاً واعياً للسياق.

ما الفرق بين الانتباه والانتباه الذاتي؟

الانتباه الذاتي يعني أن توكنات التسلسل تُنبه إلى توكنات أخرى في نفس التسلسل.

هو الأداة الأساسية التي تسمح للنموذج بحل مرجعيات مثل من تشير إليه الضمائر (مثل "هو/هي/ذلك")، وعلاقات الفاعل–الفعل عبر فواصل، واعتماديات تظهر بعيداً في النص—دون تمرير كل شيء عبر ذاكرة متسلسلة واحدة.

لماذا تستخدم الترانسفورمرز الانتباه متعدد الرؤوس؟

الانتباه متعدد الرؤوس يُجري عدة عمليات انتباه متوازية، ويمكن لكل رأس أن يتخصص في أنماط مختلفة.

عملياً، غالباً ما يركز كل رأس على علاقات مختلفة (البنية النحوية المحلية، الروابط بعيدة المدى، حل مرجع الضمائر، إشارات الموضوع)، ثم يجمع النموذج هذه النظرات المتعددة في تمثيل موحد يسمح بالتقاط عدة هياكل في آن واحد.

إذا كان الانتباه ينظر إلى كل شيء، فكيف يعرف النموذج ترتيب الكلمات؟

الانتباه الذاتي وحده لا يعرف ترتيب الكلمات—بدون إشارة موضعية، قد تبدو الجملة المبدلة بنفس المعنى.

الترميزات الموضعية تضيف إشارة "أين أنا في التسلسل؟" إلى تمثيلات التوكنات حتى يتعلم النموذج أنماطاً مرتبطة بالترتيب، مثل "ما يأتي بعد كلمة النفي مهم" أو أن الفاعل غالباً يسبق الفعل.

خيارات شائعة تشمل السيروساينودية الثابتة، مواقع مطلوبة قابلة للتعلّم، أو أساليب نسبية/روتاريَّة.

ما الذي يوجد داخل كتلة الترانسفورمر بخلاف الانتباه؟

كتلة الترانسفورمر تَجمع عادة بين:

الانتباه: ينقل المعلومات بين التوكنات
شبكة تغذوية أمامية (FFN/MLP): تعالج المعلومات داخل كل توكن بشكل مستقل
وصلات الباقي (Residual connections): تسهّل تدفق التدرجات وتسمح للطبقات بإجراء تعديلات طفيفة

مشفّر–مفكّك مقابل مفكّك فقط: أيهما يستخدمه الـ LLM؟

الترانسفورمر الأصلي في ورقة Attention Is All You Need كان بنية مشفّر–مفكّك (encoder–decoder):

المشفّر يقرأ المدخل بغرض فهمه ثنائياً
المفكّك يولّد المخرَج توكين بعد توكين باستخدام انتباه عرضي إلى مخرجات المشفّر

اليوم معظم نماذج اللغة الكبيرة هي تُدرَّب على توقع التوكن التالي باستخدام ، ما يتوافق مع التوليد من اليسار إلى اليمين ويُسهّل التوسع على مجموعات نصية ضخمة.

ما دور نوام شازير في اختراع الترانسفورمر؟

نوام شازير كان أحد مؤلفي ورقة 2017 "Attention Is All You Need" التي قدمت الترانسفورمر.

من الصحيح اعتباره مساهماً رئيسياً، لكن من غير الدقيق عرضه كمخترع وحيد—الترانسفورمر صُمِّم بواسطة فريق في جوجل، وتأثيره نابع أيضاً من التحسينات اللاحقة التي أضافتها المجتمع والصناعة.

لماذا النوافذ السياقية الطويلة مكلفة، وماذا يمكن للفرق أن تفعل حيال ذلك؟

مع النوافذ السياقية الطويلة، يصبح الانتباه الاعتيادي مكلفاً لأن عدد المقارنات يزداد تقريباً بمربع طول التسلسل، ما يؤثر على الذاكرة والقدرة الحاسوبية.

طرق عملية للتعامل مع ذلك:

اختيار نماذج ذات نوافذ سياقية أكبر أصلاً
استخدام RAG (استرجاع أقساط ملائمة بدلاً من وضع كل شيء داخل السياق)
تبنّي متغيرات طويلة السياق (انتباه متفرق أو فعّال)
قياس المقاييس الحقيقية: الكمون، تكلفة التوكنات، ودقة المهمة على أحمال العمل الحقيقية

نوام شازير ومعماريّة الترانسفورمر وراء نماذج اللغة الكبيرة | Koder.ai