ما هي قابلية التوسع للذكاء الاصطناعي؟

إذا سبق لك أن شاهدت نموذجًا تجريبيًا يُجهّز حمولة اختبار صغيرة، ثم يتجمد لحظة ظهور المستخدمين الحقيقيين، فقد قابلت الشرير: التوسع. الذكاء الاصطناعي جشعٌ للبيانات، والحوسبة، والذاكرة، والنطاق الترددي، والغريب، الاهتمام. إذًا، ما هي قابلية توسع الذكاء الاصطناعي حقًا، وكيف يُمكن تحقيقها دون إعادة كتابة كل شيء أسبوعيًا؟

مقالات قد ترغب في قراءتها بعد هذه المقالة:

🔗 ما هو التحيز في الذكاء الاصطناعي؟ شرح مبسط
تعرف على كيفية تأثير التحيزات الخفية على قرارات الذكاء الاصطناعي ونماذج النتائج.

🔗 دليل المبتدئين: ما هو الذكاء الاصطناعي
نظرة عامة على الذكاء الاصطناعي والمفاهيم الأساسية والأنواع والتطبيقات اليومية.

🔗 ما هو الذكاء الاصطناعي القابل للتفسير ولماذا هو مهم؟
اكتشف كيف تعمل الذكاء الاصطناعي القابل للتفسير على زيادة الشفافية والثقة والامتثال التنظيمي.

🔗 ما هو الذكاء الاصطناعي التنبئي وكيف يعمل
فهم الذكاء الاصطناعي التنبئي وحالات الاستخدام الشائعة والفوائد والقيود.

ما هي قابلية توسع الذكاء الاصطناعي؟ 📈

تُعرَّف قابلية التوسع في الذكاء الاصطناعي بأنها قدرة نظام الذكاء الاصطناعي على معالجة كميات أكبر من البيانات والطلبات والمستخدمين وحالات الاستخدام، مع الحفاظ على الأداء والموثوقية والتكاليف ضمن الحدود المقبولة. لا يقتصر الأمر على خوادم أكبر فحسب، بل يشمل بنى تحتية أكثر ذكاءً تحافظ على انخفاض زمن الاستجابة، وارتفاع الإنتاجية، وثبات الجودة مع ازدياد الطلب. تخيّل بنية تحتية مرنة، ونماذج مُحسَّنة، وإمكانية مراقبة تُحدِّد لك بدقة مواطن الخلل.

ما الذي يجعل الذكاء الاصطناعي قابلاً للتوسع بشكل جيد ✅

عندما يتم تنفيذ قابلية التوسع للذكاء الاصطناعي بشكل جيد، ستحصل على:

زمن استجابة متوقع في ظل الأحمال المتقطعة أو المستمرة 🙂
معدل الإنتاج الذي ينمو بشكل تقريبي بما يتناسب مع الأجهزة أو النسخ المضافة
كفاءة في التكلفة لا تتضخم لكل طلب
استقرار الجودة مع تنوع المدخلات وارتفاع الأحجام
الهدوء التشغيلي بفضل التوسع التلقائي والتتبع وأهداف مستوى الخدمة المعقولة

تحت الغطاء، يمزج هذا عادةً بين التوسع الأفقي، والتجميع، والتخزين المؤقت، والتكميم، والخدمة القوية، وسياسات الإصدار المدروسة المرتبطة بميزانيات الأخطاء [5].

قابلية التوسع في الذكاء الاصطناعي مقابل الأداء مقابل السعة 🧠

الأداء هو مدى سرعة إكمال طلب واحد بمعزل عن غيره.
القدرة هي عدد الطلبات التي يمكنك التعامل معها في وقت واحد.
قابلية التوسع في الذكاء الاصطناعي هي إضافة الموارد أو استخدام تقنيات أكثر ذكاءً مما يؤدي إلى زيادة السعة والحفاظ على ثبات الأداء - دون زيادة فاتورتك أو جهاز النداء الخاص بك.

تمييز صغير، عواقب ضخمة.

لماذا ينجح القياس في الذكاء الاصطناعي على الإطلاق: فكرة قوانين القياس 📚

من الأفكار الشائعة في التعلم الآلي الحديث أن معدل الخطأ يتحسن بطرق يمكن التنبؤ بها مع زيادة حجم النموذج والبيانات وقدرات الحوسبة -ضمن حدود معقولة. كما يوجد توازن مثالي من حيث الحوسبة بين حجم النموذج وعدد رموز التدريب؛ فزيادة كليهما معًا أفضل من زيادة أحدهما فقط. عمليًا، تُؤخذ هذه الأفكار في الاعتبار عند تحديد ميزانيات التدريب، وتخطيط مجموعات البيانات، والمفاضلة بين خيارات تقديم البيانات [4].

ترجمة سريعة: قد يكون الحجم الأكبر أفضل، ولكن فقط عند قياس المدخلات والحساب بتناسب، وإلا فسيكون الأمر أشبه بتركيب إطارات جرار على دراجة. يبدو الأمر مكثفًا، ولا يؤدي إلى أي نتيجة.

الأفقي مقابل الرأسي: رافعتا القياس 🔩

التوسع الرأسي: صناديق أكبر، ووحدات معالجة رسومية أقوى، وذاكرة أكبر. بسيط، ولكنه مكلف أحيانًا. مناسب لتدريب عقدة واحدة، والاستدلال منخفض الكمون، أو عندما يرفض نموذجك التجزئة بسلاسة.
التوسع الأفقي: المزيد من النسخ المتماثلة. يعمل بشكل أفضل مع أدوات التوسع التلقائي التي تضيف أو تزيل وحدات التخزين بناءً على مقاييس وحدة المعالجة المركزية/وحدة معالجة الرسومات أو مقاييس التطبيقات المخصصة. في Kubernetes، يُوسّع HorizontalPodAutoscaler وحدات التخزين استجابةً للطلب - وهو ما يُتيح لك التحكم الأساسي في حشود البيانات للحد من ارتفاعات حركة البيانات [1].

حكاية (مركبة): خلال إطلاقٍ رفيع المستوى، أدى تفعيل الدفعات من جانب الخادم والسماح للمُوسِّع التلقائي بالاستجابة لعمق قائمة الانتظار إلى استقرار p95 دون أي تغييرات على العميل. الانتصارات البسيطة تبقى انتصارات.

المجموعة الكاملة من قابلية التوسع للذكاء الاصطناعي 🥞

طبقة البيانات: مخازن كائنات سريعة، وفهارس متجهة، واستيعاب متدفق لن يؤدي إلى تقييد أداء أجهزة التدريب الخاصة بك.
طبقة التدريب: الأطر الموزعة والجداول التي تتعامل مع التوازي بين البيانات/النموذج، ونقاط التفتيش، وإعادة المحاولة.
طبقة الخدمة: أوقات تشغيل مُحسّنة، تجميع ديناميكي، معالجة صفحاتية لـ LLMs، تخزين مؤقت، تدفق الرموز. يُعدّ Triton وvLLM من أبرز الميزات هنا [2][3].
التنسيق: Kubernetes للمرونة عبر HPA أو أدوات التوسع التلقائي المخصصة [1].
إمكانية المراقبة: التتبعات والمقاييس والسجلات التي تتبع رحلات المستخدم وسلوك النموذج في الإنتاج؛ قم بتصميمها حول أهداف مستوى الخدمة الخاصة بك [5].
الحوكمة والتكلفة: اقتصاديات كل طلب، والميزانيات، ومفاتيح الإيقاف لأحمال العمل الخارجة عن السيطرة.

جدول المقارنة: أدوات وأنماط لتوسعة الذكاء الاصطناعي 🧰

غير متكافئ قليلاً في الغرض - لأن الحياة الحقيقية كذلك.

أداة / نمط	جمهور	سعره معقول	لماذا ينجح؟	ملحوظات
كوبرنيتس + HPA	فرق المنصات	مفتوح المصدر + البنية التحتية	يقوم بتوسيع نطاق القرون أفقيًا مع ارتفاع المقاييس	المقاييس المخصصة هي الذهب [1]
إنفيديا تريتون	استدلال SRE	خادم مجاني؛ وحدة معالجة الرسومات $	الدفعات الديناميكية تعزز الإنتاجية	التكوين عبر `config.pbtxt` [2]
vLLM (PagedAttention)	فرق الماجستير في القانون	المصادر المفتوحة	إنتاجية عالية من خلال عملية تخزين مؤقت فعالة لـ KV	ممتاز للمطالبات الطويلة [3]
وقت تشغيل ONNX / TensorRT	مهووسو الأداء	أدوات مجانية / أدوات البائع	تؤدي التحسينات على مستوى النواة إلى تقليل زمن الوصول	يمكن أن تكون مسارات التصدير معقدة
نمط RAG	فرق التطبيقات	البنية التحتية + الفهرس	ينقل المعرفة إلى الاسترجاع؛ يقيس الفهرس	ممتاز للنضارة

الغوص العميق 1: حيل التقديم التي تحرك الإبرة 🚀

الدفعية الديناميكية بتجميع مكالمات الاستدلال الصغيرة في دفعات أكبر على الخادم، مما يؤدي إلى زيادة استخدام وحدة معالجة الرسوميات بشكل كبير دون تغييرات العميل [2].
ميزة الانتباه المقسم إلى صفحات على محادثات أكثر بكثير في الذاكرة من خلال تخزين ذاكرة التخزين المؤقت KV في الصفحات، مما يحسن الإنتاجية في ظل التزامن [3].
يؤدي تجميع الطلبات وتخزينها مؤقتًا للمطالبات أو التضمينات المتطابقة إلى تجنب العمل المكرر.
فك التشفير المضاربي وبث الرموز إلى تقليل زمن الوصول المتصور، حتى لو لم يتغير الوقت تقريبًا.

الغوص العميق 2: كفاءة مستوى النموذج - التكميم، التقطير، التقليم 🧪

عملية التكميم إلى تقليل دقة المعلمات (على سبيل المثال، 8 بت/4 بت) لتقليص الذاكرة وتسريع الاستدلال؛ قم دائمًا بإعادة تقييم جودة المهمة بعد التغييرات.
عملية التقطير بنقل المعرفة من معلم كبير إلى طالب أصغر حجمًا يعجب جهازك بالفعل.
عملية التقليم المنظمة بقص الأوزان/الرؤوس التي تساهم بشكل أقل.

لنكن صريحين، الأمر أشبه بتصغير حجم حقيبتك ثم الإصرار على أن تتسع جميع أحذيتك. في الواقع، هذا صحيح.

الغوص العميق 3: توسيع نطاق البيانات والتدريب دون دموع 🧵

استخدم التدريب الموزع الذي يخفي الأجزاء المعقدة من التوازي حتى تتمكن من إرسال التجارب بشكل أسرع.
تذكر قوانين التوسع: قم بتخصيص الميزانية عبر حجم النموذج والرموز بعناية؛ حيث أن توسيع كليهما معًا يعد فعالاً في الحوسبة [4].
المنهج الدراسي وجودة البيانات على النتائج أكثر مما يعترف به الناس. فالبيانات الأفضل تتفوق أحياناً على البيانات الأكثر وفرة، حتى لو كنت قد طلبت بالفعل مجموعة بيانات أكبر.

الغوص العميق 4: RAG كاستراتيجية لتوسيع المعرفة 🧭

بدلاً من إعادة تدريب نموذج لمواكبة الحقائق المتغيرة، يُضيف RAG خطوة استرجاع عند الاستدلال. يمكنك الحفاظ على ثبات النموذج وتوسيع نطاق الفهرس والمُسترجعات مع نمو مجموعتك. خيار أنيق، وغالبًا ما يكون أرخص من إعادة التدريب الكامل للتطبيقات التي تعتمد على المعرفة بشكل كبير.

القدرة على الملاحظة تدفع ثمنها بنفسها 🕵️♀️

لا يمكنك قياس ما لا تراه. أمران أساسيان:

مقاييس تخطيط السعة والتوسع التلقائي: النسب المئوية للزمن، وأعماق قائمة الانتظار، وذاكرة وحدة معالجة الرسوميات، وأحجام الدفعات، ومعدل إنتاج الرمز المميز، ومعدلات الوصول إلى ذاكرة التخزين المؤقت.
تتبع البيانات التي تتبع طلبًا واحدًا عبر البوابة ← الاسترجاع ← النموذج ← المعالجة اللاحقة. اربط ما تقيسه بأهداف مستوى الخدمة الخاصة بك حتى تجيب لوحات المعلومات على الأسئلة في أقل من دقيقة [5].

عندما تُجيب لوحات المعلومات على الأسئلة في أقل من دقيقة، يستخدمها الناس. وعندما لا تفعل، يتظاهرون بذلك.

حواجز الموثوقية: أهداف مستوى الخدمة، وميزانيات الأخطاء، وعمليات الطرح السليمة 🧯

قم بتحديد أهداف مستوى الخدمة للزمن الكامن والتوافر وجودة النتيجة، واستخدم ميزانيات الأخطاء لموازنة الموثوقية مع سرعة الإصدار [5].
انشر خلف فواصل حركة المرور، واختبر طيور الكناري، وأجرِ اختبارات الظل قبل عمليات النقل الشاملة. سيرسل لك ذاتك المستقبلية وجبات خفيفة.

التحكم في التكاليف دون دراما 💸

التوسع ليس تقنيًا فحسب، بل مالي أيضًا. تعامل مع ساعات عمل وحدة معالجة الرسومات والرموز كموارد من الدرجة الأولى مع اقتصاديات الوحدات (التكلفة لكل ألف رمز، لكل تضمين، لكل استعلام متجه). أضف الميزانيات والتنبيهات؛ واحتفل بحذف العناصر.

خريطة طريق بسيطة لتوسعة الذكاء الاصطناعي 🗺️

ابدأ بأهداف مستوى الخدمة (SLOs) الخاصة بوقت استجابة p95 والتوافر ودقة المهمة؛ قم بقياس المقاييس/التتبعات في اليوم الأول [5].
اختر مجموعة تقديم تدعم الدفعات والدفعات المستمرة: Triton أو vLLM أو ما يعادلها [2] [3].
تحسين النموذج: تحديد الكميات حيث يساعد ذلك، وتمكين النوى الأسرع، أو التقطير لمهام محددة؛ التحقق من الجودة باستخدام التقييمات الحقيقية.
مهندس المرونة: Kubernetes HPA مع الإشارات الصحيحة ومسارات القراءة / الكتابة المنفصلة ونسخ الاستدلال بدون جنسية [1].
استخدم الاسترجاع عندما تكون النضارة مهمة حتى تتمكن من توسيع نطاق الفهرس الخاص بك بدلاً من إعادة التدريب كل أسبوع.
إغلاق الحلقة مع التكلفة: إنشاء اقتصاديات الوحدة والمراجعة الأسبوعية.

أوضاع الفشل الشائعة والإصلاحات السريعة 🧨

وحدة معالجة الرسومات (GPU) عند استخدام 30% بينما يكون زمن الوصول سيئًا
- قم بتشغيل الدفعات الديناميكية، ورفع حدود الدفعات بعناية، وإعادة التحقق من التزامن بين الخادم [2].
ينهار الإنتاج مع المطالبات الطويلة
- استخدم الخدمة التي تدعم الاهتمام المقسم إلى صفحات وضبط أقصى تسلسلات متزامنة [3].
رفرفات المقياس التلقائي
- مقاييس سلسة مع النوافذ؛ التوسع على عمق قائمة الانتظار أو الرموز المخصصة في الثانية بدلاً من وحدة المعالجة المركزية الصرفة [1].
ترتفع التكاليف بشكل كبير بعد الإطلاق
- أضف مقاييس التكلفة على مستوى الطلب، وقم بتمكين التكميم حيث يكون ذلك آمنًا، وقم بتخزين الاستعلامات الأعلى قيمة، وقم بتحديد الحد الأقصى للمخالفين الأسوأ.

دليل قابلية التوسع للذكاء الاصطناعي: قائمة مرجعية سريعة ✅

توجد أهداف التعلم وميزانيات الأخطاء ويمكن رؤيتها
المقاييس: زمن الوصول، معدل نقل البيانات في الثانية، ذاكرة وحدة معالجة الرسومات، حجم الدفعة، الرمز/الرموز، معدل الوصول إلى ذاكرة التخزين المؤقت
تتبعات من الدخول إلى النموذج إلى مرحلة ما بعد العملية
الخدمة: تشغيل الدفعات، ضبط التزامن، تخزين مؤقت دافئ
النموذج: مُكمّم أو مُقطّر حيثما يساعد
البنية التحتية: تم تكوين HPA بالإشارات الصحيحة
مسار استرجاع نضارة المعرفة
تتم مراجعة اقتصاديات الوحدة بشكل متكرر

طويل جدًا ولم أقرأه والملاحظات الختامية 🧩

قابلية التوسع في الذكاء الاصطناعي ميزةً واحدةً أو مفتاحًا سريًا، بل هي منهجيةٌ متكاملة: التوسع الأفقي باستخدام أدوات التوسع التلقائي، ومعالجة الدفعات على جانب الخادم لتحسين الاستخدام، وكفاءة على مستوى النموذج، واسترجاع البيانات لتفريغ المعرفة، وإمكانية المراقبة التي تجعل عمليات النشر روتينية. أضف إلى ذلك أهداف مستوى الخدمة (SLOs) وإدارة التكاليف لضمان التوافق بين الجميع. لن تصل إلى الكمال من المحاولة الأولى - لا أحد يفعل ذلك - ولكن مع حلقات التغذية الراجعة المناسبة، سينمو نظامك بسلاسة ودون أي قلق في ساعات متأخرة من الليل 😅

مراجع

[1] وثائق Kubernetes - التوسع التلقائي الأفقي - اقرأ المزيد
[2] NVIDIA Triton - Dynamic Batcher - اقرأ المزيد
[3] وثائق vLLM - الاهتمام المقسم - اقرأ المزيد
[4] هوفمان وآخرون (2022) - تدريب نماذج اللغة الكبيرة المثالية للحوسبة - اقرأ المزيد
[5] كتاب عمل Google SRE - تنفيذ أهداف مستوى الخدمة - اقرأ المزيد

اكتشف أحدث تقنيات الذكاء الاصطناعي في متجر مساعدي الذكاء الاصطناعي الرسمي

معلومات عنا

العودة إلى المدونة