ما هي قابلية التوسع للذكاء الاصطناعي؟

ما هي قابلية التوسع للذكاء الاصطناعي؟

إذا سبق لك أن شاهدت نموذجًا تجريبيًا يُجهّز حمولة اختبار صغيرة، ثم يتجمد لحظة ظهور المستخدمين الحقيقيين، فقد قابلت الشرير: التوسع. الذكاء الاصطناعي جشعٌ للبيانات، والحوسبة، والذاكرة، والنطاق الترددي، والغريب، الاهتمام. إذًا، ما هي قابلية توسع الذكاء الاصطناعي حقًا، وكيف يُمكن تحقيقها دون إعادة كتابة كل شيء أسبوعيًا؟

مقالات قد ترغب في قراءتها بعد هذه المقالة:

🔗 ما هو التحيز في الذكاء الاصطناعي؟ شرح مبسط
تعرف على كيفية تأثير التحيزات الخفية على قرارات الذكاء الاصطناعي ونماذج النتائج.

🔗 دليل المبتدئين: ما هو الذكاء الاصطناعي
نظرة عامة على الذكاء الاصطناعي والمفاهيم الأساسية والأنواع والتطبيقات اليومية.

🔗 ما هو الذكاء الاصطناعي القابل للتفسير ولماذا هو مهم؟
اكتشف كيف تعمل الذكاء الاصطناعي القابل للتفسير على زيادة الشفافية والثقة والامتثال التنظيمي.

🔗 ما هو الذكاء الاصطناعي التنبئي وكيف يعمل
فهم الذكاء الاصطناعي التنبئي وحالات الاستخدام الشائعة والفوائد والقيود.


ما هي قابلية توسع الذكاء الاصطناعي؟ 📈

قابلية التوسع في الذكاء الاصطناعي هي قدرة نظام الذكاء الاصطناعي على التعامل مع المزيد من البيانات والطلبات والمستخدمين وحالات الاستخدام مع الحفاظ على الأداء والموثوقية والتكاليف ضمن الحدود المقبولة. لا يقتصر الأمر على خوادم أكبر حجمًا، بل يشمل أيضًا هياكل أذكى تحافظ على انخفاض زمن الوصول، وارتفاع معدل الإنتاج، وثبات الجودة مع ازدياد التطور. بل يشمل أيضًا بنية تحتية مرنة، ونماذج مُحسّنة، وإمكانية ملاحظة تُخبرك فعليًا بما هو مُتوقع.

 

قابلية التوسع في الذكاء الاصطناعي

ما الذي يجعل الذكاء الاصطناعي قابلاً للتوسع بشكل جيد ✅

عندما يتم تنفيذ قابلية التوسع للذكاء الاصطناعي بشكل جيد، ستحصل على:

  • زمن انتقال يمكن التنبؤ به تحت الحمل الشديد أو المستمر 🙂

  • معدل الإنتاج الذي ينمو بشكل تقريبي بما يتناسب مع الأجهزة أو النسخ المضافة

  • كفاءة التكلفة التي لا تتضخم مع كل طلب

  • استقرار الجودة مع تنوع المدخلات وارتفاع الأحجام

  • الهدوء التشغيلي بفضل التوسع التلقائي والتتبع وأهداف مستوى الخدمة المعقولة

تحت الغطاء، يمزج هذا عادةً بين التوسع الأفقي، والتجميع، والتخزين المؤقت، والتكميم، والخدمة القوية، وسياسات الإصدار المدروسة المرتبطة بميزانيات الأخطاء [5].


قابلية التوسع في الذكاء الاصطناعي مقابل الأداء مقابل السعة 🧠

  • الأداء هو مدى سرعة إكمال طلب واحد بمعزل عن غيره.

  • القدرة هي عدد الطلبات التي يمكنك التعامل معها في وقت واحد.

  • قابلية التوسع في الذكاء الاصطناعي هي إضافة الموارد أو استخدام تقنيات أكثر ذكاءً مما يؤدي إلى زيادة السعة والحفاظ على ثبات الأداء - دون زيادة فاتورتك أو جهاز النداء الخاص بك.

تمييز صغير، عواقب ضخمة.


لماذا ينجح القياس في الذكاء الاصطناعي على الإطلاق: فكرة قوانين القياس 📚

من الأفكار الشائعة في مجال التعلم الآلي الحديث أن الخسارة تتحسن بطرق متوقعة مع توسيع حجم النموذج والبيانات والحوسبة - ضمن حدود المعقول. كما يوجد توازن مثالي للحوسبة بين حجم النموذج ورموز التدريب؛ فتوسيع كليهما معًا أفضل من توسيع أحدهما فقط. عمليًا، تُسهم هذه الأفكار في ميزانيات التدريب، وتخطيط مجموعات البيانات، وتقديم التنازلات [4].

ترجمة سريعة: قد يكون الحجم الأكبر أفضل، ولكن فقط عند قياس المدخلات والحساب بتناسب، وإلا فسيكون الأمر أشبه بتركيب إطارات جرار على دراجة. يبدو الأمر مكثفًا، ولا يؤدي إلى أي نتيجة.


الأفقي مقابل الرأسي: رافعتا القياس 🔩

  • التوسع الرأسي : صناديق أكبر، ووحدات معالجة رسومية أقوى، وذاكرة أكبر. بسيط، ولكنه مكلف أحيانًا. مناسب لتدريب عقدة واحدة، والاستدلال منخفض الكمون، أو عندما يرفض نموذجك التجزئة بسلاسة.

  • التوسع الأفقي : المزيد من النسخ المتماثلة. يعمل بشكل أفضل مع أدوات التوسع التلقائي التي تضيف أو تزيل وحدات التخزين بناءً على مقاييس وحدة المعالجة المركزية/وحدة معالجة الرسومات أو مقاييس التطبيقات المخصصة. في Kubernetes، يُوسّع HorizontalPodAutoscaler وحدات التخزين استجابةً للطلب - وهو ما يُتيح لك التحكم الأساسي في حشود البيانات للحد من ارتفاعات حركة البيانات [1].

حكاية (مركبة): خلال إطلاقٍ رفيع المستوى، أدى تفعيل الدفعات من جانب الخادم والسماح للمُوسِّع التلقائي بالاستجابة لعمق قائمة الانتظار إلى استقرار p95 دون أي تغييرات على العميل. الانتصارات البسيطة تبقى انتصارات.


المجموعة الكاملة من قابلية التوسع للذكاء الاصطناعي 🥞

  1. طبقة البيانات : مخازن الكائنات السريعة، وفهرس المتجهات، والابتلاع المتدفق الذي لن يخنق المدربين لديك.

  2. طبقة التدريب : الأطر الموزعة والجداول التي تتعامل مع التوازي بين البيانات/النموذج، ونقاط التفتيش، وإعادة المحاولة.

  3. طبقة الخدمة : أوقات تشغيل مُحسّنة، تجميع ديناميكي ، معالجة صفحاتية لـ LLMs، تخزين مؤقت، تدفق الرموز. يُعدّ Triton وvLLM من أبرز الميزات هنا [2][3].

  4. التنسيق : Kubernetes للمرونة عبر HPA أو أدوات التوسع التلقائي المخصصة [1].

  5. إمكانية المراقبة : التتبعات والمقاييس والسجلات التي تتبع رحلات المستخدم وسلوك النموذج في الإنتاج؛ قم بتصميمها حول أهداف مستوى الخدمة الخاصة بك [5].

  6. الحوكمة والتكلفة : اقتصاديات كل طلب، والميزانيات، ومفاتيح القتل لأحمال العمل الجامحة.


جدول المقارنة: أدوات وأنماط لتوسعة الذكاء الاصطناعي 🧰

غير متكافئ قليلاً في الغرض - لأن الحياة الحقيقية كذلك.

أداة / نمط جمهور سعره معقول لماذا ينجح؟ ملحوظات
كوبرنيتس + HPA فرق المنصات مفتوح المصدر + البنية التحتية يقوم بتوسيع نطاق القرون أفقيًا مع ارتفاع المقاييس المقاييس المخصصة هي الذهب [1]
إنفيديا تريتون استدلال SRE خادم مجاني؛ وحدة معالجة الرسومات $ الدفعات الديناميكية تعزز الإنتاجية التكوين عبر config.pbtxt [2]
vLLM (PagedAttention) فرق الماجستير في القانون المصادر المفتوحة إنتاجية عالية من خلال عملية تخزين مؤقت فعالة لـ KV ممتاز للمطالبات الطويلة [3]
وقت تشغيل ONNX / TensorRT مهووسو الأداء أدوات مجانية / أدوات البائع تؤدي التحسينات على مستوى النواة إلى تقليل زمن الوصول يمكن أن تكون مسارات التصدير معقدة
نمط RAG فرق التطبيقات البنية التحتية + الفهرس ينقل المعرفة إلى الاسترجاع؛ يقيس الفهرس ممتاز للنضارة

الغوص العميق 1: حيل التقديم التي تحرك الإبرة 🚀

  • الدفعية الديناميكية بتجميع مكالمات الاستدلال الصغيرة في دفعات أكبر على الخادم، مما يؤدي إلى زيادة استخدام وحدة معالجة الرسوميات بشكل كبير دون تغييرات العميل [2].

  • ميزة الانتباه المقسم إلى صفحات على محادثات أكثر بكثير في الذاكرة من خلال تخزين ذاكرة التخزين المؤقت KV في الصفحات، مما يحسن الإنتاجية في ظل التزامن [3].

  • تجنب تكرار العمل عن طريق دمج الطلبات وتخزينها مؤقتًا

  • فك التشفير المضاربي وبث الرموز إلى تقليل زمن الوصول المتصور، حتى لو لم يتغير الوقت تقريبًا.


الغوص العميق 2: كفاءة مستوى النموذج - التكميم، التقطير، التقليم 🧪

  • عملية التكميم إلى تقليل دقة المعلمات (على سبيل المثال، 8 بت/4 بت) لتقليص الذاكرة وتسريع الاستدلال؛ قم دائمًا بإعادة تقييم جودة المهمة بعد التغييرات.

  • عملية التقطير بنقل المعرفة من معلم كبير إلى طالب أصغر حجمًا يعجب جهازك بالفعل.

  • عملية التقليم المنظمة بقص الأوزان/الرؤوس التي تساهم بشكل أقل.

لنكن صريحين، الأمر أشبه بتصغير حجم حقيبتك ثم الإصرار على أن تتسع جميع أحذيتك. في الواقع، هذا صحيح.


الغوص العميق 3: توسيع نطاق البيانات والتدريب دون دموع 🧵

  • استخدم التدريب الموزع الذي يخفي الأجزاء المعقدة من التوازي حتى تتمكن من إرسال التجارب بشكل أسرع.

  • تذكر قوانين التوسع : قم بتخصيص الميزانية عبر حجم النموذج والرموز بعناية؛ حيث أن توسيع كليهما معًا يعد فعالاً في الحوسبة [4].

  • جودة المناهج الدراسية والبيانات على النتائج أكثر مما يعترف به الناس. أحيانًا تتفوق البيانات الأفضل على البيانات الأكبر، حتى لو طلبتَ المجموعة الأكبر.


الغوص العميق 4: RAG كاستراتيجية لتوسيع المعرفة 🧭

بدلاً من إعادة تدريب نموذج لمواكبة الحقائق المتغيرة، RAG خطوة استرجاع عند الاستدلال. يمكنك الحفاظ على ثبات النموذج وتوسيع نطاق الفهرس والمُسترجعات مع نمو مجموعتك. خيار أنيق، وغالبًا ما يكون أرخص من إعادة التدريب الكامل للتطبيقات التي تعتمد على المعرفة بشكل كبير.


القدرة على الملاحظة تدفع ثمنها بنفسها 🕵️♀️

لا يمكنك قياس ما لا تراه. أمران أساسيان:

  • مقاييس تخطيط السعة والتوسع التلقائي: النسب المئوية للزمن، وأعماق قائمة الانتظار، وذاكرة وحدة معالجة الرسوميات، وأحجام الدفعات، ومعدل إنتاج الرمز المميز، ومعدلات الوصول إلى ذاكرة التخزين المؤقت.

  • تتبعات تتبع طلبًا واحدًا عبر البوابة ← الاسترجاع ← النموذج ← المعالجة اللاحقة. اربط قياساتك بأهداف مستوى الخدمة (SLOs) الخاصة بك حتى تتمكن لوحات المعلومات من الإجابة على الأسئلة في أقل من دقيقة [5].

عندما تُجيب لوحات المعلومات على الأسئلة في أقل من دقيقة، يستخدمها الناس. وعندما لا تفعل، يتظاهرون بذلك.


حواجز الموثوقية: أهداف مستوى الخدمة، وميزانيات الأخطاء، وعمليات الطرح السليمة 🧯

  • قم بتحديد أهداف مستوى الخدمة للزمن الكامن والتوافر وجودة النتيجة، واستخدم ميزانيات الأخطاء لموازنة الموثوقية مع سرعة الإصدار [5].

  • انشر خلف فواصل حركة المرور، واختبر طيور الكناري، وأجرِ اختبارات الظل قبل عمليات النقل الشاملة. سيرسل لك ذاتك المستقبلية وجبات خفيفة.


التحكم في التكاليف دون دراما 💸

التوسع ليس تقنيًا فحسب، بل مالي أيضًا. تعامل مع ساعات عمل وحدة معالجة الرسومات والرموز كموارد من الدرجة الأولى مع اقتصاديات الوحدات (التكلفة لكل ألف رمز، لكل تضمين، لكل استعلام متجه). أضف الميزانيات والتنبيهات؛ واحتفل بحذف العناصر.


خريطة طريق بسيطة لتوسعة الذكاء الاصطناعي 🗺️

  1. ابدأ بأهداف مستوى الخدمة (SLOs) الخاصة بوقت استجابة p95 والتوافر ودقة المهمة؛ قم بقياس المقاييس/التتبعات في اليوم الأول [5].

  2. اختر مجموعة تقديم تدعم الدفعات والدفعات المستمرة: Triton أو vLLM أو ما يعادلها [2] [3].

  3. تحسين النموذج : تحديد الكميات حيث يساعد ذلك، وتمكين النوى الأسرع، أو التقطير لمهام محددة؛ التحقق من الجودة باستخدام التقييمات الحقيقية.

  4. مهندس المرونة : Kubernetes HPA مع الإشارات الصحيحة ومسارات القراءة / الكتابة المنفصلة ونسخ الاستدلال بدون جنسية [1].

  5. استخدم الاسترجاع عندما تكون النضارة مهمة حتى تتمكن من توسيع نطاق الفهرس الخاص بك بدلاً من إعادة التدريب كل أسبوع.

  6. إغلاق الحلقة مع التكلفة : إنشاء اقتصاديات الوحدة والمراجعة الأسبوعية.


أوضاع الفشل الشائعة والإصلاحات السريعة 🧨

  • وحدة معالجة الرسومات (GPU) عند استخدام 30% بينما يكون زمن الوصول سيئًا

    • قم بتشغيل الدفعات الديناميكية ، ورفع حدود الدفعات بعناية، وإعادة التحقق من التزامن بين الخادم [2].

  • ينهار الإنتاج مع المطالبات الطويلة

    • استخدم الخدمة التي تدعم الاهتمام المقسم إلى صفحات وضبط أقصى تسلسلات متزامنة [3].

  • رفرفات المقياس التلقائي

    • مقاييس سلسة مع النوافذ؛ التوسع على عمق قائمة الانتظار أو الرموز المخصصة في الثانية بدلاً من وحدة المعالجة المركزية الصرفة [1].

  • ترتفع التكاليف بشكل كبير بعد الإطلاق

    • أضف مقاييس التكلفة على مستوى الطلب، وقم بتمكين التكميم حيث يكون ذلك آمنًا، وقم بتخزين الاستعلامات الأعلى قيمة، وقم بتحديد الحد الأقصى للمخالفين الأسوأ.


دليل قابلية التوسع للذكاء الاصطناعي: قائمة مرجعية سريعة ✅

  • توجد أهداف التعلم وميزانيات الأخطاء ويمكن رؤيتها

  • المقاييس: زمن الوصول، معدل نقل البيانات في الثانية، ذاكرة وحدة معالجة الرسومات، حجم الدفعة، الرمز/الرموز، معدل الوصول إلى ذاكرة التخزين المؤقت

  • تتبعات من الدخول إلى النموذج إلى مرحلة ما بعد العملية

  • الخدمة: تشغيل الدفعات، ضبط التزامن، تخزين مؤقت دافئ

  • النموذج: مُكمّم أو مُقطّر حيثما يساعد

  • البنية التحتية: تم تكوين HPA بالإشارات الصحيحة

  • مسار استرجاع نضارة المعرفة

  • تتم مراجعة اقتصاديات الوحدة بشكل متكرر


طويل جدًا ولم أقرأه والملاحظات الختامية 🧩

قابلية توسع الذكاء الاصطناعي ليست ميزةً واحدةً أو مفتاحًا سريًا. إنها لغة أنماط: توسع أفقي مع برامج توسيع تلقائية، وتجميع البيانات من جانب الخادم للاستخدام، وكفاءة على مستوى النموذج، واسترجاع لنقل المعرفة، وإمكانية ملاحظة تجعل عمليات الطرح مملة. أضف أهداف مستوى الخدمة (SLOs) وضبطًا دقيقًا للتكاليف لضمان توافق الجميع. لن تصل إلى الكمال من المرة الأولى - لا أحد يفعل ذلك - ولكن مع حلقات التغذية الراجعة الصحيحة، سينمو نظامك دون الشعور بالإرهاق في الثانية صباحًا 😅


مراجع

[1] وثائق Kubernetes - التوسع التلقائي الأفقي - اقرأ المزيد
[2] NVIDIA Triton - Dynamic Batcher - اقرأ المزيد
[3] وثائق vLLM - الاهتمام المقسم - اقرأ المزيد
[4] هوفمان وآخرون (2022) - تدريب نماذج اللغة الكبيرة المثالية للحوسبة - اقرأ المزيد
[5] كتاب عمل Google SRE - تنفيذ أهداف مستوى الخدمة - اقرأ المزيد

اكتشف أحدث تقنيات الذكاء الاصطناعي في متجر مساعدي الذكاء الاصطناعي الرسمي

معلومات عنا

العودة إلى المدونة