كيفية قياس أداء الذكاء الاصطناعي

كيفية قياس أداء الذكاء الاصطناعي؟

إذا سبق لك أن طرحت نموذجًا بدا واعدًا في دفتر الملاحظات ولكنه تعثر في الإنتاج، فأنت تعرف السر: قياس أداء الذكاء الاصطناعي لا يعتمد على مقياس سحري واحد، بل على نظام من الضوابط المرتبطة بأهداف واقعية. الدقة مهمة، لكن الموثوقية والسلامة والتأثير الإيجابي على العمل أهم.

مقالات قد ترغب في قراءتها بعد هذه المقالة:

🔗 كيفية التحدث إلى الذكاء الاصطناعي
دليل للتواصل الفعال مع الذكاء الاصطناعي لتحقيق نتائج أفضل باستمرار.

🔗 ما هو المطالبات بالذكاء الاصطناعي
يشرح كيف تؤثر المطالبات على استجابات الذكاء الاصطناعي وجودة المخرجات.

🔗 ما هو تصنيف بيانات الذكاء الاصطناعي
نظرة عامة على كيفية إسناد تصنيفات دقيقة للبيانات لتدريب النماذج.

🔗 ما هي أخلاقيات الذكاء الاصطناعي
مقدمة للمبادئ الأخلاقية التي توجه تطوير ونشر الذكاء الاصطناعي بشكل مسؤول.


ما الذي يجعل أداء الذكاء الاصطناعي جيداً؟ ✅

باختصار: يعني الأداء الجيد للذكاء الاصطناعي أن نظامك مفيد وجدير بالثقة وقابل للتكرار في ظل ظروف متغيرة ومعقدة. وبالتحديد:

  • جودة المهمة - فهي تحصل على الإجابات الصحيحة للأسباب الصحيحة.

  • المعايرة - تتوافق درجات الثقة مع الواقع، حتى تتمكن من اتخاذ إجراءات ذكية.

  • المتانة - فهي تصمد في ظل الانحراف، والحالات الحدية، والتشويش العدائي.

  • السلامة والإنصاف - فهي تتجنب السلوك الضار أو المتحيز أو غير المتوافق.

  • الكفاءة - إنها سريعة بما يكفي، ورخيصة بما يكفي، ومستقرة بما يكفي لتشغيلها على نطاق واسع.

  • التأثير على الأعمال - فهو يؤثر فعلياً على مؤشر الأداء الرئيسي الذي يهمك.

إذا كنت ترغب في الحصول على نقطة مرجعية رسمية لمواءمة المقاييس والمخاطر، فإن إطار إدارة مخاطر الذكاء الاصطناعي التابع للمعهد الوطني للمعايير والتكنولوجيا (NIST) يمثل بوصلة قوية لتقييم الأنظمة الموثوقة. [1]

 

قياس أداء الذكاء الاصطناعي

الوصفة الأساسية لقياس أداء الذكاء الاصطناعي 🍳

فكّر في ثلاث طبقات :

  1. مقاييس المهمة - مدى صحة نوع المهمة: التصنيف، الانحدار، الترتيب، التوليد، التحكم، إلخ.

  2. مقاييس النظام - زمن الاستجابة، الإنتاجية، تكلفة المكالمة الواحدة، معدلات الفشل، إنذارات الانحراف، اتفاقيات مستوى الخدمة لوقت التشغيل.

  3. مقاييس النتائج - نتائج الأعمال والمستخدمين التي تريدها بالفعل: التحويل، والاحتفاظ، وحوادث السلامة، وحمل المراجعة اليدوية، وحجم التذاكر.

خطة القياس الممتازة تجمع بين العناصر الثلاثة جميعها عن قصد. وإلا ستحصل على صاروخ لا يغادر منصة الإطلاق أبدًا.


المقاييس الأساسية حسب نوع المشكلة - ومتى يُستخدم كل منها 🎯

1) التصنيف

  • الدقة، والاستدعاء، وF1 - الثلاثي الأساسي في اليوم الأول. F1 هو المتوسط ​​التوافقي للدقة والاستدعاء؛ وهو مفيد عندما تكون الفئات غير متوازنة أو التكاليف غير متناظرة. [2]

  • ROC-AUC - تصنيف المصنفات بغض النظر عن العتبة؛ عندما تكون النتائج الإيجابية نادرة، تحقق أيضًا من PR-AUC . [2]

  • دقة متوازنة - متوسط ​​الاستدعاء عبر الفئات؛ مفيدة للتصنيفات المنحرفة. [2]

تنبيه هام: قد تكون الدقة وحدها مضللة للغاية في حال وجود خلل في التوازن. فإذا كان 99% من المستخدمين شرعيين، فإن نموذجًا بسيطًا يفترض شرعية المستخدمين دائمًا سيحقق نسبة نجاح 99%، ولكنه سيفشل فريق مكافحة الاحتيال لديك قبل حتى أن يبدأ العمل.

2) الانحدار

  • (MAE) لقياس الخطأ القابل للقراءة البشرية؛ جذر متوسط ​​مربع الخطأ (RMSE) عند الرغبة في تقييم الأخطاء الكبيرة؛ (R²) لقياس التباين المُفسَّر. ثم تحقق من صحة التوزيعات ومخططات البواقي. [2]
    (استخدم وحدات قياس مفهومة حتى يتمكن أصحاب المصلحة من إدراك الخطأ بوضوح).

3) التصنيف، والاسترجاع، والتوصيات

  • nDCG - يهتم بالموقع والملاءمة المتدرجة؛ معيار لجودة البحث.

  • مقياس MRR على سرعة ظهور أول عنصر ذي صلة (وهو مثالي لمهام "إيجاد إجابة واحدة جيدة").
    (توجد مراجع التنفيذ وأمثلة عملية في مكتبات المقاييس الشائعة). [2]

4) توليد النصوص وتلخيصها

  • الأزرق والأحمر - مقاييس التداخل الكلاسيكية؛ مفيدة كخطوط أساسية.

  • المقاييس القائمة على التضمين (مثل BERTScore ) بشكل أفضل بالتقييم البشري؛ لذا يجب دائماً إقرانها بتقييمات بشرية للأسلوب والدقة والسلامة. [4]

5) الإجابة على الأسئلة

  • المطابقة التامة و F1 على مستوى الرموز شائعة في أسئلة الإجابة الاستخراجية؛ إذا كان يجب على الإجابات الاستشهاد بالمصادر، فقم أيضًا بقياس التأصيل (فحوصات دعم الإجابة).


المعايرة، والثقة، وعدسة بريير 🎚️

تكمن المشكلة الحقيقية في العديد من الأنظمة في درجات الثقة. أنت بحاجة إلى احتمالات تعكس الواقع حتى يتمكن فريق العمليات من تحديد العتبات، وتوجيه المكالمات إلى المختصين، أو تقييم المخاطر.

  • منحنيات المعايرة - تصور الاحتمالية المتوقعة مقابل التردد التجريبي.

  • مقياس بريير - قاعدة تقييم مناسبة للدقة الاحتمالية؛ كلما انخفضت القيمة كان ذلك أفضل. وهو مفيد بشكل خاص عندما تهتم بجودة الاحتمالية ، وليس فقط بالترتيب. [3]

ملاحظة ميدانية: يمكن لمعايرة أفضل بكثير ولكن بمستوى F1 "أسوأ" قليلاً بشكل كبير - لأن الناس يمكنهم أخيرًا الوثوق بالنتائج.


السلامة، والتحيز، والإنصاف - قياس ما يهم 🛡️⚖️

قد يكون النظام دقيقًا بشكل عام، ولكنه مع ذلك يضر بفئات محددة. تتبع المجمعة ومعايير الإنصاف:

  • التكافؤ الديموغرافي - معدلات إيجابية متساوية بين المجموعات.

  • تكافؤ الفرص / تكافؤ الفرص - معدلات خطأ متساوية أو معدلات إيجابية حقيقية متساوية عبر المجموعات؛ استخدم هذه المعايير لاكتشاف وإدارة المفاضلات، وليس كعلامات نجاح أو فشل لمرة واحدة. [5]

نصيحة عملية: ابدأ بلوحات معلومات تُصنّف المقاييس الأساسية حسب السمات الرئيسية، ثم أضف مقاييس العدالة المحددة حسب متطلبات سياساتك. قد يبدو الأمر معقدًا، ولكنه أقل تكلفة من وقوع حادث.


LLMs و RAG - دليل قياس فعال 📚🔍

قياس الأنظمة التوليدية أمرٌ... مُربك. افعل هذا:

  1. حدد النتائج لكل حالة استخدام: الصحة، والفائدة، وعدم الضرر، والالتزام بالأسلوب، والتوافق مع العلامة التجارية، وتأسيس الاستشهاد، وجودة الرفض.

  2. قم بأتمتة التقييمات الأساسية باستخدام أطر عمل قوية (مثل أدوات التقييم في مجموعتك) واحتفظ بها مع مجموعات البيانات الخاصة بك.

  3. أضف مقاييس دلالية (قائمة على التضمين) بالإضافة إلى مقاييس التداخل (BLEU/ROUGE) من أجل السلامة. [4]

  4. تحديد أساس الأدوات في نظام RAG: معدل نجاح الاسترجاع، ودقة/استدعاء السياق، وتداخل الإجابة والدعم.

  5. مراجعة بشرية مع اتفاق - قياس اتساق المُقيِّم (مثل معامل كابا لكوهين أو معامل كابا لفليس) حتى لا تكون تصنيفاتك مجرد انطباعات.

ملاحظة إضافية: سجل نسب زمن الاستجابة وتكلفة الرموز أو الحساب لكل مهمة. لا أحد يحب الإجابات المطولة التي تصل يوم الثلاثاء القادم.


جدول المقارنة - أدوات تساعدك على قياس أداء الذكاء الاصطناعي 🛠️📊

(نعم، إنها فوضوية بعض الشيء عن قصد - فالملاحظات الحقيقية فوضوية.)

أداة أفضل جمهور سعر لماذا ينجح الأمر - نظرة سريعة
مقاييس مكتبة scikit-learn ممارسي التعلم الآلي حر تطبيقات أساسية للتصنيف والانحدار والترتيب؛ يسهل دمجها في الاختبارات. [2]
تقييم MLflow / GenAI علماء البيانات، متخصصو عمليات التعلم الآلي مجاني + مدفوع عمليات تشغيل مركزية، ومقاييس آلية، وحكام ماجستير في القانون، ومسجلون مخصصون؛ يسجل البيانات بشكل نظيف.
من الواضح الفرق التي ترغب في الحصول على لوحات معلومات بسرعة البرمجيات مفتوحة المصدر + الحوسبة السحابية أكثر من 100 مقياس، وتقارير الانحراف والجودة، وخطافات المراقبة - صور رائعة عند الحاجة.
الأوزان والتحيزات المنظمات التي تعتمد بشكل كبير على التجارب المستوى المجاني المقارنات جنبًا إلى جنب، ومجموعات بيانات التقييم، والحكام؛ الجداول والآثار مرتبة إلى حد ما.
لانغ سميث مطورو تطبيقات ماجستير القانون مدفوع تتبع كل خطوة، وامزج المراجعة البشرية مع القواعد أو مقيّمي برنامج الماجستير في القانون؛ إنه أمر رائع لـ RAG.
ترولينز محبو تقييم برامج الماجستير في القانون مفتوحة المصدر المصادر المفتوحة تُستخدم وظائف التغذية الراجعة لتقييم السمية، والواقعية، والملاءمة؛ ويمكن دمجها في أي مكان.
آمال عظيمة المنظمات التي تعطي الأولوية لجودة البيانات المصادر المفتوحة قم بتحديد التوقعات المتعلقة بالبيانات بشكل رسمي - لأن البيانات السيئة تفسد كل مقياس على أي حال.
ديب تشيكس الاختبار والتكامل المستمر/التسليم المستمر للتعلم الآلي البرمجيات مفتوحة المصدر + الحوسبة السحابية اختبارات مضمنة للبطاريات للكشف عن انحراف البيانات، ومشاكل النموذج، والمراقبة؛ ضوابط جيدة.

الأسعار قابلة للتغيير - راجع الوثائق. نعم، يمكنك مزج هذه المكونات دون أي مشكلة.


العتبات والتكاليف ومنحنيات القرار - السرّ وراء النجاح 🧪

أمر غريب ولكنه صحيح: يمكن أن يكون لنموذجين لهما نفس قيمة ROC-AUC قيمة تجارية مختلفة تمامًا اعتمادًا على عتبة التكلفة ونسبها .

ورقة عمل سريعة للبناء:

  • حدد تكلفة النتيجة الإيجابية الخاطئة مقابل النتيجة السلبية الخاطئة بالمال أو الوقت.

  • قم بمسح العتبات واحسب التكلفة المتوقعة لكل 1000 قرار.

  • حدد الحد الأدنى المتوقع للتكلفة ، ثم قم بتثبيته من خلال المراقبة.

استخدم منحنيات نسبة الاحتمال عندما تكون النتائج الإيجابية نادرة، ومنحنيات ROC للشكل العام، ومنحنيات المعايرة عندما تعتمد القرارات على الاحتمالات. [2][3]

حالة مصغرة: نموذج فرز تذاكر الدعم مع F1 متواضع ولكن معايرة ممتازة قلل من عمليات إعادة التوجيه اليدوية بعد أن تحول فريق العمليات من عتبة صارمة إلى توجيه متدرج (مثل "الحل التلقائي" و "المراجعة البشرية" و "التصعيد") مرتبط بنطاقات الدرجات المعايرة.


المراقبة عبر الإنترنت، والانحراف، والتنبيه 🚨

التقييمات غير المتصلة بالإنترنت هي البداية، وليست النهاية. في مرحلة الإنتاج:

  • تتبع انحراف الإدخال ، وانحراف الإخراج ، وتدهور الأداء حسب القطاع.

  • ضبط ضوابط الحماية - الحد الأقصى لمعدل الهلوسة، وعتبات السمية، وفروقات العدالة.

  • أضف لوحات معلومات تجريبية لزمن الاستجابة p95، والمهلات، وتكلفة كل طلب.

  • استخدم مكتبات مصممة خصيصًا لتسريع هذه العملية؛ فهي توفر الانحراف والجودة وأساسيات المراقبة بشكل جاهز للاستخدام.

استعارة صغيرة معيبة: فكر في نموذجك مثل خميرة العجين المخمر - أنت لا تخبز مرة واحدة فقط ثم تبتعد؛ بل تغذيه وتراقبه وتشم رائحته، وأحيانًا تعيد تشغيله.


تقييم بشري لا ينهار 🍪

عندما يقوم الناس بتقييم المخرجات، فإن العملية أهم مما تعتقد.

  • اكتب معايير تقييم دقيقة مع أمثلة على النجاح مقابل النجاح الجزئي مقابل الرسوب.

  • قم بتوزيع العينات عشوائياً وبشكل أعمى كلما أمكن ذلك.

  • قم بقياس الاتفاق بين المقيمين (على سبيل المثال، معامل كابا لكوهين لمقيمين اثنين، ومعامل كابا لفليس للعديد من المقيمين) وقم بتحديث معايير التقييم إذا تراجع الاتفاق.

هذا يمنع تصنيفاتك البشرية من التغير تبعاً للمزاج أو كمية القهوة المتوفرة.


تحليل معمق: كيفية قياس أداء الذكاء الاصطناعي لأنظمة إدارة التعلم في RAG 🧩

  • جودة الاسترجاع - الاستدعاء عند k، والدقة عند k، و nDCG؛ تغطية الحقائق الذهبية. [2]

  • دقة الإجابة - عمليات التحقق من الاستشهاد والتحقق، ودرجات التأسيس، والتحقيقات العدائية.

  • رضا المستخدم - عدد الإعجابات، وإنجاز المهام، ومسافة التحرير من المسودات المقترحة.

  • السلامة - السمية، تسريب المعلومات الشخصية الحساسة، الامتثال للسياسات.

  • التكلفة وزمن الاستجابة - الرموز المميزة، ونجاحات ذاكرة التخزين المؤقت، وزمن الاستجابة p95 وp99.

اربط هذه الأمور بإجراءات العمل: إذا انخفض مستوى الثبات عن خط معين، فقم بالتوجيه التلقائي إلى الوضع الصارم أو المراجعة البشرية.


خطة عمل بسيطة للبدء اليوم 🪄

  1. حدد الوظيفة - اكتب جملة واحدة: ما الذي يجب أن يفعله الذكاء الاصطناعي ولمن.

  2. اختر 2-3 مقاييس للمهام - بالإضافة إلى المعايرة وشريحة واحدة على الأقل من شرائح الإنصاف. [2][3][5]

  3. حدد العتبات باستخدام التكلفة - لا تخمن.

  4. قم بإنشاء مجموعة تقييم صغيرة - 100-500 مثال مصنف يعكس مزيج الإنتاج.

  5. قم بأتمتة عمليات التقييم الخاصة بك - قم بربط التقييم/المراقبة بنظام التكامل المستمر بحيث يتم تشغيل كل تغيير بنفس الفحوصات.

  6. المراقبة في بيئة الإنتاج - الانحراف، زمن الاستجابة، التكلفة، مؤشرات الحوادث.

  7. مراجعة شهرية تقريبًا - حذف المقاييس التي لا يستخدمها أحد؛ إضافة المقاييس التي تجيب على أسئلة حقيقية.

  8. توثيق القرارات - سجل أداء حي يقرأه فريقك بالفعل.

نعم، هذا هو بالضبط. وهو فعال.


الأخطاء الشائعة وكيفية تجنبها 🕳️🐇

  • الإفراط في التخصيص لمقياس واحد - استخدم مجموعة من المقاييس التي تتناسب مع سياق القرار. [1][2]

  • تجاهل المعايرة - الثقة بدون معايرة ليست سوى تبجح. [3]

  • لا يوجد تقسيم - يتم دائمًا التقسيم حسب مجموعات المستخدمين، والموقع الجغرافي، والجهاز، واللغة. [5]

  • التكاليف غير المحددة - إذا لم تقم بتسعير الأخطاء، فسوف تختار الحد الأدنى الخاطئ.

  • الانحراف في التقييم البشري - قياس الاتفاق، وتحديث معايير التقييم، وإعادة تدريب المراجعين.

  • لا توجد أدوات أمان - أضف الآن ضوابط العدالة والسمية والسياسات، وليس لاحقًا. [1][5]


العبارة التي جئت من أجلها: كيفية قياس أداء الذكاء الاصطناعي - طويلة جدًا، لم أقرأها 🧾

  • ابدأ بنتائج واضحة ، ثم قم بتجميع مقاييس المهام والنظام والأعمال [ 1]

  • استخدم المقاييس المناسبة للمهمة - F1 و ROC-AUC للتصنيف؛ nDCG/MRR للترتيب؛ التداخل + المقاييس الدلالية للتوليد (بالاقتران مع البشر). [2][4]

  • قم بمعايرة احتمالاتك وحدد أسعار أخطائك لاختيار العتبات. [2][3]

  • أضف الإنصاف مع شرائح المجموعة وقم بإدارة المفاضلات بشكل صريح. [5]

  • قم بأتمتة عمليات التقييم والمراقبة حتى تتمكن من التكرار دون خوف.

أنت تعرف كيف تسير الأمور - قم بقياس ما يهم، وإلا سينتهي بك الأمر إلى تحسين ما لا يهم.


مراجع

[1] المعهد الوطني للمعايير والتكنولوجيا (NIST). إطار إدارة مخاطر الذكاء الاصطناعي (AI RMF). اقرأ المزيد
[2] مكتبة scikit-learn. تقييم النموذج: قياس جودة التنبؤات (دليل المستخدم). اقرأ المزيد
[3] مكتبة scikit-learn . معايرة الاحتمالية (منحنيات المعايرة، درجة بريير). اقرأ المزيد
[4] بابينيني وآخرون (2002). BLEU: طريقة للتقييم التلقائي للترجمة الآلية. ACL. اقرأ المزيد
[5] هاردت، برايس، سريبرو (2016). تكافؤ الفرص في التعلم الخاضع للإشراف. NeurIPS. اقرأ المزيد

اكتشف أحدث تقنيات الذكاء الاصطناعي في متجر مساعدي الذكاء الاصطناعي الرسمي

معلومات عنا

العودة إلى المدونة