كيفية اختبار نماذج الذكاء الاصطناعي

باختصار: لتقييم نماذج الذكاء الاصطناعي بشكل جيد، ابدأ بتحديد معايير "الجودة" بالنسبة للمستخدم الحقيقي والقرار المطروح. ثم أنشئ تقييمات قابلة للتكرار باستخدام بيانات تمثيلية، وضوابط صارمة للحد من التسرب، ومقاييس متعددة. أضف فحوصات للضغط والتحيز والسلامة، وكلما طرأ أي تغيير (في البيانات، أو التنبيهات، أو السياسات)، أعد تشغيل النظام واستمر في المراقبة بعد الإطلاق.

أهم النقاط المستفادة:

معايير النجاح : حدد المستخدمين والقرارات والقيود وأسوأ حالات الفشل قبل اختيار المقاييس.

إمكانية التكرار : قم ببناء نظام تقييم يعيد تشغيل الاختبارات المماثلة مع كل تغيير.

نظافة البيانات : الحفاظ على تقسيمات مستقرة، ومنع التكرارات، ومنع تسرب الميزات مبكراً.

فحوصات الثقة : اختبارات التحمل، وشرائح الإنصاف، وسلوكيات السلامة في نموذج إدارة التعلم مع معايير واضحة.

الانضباط في دورة الحياة : النشر على مراحل، ومراقبة الانحرافات والحوادث، وتوثيق الثغرات المعروفة.

مقالات قد ترغب في قراءتها بعد هذه المقالة:

🔗 ما هي أخلاقيات الذكاء الاصطناعي
استكشف المبادئ التي توجه تصميم الذكاء الاصطناعي واستخدامه وحوكمته بشكل مسؤول.

🔗 ما هو تحيز الذكاء الاصطناعي؟
تعرّف على كيفية تأثير البيانات المتحيزة على قرارات ونتائج الذكاء الاصطناعي.

🔗 ما هي قابلية التوسع للذكاء الاصطناعي
فهم كيفية توسيع نطاق أنظمة الذكاء الاصطناعي من حيث الأداء والتكلفة والموثوقية.

🔗 ما هو الذكاء الاصطناعي
نظرة عامة واضحة على الذكاء الاصطناعي وأنواعه واستخداماته في العالم الحقيقي.

1) ابدأ بالتعريف غير الجذاب لكلمة "جيد"

قبل المقاييس، وقبل لوحات المعلومات، وقبل أي استعراض للمعايير - حدد شكل النجاح.

يوضح:

المستخدم: محلل داخلي، عميل، طبيب، سائق، موظف دعم متعب في الساعة الرابعة مساءً...
القرار: الموافقة على القرض، والكشف عن الاحتيال، واقتراح المحتوى، وتلخيص الملاحظات
أهم الإخفاقات:
- النتائج الإيجابية الخاطئة (مزعجة) مقابل النتائج السلبية الخاطئة (خطيرة)
القيود: زمن الاستجابة، تكلفة الطلب الواحد، قواعد الخصوصية، متطلبات قابلية التفسير، إمكانية الوصول

هذا هو الجزء الذي تنحرف فيه الفرق نحو التركيز على "المؤشرات الجميلة" بدلاً من "النتائج ذات المغزى". يحدث هذا كثيراً. كثيراً جداً.

تتمثل إحدى الطرق القوية للحفاظ على هذا الوعي بالمخاطر (وليس على أساس المشاعر) في تأطير الاختبار حول الجدارة بالثقة وإدارة مخاطر دورة الحياة، بالطريقة التي يتبعها المعهد الوطني للمعايير والتكنولوجيا في إطار إدارة مخاطر الذكاء الاصطناعي (AI RMF 1.0) [1].

2) ما الذي يجعل نسخة جيدة من "كيفية اختبار نماذج الذكاء الاصطناعي"؟ ✅

تتضمن منهجية الاختبار المتينة بعض الأمور التي لا تقبل المساومة:

بيانات تمثيلية (ليست مجرد بيانات مختبرية نظيفة)
فواصل شفافة مع خاصية منع التسرب (المزيد عن ذلك بعد قليل)
الخطوط الأساسية (نماذج بسيطة يجب التغلب عليها - توجد تقديرات وهمية لسبب وجيه [4])
مقاييس متعددة (لأن رقماً واحداً يكذب عليك، بأدب، في وجهك)
اختبارات الإجهاد (الحالات الحدية، المدخلات غير العادية، السيناريوهات العدائية)
حلقات المراجعة البشرية (خاصة بالنسبة للنماذج التوليدية)
المراقبة بعد الإطلاق (لأن العالم يتغير، وتتعطل خطوط الإنتاج، والمستخدمون ... مبدعون [1])

أيضًا: من الأساليب الجيدة توثيق ما اختبرته، وما لم تختبره، وما يثير قلقك. قد يبدو قسم "ما يثير قلقي" محرجًا بعض الشيء، ولكنه أيضًا المكان الذي تبدأ فيه الثقة بالتراكم.

نمطان من أنماط التوثيق يساعدان الفرق باستمرار على البقاء صريحين:

بطاقات النموذج (ما هو الغرض من النموذج، وكيف تم تقييمه، وأين يفشل) [2]
أوراق بيانات مجموعات البيانات (ما هي البيانات، وكيف تم جمعها، وما يجب/لا يجب استخدامها من أجله) [3]

3) واقع الأدوات: ما يستخدمه الناس عمليًا 🧰

الأدوات اختيارية، أما عادات التقييم الجيدة فهي ضرورية.

إذا كنت ترغب في إعداد عملي، فإن معظم الفرق ينتهي بها الأمر بثلاث مجموعات:

تتبع التجارب (عمليات التشغيل، والتكوينات، والنتائج)
مجموعة أدوات التقييم (اختبارات متكررة دون اتصال بالإنترنت + مجموعات اختبارات الانحدار)
المراقبة (إشارات الانحراف، مؤشرات الأداء، تنبيهات الحوادث)

أمثلة ستراها كثيرًا في الواقع (ليست توصيات، ونعم - تغييرات في الميزات/الأسعار): MLflow، Weights & Biases، Great Expectations، Evidently، Deepchecks، OpenAI Evals، TruLens، LangSmith.

إذا اخترت فكرة من هذا القسم: قم ببناء نظام تقييم قابل للتكرار . أنت تريد "اضغط على الزر ← احصل على نتائج قابلة للمقارنة"، وليس "أعد تشغيل دفتر الملاحظات وانتظر".

4) قم ببناء مجموعة الاختبار المناسبة (وتوقف عن تسريب البيانات) 🚧

عدد صادم من العارضات "الرائعات" يخونن عن غير قصد.

للتعلم الآلي القياسي

بعض القواعد غير الجذابة التي تنقذ المسيرة المهنية:

حافظ على التدريب/التحقق/الاختبار (واكتب منطق التقسيم).
منع التكرارات عبر الأقسام (نفس المستخدم، نفس المستند، نفس المنتج، نسخ متطابقة تقريبًا)
انتبه لتسريب الميزات (معلومات مستقبلية تتسلل إلى الميزات "الحالية").
استخدم خطوط الأساس (المقدرات الوهمية) حتى لا تحتفل بالتغلب على ... لا شيء [4]

تعريف التسريب (باختصار): أي شيء في مرحلة التدريب/التقييم يمنح النموذج إمكانية الوصول إلى معلومات لم تكن متاحة له وقت اتخاذ القرار. قد يكون التسريب واضحًا ("التصنيف المستقبلي") أو خفيًا ("مجموعة الطوابع الزمنية لما بعد الحدث").

بالنسبة لنماذج التعلم الخطي والنماذج التوليدية

أنت تبني نظامًا يعتمد على التوجيه والسياسة ، وليس مجرد "نموذج".

أنشئ مجموعة ذهبية من المطالبات (صغيرة، عالية الجودة، مستقرة)
أضف عينات حقيقية حديثة (مجهولة المصدر وآمنة للخصوصية)
احتفظ بمجموعة من الحالات الاستثنائية : الأخطاء الإملائية، واللغة العامية، والتنسيق غير القياسي، وحقول الإدخال الفارغة، والمفاجآت متعددة اللغات 🌍

أمرٌ عمليٌّ شاهدته يتكرر أكثر من مرة: فريقٌ يُصدر منتجًا بتقييم "ممتاز" في وضع عدم الاتصال، ثم يقول فريق دعم العملاء: "رائع. إنه يفتقر بثقة إلى الجملة المهمة". لم يكن الحل "نموذجًا أكبر". بل كان تحسينًا في توجيهات الاختبار ، ووضوحًا أكبر في معايير التقييم، ومجموعة اختبارات انحدار تُعاقب هذا النوع من الأخطاء تحديدًا. ببساطة. بفعالية.

5) التقييم غير المتصل بالإنترنت: مقاييس ذات دلالة 📏

المقاييس جيدة، لكن الاعتماد المفرط على مقياس واحد ليس كذلك.

التصنيف (البريد العشوائي، الاحتيال، النية، الفرز)

استخدم أكثر من مجرد الدقة.

الدقة، الاستدعاء، F1
ضبط العتبة (نادراً ما تكون العتبة الافتراضية "صحيحة" بالنسبة لتكاليفك) [4]
مصفوفات الارتباك لكل شريحة (المنطقة، نوع الجهاز، مجموعة المستخدمين)

الانحدار (التنبؤ، التسعير، التقييم)

MAE / RMSE (اختر بناءً على الطريقة التي تريد بها معاقبة الأخطاء)
عمليات التحقق من نوع المعايرة عند استخدام المخرجات كـ "درجات" (هل تتوافق الدرجات مع الواقع؟)

أنظمة التصنيف / التوصية

NDCG، MAP، MRR
التقسيم حسب نوع الاستعلام (الرأس مقابل الذيل)

رؤية الحاسوب

mAP، IoU
الأداء في كل فئة (الفئات النادرة هي التي تُحرجك فيها العارضات)

النماذج التوليدية (LLMs)

هنا يبدأ الناس... بالخوض في الفلسفة 😵💫

خيارات عملية تُجدي نفعاً في فرق العمل الحقيقية:

التقييم البشري (أفضل إشارة، أبطأ حلقة)
تفضيل الأزواج / معدل الفوز (مقارنة أ ب ب أسهل من حساب النقاط المطلقة)
مقاييس النصوص الآلية (مفيدة لبعض المهام، ومضللة لمهام أخرى)
عمليات التحقق القائمة على المهام: "هل استخرج الحقول الصحيحة؟" "هل اتبع السياسة؟" "هل استشهد بالمصادر عند الاقتضاء؟"

إذا كنت تريد نقطة مرجعية منظمة "متعددة المقاييس، والعديد من السيناريوهات"، فإن HELM هي نقطة ارتكاز جيدة: فهي تدفع التقييم بشكل صريح إلى ما هو أبعد من الدقة إلى أشياء مثل المعايرة، والمتانة، والتحيز/السمية، والمفاضلات بين الكفاءة [5].

ملاحظة جانبية: أحيانًا تبدو المقاييس الآلية لجودة الكتابة أشبه بتقييم شطيرة بوزنها. ليس الأمر سيئًا، لكن... هيا 🥪

6) اختبار المتانة: اجعله يتعرق قليلاً 🥵🧪

إذا كان نموذجك يعمل فقط مع المدخلات المنظمة، فهو أشبه بمزهرية زجاجية. جميلة، هشة، باهظة الثمن.

امتحان:

الضوضاء: أخطاء إملائية، قيم مفقودة، ترميز يونيكود غير قياسي، أخطاء في التنسيق
تحوّل في التوزيع: فئات منتجات جديدة، مصطلحات جديدة، أجهزة استشعار جديدة
القيم المتطرفة: أرقام خارج النطاق، حمولات ضخمة، سلاسل نصية فارغة
مدخلات "شبه معادية" لا تشبه مجموعة التدريب الخاصة بك ولكنها تشبه المستخدمين

بالنسبة لبرامج الماجستير في القانون، يرجى تضمين ما يلي:

محاولات حقن سريعة (تعليمات مخفية داخل محتوى المستخدم)
أنماط "تجاهل التعليمات السابقة"
حالات الاستخدام الشاذة للأداة (عناوين URL غير صالحة، مهلات زمنية، مخرجات جزئية)

تُعتبر المتانة إحدى خصائص الموثوقية التي تبدو مجردة حتى تحدث حوادث. عندها تصبح... ملموسة للغاية [1].

7) التحيز والإنصاف ولمن يفيد ⚖️

قد يكون النموذج "دقيقًا" بشكل عام، بينما يكون أداؤه أسوأ باستمرار بالنسبة لمجموعات محددة. هذه ليست مشكلة بسيطة، بل هي مشكلة تتعلق بالمنتج والثقة.

خطوات عملية:

تقييم الأداء من خلال قطاعات ذات مغزى (مناسبة قانونيًا/أخلاقيًا للقياس)
قارن معدلات الخطأ والمعايرة بين المجموعات
اختبار ميزات الوكيل (الرمز البريدي، نوع الجهاز، اللغة) التي يمكنها تشفير السمات الحساسة

إذا لم توثق هذا في مكان ما، فأنت تطلب من نفسك في المستقبل إصلاح أزمة ثقة دون دليل. تُعدّ بطاقات النماذج مكانًا مناسبًا لذلك [2]، كما أن إطار عمل المعهد الوطني للمعايير والتكنولوجيا (NIST) الخاص بالموثوقية يوفر لك قائمة مرجعية قوية لما يجب أن يتضمنه "الجيد" [1].

8) اختبارات السلامة والأمن (خاصة لبرامج الماجستير في القانون) 🛡️

إذا كان نموذجك قادراً على توليد المحتوى، فأنت تختبر أكثر من مجرد الدقة. أنت تختبر السلوك.

قم بتضمين اختبارات لما يلي:

إنشاء محتوى غير مسموح به (انتهاكات السياسة)
تسريب الخصوصية (هل يعكس ذلك الأسرار؟)
الهلوسة في المجالات ذات المخاطر العالية
الرفض المفرط (النموذج يرفض الطلبات العادية)
مخرجات السمية والتحرش
محاولات استخراج البيانات عن طريق الحقن الفوري

النهج العملي هو: تحديد قواعد السياسة ← بناء نماذج اختبار ← تقييم النتائج باستخدام عمليات تدقيق بشرية وآلية ← تشغيلها في كل مرة يحدث فيها أي تغيير. وهذا "في كل مرة" هو التكلفة.

يتناسب هذا تمامًا مع عقلية إدارة مخاطر دورة الحياة: الحوكمة، ورسم السياق، والقياس، والإدارة، والتكرار [1].

9) الاختبارات عبر الإنترنت: إطلاق تدريجي (حيث تكمن الحقيقة) 🚀

الاختبارات غير المتصلة بالإنترنت ضرورية. أما التعرض عبر الإنترنت فهو المكان الذي تظهر فيه الحقيقة بوضوح.

لا داعي للتكلف. يكفي أن تكون منضبطاً:

التشغيل في وضع الظل (يتم تشغيل النموذج، ولا يؤثر على المستخدمين)
إطلاق تدريجي (حركة مرور صغيرة أولاً، ثم التوسع إذا كان الوضع جيداً)
تتبع النتائج والحوادث (الشكاوى، والتصعيدات، والإخفاقات في السياسات)

حتى لو لم تتمكن من الحصول على تصنيفات فورية، يمكنك مراقبة إشارات الخادم الوكيل وحالة التشغيل (زمن الاستجابة، معدلات الفشل، التكلفة). والهدف الأساسي هو: أن تكون لديك طريقة مُحكمة لاكتشاف الأعطال قبل أن يكتشفها جميع المستخدمين [1].

10) المراقبة بعد النشر: الانحراف، والتدهور، والفشل الصامت 📉👀

النموذج الذي اختبرته ليس بالضرورة النموذج الذي ستعتمد عليه في النهاية. تتغير البيانات، ويتغير المستخدمون، ويتغير العالم. قد يتعطل النظام في الثانية صباحًا. أنت تعرف كيف تسير الأمور..

شاشة:

انحراف بيانات الإدخال (تغييرات المخطط، البيانات المفقودة، تحولات التوزيع)
انحرافات في المخرجات (تغيرات في توازن الفئات، تغيرات في الدرجات)
مؤشرات الأداء (لأن تأخيرات التسمية حقيقية)
إشارات التقييم (الإبهام للأسفل، إعادة التحرير، التصعيد)
الانحدارات على مستوى القطاعات (القاتل الصامت)

واضبط عتبات التنبيه بحيث لا تكون مفرطة الحساسية. فالجهاز الذي يصدر تنبيهات متكررة يتم تجاهله - تمامًا مثل جهاز إنذار السيارة في المدينة.

إن حلقة "المراقبة + التحسين بمرور الوقت" هذه ليست اختيارية إذا كنت تهتم بالموثوقية [1].

11) سير عمل عملي يمكنك نسخه 🧩

إليك حلقة بسيطة قابلة للتوسع:

حدد أنماط النجاح والفشل (بما في ذلك التكلفة/زمن الاستجابة/السلامة) [1]
إنشاء مجموعات البيانات:
- طقم ذهبي
- حزمة الحالات النادرة
- عينات حقيقية حديثة (آمنة للخصوصية)
اختر المقاييس:
- مقاييس المهمة (F1، MAE، معدل الفوز) [4][5]
- مقاييس السلامة (معدل نجاح السياسة) [1][5]
- المقاييس التشغيلية (زمن الاستجابة، التكلفة)
قم ببناء أداة تقييم (تعمل على كل تغيير في النموذج/المطالبة) [4][5]
أضف اختبارات الإجهاد + اختبارات شبيهة بالاختبارات العدائية [1][5]
مراجعة بشرية لعينة (خاصة لمخرجات الماجستير في القانون) [5]
الشحن عبر الظل + طرح تدريجي [1]
مراقبة + تنبيه + إعادة تدريب مع الانضباط [1]
تؤدي نتائج المستند إلى كتابة نموذج على غرار البطاقة [2][3]

التدريب جذاب. أما الاختبارات فهي وسيلة لدفع الإيجار.

١٢) ملاحظات ختامية + ملخص سريع 🧠✨

إذا كنت تتذكر فقط بعض الأشياء حول كيفية اختبار نماذج الذكاء الاصطناعي :

استخدم بيانات اختبار تمثيلية وتجنب التسرب [4]
اختر مقاييس متعددة مرتبطة بنتائج حقيقية [4][5]
بالنسبة لبرامج الماجستير في القانون، اعتمد على المراجعة البشرية + مقارنات أسلوب معدل الفوز [5]
متانة الاختبار - المدخلات غير العادية هي مدخلات عادية متنكرة [1]
قم بالتنفيذ بأمان وراقب، لأن النماذج تنحرف وخطوط الأنابيب تتعطل [1]
قم بتوثيق ما قمت باختباره وما لم تقم باختباره (غير مريح ولكنه فعال) [2][3]

الاختبار ليس مجرد "إثبات أنه يعمل"، بل هو "اكتشاف مواطن الخلل قبل أن يكتشفها المستخدمون". صحيح أن هذا ليس جذابًا، لكنه الجزء الذي يحافظ على استقرار النظام عندما تسوء الأمور... 🧱🙂

التعليمات

أفضل طريقة لاختبار نماذج الذكاء الاصطناعي بحيث تتوافق مع احتياجات المستخدم الحقيقية

ابدأ بتحديد مفهوم "الجودة" من منظور المستخدم الحقيقي والقرار الذي يدعمه النموذج، وليس مجرد مقياس للترتيب. حدد أنماط الفشل الأكثر تكلفة (النتائج الإيجابية الخاطئة مقابل النتائج السلبية الخاطئة) واشرح القيود الصارمة مثل زمن الاستجابة والتكلفة والخصوصية وقابلية التفسير. ثم اختر المقاييس وحالات الاختبار التي تعكس هذه النتائج. هذا يجنبك تحسين "مقياس جميل" لا يُترجم أبدًا إلى منتج أفضل.

تحديد معايير النجاح قبل اختيار مقاييس التقييم

دوّن هوية المستخدم، والقرار الذي يُفترض أن يدعمه النموذج، وكيف يبدو أسوأ سيناريو للفشل في بيئة الإنتاج. أضف القيود التشغيلية مثل زمن الاستجابة المقبول وتكلفة الطلب، بالإضافة إلى متطلبات الحوكمة مثل قواعد الخصوصية وسياسات الأمان. بمجرد وضوح هذه الأمور، تصبح المقاييس وسيلة لقياس الشيء الصحيح. بدون هذا الإطار، تميل الفرق إلى التركيز على تحسين ما يسهل قياسه.

منع تسرب البيانات والغش غير المقصود في تقييم النماذج

حافظ على استقرار تقسيمات مجموعات التدريب والتحقق والاختبار، ووثّق منطق التقسيم لضمان إمكانية تكرار النتائج. احظر بنشاط البيانات المكررة أو شبه المكررة بين التقسيمات (نفس المستخدم، أو المستند، أو المنتج، أو الأنماط المتكررة). راقب تسرب الميزات حيث تتسلل معلومات "مستقبلية" إلى المدخلات عبر الطوابع الزمنية أو حقول ما بعد الحدث. يساعدك وجود خط أساس قوي (حتى باستخدام مُقدِّرات وهمية) على اكتشاف متى تُبالغ في تقدير التشويش.

ما الذي يجب أن تتضمنه أداة التقييم لضمان بقاء الاختبارات قابلة للتكرار عبر التغييرات؟

تُعيد منصة الاختبار العملية إجراء اختبارات قابلة للمقارنة على كل نموذج أو مُوجِّه أو تغيير في السياسة باستخدام نفس مجموعات البيانات وقواعد التقييم. وهي تتضمن عادةً مجموعة اختبارات الانحدار، ولوحات معلومات واضحة للمقاييس، وملفات وتكوينات مُخزَّنة لضمان إمكانية التتبع. بالنسبة لأنظمة إدارة التعلم، فهي تحتاج أيضًا إلى "مجموعة ذهبية" ثابتة من المُوجِّهات بالإضافة إلى مجموعة من الحالات الاستثنائية. الهدف هو "الضغط على زر ← نتائج قابلة للمقارنة"، وليس "إعادة تشغيل دفتر الملاحظات والانتظار"

معايير لاختبار نماذج الذكاء الاصطناعي تتجاوز الدقة

استخدم مقاييس متعددة، لأن رقمًا واحدًا قد يُخفي مفاضلات مهمة. في التصنيف، اجمع بين الدقة/الاستدعاء/F1 مع ضبط العتبة ومصفوفات الارتباك لكل شريحة. في الانحدار، اختر MAE أو RMSE بناءً على كيفية معاقبة الأخطاء، وأضف فحوصات معايرة عندما تعمل المخرجات كدرجات. في الترتيب، استخدم NDCG/MAP/MRR وقسم الاستعلامات حسب الرأس مقابل الذيل لاكتشاف الأداء غير المتكافئ.

تقييم مخرجات برامج الماجستير في القانون عندما تقصر المقاييس الآلية

تعامل مع النظام كنظام يعتمد على التوجيه والسياسة، وقيّم السلوك، وليس مجرد تشابه النصوص. تجمع العديد من الفرق بين التقييم البشري وتفضيلات المستخدمين (معدل الفوز في اختبار A/B)، بالإضافة إلى عمليات التحقق القائمة على المهام مثل "هل استخرج الحقول الصحيحة؟" أو "هل اتبع السياسة؟". قد تساعد مقاييس النصوص الآلية في حالات محددة، لكنها غالبًا ما تغفل ما يهم المستخدمين. عادةً ما تكون المعايير الواضحة ومجموعة اختبارات الانحدار أكثر أهمية من مجرد درجة واحدة.

يجب إجراء اختبارات المتانة لضمان عدم تعطل النموذج عند إدخال بيانات مشوشة

اختبر النموذج تحت ضغط عالٍ مع تضمين أخطاء إملائية، وقيم مفقودة، وتنسيقات غير مألوفة، ورموز يونيكود غير قياسية، لأن المستخدمين الحقيقيين نادرًا ما يكونون منظمين. أضف حالات تغيير التوزيع مثل الفئات الجديدة، واللغة العامية، وأجهزة الاستشعار، أو أنماط اللغة. أضف قيمًا متطرفة (سلاسل نصية فارغة، وحمولات بيانات ضخمة، وأرقام خارج النطاق) للكشف عن السلوكيات غير المستقرة. بالنسبة لنماذج التعلم الموجه، اختبر أيضًا أنماط إدخال البيانات في الموجه وأعطال استخدام الأدوات مثل انتهاء المهلة أو المخرجات الجزئية.

التحقق من قضايا التحيز والإنصاف دون الخوض في النظريات

قيّم الأداء على شرائح بيانات ذات دلالة، وقارن معدلات الخطأ والمعايرة بين المجموعات حيثما يكون القياس مناسبًا قانونيًا وأخلاقيًا. ابحث عن خصائص بديلة (مثل الرمز البريدي، أو نوع الجهاز، أو اللغة) التي قد تُشفّر سمات حساسة بشكل غير مباشر. قد يبدو النموذج "دقيقًا إجمالًا" بينما يفشل باستمرار مع مجموعات محددة. وثّق ما قمت بقياسه وما لم تقم بقياسه، حتى لا تُعيد التغييرات المستقبلية إدخال أخطاء الانحدار دون علمك.

اختبارات السلامة والأمان التي يجب تضمينها لأنظمة الذكاء الاصطناعي التوليدي وأنظمة التعلم الآلي للتعلم

اختبر إنشاء المحتوى غير المسموح به، وتسريب البيانات الشخصية، والتشويش في المجالات الحساسة، والرفض المفرط حيث يحظر النموذج الطلبات العادية. راقب محاولات حقن البيانات وسرقة البيانات، خاصةً عندما يستخدم النظام أدوات أو يسترجع محتوى. تتمثل آلية العمل الفعّالة في: تحديد قواعد السياسة، وإنشاء مجموعة اختبارية من المطالبات، وتقييمها من خلال عمليات تدقيق بشرية وآلية، وإعادة تشغيلها كلما تغيرت المطالبات أو البيانات أو السياسات. الاتساق هو أساس النجاح.

نشر نماذج الذكاء الاصطناعي ومراقبتها بعد الإطلاق لرصد أي انحرافات أو حوادث

استخدم أنماط النشر التدريجي، مثل وضع الظل وزيادة حركة البيانات تدريجيًا، لاكتشاف الأعطال قبل أن يكتشفها جميع المستخدمين. راقب انحرافات المدخلات (تغييرات المخطط، البيانات المفقودة، تحولات التوزيع) وانحرافات المخرجات (تحولات النقاط، تحولات توازن الفئات)، بالإضافة إلى سلامة العمليات التشغيلية مثل زمن الاستجابة والتكلفة. تتبع إشارات التغذية الراجعة، مثل التعديلات والتصعيدات والشكاوى، وراقب حالات التراجع على مستوى القطاعات. عند حدوث أي تغيير، أعد تشغيل نفس النظام واستمر في المراقبة بشكل متواصل.

مراجع

[1] المعهد الوطني للمعايير والتكنولوجيا - إطار إدارة مخاطر الذكاء الاصطناعي (AI RMF 1.0) (ملف PDF)
[2] ميتشل وآخرون - "بطاقات نماذج لإعداد تقارير النماذج" (arXiv:1810.03993)
[3] جبرو وآخرون - "جداول بيانات لمجموعات البيانات" (arXiv:1803.09010)
[4] مكتبة scikit-learn - وثائق "اختيار النماذج وتقييمها"
[5] ليانغ وآخرون - "التقييم الشامل لنماذج اللغة" (arXiv:2211.09110)

اكتشف أحدث تقنيات الذكاء الاصطناعي في متجر مساعدي الذكاء الاصطناعي الرسمي

معلومات عنا

العودة إلى المدونة

البلد/المنطقة