كيف يمكنني فهم دقة الذكاء الاصطناعي؟

لفهم دقة الذكاء الاصطناعي، من الضروري تحديد المهمة بوضوح، إذ تتفاوت الدقة تبعًا لمدى دقة تحديد المهمة والظروف التي يعمل فيها الذكاء الاصطناعي. ويُسهم تقييم مقاييس مثل الصحة والدقة والاستدعاء والمعايرة في فهم مدى كفاءة أداء الذكاء الاصطناعي.

لماذا لا يمكنني الاعتماد على درجة دقة واحدة للذكاء الاصطناعي؟

الدقة ليست مقياسًا واحدًا؛ بل تشمل عناصر متعددة، منها الصحة والموثوقية والمتانة. قد يُحقق النموذج أداءً جيدًا على مجموعة بيانات نظيفة، ولكنه قد يفشل في سيناريوهات العالم الحقيقي حيث تتفاوت المدخلات، مما يجعل درجة واحدة غير كافية لتقييم الأداء.

ماذا تعني المعايرة في سياق دقة الذكاء الاصطناعي؟

تشير المعايرة إلى عملية ضمان تطابق مستوى ثقة النموذج مع أدائه الفعلي. على سبيل المثال، إذا ادّعت خوارزمية ذكاء اصطناعي أنها متأكدة بنسبة 90% من إجابة ما، فإن المعايرة تتحقق من صحة هذه الإجابة فعلاً في 90% من الحالات. وهذا يُساعد في تقليل مخاطر النتائج الخاطئة التي تُعزى إلى الثقة المفرطة.

كيف يمكنني تحسين دقة نظام الذكاء الاصطناعي بمرور الوقت؟

لتحسين دقة الذكاء الاصطناعي بمرور الوقت، يجب تقييم جودة البيانات وأساليب الاختبار باستمرار، وتوسيع نطاق الحالات الاستثنائية، والاحتفاظ بمجموعة بيانات مرجعية لسيناريوهات المستخدم الحقيقية. كما يُعدّ الرصد المنتظم واختبارات التحمل في بيئات متغيرة أمرًا بالغ الأهمية لتكييف النظام بفعالية.

ما هي الأخطاء الشائعة عند تقييم دقة الذكاء الاصطناعي؟

تشمل الأخطاء الشائعة الاعتماد المفرط على مجموعات الاختبار النظيفة التي لا تمثل بيانات العالم الحقيقي، وتجاهل الاختبارات خارج التوزيع التي تحاكي المدخلات المتغيرة، والتركيز فقط على الدقة الخام دون مراعاة آثار النتائج الإيجابية أو السلبية الخاطئة في تطبيقك.

كيف يمكن للذكاء الاصطناعي التوليدي أن يؤثر على مفهوم الدقة؟

يمكن للذكاء الاصطناعي التوليدي أن ينتج مخرجات تبدو سلسة ولكنها قد لا تكون صحيحة من الناحية الواقعية، مما يؤدي إلى مشاكل تُعرف باسم "الهلوسة". وتُعد دقة الذكاء الاصطناعي التوليدي أكثر تعقيدًا نظرًا للسماح بإجابات متعددة مقبولة، مما يجعل من الضروري الاستناد إلى مصادر موثوقة.

لماذا يُعد التقييم المستمر مهماً لدقة الذكاء الاصطناعي؟

يُعد التقييم المستمر أمرًا بالغ الأهمية لأن أنظمة الذكاء الاصطناعي قد تتدهور بمرور الوقت نتيجة لتغيرات سلوك المستخدم، ومدخلات البيانات، والمتطلبات البيئية. ويضمن الرصد المنتظم تحديد أي تراجع في الأداء ومعالجته، مما يحافظ على الثقة في موثوقية النظام.

ما مدى دقة الذكاء الاصطناعي؟

باختصار: يمكن للذكاء الاصطناعي أن يكون دقيقًا للغاية في المهام المحددة بدقة والتي تتوفر فيها بيانات مرجعية واضحة، لكن "الدقة" ليست مقياسًا واحدًا يمكن الاعتماد عليه بشكل مطلق. فهي لا تتحقق إلا عندما تتوافق المهمة والبيانات والمقياس مع بيئة التشغيل؛ فعندما تتغير المدخلات أو تصبح المهام مفتوحة النهاية، تزداد الأخطاء والتوقعات الخاطئة.

أهم النقاط المستفادة:

ملاءمة المهمة: حدد المهمة بدقة بحيث يمكن اختبار "الصواب" و"الخطأ".

اختيار المقاييس: يجب مطابقة مقاييس التقييم مع النتائج الحقيقية، وليس مع التقاليد أو الراحة.

اختبار الواقع: استخدم بيانات تمثيلية وصاخبة واختبارات إجهاد خارج التوزيع.

المعايرة: قياس ما إذا كانت الثقة تتوافق مع الصحة، وخاصة بالنسبة للعتبات.

مراقبة دورة الحياة: إعادة التقييم باستمرار مع تغير المستخدمين والبيانات والبيئات بمرور الوقت.

مقالات قد ترغب في قراءتها بعد هذه المقالة:

🔗 كيفية تعلم الذكاء الاصطناعي خطوة بخطوة
خارطة طريق سهلة للمبتدئين لبدء تعلم الذكاء الاصطناعي بثقة.

🔗 كيف يكتشف الذكاء الاصطناعي الحالات الشاذة في البيانات
يشرح هذا المقال الأساليب التي يستخدمها الذكاء الاصطناعي لاكتشاف الأنماط غير العادية تلقائيًا.

🔗 لماذا يمكن أن يكون الذكاء الاصطناعي ضاراً بالمجتمع؟
يغطي هذا التأمين مخاطر مثل التحيز، وتأثير ذلك على الوظائف، ومخاوف الخصوصية.

🔗 ما هي مجموعة بيانات الذكاء الاصطناعي ولماذا هي مهمة
يحدد مجموعات البيانات وكيفية تدريب نماذج الذكاء الاصطناعي وتقييمها.

1) إذن... ما مدى دقة الذكاء الاصطناعي؟🧠✅

يمكن أن يكون الذكاء الاصطناعي للغاية في المهام الضيقة والمحددة جيدًا - خاصة عندما تكون "الإجابة الصحيحة" واضحة وسهلة التقييم.

لكن في المهام المفتوحة (وخاصة الذكاء الاصطناعي التوليدي مثل روبوتات الدردشة)، تصبح "الدقة" مراوغة بسرعة لأن:

قد يكون هناك أكثر من إجابة مقبولة
قد يكون الناتج سلساً ولكنه غير قائم على الحقائق
قد يكون النموذج مضبوطاً ليعطي انطباعاً "بالفائدة"، وليس بالضرورة دقة تامة
العالم يتغير، وقد تتخلف الأنظمة عن الواقع

نموذج ذهني مفيد: الدقة ليست خاصية "تمتلكها"، بل هي خاصية "تكتسبها" من خلال مهمة محددة، في بيئة محددة، وباستخدام نظام قياس محدد. ولهذا السبب، تعتبر الإرشادات الجادة التقييم نشاطًا دوريًا، وليس مجرد لحظة عابرة في لوحة النتائج. [1]

2) الدقة ليست شيئًا واحدًا - إنها مجموعة متنوعة من العناصر 👨👩👧👦📏

عندما يقول الناس "الدقة"، فقد يقصدون أيًا من هذه الأشياء (وكثيرًا ما يقصدون اثنين منها في وقت واحد دون أن يدركوا ذلك):

الصواب: هل أنتج التصنيف/الإجابة الصحيحة؟
الدقة مقابل الاستدعاء: هل تجنب الإنذارات الكاذبة، أم أنه رصد كل شيء؟
المعايرة: عندما يقول الجهاز "أنا متأكد بنسبة 90%"، فهل يكون صحيحًا بالفعل بنسبة 90% من الوقت؟ [3]
المتانة: هل لا يزال يعمل عندما تتغير المدخلات قليلاً (ضوضاء، صياغة جديدة، مصادر جديدة، بيانات ديموغرافية جديدة)؟
الموثوقية: هل يتصرف الجهاز بشكل متسق في ظل الظروف المتوقعة؟
الصدق / الواقعية (الذكاء الاصطناعي التوليدي): هل يقوم باختلاق الأشياء (الهلوسة) بنبرة واثقة؟ [2]

ولهذا السبب أيضاً لا تتعامل الأطر التي تركز على الثقة مع "الدقة" كمعيار وحيد. بل تتناول الصلاحية والموثوقية والسلامة والشفافية والمتانة والإنصاف وغيرها كمجموعة متكاملة، لأنه من الممكن "تحسين" أحدها على حساب الآخر عن غير قصد. [1]

3) ما الذي يجعل النسخة جيدة لقياس "مدى دقة الذكاء الاصطناعي"؟ 🧪🔍

إليكم قائمة التحقق "للنسخة الجيدة" (التي يتجاهلها الناس... ثم يندمون عليها لاحقاً):

✅ تحديد واضح للمهمة (أي: جعلها قابلة للاختبار)

كلمة "تلخيص" مبهمة.
"التلخيص في 5 نقاط، وتضمين 3 أرقام محددة من المصدر، وعدم اختلاق الاستشهادات" قابل للاختبار.

✅ بيانات اختبار تمثيلية (أي: توقف عن التصحيح في الوضع السهل)

إذا كانت مجموعة الاختبار الخاصة بك مثالية للغاية، فستبدو الدقة زائفة. أما المستخدمون الحقيقيون فيُظهرون أخطاءً إملائية، وحالات استثنائية غريبة، وطاقة "لقد كتبت هذا على هاتفي في الساعة الثانية صباحًا".

✅ مقياس يتناسب مع المخاطر

إن تصنيف ميم بشكل خاطئ لا يُشبه تصنيف تحذير طبي بشكل خاطئ. لا يتم اختيار المقاييس بناءً على التقاليد، بل بناءً على العواقب. [1]

✅ اختبار خارج نطاق التوزيع (أي: "ماذا يحدث عندما يظهر الواقع؟")

جرّب صياغةً غريبة، ومدخلاتٍ غامضة، ومطالباتٍ مُعارضة، وفئاتٍ جديدة، وفتراتٍ زمنية جديدة. هذا مهم لأن تغيير التوزيع هو طريقة كلاسيكية لفشل النماذج في الإنتاج. [4]

✅ التقييم المستمر (أي أن الدقة ليست ميزة "اضبطها وانساها")

تتغير الأنظمة. يتغير المستخدمون. تتغير البيانات. يتدهور نموذجك "الرائع" بهدوء - ما لم تقم بقياسه باستمرار. [1]

نمط واقعي صغير ستتعرف عليه: غالبًا ما تُصدر الفرق منتجاتها بدقة عرض توضيحية قوية، ثم تكتشف أن سبب فشلها الحقيقي ليس "الإجابات الخاطئة"... بل "تقديم إجابات خاطئة بثقة وعلى نطاق واسع". هذه مشكلة في تصميم التقييم، وليست مجرد مشكلة في النموذج.

4) أين يكون الذكاء الاصطناعي دقيقًا للغاية عادةً (ولماذا) 📈🛠️

يبرز الذكاء الاصطناعي عادةً عندما تكون المشكلة كالتالي:

ضيق
مُصنّف بشكل جيد
مستقر بمرور الوقت
على غرار توزيع التدريب
يسهل تسجيل النقاط تلقائيًا

أمثلة:

تصفية البريد العشوائي
استخراج المستندات بتنسيقات متناسقة
حلقات التصنيف/التوصية مع الكثير من إشارات التغذية الراجعة
العديد من مهام تصنيف الرؤية في بيئات خاضعة للرقابة

القوة الخارقة غير المتكلفة وراء الكثير من هذه الانتصارات: الحقائق الواضحة على أرض الواقع + الكثير من الأمثلة ذات الصلة. ليست براقة - لكنها فعالة للغاية.

5) حيث تتراجع دقة الذكاء الاصطناعي في كثير من الأحيان 😬🧯

هذا هو الجزء الذي يشعر به الناس في أعماقهم.

الهلوسات في الذكاء الاصطناعي التوليدي 🗣️🌪️

يمكن للنماذج منخفضة المستوى أن تنتج يبدو معقولاً ولكنه غير واقعي ، وهذا الجانب "المعقول" هو تحديداً سبب خطورته. وهذا أحد الأسباب التي تجعل إرشادات تقييم مخاطر الذكاء الاصطناعي التوليدي تُولي أهمية كبيرة للتأسيس والتوثيق والقياس بدلاً من العروض التوضيحية القائمة على الانطباعات. [2]

تغيير في التوزيع 🧳➡️🏠

قد يتعثر نموذج مُدرَّب على بيئة معينة في بيئة أخرى: لغة مستخدم مختلفة، وكتالوج منتجات مختلف، ومعايير إقليمية مختلفة، وفترة زمنية مختلفة. وُجدت معايير قياس الأداء مثل WILDS أساسًا لتُشير إلى أن "أداء المنتج المُدرَج قد يُبالغ بشكل كبير في تقدير الأداء الفعلي". [4]

حوافز تكافئ التخمين الواثق 🏆🤥

قد تُكافئ بعض الأنظمة، عن غير قصد، سلوك "الإجابة الدائمة" بدلاً من "الإجابة فقط عند التأكد". لذا، تتعلم الأنظمة أن تبدو صحيحة بدلاً من أن تكون كذلك. ولهذا السبب، يجب أن يشمل التقييم سلوك الامتناع/عدم اليقين، وليس فقط معدل الإجابة الخام. [2]

حوادث واقعية وإخفاقات تشغيلية 🚨

حتى النموذج القوي قد يفشل كنظام: استرجاع بيانات غير دقيق، أو بيانات قديمة، أو خلل في الضوابط، أو سير عمل يتجاوز فحوصات السلامة دون علم المستخدم. تُعرّف الإرشادات الحديثة الدقة كجزء من موثوقية النظام، وليس مجرد تقييم للنموذج. [1]

6) القوة الخارقة التي لا تحظى بالتقدير الكافي: المعايرة (أو ما يُعرف بـ "معرفة ما لا تعرفه") 🎚️🧠

حتى عندما يكون لنموذجين نفس "الدقة"، يمكن أن يكون أحدهما أكثر أمانًا لأنه:

يعبّر عن عدم اليقين بشكل مناسب
يتجنب الإجابات الخاطئة المفرطة في الثقة
يعطي احتمالات تتوافق مع الواقع

لا يقتصر دور المعايرة على الجانب النظري فحسب، بل هو ما يجعل الثقة قابلة للتطبيق. ومن النتائج الكلاسيكية في الشبكات العصبية الحديثة أن درجة الثقة قد لا تتوافق مع الدقة الحقيقية ما لم تتم معايرتها أو قياسها بشكل صريح. [3]

إذا كانت عملية المعالجة الخاصة بك تستخدم عتبات مثل "الموافقة التلقائية فوق 0.9"، فإن المعايرة هي الفرق بين "الأتمتة" و "الفوضى المؤتمتة"

7) كيف يتم تقييم دقة الذكاء الاصطناعي لأنواع الذكاء الاصطناعي المختلفة 🧩📚

بالنسبة لنماذج التنبؤ الكلاسيكية (التصنيف/الانحدار) 📊

المقاييس الشائعة:

الدقة، والضبط، والاستدعاء، F1
ROC-AUC / PR-AUC (غالباً ما يكون أفضل للمشاكل غير المتوازنة)
فحوصات المعايرة (منحنيات الموثوقية، التفكير بأسلوب خطأ المعايرة المتوقع) [3]

لنماذج اللغة والمساعدين 💬

التقييم يصبح متعدد الأبعاد:

الصواب (حيث يكون للمهمة شرط صدق)
اتباع التعليمات
السلامة وسلوك الرفض (من الغريب أن يكون الرفض الجيد صعباً)
الاستناد إلى الحقائق / الانضباط في الاستشهاد (عندما تتطلب حالة الاستخدام ذلك)
متانة عبر مختلف أنواع المطالبات وأنماط المستخدم

من أهم إسهامات التفكير التقييمي "الشامل" هو توضيح هذه النقطة بشكل صريح: أنت بحاجة إلى مقاييس متعددة عبر سيناريوهات متعددة، لأن المفاضلات حقيقية. [5]

للأنظمة المبنية على نماذج التعلم الموجه (سير العمل، والوكلاء، والاسترجاع) 🧰

أنت الآن تقوم بتقييم مسار العمل بأكمله:

جودة الاسترجاع (هل تم جلب المعلومات الصحيحة؟)
منطق الأداة (هل اتبعت العملية؟)
جودة المخرجات (هل هي صحيحة ومفيدة؟)
الضوابط (هل ساهمت في تجنب السلوكيات الخطرة؟)
المراقبة (هل رصدت حالات فشل في الواقع العملي؟) [1]

يمكن أن يؤدي وجود نقطة ضعف في أي مكان إلى جعل النظام بأكمله يبدو "غير دقيق"، حتى لو كان النموذج الأساسي جيدًا.

٨) جدول المقارنة: طرق عملية لتقييم "مدى دقة الذكاء الاصطناعي؟" 🧾⚖️

أداة / نهج	الأفضل لـ	تكلفة الإنتاج	لماذا ينجح؟
مجموعات اختبار حالات الاستخدام	تطبيقات ماجستير القانون + معايير نجاح مخصصة	شبه مجاني	أنت تختبر عملك ، وليس لوحة متصدرين عشوائية.
تغطية سيناريوهات متعددة المقاييس	مقارنة النماذج بمسؤولية	شبه مجاني	ستحصل على "ملف تعريف" للقدرات، وليس رقماً سحرياً واحداً. [5]
عقلية تقييم مخاطر دورة حياة المنتج	أنظمة عالية المخاطر تتطلب دقة	شبه مجاني	يدفعك إلى تحديد وقياس وإدارة ومراقبة الأمور باستمرار. [1]
فحوصات المعايرة	أي نظام يستخدم عتبات الثقة	شبه مجاني	يتحقق مما إذا كانت عبارة "متأكد بنسبة 90%" تعني أي شيء. [3]
لجان مراجعة البشر	السلامة، النبرة، الفروق الدقيقة، "هل هذا يبدو ضارًا؟"	$$	يدرك البشر السياق والضرر الذي تغفله المقاييس الآلية.
مراقبة الحوادث + حلقات التغذية الراجعة	التعلم من إخفاقات العالم الحقيقي	شبه مجاني	الواقع له أدلة - وبيانات الإنتاج تعلمك أسرع من الآراء. [1]

اعتراف بخصوص تنسيق المحتوى: كلمة "مجاني نوعًا ما" هنا تعني الكثير، لأن التكلفة الحقيقية غالبًا ما تكون ساعات العمل، وليس التراخيص 😅

9) كيفية جعل الذكاء الاصطناعي أكثر دقة (أدوات عملية) 🔧✨

بيانات أفضل واختبارات أفضل 📦🧪

توسيع نطاق الحالات الاستثنائية
موازنة السيناريوهات النادرة ولكن الحاسمة
احتفظ بمجموعة "ذهبية" تمثل معاناة المستخدم الحقيقية (واستمر في تحديثها)

أساسيات للمهام الواقعية 📚🔍

إذا كنت بحاجة إلى موثوقية واقعية، فاستخدم أنظمة تستقي المعلومات من وثائق موثوقة وتجيب بناءً عليها. يركز الكثير من التوجيهات المتعلقة بمخاطر الذكاء الاصطناعي التوليدي على التوثيق، ومصدر المعلومات، وإعدادات التقييم التي تقلل من المحتوى المُختلق بدلاً من مجرد الاعتماد على "سلوك" النموذج. [2]

حلقات تقييم أقوى 🔁

قم بإجراء تقييمات على كل تغيير ذي مغزى
راقب حدوث تراجعات
اختبار تحمل الضغط للكشف عن المطالبات الغريبة والمدخلات الضارة

شجع السلوك المتزن 🙏

لا تعاقب بشدة على قول "لا أعرف"
قيّم جودة الامتناع عن المشاركة، وليس فقط معدل الإجابة
تعامل مع الثقة كشيء تقيسه وتتحقق منه، وليس كشيء تقبله بناءً على المشاعر [3]

10) اختبار سريع للثقة: متى يجب أن تثق بدقة الذكاء الاصطناعي؟ 🧭🤔

ثق به أكثر عندما:

المهمة محددة وقابلة للتكرار
يمكن التحقق من المخرجات تلقائيًا
يتم مراقبة النظام وتحديثه
يتم معايرة الثقة، ويمكنها الامتناع [3]

لا تثق به كثيراً عندما:

المخاطر جسيمة والعواقب حقيقية
السؤال مفتوح النهاية ("أخبرني بكل شيء عن...") 😵💫
لا يوجد تأريض، ولا خطوة تحقق، ولا مراجعة بشرية
يتصرف النظام بثقة بشكل افتراضي [2]

استعارة معيبة بعض الشيء: الاعتماد على الذكاء الاصطناعي غير الموثق لاتخاذ قرارات عالية المخاطر يشبه تناول السوشي الذي ظل في الشمس... قد يكون جيدًا، لكن معدتك تخاطر بمقامرة لم تكن تتوقعها.

11) ملاحظات ختامية وملخص سريع 🧃✅

إذن، ما مدى دقة الذكاء الاصطناعي؟
يمكن أن يكون الذكاء الاصطناعي دقيقًا للغاية، ولكن ذلك يعتمد فقط على المهمة المحددة، وطريقة القياس، والبيئة التي يُطبّق فيها. وبالنسبة للذكاء الاصطناعي التوليدي، فإن "الدقة" غالبًا لا تتعلق بنتيجة واحدة بقدر ما تتعلق بتصميم نظام موثوق: التأسيس، والمعايرة، والتغطية، والمراقبة، والتقييم النزيه. [1][2][5]

ملخص سريع 🎯

"الدقة" ليست مجرد درجة واحدة - إنها الصحة، والمعايرة، والمتانة، والموثوقية، و(بالنسبة للذكاء الاصطناعي التوليدي) الصدق. [1][2][3]
تساعد المعايير، لكن تقييم حالات الاستخدام يضمن لك النزاهة. [5]
إذا كنت بحاجة إلى موثوقية واقعية، فأضف خطوات التأسيس والتحقق، بالإضافة إلى تقييم الامتناع. [2]
يُعد تقييم دورة حياة المنتج نهجًا ناضجًا... حتى وإن كان أقل إثارة من لقطة شاشة للوحة المتصدرين. [1]

مثال من الواقع: قياس أداء مساعد فرز الدعم المدعوم بالذكاء الاصطناعي

سيناريو

تخيل أن شركة صغيرة متخصصة في البرمجيات كخدمة (SaaS) ترغب في استخدام الذكاء الاصطناعي لفرز تذاكر الدعم الواردة إلى أربع قوائم انتظار:

الفواتير

مشاكل في تسجيل الدخول

تقارير الأخطاء

طلبات الميزات

الشركة لا للذكاء الاصطناعي بالرد على العملاء مباشرةً. مهمته محددة: قراءة التذكرة، واختيار قائمة الانتظار المناسبة، ومنح درجة ثقة، وتحديد أي شيء غير واضح للمراجعة البشرية.

هذا يجعل اختبار دقة النتائج أسهل بكثير. فهناك قائمة انتظار "صحيحة" واضحة، ويمكن للإنسان مراجعة الأخطاء، ويمكن للفريق قياس ما إذا كان الذكاء الاصطناعي يساعد فعلاً بدلاً من مجرد تقديم نصائح تبدو مفيدة.

ما يحتاجه المساعد

ولإجراء الاختبار المناسب، يقوم الفريق بالتحضير لما يلي:

مجموعة اختبار مصنفة من 100 تذكرة دعم حقيقية أو واقعية

يتم تحديد ترتيب الانتظار الصحيح لكل تذكرة، وذلك بالاتفاق مع مراجع بشري

سياسة موجزة توضح ما يجب وضعه في كل طابور

قاعدة تنص على أنه يجب على المساعد أن يقول "بحاجة إلى مراجعة بشرية" عندما تكون الثقة منخفضة

جدول تتبع بسيط يتضمن: رقم التذكرة، وقائمة انتظار الذكاء الاصطناعي، وقائمة انتظار الموظفين، ودرجة الثقة، ونتيجة المراجعة، والوقت المستغرق

مثال على التعليمات

أنت مساعد فرز الدعم. اقرأ رسالة العميل وقم بتعيينها إلى قائمة انتظار واحدة: الفواتير، مشاكل تسجيل الدخول، تقارير الأخطاء، طلبات الميزات، أو تحتاج إلى مراجعة بشرية.

استخدم نظام الفوترة للفواتير، والمبالغ المستردة، وحالات فشل الدفع، وتغييرات الخطة، وأسئلة الاشتراك.

استخدم قسم مشاكل تسجيل الدخول لإعادة تعيين كلمة المرور، أو الوصول إلى الحساب، أو المصادقة الثنائية، أو الحسابات المقفلة، أو مشاكل التحقق من البريد الإلكتروني.

استخدم تقارير الأخطاء للإبلاغ عن الميزات المعطلة، أو رسائل الخطأ، أو البيانات المفقودة، أو الأعطال، أو السلوك الذي لا يتطابق مع وثائق المنتج.

استخدم طلبات الميزات عندما يطلب العميل إمكانية جديدة، أو تكاملاً، أو إعداداً، أو تحسيناً في سير العمل.

إذا كانت الرسالة غامضة، أو تحتوي على أكثر من مشكلة واحدة، أو قد تؤثر على الأمن أو الخصوصية، فاختر "تحتاج إلى مراجعة بشرية".

القيمة المُعادة: قائمة الانتظار، ومستوى الثقة من 0 إلى 100، وسبب من جملة واحدة، وما إذا كان ينبغي على الإنسان التحقق منه.

كيفية اختباره

ابدأ بمجموعة صغيرة من "الذهبية" قبل الوثوق بالنظام في الإنتاج.

على سبيل المثال:

20 تذكرة فوترة

20 تذكرة تسجيل دخول

20 تقريرًا عن الأخطاء

20 طلبًا للميزات

20 تذكرة متشابكة أو غامضة

ثم قم بتشغيل المساعد على جميع التذاكر المئة وقارن قائمة الانتظار التي اختارها مع قائمة الانتظار التي وافق عليها الإنسان.

تشمل الفحوصات المفيدة ما يلي:

الدقة الإجمالية: كم عدد التذاكر التي وُضعت في الطابور الصحيح؟

الدقة حسب قائمة الانتظار: عندما يقول الذكاء الاصطناعي "الفوترة"، فكم مرة يقوم بالفوترة؟

الاسترجاع حسب قائمة الانتظار: كم عدد تذاكر الفوترة الحقيقية التي تم رصدها؟

جودة التصعيد: هل تم إرسال التذاكر المتشابكة بشكل صحيح إلى المراجعة البشرية؟

المعايرة: عندما ذكرت نسبة ثقة 90% أو أعلى، هل كانت صحيحة في معظم الأوقات؟

نتيجة

نتيجة توضيحية: بناءً على قياس توقيت 100 تذكرة عينة قبل وبعد استخدام سير العمل هذا.

قبل استخدام المساعد، كان مسؤول الدعم يقضي حوالي دقيقتين و30 ثانية في قراءة كل تذكرة وتوجيهها يدويًا. بالنسبة لـ 100 تذكرة، كان ذلك يعادل حوالي 250 دقيقة من العمل الفرزي.

بعد استخدام المساعد، اقتصر دور مسؤول الدعم على مراجعة اختيار الذكاء الاصطناعي لقائمة الانتظار والتحقق من الحالات ذات الثقة المنخفضة. انخفض وقت المراجعة إلى حوالي 55 ثانية لكل تذكرة، أو ما يقارب 92 دقيقة لـ 100 تذكرة.

وهذا يعني توفيرًا يقدر بنحو 158 دقيقة لكل 100 تذكرة، أو حوالي 63% أقل من وقت الفرز.

كانت دقة الاختبار على مجموعة الاختبار الخيالية المكونة من 100 تذكرة على النحو التالي:

دقة قائمة الانتظار الإجمالية: 87/100 تذكرة صحيحة

التذاكر ذات الثقة العالية التي تزيد عن 85%: 61 تذكرة

دقة التذاكر ذات الثقة العالية: 58/61 صحيحة

عدد التذاكر المرسلة للمراجعة البشرية: 18 تذكرة

تمت معالجة التذاكر الغامضة بشكل صحيح: 15/20

لا تكمن الأهمية في دقة 87% فحسب، بل في أن المساعد كان أكثر دقة عندما كان واثقًا من نفسه، وأحال العديد من الحالات غير الواضحة إلى شخص مختص بدلًا من التخمين. هذا هو الفرق بين الأتمتة المفيدة والثقة المفرطة غير المبررة.

ما الذي يمكن أن يحدث خطأً؟

الخطأ الأكثر شيوعًا هو اختبار الأمثلة النظيفة فقط. أما التذاكر الحقيقية فهي معقدة. قد يكتب العميل: "تم خصم المبلغ مني مرتين، والآن لا أستطيع تسجيل الدخول". قد يكون السبب متعلقًا بالفواتير، أو مشاكل في تسجيل الدخول، أو يحتاج إلى مراجعة بشرية، وذلك حسب إجراءات الشركة.

وتشمل المخاطر الأخرى ما يلي:

استخدام التذاكر القديمة التي لم تعد تتطابق مع المنتج

السماح للذكاء الاصطناعي بابتكار قواعد سياسية غير موجودة في دليل الدعم

التعامل مع درجات الثقة على أنها موثوقة دون التحقق من المعايرة

الاكتفاء بقياس الدقة الإجمالية وإغفال الأداء الضعيف في طابور واحد

معاقبة عبارة "بحاجة إلى مراجعة بشرية" بشدة لدرجة أن المساعد يبدأ بالتخمين

ينبغي للاختبار الجيد أن يكافئ التصعيد الصحيح. في العديد من سير العمل التجاري، لا يُعدّ قول "لست متأكدًا" فشلًا، بل هو ميزة أمان.

الخلاصة العملية

أفضل طريقة للإجابة على سؤال "ما مدى دقة الذكاء الاصطناعي؟" هي التوقف عن طرحه بشكل نظري. اختر مهمة واحدة، أنشئ مجموعة اختبار صغيرة، حدد معايير الدقة، قِس الأخطاء حسب الفئة، وتحقق مما إذا كان الذكاء الاصطناعي يعرف متى يُعيد العمل إلى شخص. هذا يُعطيك رقم دقة ملموسًا يُمكنك تحسينه، وليس مجرد نتيجة معيارية مُنمقة.

التعليمات

دقة الذكاء الاصطناعي في التطبيق العملي

يمكن للذكاء الاصطناعي أن يكون دقيقًا للغاية عندما تكون المهمة محددة بدقة، ومرتبطة ببيانات مرجعية واضحة يمكن تقييمها. أما في بيئة الإنتاج، فتعتمد "الدقة" على ما إذا كانت بيانات التقييم تعكس مدخلات المستخدم غير الدقيقة والظروف التي سيواجهها النظام في الواقع. ومع ازدياد انفتاح المهام (مثل روبوتات المحادثة)، تزداد احتمالية حدوث الأخطاء والتوقعات الخاطئة ما لم تُضف آليات للربط والتحقق والمراقبة.

لماذا لا تُعتبر "الدقة" معيارًا واحدًا يُمكن الوثوق به؟

يستخدم الناس مصطلح "الدقة" بمعانٍ مختلفة: الصحة، والضبط مقابل الاستدعاء، والمعايرة، والمتانة، والموثوقية. قد يبدو النموذج ممتازًا على مجموعة اختبار نظيفة، ثم يتعثر عند تغير الصياغة، أو انحراف البيانات، أو تغير المخاطر. يعتمد التقييم القائم على الثقة على مقاييس وسيناريوهات متعددة، بدلًا من اعتبار رقم واحد حكمًا نهائيًا.

أفضل طريقة لقياس دقة الذكاء الاصطناعي في مهمة محددة

ابدأ بتحديد المهمة بدقة بحيث يكون مفهوم "الصواب" و"الخطأ" قابلاً للاختبار، وليس غامضاً. استخدم بيانات اختبار تمثيلية ودقيقة تعكس المستخدمين الحقيقيين والحالات الاستثنائية. اختر مقاييس تتناسب مع العواقب، خاصةً للقرارات غير المتوازنة أو عالية المخاطر. ثم أضف اختبارات ضغط خارج نطاق التوزيع، واستمر في إعادة التقييم بمرور الوقت مع تطور بيئتك.

كيف تؤثر الدقة والاستدعاء على الدقة في الممارسة العملية

تُشير الدقة والاستدعاء إلى تكاليف فشل مختلفة: تُركز الدقة على تجنب الإنذارات الكاذبة، بينما يُركز الاستدعاء على رصد جميع الحالات. عند تصفية البريد العشوائي، قد يكون تفويت بعض الحالات مقبولاً، لكن النتائج الإيجابية الخاطئة قد تُسبب إحباطًا للمستخدمين. في سياقات أخرى، يُعد تفويت الحالات النادرة ولكن الحرجة أكثر أهمية من وجود تنبيهات إضافية. يعتمد التوازن الأمثل على تكلفة "الخطأ" في سير عملك.

ما هي المعايرة، ولماذا هي مهمة للدقة

تتحقق المعايرة من مدى تطابق ثقة النموذج مع الواقع - فعندما يقول "متأكد بنسبة 90%"، هل يكون محقًا في 90% من الحالات؟ هذا الأمر بالغ الأهمية عند تحديد عتبات مثل الموافقة التلقائية أعلى من 0.9. قد يتمتع نموذجان بدقة متقاربة، لكن النموذج الأكثر معايرة يكون أكثر أمانًا لأنه يقلل من الإجابات الخاطئة المفرطة في الثقة ويدعم سلوك الامتناع عن التصويت بشكل أكثر ذكاءً.

دقة الذكاء الاصطناعي التوليدي، وسبب حدوث الهلوسة

يمكن للذكاء الاصطناعي التوليدي إنتاج نصوص سلسة ومقنعة حتى وإن لم تكن مبنية على حقائق. يصعب تحديد دقة هذه النصوص لأن العديد من المطالبات تسمح بإجابات متعددة مقبولة، ويمكن تحسين النماذج لتكون "مفيدة" بدلاً من كونها صحيحة تماماً. تصبح الهلوسة محفوفة بالمخاطر بشكل خاص عندما تأتي المخرجات بثقة عالية. أما في حالات الاستخدام الواقعية، فإن الاستناد إلى وثائق موثوقة بالإضافة إلى خطوات التحقق يساعد في الحد من المحتوى الملفق.

اختبار تحول التوزيع والمدخلات الخارجة عن نطاق التوزيع

قد تُبالغ معايير الأداء المُطبقة في بيئة التوزيع في تقدير الأداء عند تغير الظروف. اختبر النظام باستخدام عبارات غير مألوفة، وأخطاء إملائية، ومدخلات غامضة، وفترات زمنية جديدة، وفئات جديدة لتحديد مواطن الضعف فيه. تعتمد معايير مثل WILDS على هذه الفكرة: قد ينخفض الأداء بشكل حاد عند تغير البيانات. تعامل مع اختبارات التحمل كجزء أساسي من عملية التقييم، وليس كإضافة ثانوية.

تحسين دقة نظام الذكاء الاصطناعي بمرور الوقت

حسّن البيانات والاختبارات بتوسيع نطاق الحالات الاستثنائية، وموازنة السيناريوهات النادرة ولكن الحاسمة، والحفاظ على مجموعة بيانات مرجعية تعكس معاناة المستخدم الحقيقية. بالنسبة للمهام الواقعية، أضف أساسًا متينًا وتحققًا بدلًا من الاعتماد على سلوك النموذج. قم بإجراء تقييم على كل تغيير جوهري، وراقب أي تراجع، واحرص على رصد أي انحراف في بيئة الإنتاج. قيّم أيضًا الامتناع عن الإجابة حتى لا يُعاقب من يقول "لا أعرف" على التخمين بثقة.

مراجع

[1] إطار إدارة مخاطر الذكاء الاصطناعي NIST AI RMF 1.0 (NIST AI 100-1): إطار عملي لتحديد وتقييم وإدارة مخاطر الذكاء الاصطناعي طوال دورة حياته. اقرأ المزيد
[2] ملف تعريف الذكاء الاصطناعي التوليدي NIST (NIST AI 600-1): ملف تعريف مصاحب لإطار إدارة مخاطر الذكاء الاصطناعي، يركز على اعتبارات المخاطر الخاصة بأنظمة الذكاء الاصطناعي التوليدي. اقرأ المزيد
[3] غو وآخرون (2017) - معايرة الشبكات العصبية الحديثة: ورقة بحثية أساسية توضح كيفية حدوث معايرة خاطئة للشبكات العصبية الحديثة، وكيفية تحسين المعايرة. اقرأ المزيد
[4] كوه وآخرون (2021) - معيار WILDS: مجموعة معايير مصممة لاختبار أداء النموذج في ظل تحولات التوزيع في العالم الحقيقي. اقرأ المزيد
[5] ليانغ وآخرون (2023) - HELM (التقييم الشامل لنماذج اللغة): إطار عمل لتقييم نماذج اللغة عبر السيناريوهات والمقاييس للكشف عن المقايضات الحقيقية. اقرأ المزيد

اكتشف أحدث تقنيات الذكاء الاصطناعي في متجر مساعدي الذكاء الاصطناعي الرسمي

معلومات عنا

العودة إلى المدونة