ما مدى دقة الذكاء الاصطناعي؟

ما مدى دقة الذكاء الاصطناعي؟

باختصار: يمكن للذكاء الاصطناعي أن يكون دقيقًا للغاية في المهام المحددة بدقة والتي تتوفر فيها بيانات مرجعية واضحة، لكن "الدقة" ليست مقياسًا واحدًا يمكن الاعتماد عليه بشكل مطلق. فهي لا تتحقق إلا عندما تتوافق المهمة والبيانات والمقياس مع بيئة التشغيل؛ فعندما تتغير المدخلات أو تصبح المهام مفتوحة النهاية، تزداد الأخطاء والتوقعات الخاطئة.

أهم النقاط المستفادة:

ملاءمة المهمة : حدد المهمة بدقة بحيث يمكن اختبار "الصواب" و"الخطأ".

اختيار المقاييس : يجب مطابقة مقاييس التقييم مع النتائج الحقيقية، وليس مع التقاليد أو الراحة.

اختبار الواقع : استخدم بيانات تمثيلية وصاخبة واختبارات إجهاد خارج التوزيع.

المعايرة : قياس ما إذا كانت الثقة تتوافق مع الصحة، وخاصة بالنسبة للعتبات.

مراقبة دورة الحياة : إعادة التقييم باستمرار مع تغير المستخدمين والبيانات والبيئات بمرور الوقت.

مقالات قد ترغب في قراءتها بعد هذه المقالة:

🔗 كيفية تعلم الذكاء الاصطناعي خطوة بخطوة
خارطة طريق سهلة للمبتدئين لبدء تعلم الذكاء الاصطناعي بثقة.

🔗 كيف يكتشف الذكاء الاصطناعي الحالات الشاذة في البيانات
يشرح هذا المقال الأساليب التي يستخدمها الذكاء الاصطناعي لاكتشاف الأنماط غير العادية تلقائيًا.

🔗 لماذا يمكن أن يكون الذكاء الاصطناعي ضاراً بالمجتمع؟
يغطي هذا التأمين مخاطر مثل التحيز، وتأثير ذلك على الوظائف، ومخاوف الخصوصية.

🔗 ما هي مجموعة بيانات الذكاء الاصطناعي ولماذا هي مهمة
يحدد مجموعات البيانات وكيفية تدريب نماذج الذكاء الاصطناعي وتقييمها.


1) إذن... ما مدى دقة الذكاء الاصطناعي؟ 🧠✅

يمكن أن يكون الذكاء الاصطناعي للغاية في المهام الضيقة والمحددة جيدًا - خاصة عندما تكون "الإجابة الصحيحة" واضحة وسهلة التقييم.

لكن في المهام المفتوحة (وخاصة الذكاء الاصطناعي التوليدي مثل روبوتات الدردشة)، تصبح "الدقة" مراوغة بسرعة لأن:

  • قد يكون هناك أكثر من إجابة مقبولة

  • قد يكون الناتج سلساً ولكنه غير قائم على الحقائق

  • قد يكون النموذج مضبوطاً ليعطي انطباعاً "بالفائدة"، وليس بالضرورة دقة تامة

  • العالم يتغير، وقد تتخلف الأنظمة عن الواقع

نموذج ذهني مفيد: الدقة ليست خاصية "تمتلكها"، بل هي خاصية "تكتسبها" من خلال مهمة محددة، في بيئة محددة، وباستخدام نظام قياس محدد . ولهذا السبب، تعتبر الإرشادات الجادة التقييم نشاطًا دوريًا، وليس مجرد لحظة عابرة في لوحة النتائج. [1]

 

دقة الذكاء الاصطناعي

2) الدقة ليست شيئًا واحدًا - إنها مجموعة متنوعة من العناصر 👨👩👧👦📏

عندما يقول الناس "الدقة"، فقد يقصدون أيًا من هذه الأشياء (وكثيرًا ما يقصدون اثنين منها في وقت واحد دون أن يدركوا ذلك):

  • الصواب : هل أنتج التصنيف/الإجابة الصحيحة؟

  • الدقة مقابل الاستدعاء : هل تجنب الإنذارات الكاذبة، أم أنه رصد كل شيء؟

  • المعايرة : عندما يقول الجهاز "أنا متأكد بنسبة 90%"، فهل يكون صحيحًا بالفعل بنسبة 90% من الوقت؟ [3]

  • المتانة : هل لا يزال يعمل عندما تتغير المدخلات قليلاً (ضوضاء، صياغة جديدة، مصادر جديدة، بيانات ديموغرافية جديدة)؟

  • الموثوقية : هل يتصرف الجهاز بشكل متسق في ظل الظروف المتوقعة؟

  • الصدق / الواقعية (الذكاء الاصطناعي التوليدي): هل يقوم باختلاق الأشياء (الهلوسة) بنبرة واثقة؟ [2]

ولهذا السبب أيضاً لا تتعامل الأطر التي تركز على الثقة مع "الدقة" كمعيار وحيد. بل تتناول الصلاحية والموثوقية والسلامة والشفافية والمتانة والإنصاف وغيرها كمجموعة متكاملة، لأنه من الممكن "تحسين" أحدها على حساب الآخر عن غير قصد. [1]


3) ما الذي يجعل النسخة جيدة لقياس "مدى دقة الذكاء الاصطناعي"؟ 🧪🔍

إليكم قائمة التحقق "للنسخة الجيدة" (التي يتجاهلها الناس... ثم يندمون عليها لاحقاً):

✅ تحديد واضح للمهمة (أي: جعلها قابلة للاختبار)

  • كلمة "تلخيص" مبهمة.

  • "التلخيص في 5 نقاط، وتضمين 3 أرقام محددة من المصدر، وعدم اختلاق الاستشهادات" قابل للاختبار.

✅ بيانات اختبار تمثيلية (أي: توقف عن التصحيح في الوضع السهل)

إذا كانت مجموعة الاختبار الخاصة بك مثالية للغاية، فستبدو الدقة زائفة. أما المستخدمون الحقيقيون فيُظهرون أخطاءً إملائية، وحالات استثنائية غريبة، وطاقة "لقد كتبت هذا على هاتفي في الساعة الثانية صباحًا".

✅ مقياس يتناسب مع المخاطر

إن تصنيف ميم بشكل خاطئ لا يُشبه تصنيف تحذير طبي بشكل خاطئ. لا يتم اختيار المقاييس بناءً على التقاليد، بل بناءً على العواقب. [1]

✅ اختبار خارج نطاق التوزيع (أي: "ماذا يحدث عندما يظهر الواقع؟")

جرّب صياغةً غريبة، ومدخلاتٍ غامضة، ومطالباتٍ مُعارضة، وفئاتٍ جديدة، وفتراتٍ زمنية جديدة. هذا مهم لأن تغيير التوزيع هو طريقة كلاسيكية لفشل النماذج في الإنتاج. [4]

✅ التقييم المستمر (أي أن الدقة ليست ميزة "اضبطها وانساها")

تتغير الأنظمة. يتغير المستخدمون. تتغير البيانات. يتدهور نموذجك "الرائع" بهدوء - ما لم تقم بقياسه باستمرار. [1]

نمط واقعي صغير ستتعرف عليه: غالبًا ما تُصدر الفرق منتجاتها بدقة عرض توضيحية قوية، ثم تكتشف أن سبب فشلها الحقيقي ليس "الإجابات الخاطئة"... بل "تقديم إجابات خاطئة بثقة وعلى نطاق واسع". هذه مشكلة في تصميم التقييم، وليست مجرد مشكلة في النموذج.


4) أين يكون الذكاء الاصطناعي دقيقًا للغاية عادةً (ولماذا) 📈🛠️

يبرز الذكاء الاصطناعي عادةً عندما تكون المشكلة كالتالي:

  • ضيق

  • مُصنّف بشكل جيد

  • مستقر بمرور الوقت

  • على غرار توزيع التدريب

  • يسهل تسجيل النقاط تلقائيًا

أمثلة:

  • تصفية البريد العشوائي

  • استخراج المستندات بتنسيقات متناسقة

  • حلقات التصنيف/التوصية مع الكثير من إشارات التغذية الراجعة

  • العديد من مهام تصنيف الرؤية في بيئات خاضعة للرقابة

القوة الخارقة غير المتكلفة وراء الكثير من هذه الانتصارات: الحقائق الواضحة على أرض الواقع + الكثير من الأمثلة ذات الصلة . ليست براقة - لكنها فعالة للغاية.


5) حيث تتراجع دقة الذكاء الاصطناعي في كثير من الأحيان 😬🧯

هذا هو الجزء الذي يشعر به الناس في أعماقهم.

الهلوسات في الذكاء الاصطناعي التوليدي 🗣️🌪️

يمكن للنماذج منخفضة المستوى أن تنتج يبدو معقولاً ولكنه غير واقعي ، وهذا الجانب "المعقول" هو تحديداً سبب خطورته. وهذا أحد الأسباب التي تجعل إرشادات تقييم مخاطر الذكاء الاصطناعي التوليدي تُولي أهمية كبيرة للتأسيس والتوثيق والقياس بدلاً من العروض التوضيحية القائمة على الانطباعات. [2]

تغيير في التوزيع 🧳➡️🏠

قد يتعثر نموذج مُدرَّب على بيئة معينة في بيئة أخرى: لغة مستخدم مختلفة، وكتالوج منتجات مختلف، ومعايير إقليمية مختلفة، وفترة زمنية مختلفة. وُجدت معايير قياس الأداء مثل WILDS أساسًا لتُشير إلى أن "أداء المنتج المُدرَج قد يُبالغ بشكل كبير في تقدير الأداء الفعلي". [4]

حوافز تكافئ التخمين الواثق 🏆🤥

قد تُكافئ بعض الأنظمة، عن غير قصد، سلوك "الإجابة الدائمة" بدلاً من "الإجابة فقط عند التأكد". لذا، تتعلم الأنظمة أن تبدو صحيحة بدلاً من أن تكون كذلك. ولهذا السبب، يجب أن يشمل التقييم سلوك الامتناع/عدم اليقين، وليس فقط معدل الإجابة الخام. [2]

حوادث واقعية وإخفاقات تشغيلية 🚨

حتى النموذج القوي قد يفشل كنظام: استرجاع بيانات غير دقيق، أو بيانات قديمة، أو خلل في الضوابط، أو سير عمل يتجاوز فحوصات السلامة دون علم المستخدم. تُعرّف الإرشادات الحديثة الدقة كجزء من موثوقية النظام ، وليس مجرد تقييم للنموذج. [1]


6) القوة الخارقة التي لا تحظى بالتقدير الكافي: المعايرة (أو ما يُعرف بـ "معرفة ما لا تعرفه") 🎚️🧠

حتى عندما يكون لنموذجين نفس "الدقة"، يمكن أن يكون أحدهما أكثر أمانًا لأنه:

  • يعبّر عن عدم اليقين بشكل مناسب

  • يتجنب الإجابات الخاطئة المفرطة في الثقة

  • يعطي احتمالات تتوافق مع الواقع

لا يقتصر دور المعايرة على الجانب النظري فحسب، بل هو ما يجعل الثقة قابلة للتطبيق . ومن النتائج الكلاسيكية في الشبكات العصبية الحديثة أن درجة الثقة قد لا تتوافق مع الدقة الحقيقية ما لم تتم معايرتها أو قياسها بشكل صريح. [3]

إذا كانت عملية المعالجة الخاصة بك تستخدم عتبات مثل "الموافقة التلقائية فوق 0.9"، فإن المعايرة هي الفرق بين "الأتمتة" و "الفوضى المؤتمتة"


7) كيف يتم تقييم دقة الذكاء الاصطناعي لأنواع الذكاء الاصطناعي المختلفة 🧩📚

بالنسبة لنماذج التنبؤ الكلاسيكية (التصنيف/الانحدار) 📊

المقاييس الشائعة:

  • الدقة، والضبط، والاستدعاء، F1

  • ROC-AUC / PR-AUC (غالباً ما يكون أفضل للمشاكل غير المتوازنة)

  • فحوصات المعايرة (منحنيات الموثوقية، التفكير بأسلوب خطأ المعايرة المتوقع) [3]

لنماذج اللغة والمساعدين 💬

التقييم يصبح متعدد الأبعاد:

  • الصواب (حيث يكون للمهمة شرط صدق)

  • اتباع التعليمات

  • السلامة وسلوك الرفض (من الغريب أن يكون الرفض الجيد صعباً)

  • الاستناد إلى الحقائق / الانضباط في الاستشهاد (عندما تتطلب حالة الاستخدام ذلك)

  • متانة عبر مختلف أنواع المطالبات وأنماط المستخدم

من أهم إسهامات التفكير التقييمي "الشامل" هو توضيح هذه النقطة بشكل صريح: أنت بحاجة إلى مقاييس متعددة عبر سيناريوهات متعددة، لأن المفاضلات حقيقية. [5]

للأنظمة المبنية على نماذج التعلم الموجه (سير العمل، والوكلاء، والاسترجاع) 🧰

أنت الآن تقوم بتقييم مسار العمل بأكمله:

  • جودة الاسترجاع (هل تم جلب المعلومات الصحيحة؟)

  • منطق الأداة (هل اتبعت العملية؟)

  • جودة المخرجات (هل هي صحيحة ومفيدة؟)

  • الضوابط (هل ساهمت في تجنب السلوكيات الخطرة؟)

  • المراقبة (هل رصدت حالات فشل في الواقع العملي؟) [1]

يمكن أن يؤدي وجود نقطة ضعف في أي مكان إلى جعل النظام بأكمله يبدو "غير دقيق"، حتى لو كان النموذج الأساسي جيدًا.


٨) جدول المقارنة: طرق عملية لتقييم "مدى دقة الذكاء الاصطناعي؟" 🧾⚖️

أداة / نهج الأفضل لـ تكلفة الإنتاج لماذا ينجح؟
مجموعات اختبار حالات الاستخدام تطبيقات ماجستير القانون + معايير نجاح مخصصة شبه مجاني أنت تختبر عملك ، وليس لوحة متصدرين عشوائية.
تغطية سيناريوهات متعددة المقاييس مقارنة النماذج بمسؤولية شبه مجاني ستحصل على "ملف تعريف" للقدرات، وليس رقماً سحرياً واحداً. [5]
عقلية تقييم مخاطر دورة حياة المنتج أنظمة عالية المخاطر تتطلب دقة شبه مجاني يدفعك إلى تحديد وقياس وإدارة ومراقبة الأمور باستمرار. [1]
فحوصات المعايرة أي نظام يستخدم عتبات الثقة شبه مجاني يتحقق مما إذا كانت عبارة "متأكد بنسبة 90%" تعني أي شيء. [3]
لجان مراجعة البشر السلامة، النبرة، الفروق الدقيقة، "هل هذا يبدو ضارًا؟" $$ يدرك البشر السياق والضرر الذي تغفله المقاييس الآلية.
مراقبة الحوادث + حلقات التغذية الراجعة التعلم من إخفاقات العالم الحقيقي شبه مجاني الواقع له أدلة - وبيانات الإنتاج تعلمك أسرع من الآراء. [1]

اعتراف بخصوص تنسيق المحتوى: كلمة "مجاني نوعًا ما" هنا تعني الكثير، لأن التكلفة الحقيقية غالبًا ما تكون ساعات العمل، وليس التراخيص 😅


9) كيفية جعل الذكاء الاصطناعي أكثر دقة (أدوات عملية) 🔧✨

بيانات أفضل واختبارات أفضل 📦🧪

  • توسيع نطاق الحالات الاستثنائية

  • موازنة السيناريوهات النادرة ولكن الحاسمة

  • احتفظ بمجموعة "ذهبية" تمثل معاناة المستخدم الحقيقية (واستمر في تحديثها)

أساسيات للمهام الواقعية 📚🔍

إذا كنت بحاجة إلى موثوقية واقعية، فاستخدم أنظمة تستقي المعلومات من وثائق موثوقة وتجيب بناءً عليها. يركز الكثير من التوجيهات المتعلقة بمخاطر الذكاء الاصطناعي التوليدي على التوثيق، ومصدر المعلومات، وإعدادات التقييم التي تقلل من المحتوى المُختلق بدلاً من مجرد الاعتماد على "سلوك" النموذج. [2]

حلقات تقييم أقوى 🔁

  • قم بإجراء تقييمات على كل تغيير ذي مغزى

  • راقب حدوث تراجعات

  • اختبار تحمل الضغط للكشف عن المطالبات الغريبة والمدخلات الضارة

شجع السلوك المتزن 🙏

  • لا تعاقب بشدة على قول "لا أعرف"

  • قيّم جودة الامتناع عن المشاركة، وليس فقط معدل الإجابة

  • تعامل مع الثقة كشيء تقيسه وتتحقق منه ، وليس كشيء تقبله بناءً على المشاعر [3]


10) اختبار سريع للثقة: متى يجب أن تثق بدقة الذكاء الاصطناعي؟ 🧭🤔

ثق به أكثر عندما:

  • المهمة محددة وقابلة للتكرار

  • يمكن التحقق من المخرجات تلقائيًا

  • يتم مراقبة النظام وتحديثه

  • يتم معايرة الثقة، ويمكنها الامتناع [3]

لا تثق به كثيراً عندما:

  • المخاطر جسيمة والعواقب حقيقية

  • السؤال مفتوح النهاية ("أخبرني بكل شيء عن...") 😵💫

  • لا يوجد تأريض، ولا خطوة تحقق، ولا مراجعة بشرية

  • يتصرف النظام بثقة بشكل افتراضي [2]

استعارة معيبة بعض الشيء: الاعتماد على الذكاء الاصطناعي غير الموثق لاتخاذ قرارات عالية المخاطر يشبه تناول السوشي الذي ظل في الشمس... قد يكون جيدًا، لكن معدتك تخاطر بمقامرة لم تكن تتوقعها.


11) ملاحظات ختامية وملخص سريع 🧃✅

إذن، ما مدى دقة الذكاء الاصطناعي؟
يمكن أن يكون الذكاء الاصطناعي دقيقًا للغاية، ولكن ذلك يعتمد فقط على المهمة المحددة، وطريقة القياس، والبيئة التي يُطبّق فيها . وبالنسبة للذكاء الاصطناعي التوليدي، فإن "الدقة" غالبًا لا تتعلق بنتيجة واحدة بقدر ما تتعلق بتصميم نظام موثوق : التأسيس، والمعايرة، والتغطية، والمراقبة، والتقييم النزيه. [1][2][5]

ملخص سريع 🎯

  • "الدقة" ليست مجرد درجة واحدة - إنها الصحة، والمعايرة، والمتانة، والموثوقية، و(بالنسبة للذكاء الاصطناعي التوليدي) الصدق. [1][2][3]

  • تساعد المعايير، لكن تقييم حالات الاستخدام يضمن لك النزاهة. [5]

  • إذا كنت بحاجة إلى موثوقية واقعية، فأضف خطوات التأسيس والتحقق، بالإضافة إلى تقييم الامتناع. [2]

  • يُعد تقييم دورة حياة المنتج نهجًا ناضجًا... حتى وإن كان أقل إثارة من لقطة شاشة للوحة المتصدرين. [1]


التعليمات

دقة الذكاء الاصطناعي في التطبيق العملي

يمكن للذكاء الاصطناعي أن يكون دقيقًا للغاية عندما تكون المهمة محددة بدقة، ومرتبطة ببيانات مرجعية واضحة يمكن تقييمها. أما في بيئة الإنتاج، فتعتمد "الدقة" على ما إذا كانت بيانات التقييم تعكس مدخلات المستخدم غير الدقيقة والظروف التي سيواجهها النظام في الواقع. ومع ازدياد انفتاح المهام (مثل روبوتات المحادثة)، تزداد احتمالية حدوث الأخطاء والتوقعات الخاطئة ما لم تُضف آليات للربط والتحقق والمراقبة.

لماذا لا تُعتبر "الدقة" معيارًا واحدًا يُمكن الوثوق به؟

يستخدم الناس مصطلح "الدقة" بمعانٍ مختلفة: الصحة، والضبط مقابل الاستدعاء، والمعايرة، والمتانة، والموثوقية. قد يبدو النموذج ممتازًا على مجموعة اختبار نظيفة، ثم يتعثر عند تغير الصياغة، أو انحراف البيانات، أو تغير المخاطر. يعتمد التقييم القائم على الثقة على مقاييس وسيناريوهات متعددة، بدلًا من اعتبار رقم واحد حكمًا نهائيًا.

أفضل طريقة لقياس دقة الذكاء الاصطناعي في مهمة محددة

ابدأ بتحديد المهمة بدقة بحيث يكون مفهوم "الصواب" و"الخطأ" قابلاً للاختبار، وليس غامضاً. استخدم بيانات اختبار تمثيلية ودقيقة تعكس المستخدمين الحقيقيين والحالات الاستثنائية. اختر مقاييس تتناسب مع العواقب، خاصةً للقرارات غير المتوازنة أو عالية المخاطر. ثم أضف اختبارات ضغط خارج نطاق التوزيع، واستمر في إعادة التقييم بمرور الوقت مع تطور بيئتك.

كيف تؤثر الدقة والاستدعاء على الدقة في الممارسة العملية

تُشير الدقة والاستدعاء إلى تكاليف فشل مختلفة: تُركز الدقة على تجنب الإنذارات الكاذبة، بينما يُركز الاستدعاء على رصد جميع الحالات. عند تصفية البريد العشوائي، قد يكون تفويت بعض الحالات مقبولاً، لكن النتائج الإيجابية الخاطئة قد تُسبب إحباطًا للمستخدمين. في سياقات أخرى، يُعد تفويت الحالات النادرة ولكن الحرجة أكثر أهمية من وجود تنبيهات إضافية. يعتمد التوازن الأمثل على تكلفة "الخطأ" في سير عملك.

ما هي المعايرة، ولماذا هي مهمة للدقة

تتحقق المعايرة من مدى تطابق ثقة النموذج مع الواقع - فعندما يقول "متأكد بنسبة 90%"، هل يكون محقًا في 90% من الحالات؟ هذا الأمر بالغ الأهمية عند تحديد عتبات مثل الموافقة التلقائية أعلى من 0.9. قد يتمتع نموذجان بدقة متقاربة، لكن النموذج الأكثر معايرة يكون أكثر أمانًا لأنه يقلل من الإجابات الخاطئة المفرطة في الثقة ويدعم سلوك الامتناع عن التصويت بشكل أكثر ذكاءً.

دقة الذكاء الاصطناعي التوليدي، وسبب حدوث الهلوسة

يمكن للذكاء الاصطناعي التوليدي إنتاج نصوص سلسة ومقنعة حتى وإن لم تكن مبنية على حقائق. يصعب تحديد دقة هذه النصوص لأن العديد من المطالبات تسمح بإجابات متعددة مقبولة، ويمكن تحسين النماذج لتكون "مفيدة" بدلاً من كونها صحيحة تماماً. تصبح الهلوسة محفوفة بالمخاطر بشكل خاص عندما تأتي المخرجات بثقة عالية. أما في حالات الاستخدام الواقعية، فإن الاستناد إلى وثائق موثوقة بالإضافة إلى خطوات التحقق يساعد في الحد من المحتوى الملفق.

اختبار تحول التوزيع والمدخلات الخارجة عن نطاق التوزيع

قد تُبالغ معايير الأداء المُطبقة في بيئة التوزيع في تقدير الأداء عند تغير الظروف. اختبر النظام باستخدام عبارات غير مألوفة، وأخطاء إملائية، ومدخلات غامضة، وفترات زمنية جديدة، وفئات جديدة لتحديد مواطن الضعف فيه. تعتمد معايير مثل WILDS على هذه الفكرة: قد ينخفض ​​الأداء بشكل حاد عند تغير البيانات. تعامل مع اختبارات التحمل كجزء أساسي من عملية التقييم، وليس كإضافة ثانوية.

تحسين دقة نظام الذكاء الاصطناعي بمرور الوقت

حسّن البيانات والاختبارات بتوسيع نطاق الحالات الاستثنائية، وموازنة السيناريوهات النادرة ولكن الحاسمة، والحفاظ على مجموعة بيانات مرجعية تعكس معاناة المستخدم الحقيقية. بالنسبة للمهام الواقعية، أضف أساسًا متينًا وتحققًا بدلًا من الاعتماد على سلوك النموذج. قم بإجراء تقييم على كل تغيير جوهري، وراقب أي تراجع، واحرص على رصد أي انحراف في بيئة الإنتاج. قيّم أيضًا الامتناع عن الإجابة حتى لا يُعاقب من يقول "لا أعرف" على التخمين بثقة.

مراجع

[1] إطار إدارة مخاطر الذكاء الاصطناعي NIST AI RMF 1.0 (NIST AI 100-1): إطار عملي لتحديد وتقييم وإدارة مخاطر الذكاء الاصطناعي طوال دورة حياته. اقرأ المزيد
[2] ملف تعريف الذكاء الاصطناعي التوليدي NIST (NIST AI 600-1): ملف تعريف مصاحب لإطار إدارة مخاطر الذكاء الاصطناعي، يركز على اعتبارات المخاطر الخاصة بأنظمة الذكاء الاصطناعي التوليدي. اقرأ المزيد
[3] غو وآخرون (2017) - معايرة الشبكات العصبية الحديثة: ورقة بحثية أساسية توضح كيفية حدوث معايرة خاطئة للشبكات العصبية الحديثة، وكيفية تحسين المعايرة. اقرأ المزيد
[4] كوه وآخرون (2021) - معيار WILDS: مجموعة معايير مصممة لاختبار أداء النموذج في ظل تحولات التوزيع في العالم الحقيقي. اقرأ المزيد
[5] ليانغ وآخرون (2023) - HELM (التقييم الشامل لنماذج اللغة): إطار عمل لتقييم نماذج اللغة عبر السيناريوهات والمقاييس للكشف عن المقايضات الحقيقية. اقرأ المزيد

اكتشف أحدث تقنيات الذكاء الاصطناعي في متجر مساعدي الذكاء الاصطناعي الرسمي

معلومات عنا

العودة إلى المدونة