ما هي رؤية الحاسوب في الذكاء الاصطناعي؟

إذا سبق لك أن فتحت هاتفك بوجهك، أو مسحت إيصالًا ضوئيًا، أو حدقت في كاميرا الدفع الذاتي متسائلًا عما إذا كانت تُقيّم ثمرة الأفوكادو خاصتك، فقد صادفتَ تقنية رؤية الحاسوب. ببساطة، رؤية الحاسوب في الذكاء الاصطناعي هي كيف تتعلم الآلات رؤية وفهمها التقنية وحدات البكسل المُشوشة إلى إجراءات عملية. وفي أسوأ حالاتها، تُخمّن وتتردد. دعونا نتعمق في هذا الموضوع.

مقالات قد ترغب في قراءتها بعد هذه المقالة:

🔗 ما هو التحيز في الذكاء الاصطناعي؟
كيف يتشكل التحيز في أنظمة الذكاء الاصطناعي؟ وما هي طرق اكتشافه والحد منه؟

🔗 ما هو الذكاء الاصطناعي التنبؤي؟
كيف يستخدم الذكاء الاصطناعي التنبؤي البيانات لتوقع الاتجاهات والنتائج؟

🔗 ما هو مدرب الذكاء الاصطناعي؟
المسؤوليات والمهارات والأدوات التي يستخدمها المحترفون الذين يدربون الذكاء الاصطناعي.

🔗 ما هي منصة جوجل فيرتكس للذكاء الاصطناعي؟
نظرة عامة على منصة جوجل الموحدة للذكاء الاصطناعي لبناء ونشر النماذج.

ما هي رؤية الحاسوب في الذكاء الاصطناعي تحديداً؟ 📸

رؤية الحاسوب في الذكاء الاصطناعي هي فرع من فروع الذكاء الاصطناعي يُعنى بتعليم الحواسيب كيفية تفسير البيانات المرئية وفهمها. إنها المسار الذي يحوّل وحدات البكسل الخام إلى معنى مُهيكل: "هذه إشارة توقف"، "هؤلاء مشاة"، "اللحام معيب"، "إجمالي الفاتورة هنا". وتشمل مهامًا مثل التصنيف، والكشف، والتجزئة، والتتبع، وتقدير العمق، والتعرف الضوئي على الأحرف، وغيرها، والتي تُربط معًا بواسطة نماذج تعلم الأنماط. يمتد هذا المجال النظري من الهندسة الكلاسيكية إلى التعلم العميق الحديث، مع أدلة عملية يُمكن نسخها وتعديلها. [1]

قصة قصيرة: تخيل خط تعبئة مزود بكاميرا متواضعة بدقة 720 بكسل. يقوم كاشف خفيف الوزن برصد الأغطية، ويتأكد جهاز تتبع بسيط من محاذاتها لخمس لقطات متتالية قبل إعطاء الضوء الأخضر للزجاجة. ليس نظامًا متطورًا، ولكنه رخيص وسريع، ويقلل من الحاجة إلى إعادة العمل.

ما الذي يجعل رؤية الحاسوب مفيدة في مجال الذكاء الاصطناعي؟ ✅

تدفق الإشارة إلى الإجراء: تتحول المدخلات المرئية إلى مخرجات قابلة للتنفيذ. لوحة تحكم أقل، وقرارات أكثر.
التعميم: باستخدام البيانات الصحيحة، يمكن لنموذج واحد التعامل مع مجموعة واسعة من الصور. ليس بشكل مثالي، ولكن في بعض الأحيان يكون أداؤه مذهلاً.
الاستفادة من البيانات: الكاميرات رخيصة ومتوفرة في كل مكان. تحوّل تقنية الرؤية هذا الكم الهائل من البكسلات إلى معلومات قيّمة.
السرعة: يمكن للنماذج معالجة الإطارات في الوقت الفعلي على أجهزة متواضعة - أو في وقت شبه فعلي، اعتمادًا على المهمة والدقة.
قابلية التركيب: ربط الخطوات البسيطة في أنظمة موثوقة: الكشف ← التتبع ← مراقبة الجودة.
النظام البيئي: الأدوات، والنماذج المدربة مسبقًا، والمعايير، ودعم المجتمع - سوق واسع من التعليمات البرمجية.

لنكن صريحين، السر ليس سراً: بيانات جيدة، تقييم دقيق، تطبيق مدروس. أما الباقي فهو ممارسة... وربما فنجان قهوة. ☕

كيف رؤية الحاسوب في الذكاء الاصطناعي ، ضمن مسار عمل واحد متكامل 🧪

التقاط الصور:
الكاميرات، الماسحات الضوئية، الطائرات المسيّرة، الهواتف. اختر نوع المستشعر، والتعريض، والعدسة، ومعدل الإطارات بعناية. تجنب إدخال بيانات غير ضرورية، وما إلى ذلك.
المعالجة المسبقة:
تغيير الحجم، والقص، والتطبيع، وإزالة التشويش أو الضوضاء حسب الحاجة. أحيانًا يُحدث تعديل بسيط في التباين فرقًا كبيرًا. [4]
التصنيفات ومجموعات البيانات:
مربعات الإحاطة، والمضلعات، والنقاط الرئيسية، ونطاقات النصوص. تصنيفات متوازنة وممثلة - وإلا سيتعلم نموذجك عادات غير متوازنة.
النمذجة
- التصنيف: "أي فئة؟"
- الكشف: "أين توجد الأشياء؟"
- التجزئة: "أي البكسلات تنتمي إلى أي شيء؟"
- النقاط الرئيسية والوضعية: "أين توجد المفاصل أو المعالم؟"
- التعرف الضوئي على الأحرف: "ما النص الموجود في الصورة؟"
- العمق والأبعاد الثلاثية: "ما مدى بُعد كل شيء؟"
  تختلف البنى، لكن الشبكات الالتفافية ونماذج المحولات هي السائدة. [1]
التدريبية
، وضبط المعلمات الفائقة، والتنظيم، والتوسيع. توقف مبكراً قبل أن تحفظ الخلفية عن ظهر قلب.
في التقييم
مقاييس مناسبة للمهمة مثل mAP و IoU و F1 و CER/WER للتعرف الضوئي على الأحرف. لا تنتقي المقاييس بشكل انتقائي. قارن بشكل عادل. [3]
النشر
بما يتناسب مع الهدف: مهام المعالجة الدفعية السحابية، والاستدلال على الجهاز، وخوادم الحافة. مراقبة الانحراف. إعادة التدريب عند حدوث تغييرات في البيئة.

أحدثت الشبكات العميقة قفزة نوعية بمجرد أن وصلت مجموعات البيانات الضخمة وقدرات الحوسبة إلى حدها الحرج. وقد جعلت معايير مثل تحدي ImageNet هذا التقدم واضحًا ومستمرًا. [2]

المهام الأساسية التي ستستخدمها فعلياً (ومتى) 🧩

تصنيف الصور: تصنيف واحد لكل صورة. يُستخدم للتصفية السريعة، أو الفرز، أو معايير الجودة.
الكشف عن الأجسام: الصناديق المحيطة بالأشياء. منع الخسائر في قطاع التجزئة، والكشف عن المركبات، وإحصاء الحيوانات البرية.
تجزئة الصور: صور ظلية دقيقة بالبكسل لكل كائن. عيوب التصنيع، الأدوات الجراحية، التكنولوجيا الزراعية.
التجزئة الدلالية: تصنيف كل بكسل دون فصل الحالات. مشاهد الطرق الحضرية، الغطاء الأرضي.
الكشف عن النقاط الرئيسية وتحديد الوضعية: المفاصل، المعالم، ملامح الوجه. تحليلات رياضية، بيئة العمل، الواقع المعزز.
التتبع: متابعة الأشياء بمرور الوقت. الخدمات اللوجستية، المرور، الأمن.
التعرف الضوئي على الأحرف والذكاء الاصطناعي للمستندات: استخراج النصوص وتحليل التنسيق. الفواتير، الإيصالات، النماذج.
العمق والأبعاد الثلاثية: إعادة البناء من مناظر متعددة أو إشارات أحادية. الروبوتات، الواقع المعزز، رسم الخرائط.
الترجمة المرئية: تلخيص المشاهد بلغة طبيعية. إمكانية الوصول، البحث.
نماذج اللغة البصرية: الاستدلال متعدد الوسائط، الرؤية المعززة بالاسترجاع، ضمان الجودة القائم على البيانات.

نظام صغير وفعّال: في المتاجر، يكشف جهاز عن المنتجات المفقودة على الرفوف؛ ويمنع نظام التتبع التكرار أثناء إعادة تعبئة الموظفين؛ وقاعدة بسيطة تُحيل المنتجات ذات الجودة المنخفضة إلى مراجعة بشرية. إنه نظام متناغم يعمل بكفاءة عالية.

جدول مقارنة: أدوات للشحن بشكل أسرع 🧰

غريب بعض الشيء عن قصد. نعم، التباعد غريب - أعلم ذلك.

أداة / إطار عمل	الأفضل لـ	الترخيص/السعر	لماذا ينجح ذلك عملياً؟
OpenCV	المعالجة المسبقة، التحقق من صحة الصور الكلاسيكي، إثباتات المفهوم السريعة	مجاني - مفتوح المصدر	مجموعة أدوات ضخمة، وواجهات برمجة تطبيقات مستقرة، ومجربة في الميدان؛ أحيانًا كل ما تحتاجه. [4]
بايتورش	تدريب ملائم للبحث	حر	رسوم بيانية ديناميكية، نظام بيئي ضخم، العديد من الدروس التعليمية.
TensorFlow/Keras	الإنتاج على نطاق واسع	حر	خيارات تقديم مناسبة للبالغين، ومناسبة للهواتف المحمولة والأجهزة اللوحية أيضاً.
ألتراليتكس يولو	اكتشاف سريع للأجسام	إضافات مجانية ومدفوعة	حلقة تدريب سهلة، سرعة ودقة تنافسية، تصميم مميز ولكنه مريح.
Detectron2 / MMDetection	خطوط أساسية قوية، تجزئة	حر	نماذج مرجعية ذات نتائج قابلة للتكرار.
بيئة تشغيل OpenVINO / ONNX	تحسين الاستدلال	حر	قلل زمن الاستجابة، وانشر على نطاق واسع دون إعادة كتابة.
تيسيراكت	التعرف الضوئي على الأحرف بميزانية محدودة	حر	يعمل بشكل جيد إذا قمت بتنظيف الصورة... في بعض الأحيان يجب عليك فعل ذلك حقًا.

ما الذي يُحسّن جودة الرؤية الحاسوبية في الذكاء الاصطناعي ؟ 🔧

تغطية البيانات: تغييرات الإضاءة، والزوايا، والخلفيات، والحالات الاستثنائية. إذا كان من الممكن حدوث ذلك، فقم بتضمينه.
جودة الملصقات: تؤدي المربعات غير المتناسقة أو المضلعات غير الدقيقة إلى إضعاف دقة القياس. القليل من ضمان الجودة يُحدث فرقًا كبيرًا.
تحسينات ذكية: قص، تدوير، تغيير سطوع الصورة، إضافة ضوضاء اصطناعية. كن واقعيًا، لا فوضى عشوائية.
ملاءمة اختيار النموذج: استخدم الكشف حيثما يكون الكشف ضروريًا - لا تجبر المصنف على تخمين المواقع.
المقاييس التي تتناسب مع التأثير: إذا كانت النتائج السلبية الخاطئة أكثر ضرراً، فقم بتحسين الاستدعاء. إذا كانت النتائج الإيجابية الخاطئة أكثر ضرراً، فقم بتحسين الدقة أولاً.
حلقة تغذية راجعة محكمة: سجل حالات الفشل، أعد تصنيفها، أعد التدريب. كرر العملية. قد تبدو مملة بعض الشيء، لكنها فعالة للغاية.

للكشف/التجزئة، يُعدّ متوسط الدقة المعيار المُعتمد في المجتمع هو متوسط الدقة عبر عتبات تقاطع الاتحاد (IoU)، والمعروف أيضًا باسم على نمط COCO. إن معرفة كيفية حساب IoU و AP@{0.5:0.95} تُجنّبك المبالغة في الأرقام العشرية في لوحات الصدارة. [3]

حالات استخدام واقعية وليست افتراضية 🌍

قطاع التجزئة: تحليلات الرفوف، ومنع الخسائر، ومراقبة الطوابير، والامتثال لخطط عرض المنتجات.
التصنيع: الكشف عن عيوب السطح، والتحقق من التجميع، وتوجيه الروبوت.
الرعاية الصحية: فرز الحالات في قسم الأشعة، والكشف عن الأدوات، وتقسيم الخلايا.
التنقل: أنظمة مساعدة السائق المتقدمة، كاميرات المرور، إشغال مواقف السيارات، تتبع التنقل الصغير.
الزراعة: حصر المحاصيل، اكتشاف الأمراض، الاستعداد للحصاد.
التأمين والتمويل: تقييم الأضرار، والتحقق من هوية العميل، وعلامات الاحتيال.
البناء والطاقة: الامتثال لمعايير السلامة، والكشف عن التسربات، ومراقبة التآكل.
المحتوى وإمكانية الوصول: الترجمة التلقائية، والإشراف، والبحث المرئي.

النمط الذي ستلاحظه: استبدال الفحص اليدوي بالفرز الآلي، ثم تصعيد الأمر إلى العنصر البشري عند انخفاض مستوى الثقة. ليس الأمر جذاباً، ولكنه قابل للتطبيق على نطاق واسع.

البيانات، والتصنيفات، والمقاييس المهمة 📊

التصنيف: الدقة، F1 لعدم التوازن.
الكشف: متوسط نقطة الوصول عبر عتبات تقاطع الاتحاد؛ فحص نقاط الوصول لكل فئة ومجموعات الحجم. [3]
التجزئة: mIoU، Dice؛ تحقق من أخطاء مستوى المثيل أيضًا.
التتبع: MOTA، IDF1؛ جودة إعادة التعريف هي البطل الصامت.
التعرف الضوئي على الأحرف: معدل خطأ الأحرف (CER) ومعدل خطأ الكلمات (WER)؛ غالبًا ما تهيمن أخطاء التخطيط.
مهام الانحدار: يستخدم العمق أو الوضع أخطاء مطلقة/نسبية (غالباً على مقاييس لوغاريتمية).

وثّق بروتوكول التقييم الخاص بك حتى يتمكن الآخرون من تكراره. قد لا يكون الأمر مثيراً، ولكنه يضمن لك النزاهة.

البناء مقابل الشراء - وأين يتم تشغيله 🏗️

الحوسبة السحابية: الأسهل في البدء، ومثالية لأحمال العمل الدفعية. انتبه لتكاليف نقل البيانات.
الأجهزة الطرفية: زمن استجابة أقل وخصوصية أفضل. ستهتم بالتكميم والتقليم والمسرعات.
الهاتف المحمول المدمج: رائع عندما يكون متوافقًا. تحسين النماذج وبطارية الساعة.
هجين: تصفية مسبقة على الحافة، ومعالجة مكثفة في السحابة. حل وسط جيد.

مجموعة أدوات موثوقة بشكل ممل: تصميم نموذج أولي باستخدام PyTorch، وتدريب كاشف قياسي، وتصديره إلى ONNX، وتسريعه باستخدام OpenVINO/ONNX Runtime، واستخدام OpenCV للمعالجة المسبقة والهندسة (المعايرة، والتجانس، والتشكل). [4]

المخاطر، والأخلاقيات، والجوانب الصعبة التي يصعب الحديث عنها ⚖️

قد ترث أنظمة الرؤية تحيزات مجموعات البيانات أو نقاط ضعفها التشغيلية. وقد رصدت تقييمات مستقلة (مثل تقييم NIST FRVT) اختلافات ديموغرافية في معدلات أخطاء التعرف على الوجوه بين الخوارزميات والظروف المختلفة. لا داعي للقلق، ولكن من الضروري إجراء اختبارات دقيقة، وتوثيق القيود، والمراقبة المستمرة في بيئة الإنتاج. عند استخدام أنظمة الرؤية في تطبيقات تتعلق بالهوية أو السلامة، يجب تضمين آليات للمراجعة البشرية والاستئناف. فالخصوصية والموافقة والشفافية ليست أمورًا اختيارية. [5]

خارطة طريق سريعة يمكنك اتباعها بالفعل 🗺️

حدد القرار:
ما الإجراء الذي يجب أن يتخذه النظام بعد رؤية الصورة؟ هذا يمنعك من تحسين مقاييس التباهي.
اجمع مجموعة بيانات أولية.
ابدأ ببضع مئات من الصور التي تعكس بيئتك الحقيقية. قم بتسمية الصور بعناية - حتى لو كانت صورتك أنت وثلاث ملاحظات لاصقة.
اختر نموذجًا أساسيًا.
اختر بنية أساسية بسيطة مع أوزان مدربة مسبقًا. لا تبحث عن بنى معقدة في الوقت الحالي. [1]
درّب، وسجّل، وقيّم
مقاييس التتبع، ونقاط الارتباك، وأنماط الفشل. احتفظ بدفتر ملاحظات للحالات الشاذة - الثلج، والوهج، والانعكاسات، والخطوط غير المألوفة.
حسّن الحلقة.
أضف سلبيات قوية، وصحح انحرافات التصنيفات، واضبط التحسينات، وأعد ضبط العتبات. التعديلات الصغيرة تُحدث فرقًا كبيرًا. [3]
قم بنشر نسخة مصغرة،
وقم بقياس الكميات وتصديرها. قم بقياس زمن الاستجابة/الإنتاجية في بيئة حقيقية، وليس في اختبار معياري تجريبي.
راقب وكرر
. اجمع الأخطاء، وأعد تصنيفها، وأعد تدريب النموذج. حدد مواعيد للتقييمات الدورية حتى لا يصبح النموذج جامداً.

نصيحة للمحترفين: علّق على خطة دفاعية صغيرة وضعها أكثر زملائك تشككاً. إذا لم يتمكن من إيجاد ثغرات فيها، فأنت على الأرجح جاهز.

أخطاء شائعة يجب تجنبها 🧨

التدريب على صور الاستوديو النظيفة، ثم تطبيقها في العالم الحقيقي مع وجود المطر على العدسة.
[3] تحسين متوسط الدقة الإجمالية عندما تكون مهتمًا حقًا بفئة واحدة حرجة
تجاهل عدم توازن الفئات ثم التساؤل عن سبب اختفاء الأحداث النادرة.
زيادة البيانات بشكل مفرط حتى يتعلم النموذج القطع الأثرية الاصطناعية.
[4] تخطي معايرة الكاميرا ثم محاربة أخطاء المنظور إلى الأبد
تصديق أرقام لوحة المتصدرين دون تكرار إعداد التقييم الدقيق. [2][3]

مصادر تستحق الحفظ 🔗

إذا كنت تفضل المصادر الأولية وملاحظات المقررات الدراسية، فهذه المصادر كنزٌ ثمينٌ لفهم الأساسيات والتطبيق العملي وقياس الأداء. راجع المراجع للاطلاع على الروابط: ملاحظات مقرر CS231n، وورقة تحدي ImageNet، ووثائق مجموعة بيانات COCO/التقييم، ووثائق OpenCV، وتقارير NIST FRVT. [1][2][3][4][5]

ملاحظات ختامية - أو طويلة جدًا، لم أقرأها 🍃

مجال رؤية الحاسوب في الذكاء الاصطناعي وحدات البكسل إلى قرارات. ويتجلى تألقه عند ربط المهمة المناسبة بالبيانات المناسبة، وقياس الأمور الصحيحة، والتكرار بانضباطٍ استثنائي. الأدوات متوفرة بكثرة، والمعايير متاحة للجميع، والمسار من النموذج الأولي إلى الإنتاج قصير بشكلٍ مدهش إذا ركزت على القرار النهائي. حدّد تصنيفاتك بدقة، واختر المقاييس التي تعكس التأثير، ودع النماذج تقوم بالعمل الشاق. وإذا كان التشبيه مفيدًا، ففكّر في الأمر كأنك تُعلّم متدربًا سريع البديهة لكنه عملي جدًا كيفية تحديد ما هو مهم. تُقدّم له أمثلة، وتُصحّح الأخطاء، وتُسند إليه تدريجيًا مهامًا حقيقية. ليس مثاليًا، ولكنه قريب بما يكفي لإحداث نقلة نوعية. 🌟

مراجع

CS231n: التعلم العميق لرؤية الحاسوب (ملاحظات الدورة) - جامعة ستانفورد.
اقرأ المزيد
تحدي التعرف البصري واسع النطاق ImageNet (ورقة بحثية) - روساكوفسكي وآخرون.
اقرأ المزيد
مجموعة بيانات COCO وتقييمها - الموقع الرسمي (تعريفات المهام واتفاقيات mAP/IoU).
اقرأ المزيد
وثائق OpenCV (الإصدار 4.x) - وحدات للمعالجة المسبقة، والمعايرة، والتشكل، وما إلى ذلك.
اقرأ المزيد
NIST FRVT الجزء 3: التأثيرات الديموغرافية (NISTIR 8280) - تقييم مستقل لدقة التعرف على الوجوه عبر مختلف الفئات الديموغرافية.
اقرأ المزيد

اكتشف أحدث تقنيات الذكاء الاصطناعي في متجر مساعدي الذكاء الاصطناعي الرسمي

معلومات عنا

العودة إلى المدونة