عندما يسمع معظم الناس مصطلح "الذكاء الاصطناعي"، يتخيلون الشبكات العصبية، والخوارزميات المعقدة، أو ربما تلك الروبوتات الشبيهة بالبشر والتي تبدو غريبة بعض الشيء. لكن ما نادراً ما يُذكر في البداية هو أن الذكاء الاصطناعي يستهلك مساحة التخزين بشراهة تكاد تضاهي استهلاكه للحوسبة . وليس أي نوع من التخزين، بل إن تخزين البيانات يعمل بهدوء في الخلفية، ويؤدي المهمة غير الجذابة ولكنها ضرورية للغاية، وهي تزويد النماذج بالبيانات التي تحتاجها.
دعونا نحلل ما يجعل تخزين الكائنات أمرًا بالغ الأهمية للذكاء الاصطناعي، وكيف يختلف عن "الحرس القديم" لأنظمة التخزين، ولماذا ينتهي به الأمر ليكون أحد الروافع الرئيسية لقابلية التوسع والأداء.
مقالات قد ترغب في قراءتها بعد هذه المقالة:
🔗 ما هي التقنيات التي يجب توفرها لاستخدام الذكاء الاصطناعي التوليدي واسع النطاق في مجال الأعمال؟
التقنيات الرئيسية التي تحتاجها الشركات لتوسيع نطاق الذكاء الاصطناعي التوليدي بشكل فعال.
🔗 إدارة البيانات لأدوات الذكاء الاصطناعي التي يجب عليك الاطلاع عليها
أفضل الممارسات للتعامل مع البيانات لتحسين أداء الذكاء الاصطناعي.
🔗 تأثيرات الذكاء الاصطناعي على استراتيجية الأعمال
كيف يؤثر الذكاء الاصطناعي على استراتيجيات الأعمال وصنع القرارات طويلة الأجل.
ما الذي يجعل تخزين الكائنات فعالاً في مجال الذكاء الاصطناعي؟ 🌟
الفكرة الأساسية: لا يعتمد تخزين الكائنات على المجلدات أو التخطيطات الجامدة للكتل. بل يقسم البيانات إلى "كائنات"، كل منها مُوسَم ببيانات وصفية. قد تكون هذه البيانات الوصفية بيانات على مستوى النظام (الحجم، والطوابع الزمنية، وفئة التخزين) أو وسوم مفتاح:قيمة يُحددها المستخدم [1]. تخيل الأمر كما لو أن كل ملف يحمل مجموعة من الملاحظات اللاصقة التي تُخبرك بدقة ما هو، وكيف تم إنشاؤه، وموقعه في مسار معالجة البيانات.
بالنسبة لفرق الذكاء الاصطناعي، تُعد هذه المرونة عاملاً حاسماً:
-
توسع دون مشاكل - تمتد بحيرات البيانات إلى بيتابايت، وتتعامل معها مخازن الكائنات بسهولة. وهي مصممة لنمو غير محدود تقريبًا ومتانة متعددة المناطق (تتباهى خدمة Amazon S3 بـ "11 تسعات" وتكرار عبر المناطق بشكل افتراضي) [2].
-
ثراء البيانات الوصفية - عمليات بحث أسرع، وفلاتر أنظف، ومسارات أكثر ذكاءً لأن السياق يسير مع كل كائن [1].
-
أصلي سحابي - تأتي البيانات عبر HTTP(S)، مما يعني أنه يمكنك إجراء عمليات السحب بالتوازي والحفاظ على استمرارية التدريب الموزع بسلاسة.
-
المرونة المدمجة - عندما تقوم بالتدريب لأيام، لا يمكنك المخاطرة بتلف جزء من البيانات مما يؤدي إلى تدمير الحقبة 12. تخزين الكائنات يتجنب ذلك عن طريق التصميم [2].
إنها في الأساس حقيبة ظهر بلا قاع: قد تكون فوضوية من الداخل، ولكن لا يزال من الممكن استعادة كل شيء عندما تمد يدك إليها.
جدول مقارنة سريع لتخزين كائنات الذكاء الاصطناعي 🗂️
| أداة / خدمة | الأفضل لـ (الجمهور) | نطاق السعر | لماذا ينجح هذا؟ (ملاحظات في الهوامش) |
|---|---|---|---|
| أمازون إس 3 | المؤسسات + الفرق التي تعتمد على الحوسبة السحابية | الدفع حسب الاستخدام | متينة للغاية، ومرنة إقليمياً [2] |
| تخزين جوجل السحابي | علماء البيانات ومطورو التعلم الآلي | مستويات مرنة | تكاملات قوية مع التعلم الآلي، وسحابة أصلية بالكامل |
| تخزين Azure Blob | المتاجر التي تعتمد بشكل كبير على منتجات مايكروسوفت | متدرج (ساخن/بارد) | يتكامل بسلاسة مع بيانات Azure وأدوات التعلم الآلي |
| مينيو | إعدادات مفتوحة المصدر / يمكنك صنعها بنفسك | مجاني/استضافة ذاتية | متوافق مع S3، خفيف الوزن، يمكن نشره في أي مكان 🚀 |
| سحابة واسابي الساخنة | المنظمات الحساسة للتكاليف | سعر ثابت منخفض $ | لا توجد رسوم خروج أو رسوم طلب واجهة برمجة التطبيقات (لكل وثيقة) [3] |
| تخزين الكائنات السحابي من IBM | الشركات الكبيرة | يختلف | مجموعة برمجية متطورة مع خيارات أمان مؤسسية قوية |
تحقق دائمًا من صحة الأسعار مقارنةً باستخدامك الفعلي - وخاصةً حجم البيانات الصادرة وحجم الطلبات ومزيج فئات التخزين.
لماذا يُفضّل تدريب الذكاء الاصطناعي تخزين الكائنات؟ 🧠
التدريب ليس مجرد "بضع ملفات"، بل هو معالجة ملايين السجلات بالتوازي. تنهار أنظمة الملفات الهرمية تحت وطأة التزامن الشديد. يتجاوز تخزين الكائنات هذه المشكلة بفضل مساحات الأسماء المسطحة وواجهات برمجة التطبيقات الواضحة. لكل كائن مفتاح فريد؛ وتنتشر وحدات المعالجة وتجلب البيانات بالتوازي. مجموعات البيانات المجزأة + الإدخال/الإخراج المتوازي = وحدات معالجة الرسومات تبقى مشغولة بدلاً من الانتظار.
نصيحة عملية: احتفظ بالأجزاء الأكثر استخدامًا بالقرب من مجموعة الحوسبة (في نفس المنطقة أو النطاق)، وقم بتخزين البيانات مؤقتًا بكثافة على محركات الأقراص الصلبة SSD. إذا كنت بحاجة إلى تغذية شبه مباشرة لوحدات معالجة الرسومات، فإن تقنية NVIDIA GPUDirect Storage تستحق النظر فيها، فهي تقلل من مخازن البيانات المؤقتة لوحدة المعالجة المركزية، وتخفض زمن الاستجابة، وتزيد من عرض النطاق الترددي مباشرةً إلى وحدات التسريع [4].
البيانات الوصفية: القوة العظمى التي لا تحظى بالتقدير الكافي 🪄
هنا تبرز مزايا تخزين الكائنات بطرق غير مباشرة. عند التحميل، يمكنك إرفاق بيانات وصفية مخصصة (مثل x-amz-meta-… لخدمة S3). على سبيل المثال، يمكن لمجموعة بيانات الرؤية أن تُصنّف الصور باستخدام lighting=low أو blur=high . يتيح ذلك لخطوط المعالجة تصفية البيانات، أو موازنتها، أو تصنيفها دون الحاجة إلى إعادة مسح الملفات الخام [1].
ثم هناك نظام التحكم في الإصدارات . تحتفظ العديد من مخازن الكائنات بإصدارات متعددة من الكائن جنبًا إلى جنب - وهو أمر مثالي للتجارب القابلة للتكرار أو سياسات الحوكمة التي تحتاج إلى عمليات تراجع [5].
التخزين الكائني مقابل التخزين الكتلي مقابل التخزين الملفي ⚔️
-
التخزين الكتلي : رائع لقواعد البيانات المعاملاتية - سريع ودقيق - ولكنه مكلف للغاية بالنسبة للبيانات غير المهيكلة على نطاق البيتابايت.
-
تخزين الملفات : مألوف، متوافق مع نظام POSIX، لكن الدلائل تعاني من بطء شديد تحت الأحمال المتوازية الهائلة.
-
تخزين الكائنات : مصمم من الصفر من أجل قابلية التوسع والتوازي والوصول القائم على البيانات الوصفية [1].
إذا كنت تريد استعارة غير دقيقة: تخزين الكتل هو خزانة ملفات، وتخزين الملفات هو مجلد على سطح المكتب، وتخزين الكائنات هو... حفرة لا قعر لها مع ملاحظات لاصقة تجعلها قابلة للاستخدام بطريقة ما.
سير عمل الذكاء الاصطناعي الهجين 🔀
لا يقتصر الأمر دائمًا على الحوسبة السحابية فقط. يبدو المزيج الشائع كما يلي:
-
تخزين الكائنات في الموقع (MinIO، Dell ECS) للبيانات الحساسة أو الخاضعة للتنظيم.
-
تخزين الكائنات السحابية لأحمال العمل المفاجئة أو التجارب أو التعاون.
يؤثر هذا التوازن على التكلفة والامتثال والمرونة. لقد رأيت فرقًا تقوم حرفيًا بتحميل تيرابايتات من البيانات في ليلة واحدة إلى حاوية S3 لمجرد تشغيل مجموعة مؤقتة من وحدات معالجة الرسومات، ثم تقوم بحذفها بالكامل عند انتهاء دورة التطوير. أما بالنسبة للميزانيات المحدودة، فإن نموذج Wasabi ذو السعر الثابت/عدم وجود بيانات صادرة [3] يُسهّل عملية التنبؤ.
الجزء الذي لا يتباهى به أحد 😅
دعونا نكون واقعيين: الأمر ليس مثالياً.
-
زمن الاستجابة - إذا كانت وحدات الحوسبة والتخزين متباعدة جدًا، فإن وحدات معالجة الرسومات (GPUs) ستتباطأ بشكل كبير. نظام التخزين العالمي (GDS) ، لكن بنية النظام لا تزال مهمة [4].
-
مفاجآت التكلفة - رسوم الخروج وطلبات واجهة برمجة التطبيقات تتسلل إلى المستخدمين. بعض مزودي الخدمة يتنازلون عنها (مثل واسابي؛ والبعض الآخر لا) [3].
-
فوضى البيانات الوصفية على نطاق واسع - من يحدد "الحقيقة" في العلامات والإصدارات؟ ستحتاج إلى عقود وسياسات وبعض القوة الإدارية [5].
تخزين الكائنات هو بمثابة بنية تحتية أساسية: أمر بالغ الأهمية، ولكنه ليس جذابًا.
إلى أين تتجه 🚀
-
تخزين أكثر ذكاءً ووعيًا بالذكاء الاصطناعي يقوم تلقائيًا بوضع علامات على البيانات وعرضها عبر طبقات استعلام تشبه لغة SQL [1].
-
تكامل الأجهزة بشكل أوثق (مسارات DMA، وتفريغ NIC) حتى لا تعاني وحدات معالجة الرسومات من نقص الإدخال/الإخراج [4].
-
التسعير الشفاف والقابل للتنبؤ (نماذج مبسطة، ورسوم الخروج المعفاة) [3].
يتحدث الناس عن الحوسبة باعتبارها مستقبل الذكاء الاصطناعي. ولكن هل هذا واقعي؟ تكمن المشكلة الرئيسية في سرعة إدخال البيانات إلى النماذج دون تجاوز الميزانية . ولهذا السبب، يتزايد دور تخزين البيانات بشكل متزايد.
ملخص 📝
لا يُعدّ تخزين الكائنات أمرًا جذابًا، ولكنه أساسي. فبدون تخزين قابل للتوسع، ومدرك للبيانات الوصفية، ومرن، يصبح تدريب النماذج الكبيرة أشبه بالجري في ماراثون وأنت ترتدي الصنادل.
نعم، وحدات معالجة الرسومات مهمة، والأطر البرمجية مهمة. لكن إن كنت جادًا في مجال الذكاء الاصطناعي، فلا تتجاهل مكان تخزين بياناتك . على الأرجح، أن تخزين الكائنات يدعم العملية برمتها دون أن يشعر.
مراجع
[1] AWS S3 – بيانات تعريف الكائنات - بيانات تعريف النظام والبيانات التعريفية المخصصة
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html
[2] AWS S3 – فئات التخزين - المتانة (11 تسعات) + المرونة
https://aws.amazon.com/s3/storage-classes/
[3] خدمة Wasabi Hot Cloud – الأسعار - سعر ثابت، بدون رسوم نقل البيانات/واجهة برمجة التطبيقات
https://wasabi.com/pricing
[4] NVIDIA GPUDirect Storage – Docs - مسارات DMA إلى وحدات معالجة الرسومات
https://docs.nvidia.com/gpudirect-storage/
[5] خدمة AWS S3 – التحكم في الإصدارات - إصدارات متعددة للحوكمة/إمكانية إعادة الإنتاج
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html