من أين يحصل الذكاء الاصطناعي على المعلومات؟

من أين يحصل الذكاء الاصطناعي على معلوماته؟

هل سبق لك أن جلستَ تحك رأسك، متسائلاً: من أين تأتي هذه المعلومات ؟ أعني، الذكاء الاصطناعي لا يبحث في رفوف المكتبات المتربة أو يشاهد مقاطع الفيديو القصيرة على يوتيوب خلسةً. ومع ذلك، فهو يُنتج إجابات لكل شيء - من وصفات اللازانيا إلى فيزياء الثقوب السوداء - وكأنه يمتلك خزانة ملفات لا قعر لها. الحقيقة أغرب، وربما أكثر إثارة للاهتمام مما تتخيل. دعونا نستكشفها قليلاً (ونُفنّد بعض الخرافات في طريقنا).


هل هو سحر؟ 🌐

ليس الأمر سحراً، مع أنه قد يبدو كذلك أحياناً. ما يحدث في جوهره هو التنبؤ بالأنماط . لا تخزن نماذج اللغة الكبيرة (LLMs) الحقائق كما يخزن دماغك وصفة جدتك للكعك؛ بل تُدرَّب على تخمين الكلمة التالية (الرمز) بناءً على ما سبقها [2]. عملياً، يعني هذا أنها تتمسك بالعلاقات: الكلمات المتجاورة، وكيفية تشكل الجمل عادةً، وكيفية بناء الأفكار ككل. لهذا السبب يبدو صحيحاً، مع أنه -بكل صراحة- مجرد محاكاة إحصائية، وليس فهماً حقيقياً [4].

إذن، ما الذي يجعل المعلومات التي يولدها الذكاء الاصطناعي مفيدة ؟ هناك عدة أمور:

  • تنوع البيانات - الاستخلاص من مصادر لا حصر لها، وليس من مصدر واحد ضيق.

  • التحديثات - بدون دورات التحديث، تصبح قديمة بسرعة.

  • الترشيح - من الناحية المثالية، التقاط الشوائب قبل أن تتسرب (مع ذلك، لنكن واقعيين، هذه الشبكة بها ثقوب).

  • التحقق المتبادل - الاعتماد على مصادر السلطة (مثل ناسا، ومنظمة الصحة العالمية، والجامعات الكبرى)، وهو أمر لا غنى عنه في معظم أدلة حوكمة الذكاء الاصطناعي [3].

ومع ذلك، فإنه يختلق أحياناً بثقة. تلك التي تسمى بالهلوسات ؟ هي في الأساس هراء مصقول يُلقى بوجه جامد [2][3].

مقالات قد ترغب في قراءتها بعد هذه المقالة:

🔗 هل يستطيع الذكاء الاصطناعي التنبؤ بأرقام اليانصيب؟
استكشاف الخرافات والحقائق حول توقعات اليانصيب باستخدام الذكاء الاصطناعي.

🔗 ماذا يعني اتباع نهج شامل تجاه الذكاء الاصطناعي؟
فهم الذكاء الاصطناعي من منظور متوازن حول الأخلاقيات والتأثير.

🔗 ماذا يقول الكتاب المقدس عن الذكاء الاصطناعي؟
دراسة وجهات النظر الكتابية حول التكنولوجيا وخلق الإنسان.


مقارنة سريعة: من أين يستقي الذكاء الاصطناعي معلوماته 📊

ليست كل المصادر متساوية، لكن لكل منها دورها. إليكم لمحة سريعة.

نوع المصدر من يستخدمه (الذكاء الاصطناعي) التكلفة/القيمة لماذا ينجح (أو لا ينجح...)
الكتب والمقالات نماذج لغوية كبيرة لا يُقدّر بثمن (تقريبًا) المعرفة الكثيفة والمنظمة - تتلاشى بسرعة.
المواقع الإلكترونية والمدونات جميع أنواع الذكاء الاصطناعي تقريباً مجاناً (مع ضوضاء) تنوع هائل؛ مزيج من التألق والقمامة المطلقة.
الأوراق الأكاديمية الذكاء الاصطناعي الذي يركز على البحث أحيانًا يكون الاشتراك مدفوعًا الدقة والمصداقية، ولكن بأسلوب معقد مليء بالمصطلحات التقنية.
بيانات المستخدم الذكاء الاصطناعي الشخصي شديد الحساسية ⚠️ تصميم أنيق، لكنه يسبب مشاكل كثيرة تتعلق بالخصوصية.
الويب في الوقت الفعلي الذكاء الاصطناعي المرتبط بالبحث مجاني (في حال الاتصال بالإنترنت) يحافظ على حداثة المعلومات؛ أما الجانب السلبي فهو خطر تضخيم الشائعات.

عالم بيانات التدريب 🌌

هذه هي مرحلة "التعلم في الطفولة". تخيل أنك تُعطي طفلاً ملايين الكتب القصصية، وقصاصات الأخبار، ومقالات ويكيبيديا المتشعبة دفعة واحدة. هذا ما يبدو عليه التدريب التمهيدي. في الواقع، يجمع مقدمو الخدمات البيانات المتاحة للجمهور، والمصادر المرخصة، والنصوص التي يُنشئها المدربون [2].

وفوق ذلك: أمثلة بشرية منتقاة بعناية - إجابات جيدة، إجابات سيئة، دفعات في الاتجاه الصحيح - قبل أن يبدأ التعزيز [1].

تحذير بشأن الشفافية: لا تفصح الشركات عن كل التفاصيل. بعض الضوابط تتعلق بالسرية (الملكية الفكرية، المخاوف الأمنية)، لذا لا تحصل إلا على لمحة جزئية عن الوضع الفعلي [2].


بحث فوري: الإضافات الإضافية 🍒

تستطيع بعض النماذج الآن الاطلاع على ما هو خارج نطاق تدريبها. يُعرف هذا باسم التوليد المُعزز بالاسترجاع (RAG)، وهو ببساطة استخراج أجزاء من فهرس أو مخزن بيانات مباشر، ثم دمجها في الرد [5]. يُعد هذا مثاليًا للبيانات سريعة التغير مثل عناوين الأخبار أو أسعار الأسهم.

المشكلة؟ الإنترنت مزيج من الذكاء والفوضى. إذا كانت المرشحات أو عمليات التحقق من المصدر ضعيفة، فإنك تخاطر بتسلل البيانات غير المرغوب فيها، وهو ما تحذر منه أطر إدارة المخاطر [3].

الحل الشائع: تقوم الشركات بربط نماذجها بقواعد بياناتها الداخلية، بحيث تستند الإجابات إلى سياسة الموارد البشرية الحالية أو وثيقة المنتج المحدثة بدلاً من الارتجال. النتيجة: تقليل الأخطاء، وزيادة موثوقية الإجابات.


الضبط الدقيق: خطوة التلميع للذكاء الاصطناعي 🧪

النماذج الخام المدربة مسبقًا غير عملية. لذلك يتم تحسينها وضبطها بدقة .

  • تعليمهم أن يكونوا مفيدين وغير مؤذيين وصادقين (عن طريق التعلم المعزز من ردود الفعل البشرية، RLHF) [1].

  • صنفرة الحواف غير الآمنة أو السامة (المحاذاة) [1].

  • مراعاة النبرة - سواء كانت ودية أو رسمية أو ساخرة بشكل مرح.

الأمر لا يتعلق بصقل الألماس بقدر ما يتعلق بتوجيه سيل من البيانات الإحصائية لجعلها تتصرف بشكل أشبه بشريك في المحادثة.


المطبات والإخفاقات 🚧

دعونا لا نتظاهر بأنه خالٍ من العيوب:

  • الهلوسة - إجابات واضحة خاطئة تمامًا [2][3].

  • التحيز - يعكس الأنماط المضمنة في البيانات؛ بل ويمكن أن يضخمها إذا لم يتم التحقق منها [3][4].

  • لا توجد تجربة مباشرة - يمكنها التحدث عن وصفات الحساء ولكنها لم تتذوق واحدة قط [4].

  • الثقة المفرطة - يتدفق النثر كما لو كان يعلم، حتى عندما لا يعلم. تؤكد أطر إدارة المخاطر على الافتراضات التحذيرية [3].


لماذا يبدو وكأنه معرفة؟ 🧠

لا يملك هذا النظام معتقدات، ولا ذاكرة بالمعنى البشري، وبالتأكيد لا يملك ذاتًا. ومع ذلك، ولأنه يربط الجمل بسلاسة، يقرأه دماغك كما لو كان يفهمه . ما يحدث هو مجرد تنبؤ هائل بالرمز التالي : معالجة تريليونات الاحتمالات في أجزاء من الثانية [2].

إن "الذكاء" هو سلوك ناشئ - ويطلق عليه الباحثون، على سبيل المزاح، "الببغاء العشوائي" [4].


تشبيه مناسب للأطفال 🎨

تخيّل ببغاءً قرأ كل كتاب في المكتبة. قد لا يفهم القصص، لكنه يُعيد صياغة الكلمات ليُخرج منها ما يبدو حكيمًا. أحيانًا يكون كلامه في الصميم، وأحيانًا أخرى يكون هراءً، ولكن بفضل براعته، يصعب عليك دائمًا التمييز بينهما.


خلاصة القول: من أين تأتي معلومات الذكاء الاصطناعي 📌

بعبارات بسيطة:

  • بيانات تدريب ضخمة (عامة + مرخصة + تم إنشاؤها بواسطة المدرب) [2].

  • الضبط الدقيق باستخدام التغذية الراجعة البشرية لتشكيل النبرة / السلوك [1].

  • أنظمة الاسترجاع عند ربطها بتدفقات البيانات الحية [5].

لا "يعرف" الذكاء الاصطناعي الأشياء، بل يتنبأ بالنصوص . هذه هي نقطة قوته وضعفه في آنٍ واحد. الخلاصة؟ تحقق دائمًا من المعلومات المهمة بالرجوع إلى مصدر موثوق [3].


مراجع

  1. أويانغ، ل. وآخرون (2022). تدريب نماذج اللغة على اتباع التعليمات مع التغذية الراجعة البشرية (InstructGPT) . arXiv .

  2. OpenAI (2023). تقرير فني عن GPT-4 - مزيج من البيانات المرخصة والعامة والبيانات التي أنشأها البشر؛ هدف التنبؤ بالرمز التالي وقيوده. arXiv .

  3. المعهد الوطني للمعايير والتكنولوجيا (2023). إطار إدارة مخاطر الذكاء الاصطناعي (AI RMF 1.0) - المصدر، والموثوقية، وضوابط المخاطر. ملف PDF .

  4. بيندر، إي إم، جبرو، تي، ماكميلان-ماجور، إيه، ميتشل، إس (2021). حول مخاطر الببغاوات العشوائية: هل يمكن أن تكون نماذج اللغة كبيرة جدًا؟ ملف PDF .

  5. لويس، ب. وآخرون (2020). توليد معزز بالاسترجاع لمعالجة اللغة الطبيعية كثيفة المعرفة . arXiv .


اكتشف أحدث تقنيات الذكاء الاصطناعي في متجر مساعدي الذكاء الاصطناعي الرسمي

معلومات عنا

العودة إلى المدونة