من أين تحصل الذكاء الاصطناعي على المعلومات؟

من أين تحصل الذكاء الاصطناعي على معلوماتها؟

هل جلستَ يومًا تُحكُّ رأسك، مُتساءلًا... من أين يأتي هذا الكلام ؟ أعني، الذكاء الاصطناعي لا يُنقِّب في أكوام المكتبات المُغبرة أو يُشاهد فيديوهات يوتيوب القصيرة خلسةً. ومع ذلك، بطريقةٍ ما، يُقدِّم إجاباتٍ لكلِّ شيء - من حيل اللازانيا إلى فيزياء الثقوب السوداء - كما لو كان لديه خزانة ملفاتٍ لا نهاية لها. الواقع أغرب، وربما أكثر إثارةً للاهتمام مما تظن. دعونا نُفكِّكه قليلًا (ونعم، ربما نُبدِّد بعض الخرافات في الطريق).


هل هذا سحر؟ 🌐

ليس الأمر سحرًا، مع أنه يبدو كذلك أحيانًا. ما يحدث تحت الغطاء هو في الأساس تنبؤ بالأنماط . لا تخزن نماذج اللغة الكبيرة (LLMs) الحقائق كما يخزن دماغك وصفة كعك جدتك؛ بل تُدرَّب على تخمين الكلمة التالية (الرمز) بناءً على ما سبقها [2]. عمليًا، هذا يعني أنها تتمسك بالعلاقات: أي الكلمات ترتبط ببعضها، وكيف تتشكل الجمل عادةً، وكيف تُبنى الأفكار المتكاملة كالسقالة. لهذا السبب تبدو صحيحة، مع أنها - بصراحة تامة - محاكاة إحصائية، وليست فهمًا [4].

إذًا، ما الذي يجعل المعلومات المُولّدة بالذكاء الاصطناعي مفيدة ؟ إليك بعض الأمور:

  • تنوع البيانات - السحب من مصادر لا حصر لها، وليس من مصدر واحد ضيق.

  • التحديثات - بدون دورات التحديث، يصبح التطبيق قديمًا بسرعة.

  • التصفية - من الناحية المثالية التقاط القمامة قبل أن تتسرب (على الرغم من أننا لنكن واقعيين، فإن هذه الشبكة بها ثقوب).

  • التحقق المتبادل - الاعتماد على مصادر السلطة (مثل وكالة ناسا، ومنظمة الصحة العالمية، والجامعات الكبرى)، وهو أمر ضروري في معظم كتب قواعد حوكمة الذكاء الاصطناعي [3].

ومع ذلك، فإنه أحيانًا يختلق - بثقة. هل هذه الهلوسات ؟ في الأساس هراء مصقول يُلقى بوجه جامد [2][3].

مقالات قد ترغب في قراءتها بعد هذه المقالة:

🔗 هل يستطيع الذكاء الاصطناعي التنبؤ بأرقام اليانصيب؟
استكشاف الأساطير والحقائق حول توقعات اليانصيب بالذكاء الاصطناعي.

🔗 ماذا يعني اتباع نهج شامل للذكاء الاصطناعي؟
فهم الذكاء الاصطناعي من خلال وجهات نظر متوازنة بشأن الأخلاق والتأثير.

🔗 ماذا يقول الكتاب المقدس عن الذكاء الاصطناعي
دراسة وجهات النظر الكتابية حول التكنولوجيا وخلق الإنسان.


مقارنة سريعة: من أين يأتي الذكاء الاصطناعي؟ 📊

ليست كل المصادر متساوية، لكن لكل منها دورها. إليكم لمحة سريعة.

نوع المصدر من يستخدمه (الذكاء الاصطناعي) التكلفة/القيمة لماذا يعمل (أو لا يعمل...)
الكتب والمقالات نماذج اللغة الكبيرة لا تقدر بثمن (تقريبا) المعرفة الكثيفة والمنظمة - تتقدم في العمر بسرعة.
المواقع والمدونات جميع الذكاء الاصطناعي تقريبًا مجاني (مع الضوضاء) تنوع بري؛ مزيج من التألق والقمامة المطلقة.
الأوراق الأكاديمية الذكاء الاصطناعي المرتكز على الأبحاث في بعض الأحيان يتم الدفع مقابل ذلك الصرامة والمصداقية، ولكن في لغة عامية ثقيلة.
بيانات المستخدم الذكاء الاصطناعي المخصص شديد الحساسية ⚠️ خياطة حادة، ولكن هناك الكثير من الصداع المتعلق بالخصوصية.
الويب في الوقت الفعلي الذكاء الاصطناعي المرتبط بالبحث مجانًا (إذا كان متصلاً بالإنترنت) يحافظ على حداثة المعلومات؛ الجانب السلبي هو خطر تضخيم الشائعات.

عالم بيانات التدريب 🌌

هذه هي مرحلة "التعلم في مرحلة الطفولة". تخيّل أن تُسلّم طفلًا ملايين الكتب القصصية، ومقاطع الأخبار، ومعلومات ويكيبيديا المُفصّلة دفعةً واحدة. هكذا يبدو التدريب المُسبق. في الواقع، يجمع مُقدّمو الخدمات البيانات المتاحة للعامة، والمصادر المُرخّصة، والنصوص التي يُنشئها المُدرّب [2].

في الأعلى: أمثلة بشرية مختارة - إجابات جيدة، وإجابات سيئة، ودفعات في الاتجاه الصحيح - قبل أن تبدأ عملية التعزيز [1].

تحذير بشأن الشفافية: لا تُفصح الشركات عن كل التفاصيل. بعض الحواجز الأمنية سرية (الملكية الفكرية، مخاوف تتعلق بالسلامة)، لذا لا تُتاح لك سوى فرصة جزئية للاطلاع على الوضع الفعلي [2].


البحث في الوقت الفعلي: الإضافات الإضافية 🍒

يمكن الآن لبعض النماذج التطلع خارج نطاق تدريبها. هذا ما يُعرف بالتوليد المعزز بالاسترجاع (RAG)، وهو ببساطة سحب أجزاء من فهرس مباشر أو مخزن مستندات، ثم دمجها في الرد [5]. مثالي للأشياء سريعة التغير، مثل عناوين الأخبار أو أسعار الأسهم.

المشكلة؟ الإنترنت مزيجٌ من العبقرية والنفايات. إذا كانت عوامل التصفية أو التحقق من المصدر ضعيفة، فأنت تُخاطر بتسلل البيانات غير المرغوب فيها، وهو ما تُحذر منه أطر المخاطر [3].

حل بديل شائع: تربط الشركات نماذجها بقواعد بياناتها الداخلية، فتُشير الإجابات إلى سياسة موارد بشرية حالية أو وثيقة منتج مُحدّثة بدلًا من الارتجال. فكّر: كلما قلّت لحظات "الرفض"، زادت موثوقية الردود.


الضبط الدقيق: خطوة التلميع بالذكاء الاصطناعي 🧪

النماذج الخام المُدرَّبة مُسبقًا غير عملية. لذا، يتم ضبطها بدقة .

  • تعليمهم أن يكونوا مفيدين، وغير مؤذين، وصادقين (عبر التعلم التعزيزي من ردود الفعل البشرية، RLHF) [1].

  • صنفرة الحواف غير الآمنة أو السامة (المحاذاة) [1].

  • التعديل على النبرة - سواء كانت ودية، أو رسمية، أو ساخرة بشكل مرح.

إن الأمر لا يشبه تلميع الماس بقدر ما هو محاولة حشد مجموعة من الإحصائيات لتتصرف مثل شريك المحادثة.


المطبات والفشل 🚧

دعونا لا نتظاهر بأنه خالٍ من العيوب:

  • الهلوسة - إجابات واضحة خاطئة تمامًا [2][3].

  • التحيز - يعكس الأنماط المضمنة في البيانات؛ ويمكنه حتى تضخيمها إذا لم يتم التحقق منها [3][4].

  • لا توجد خبرة مباشرة - يمكنه التحدث عن وصفات الحساء ولكن لم يتذوق واحدة أبدًا [4].

  • الثقة المفرطة - يتدفق النثر كما لو كان يعرف، حتى لو لم يكن كذلك. تُشدد أطر المخاطر على الافتراضات الضعيفة [3].


لماذا أشعر وكأنني أعرف 🧠

ليس لديه معتقدات، ولا ذاكرة بالمعنى الإنساني، وبالتأكيد ليس لديه ذات. ومع ذلك، ولأنه يربط الجمل بسلاسة، يقرأها دماغك كما لو كان يفهمها . ما يحدث هو مجرد تنبؤات ضخمة بالرمز التالي : تحليل تريليونات الاحتمالات في أجزاء من الثانية [2].

إن اهتزاز "الذكاء" هو سلوك ناشئ - يطلق عليه الباحثون، على سبيل المزاح، "تأثير الببغاء العشوائي" [4].


تشبيه مناسب للأطفال 🎨

تخيل ببغاءً قرأ كل كتاب في المكتبة. لا يفهم القصص، لكنه يستطيع مزج الكلمات ليُخرج كلامًا يبدو حكيمًا. أحيانًا يكون كلامه دقيقًا، وأحيانًا يكون هراءً، لكن مع قليل من البراعة، لا يمكنك دائمًا التمييز بين الجملتين.


اختتامًا: من أين تأتي معلومات الذكاء الاصطناعي؟ 📌

ببساطة:

  • بيانات تدريب ضخمة (عامة + مرخصة + من إنشاء المدرب) [2].

  • الضبط الدقيق مع ردود الفعل البشرية لتشكيل النغمة / السلوك [1].

  • أنظمة الاسترجاع عند توصيلها بتدفقات البيانات الحية [5].

الذكاء الاصطناعي لا "يعرف" الأشياء، بل يتنبأ بالنصوص . هذه هي قوته الخارقة ونقطة ضعفه. الخلاصة؟ تأكد دائمًا من مراجعة المعلومات المهمة من مصدر موثوق [3].


مراجع

  1. أويانغ، ل. وآخرون (2022). تدريب نماذج اللغة على اتباع التعليمات مع التغذية الراجعة البشرية (InstructGPT) . arXiv .

  2. OpenAI (2023). تقرير فني عن GPT-4 - مزيج من البيانات المرخصة والعامة والبشرية؛ هدف وقيود التنبؤ بالرمز التالي. arXiv .

  3. المعهد الوطني للمعايير والتكنولوجيا (2023). إطار عمل إدارة مخاطر الذكاء الاصطناعي (AI RMF 1.0) - المصدر، والموثوقية، وضوابط المخاطر. PDF .

  4. بيندر، إي إم، جيبرو، ت.، ماكميلان-ميجور، أ.، ميتشل، س. (2021). حول مخاطر الببغاوات العشوائية: هل يمكن أن تكون نماذج اللغة كبيرة جدًا؟ (PDF ).

  5. لويس، ب. وآخرون (2020). التوليد المعزز بالاسترجاع لمعالجة اللغة الطبيعية كثيفة المعرفة . arXiv .


ابحث عن أحدث الذكاء الاصطناعي في متجر مساعد الذكاء الاصطناعي الرسمي

معلومات عنا

العودة إلى المدونة