كيف سيؤثر الذكاء الاصطناعي على دور مهندسي البيانات؟

من المتوقع أن يُحدث الذكاء الاصطناعي تحولاً جذرياً في أدوار هندسة البيانات من خلال أتمتة المهام المتكررة مثل كتابة استعلامات SQL وتوثيقها. ومع ذلك، ستظل المسؤوليات ذات الأهمية الكبيرة، مثل تحديد عقود البيانات وإدارة جودتها، تتطلب خبرة بشرية.

ما هي جوانب هندسة البيانات التي يمكن للذكاء الاصطناعي أتمتتها؟

يتفوق الذكاء الاصطناعي في أتمتة مهام مثل توليد أكواد SQL، وإنشاء هياكل نماذج dbt، وصياغة مخططات الوثائق. وهذا يساعد المهندسين على بدء المشاريع بكفاءة أكبر، ولكن لا يزال التحقق البشري ضروريًا لضمان الدقة.

هل سيصبح مهندسو البيانات غير ضروريين مع صعود الذكاء الاصطناعي؟

مع أن بعض المهام قد تُؤتمت، إلا أن دور مهندسي البيانات يتطور بدلاً من أن يختفي. سيركز المهندسون بشكل أكبر على تصميم الأنظمة والمساءلة والحوكمة، مما يجعلهم أكثر قيمة مع مساهمة الذكاء الاصطناعي في تبسيط المهام الأساسية.

لماذا لا تزال الرقابة البشرية مهمة في مجال الذكاء الاصطناعي في هندسة البيانات؟

تُعدّ الرقابة البشرية أمراً بالغ الأهمية لأن هندسة البيانات غالباً ما تنطوي على منطق أعمال غامض ومساءلة عن النتائج. يمكن للذكاء الاصطناعي المساعدة في صياغة الحلول، لكنه لا يستطيع إدارة تعقيدات حوكمة البيانات والامتثال بشكل كامل.

ما هي المهارات الأساسية لمهندسي البيانات مع تطور أدوات الذكاء الاصطناعي؟

تشمل المهارات الأساسية تصميم الأنظمة، وهندسة جودة البيانات، وتحديد عقود البيانات، والتواصل الفعال. وتُعد هذه المجالات بالغة الأهمية لضمان الموثوقية والامتثال مع تولي الذكاء الاصطناعي المزيد من المهام الروتينية.

كيف يمكن للذكاء الاصطناعي أن يعزز التعاون بين مهندسي البيانات والفرق الأخرى؟

يُمكن للذكاء الاصطناعي تبسيط المخرجات التقنية، مما يسمح لمهندسي البيانات بالتعاون بشكل أكثر فعالية مع فرق المنتج والأمن والمالية. هذا التحول يُتيح لمهندسي البيانات التركيز على مناقشة معايير الجودة والتوقعات بدلاً من مجرد كتابة التعليمات البرمجية.

ما هي التحديات التي تواجه الذكاء الاصطناعي في هندسة البيانات؟

يواجه الذكاء الاصطناعي صعوبة في التعامل مع التعريفات الغامضة وإدارة العلاقات المعقدة في منطق الأعمال. وعجزه عن التفكير النقدي أو التفاوض بشأن التعريفات يعني أن المهندسين البشريين لا غنى عنهم.

كيف ينبغي لمهندسي البيانات التعامل مع استخدام أدوات الذكاء الاصطناعي مثل GitHub Copilot؟

ينبغي لمهندسي البيانات استخدام أدوات الذكاء الاصطناعي كمسودات لتحسين عملهم مع الحفاظ على معايير صارمة للتحقق والحوكمة. ويشمل ذلك ضمان استيفاء المخرجات لمعايير الجودة وتوافقها مع سياسات المؤسسة.

هل سيحل الذكاء الاصطناعي محل مهندسي البيانات؟ [فيديو واختبار]

باختصار: لن يحلّ الذكاء الاصطناعي محل مهندسي البيانات بشكل كامل، بل سيؤتمت الأعمال المتكررة مثل كتابة استعلامات SQL، وبناء هياكل خطوط البيانات، والاختبارات، والتوثيق. إذا كان دورك يقتصر في الغالب على مهام بسيطة تعتمد على نظام التذاكر، فسيكون الذكاء الاصطناعي أكثر عرضة للتأثر؛ أما إذا كنت مسؤولاً عن الموثوقية، والتعريفات، والحوكمة، والاستجابة للحوادث، فسيسهم الذكاء الاصطناعي بشكل أساسي في تسريع عملك.

أهم النقاط المستفادة:

الملكية: إعطاء الأولوية للمساءلة عن النتائج، وليس مجرد إنتاج الكود بسرعة.

الجودة: بناء الاختبارات، وإمكانية المراقبة، والعقود لضمان بقاء خطوط الأنابيب جديرة بالثقة.

الحوكمة: الحفاظ على الخصوصية، والتحكم في الوصول، والاحتفاظ بالبيانات، وسجلات التدقيق مملوكة للأفراد.

مقاومة سوء الاستخدام: تعامل مع مخرجات الذكاء الاصطناعي كمسودات؛ راجعها لتجنب الخطأ الواثق.

تغيير الدور: قضاء وقت أقل في كتابة النصوص النمطية ووقت أطول في تصميم أنظمة متينة.

هل سيحلّ الذكاء الاصطناعي محلّ مهندسي البيانات؟ رسم بياني

إذا قضيت أكثر من خمس دقائق مع فرق البيانات، فلا بد أنك سمعت هذا السؤال المتكرر - أحيانًا همسًا، وأحيانًا أخرى يُطرح في اجتماع وكأنه تطور مفاجئ في الحبكة: هل سيحل الذكاء الاصطناعي محل مهندسي البيانات؟

و... فهمتُ الأمر. يستطيع الذكاء الاصطناعي توليد استعلامات SQL، وبناء مسارات البيانات، وشرح تتبعات الأخطاء، وصياغة نماذج dbt، بل واقتراح مخططات مستودعات البيانات بثقة مُقلقة. GitHub Copilot لـ SQL حول نماذج dbt GitHub Copilot.
يبدو الأمر أشبه بمشاهدة رافعة شوكية تتعلم التلاعب بالكرات. مُثير للإعجاب، ومُقلق بعض الشيء، ولا تعرف تمامًا ما يعنيه ذلك لعملك 😅

لكن الحقيقة أقل وضوحًا مما يوحي به العنوان. فالذكاء الاصطناعي يُحدث تغييرًا جذريًا في هندسة البيانات. إنه يُؤتمت المهام الروتينية والمتكررة، ويُسرّع من إنجاز المهام التي تتطلب معرفة المطلوب ولكن يصعب تذكر الصيغة. ولكنه في الوقت نفسه يُولّد أنواعًا جديدة من الفوضى.

لذا دعونا نوضح الأمر بشكل صحيح، دون تفاؤل مفرط أو ذعر ناتج عن تصفح الأخبار الكئيبة.

مقالات قد ترغب في قراءتها بعد هذه المقالة:

🔗 هل سيحل الذكاء الاصطناعي محل أخصائيي الأشعة؟
كيف تُغير تقنيات الذكاء الاصطناعي في التصوير سير العمل والدقة والأدوار المستقبلية.

🔗 هل سيحل الذكاء الاصطناعي محل المحاسبين؟
تعرف على مهام المحاسبة التي يقوم الذكاء الاصطناعي بأتمتتها وما تبقى منها تحت سيطرة الإنسان.

🔗 هل سيحل الذكاء الاصطناعي محل المصرفيين الاستثماريين؟
فهم تأثير الذكاء الاصطناعي على الصفقات والأبحاث وعلاقات العملاء.

🔗 هل سيحل الذكاء الاصطناعي محل وكلاء التأمين؟
تعرّف على كيفية إحداث الذكاء الاصطناعي تحولاً في عمليات الاكتتاب والمبيعات ودعم العملاء.

لماذا يستمر سؤال "الذكاء الاصطناعي يحل محل مهندسي البيانات" في الظهور مجدداً؟ 😬

ينبع الخوف من مكان محدد للغاية: هندسة البيانات تتضمن الكثير من العمل القابل للتكرار.

كتابة وإعادة هيكلة لغة SQL
إنشاء نصوص استيعاب البيانات
ربط الحقول من مخطط إلى آخر
إنشاء الاختبارات والوثائق الأساسية
تصحيح أخطاء خطوط الأنابيب التي يمكن التنبؤ بها إلى حد ما

يتميز الذكاء الاصطناعي بقدرة استثنائية على تحليل الأنماط المتكررة. وجزء كبير من هندسة البيانات يعتمد تحديدًا على هذا النمط - أنماط متراكمة فوق بعضها. اقتراحات برمجية من GitHub Copilot

كما أن منظومة الأدوات تقوم بالفعل "بإخفاء" التعقيد:

موصلات ELT المُدارة - وثائق Fivetran
الحوسبة بدون خوادم AWS Lambda (الحوسبة بدون خوادم)
توفير المستودعات بنقرة واحدة
وثائق Apache Airflow حول التنسيق التلقائي للتوسع
أطر التحويل التصريحي: ما هو dbt؟

لذا، عندما يظهر الذكاء الاصطناعي، قد يبدو وكأنه القطعة الأخيرة. إذا كانت البنية الأساسية مجردة بالفعل، ويمكن للذكاء الاصطناعي كتابة الكود الرابط... فماذا يتبقى؟ 🤷

لكن إليكم ما يغفل عنه الناس: هندسة البيانات ليست مجرد كتابة بيانات. الكتابة هي الجزء السهل، أما الجزء الصعب فهو جعل واقع الأعمال الغامض والمتغير سياسياً يعمل كنظام موثوق.

ولا يزال الذكاء الاصطناعي يعاني من هذا الغموض. يعاني البشر أيضاً، لكنهم يبتكرون حلولاً أفضل.

ما يفعله مهندسو البيانات فعليًا طوال اليوم (الحقيقة غير البراقة) 🧱

لنكن صريحين - يبدو مسمى وظيفة "مهندس بيانات" وكأنك تبني محركات صواريخ باستخدام الرياضيات البحتة. لكن في الواقع، أنت تبني الثقة.

لا يقتصر يوم العمل المعتاد على "ابتكار خوارزميات جديدة" بل يتضمن ما يلي:

التفاوض مع فرق العمل المعنية بتعريفات البيانات (مؤلم ولكنه ضروري)
التحقيق في سبب تغير أحد المقاييس (وما إذا كان هذا التغير حقيقياً)
التعامل مع انحراف المخطط ومفاجآت "إضافة عمود في منتصف الليل"
ضمان أن تكون خطوط الأنابيب قابلة للتكرار، وقابلة للاسترداد، وقابلة للمراقبة
وضع ضوابط وقائية حتى لا يقوم المحللون في المراحل اللاحقة بإنشاء لوحات معلومات غير منطقية عن طريق الخطأ
إدارة التكاليف حتى لا يتحول مستودعك إلى كنز لا قيمة له 🔥
تأمين الوصول، والتدقيق، والامتثال، وسياسات الاحتفاظ، ومبادئ اللائحة العامة لحماية البيانات (المفوضية الأوروبية)، وتقييد التخزين (مكتب مفوض المعلومات).
بناء منتجات بيانات يمكن للناس استخدامها فعليًا دون الحاجة إلى مراسلتك بعشرين سؤالًا

جزء كبير من الوظيفة يتعلق بالجوانب الاجتماعية والتشغيلية:

"من يملك هذه الطاولة؟"
"هل لا يزال هذا التعريف ساري المفعول؟"
"لماذا يقوم نظام إدارة علاقات العملاء بتصدير البيانات المكررة؟"
هل يمكننا إرسال هذا المقياس إلى المديرين التنفيذيين دون إحراج؟ 😭

يمكن للذكاء الاصطناعي أن يساعد في بعض جوانب هذا الأمر، بالتأكيد. لكن استبداله بالكامل... أمرٌ صعب.

ما الذي يجعل دور مهندس البيانات قوياً؟ ✅

هذا القسم مهم لأن الحديث عن الاستبدال يفترض عادةً أن مهندسي البيانات هم في الأساس "بناة خطوط البيانات". وهذا يشبه افتراض أن الطهاة "يقطعون الخضار" بشكل أساسي. إنه جزء من العمل، ولكنه ليس العمل بأكمله.

النسخة القوية من مهندس البيانات أنه يستطيع القيام بمعظم هذه المهام:

التصميم من أجل التغيير
: تتغير البيانات، وتتغير الفرق، وتتغير الأدوات. المهندس الجيد يبني أنظمة لا تنهار كلما طرأت تغييرات غير متوقعة.
عرّف العقود والتوقعات.
ما المقصود بـ "العميل"؟ ما المقصود بـ "النشط"؟ ماذا يحدث عند تأخر وصول طلب؟ تمنع العقود الفوضى أكثر من البرمجة المعقدة. معيار عقود البيانات المفتوحة (ODCS) ODCS (GitHub)
اجعل قابلية المراقبة جزءًا لا يتجزأ من كل شيء.
ليس فقط "هل تم تشغيله؟" بل "هل تم تشغيله بشكل صحيح؟". يشمل ذلك حداثة البيانات، وشذوذات الحجم، وتضخم القيم الفارغة، وتحولات التوزيع. قابلية مراقبة البيانات (Dynatrace): ما هي قابلية مراقبة البيانات؟
قارن بين الخيارات بحكمة:
السرعة مقابل الدقة، التكلفة مقابل زمن الاستجابة، المرونة مقابل البساطة. لا يوجد نظام مثالي، بل أنظمة يمكنك التعامل معها.
تحويل احتياجات الأعمال إلى أنظمة مستدامة.
يطلب الناس مقاييس، لكن ما يحتاجونه هو منتج بيانات. يمكن للذكاء الاصطناعي كتابة الشفرة، لكنه لا يستطيع معرفة المخاطر الكامنة في العمل بشكل سحري.
حافظ على سرية بياناتك.
أفضل ما يُقال عن منصة بيانات هو أنها لا تُثير ضجة. البيانات الهادئة بيانات جيدة، تمامًا مثل السباكة، لا تُلاحظها إلا عند تعطلها. 🚽

إذا كنت تقوم بهذه الأمور، فإن السؤال "هل سيحل الذكاء الاصطناعي محل مهندسي البيانات؟" يبدو... غير منطقي بعض الشيء. يمكن للذكاء الاصطناعي أن يحل محل المهام، وليس الملكية.

حيث يساعد الذكاء الاصطناعي بالفعل مهندسي البيانات (وهو أمر رائع حقًا) 🤖✨

الذكاء الاصطناعي ليس مجرد تسويق. إذا تم استخدامه بشكل جيد، فهو عامل مضاعف حقيقي للقوة.

1) تسريع عمليات SQL والتحويل

ربط معقد للصياغة
كتابة دوال النوافذ التي تفضل عدم التفكير فيها
تحويل منطق اللغة البسيطة إلى هياكل استعلام
إعادة هيكلة الاستعلامات المعقدة إلى عبارات CTE سهلة القراءة باستخدام GitHub Copilot for SQL

هذا أمر بالغ الأهمية لأنه يقلل من تأثير "الصفحة الفارغة". لا يزال عليك التحقق من صحة البيانات، ولكنك تبدأ من 70% بدلاً من 0%.

2) تصحيح الأخطاء وتحديد السبب الجذري

الذكاء الاصطناعي جيد في:

شرح رسائل الخطأ
اقتراح أماكن البحث
يوصي GitHub Copilot باتباع خطوات من نوع "التحقق من عدم تطابق المخطط". إنه أشبه بوجود مهندس مبتدئ لا يكلّ ولا ينام، وأحيانًا يكذب بثقة 😅

3) إثراء الوثائق وفهرس البيانات

تم إنشاؤه تلقائيًا:

وصف الأعمدة
ملخصات النماذج
تفسيرات النسب
"ما الغرض من استخدام هذه الطاولة؟" مسودات وثائق العلاج السلوكي الجدلي

إنها ليست مثالية، لكنها تكسر لعنة خطوط الأنابيب غير الموثقة.

4) اختبار السقالات والتحقق منها

يمكن للذكاء الاصطناعي أن يقترح ما يلي:

اختبارات القيم الفارغة الأساسية
التحقق من التفرد
أفكار حول سلامة المرجعية
تأكيدات من نوع "يجب ألا ينخفض هذا المقياس أبدًا" في اختبارات بيانات dbt، توقعات عظيمة: التوقعات

مرة أخرى - ما زلت أنت من يقرر ما هو مهم، لكن هذا يسرع الأجزاء الروتينية.

5) كود "الربط" الخاص بخط الأنابيب

قوالب التكوين، وهياكل YAML، ومسودات DAG للتنسيق. كل هذا مُكرر، والذكاء الاصطناعي يتفوق على التكرار 🥣 مخططات Apache Airflow DAG

حيث لا يزال الذكاء الاصطناعي يعاني (وهذا هو جوهر المشكلة) 🧠🧩

هذا هو الجزء الأكثر أهمية، لأنه يجيب على سؤال الاستبدال بملمس حقيقي.

1) الغموض وتغير التعريفات

نادراً ما تكون منطق الأعمال واضحاً وموجزاً. فالناس يغيرون آراءهم في منتصف الحديث. "المستخدم النشط" يصبح "المستخدم النشط الذي يدفع"، ثم يصبح "المستخدم النشط الذي يدفع باستثناء عمليات الاسترداد إلا في بعض الأحيان"... أنت تعرف كيف تسير الأمور.

لا يمكن للذكاء الاصطناعي أن يتحكم في هذا الغموض. كل ما يمكنه فعله هو التخمين.

2) المساءلة والمخاطر

عندما يتعطل خط الأنابيب وتظهر لوحة معلومات المدير التنفيذي بيانات غير منطقية، يجب على شخص ما أن:

الفرز
إيصال الأثر
أصلحها
منع تكرار الإصابة
كتابة تقرير ما بعد الوفاة
قرر ما إذا كان بإمكان الشركة الاستمرار في الوثوق بأرقام الأسبوع الماضي

يمكن للذكاء الاصطناعي أن يساعد، لكنه لا يستطيع أن يكون مسؤولاً بشكلٍ فعّال. فالمؤسسات لا تُدار بالعواطف، بل بالمسؤولية.

3) التفكير النظمي

منصات البيانات عبارة عن أنظمة بيئية: استيعاب البيانات، وتخزينها، وتحويلها، وتنسيقها، وحوكمتها، والتحكم في التكاليف، واتفاقيات مستوى الخدمة. أي تغيير في طبقة واحدة يُحدث تأثيرًا واسعًا. مفاهيم أباتشي إيرفلو

قد يقترح الذكاء الاصطناعي تحسينات محلية تُسبب مشاكل عامة. الأمر أشبه بإصلاح باب يُصدر صريرًا عن طريق إزالته بالكامل 😬

4) الأمن والخصوصية والامتثال

هذا هو المكان الذي تموت فيه أوهام الاستبدال.

ضوابط الوصول
أمان على مستوى الصف، سياسات الوصول إلى الصفوف في Snowflake، أمان على مستوى الصف في BigQuery
معالجة المعلومات الشخصية الحساسة - إطار عمل الخصوصية التابع للمعهد الوطني للمعايير والتكنولوجيا
قواعد الاحتفاظ بالبيانات، وقيود التخزين (مكتب مفوض المعلومات)، وتوجيهات الاتحاد الأوروبي بشأن الاحتفاظ بالبيانات
سجلات التدقيق NIST SP 800-92 (إدارة السجلات) CIS Control 8 (إدارة سجلات التدقيق)
قيود إقامة البيانات

يمكن للذكاء الاصطناعي صياغة السياسات، لكن تنفيذها بأمان هو الهندسة الحقيقية.

5) "المجهولات غير المعروفة"

غالباً ما تكون حوادث البيانات غير متوقعة:

تقوم واجهة برمجة تطبيقات البائع بتغيير دلالاتها بصمت
ينعكس افتراض المنطقة الزمنية
تقوم عملية التعبئة الخلفية بتكرار القسم
تتسبب آلية إعادة المحاولة في كتابة مزدوجة
تُقدّم ميزة جديدة للمنتج أنماط أحداث جديدة

يكون الذكاء الاصطناعي أضعف عندما لا يكون الوضع نمطًا معروفًا.

جدول مقارنة: ما الذي يقلل ماذا عمليًا 🧾🤔

فيما يلي نظرة عملية. ليست "أدوات تحل محل الناس"، بل أدوات وأساليب تقلل من حجم بعض المهام.

أداة / نهج	جمهور	أجواء السعر	لماذا ينجح؟
مساعدو برمجة الذكاء الاصطناعي (مساعدو SQL + Python) GitHub Copilot	المهندسون الذين يكتبون الكثير من التعليمات البرمجية	من مجاني إلى مدفوع	بارع في بناء الهياكل، وإعادة هيكلة البرامج، وقواعد اللغة... وأحيانًا متغطرس بطريقة محددة للغاية
موصلات ELT المُدارة من Fivetran	سئمت الفرق من بناء عمليات الاستيعاب	اشتراك-ي	يزيل ألم البلع المخصص، لكنه ينكسر بطرق جديدة وممتعة
منصات مراقبة البيانات (Dynatrace)	أي شخص يمتلك اتفاقيات مستوى الخدمة	الشركات المتوسطة إلى الكبيرة	يكشف عن أي خلل مبكراً - مثل أجهزة إنذار الدخان لخطوط الأنابيب 🔔
أطر التحويل (النمذجة التصريحية) dbt	التحليلات + الأنظمة الهجينة الرقمية	عادةً أداة + حساب	يجعل المنطق معياريًا وقابلًا للاختبار، وأقل تعقيدًا
فهارس البيانات + الطبقات الدلالية dbt الطبقة الدلالية	المنظمات التي تعاني من ارتباك في استخدام المقاييس	يعتمد الأمر عملياً	يُعرّف "الحقيقة" مرة واحدة - مما يقلل من النقاشات اللانهائية حول المقاييس
التنسيق باستخدام القوالب Apache Airflow	فرق ذات عقلية منصة	تكلفة التشغيل + تكلفة العمليات	توحيد إجراءات العمل؛ تقليل عدد الرسوم البيانية الموجهة غير المتسلسلة (DAGs)
إنشاء وثائق العلاج السلوكي المعرفي بمساعدة الذكاء الاصطناعي	الفرق التي تكره كتابة الوثائق	رخيصة إلى متوسطة	يُنتج وثائق "جيدة بما يكفي" حتى لا تتلاشى المعرفة
سياسات الحوكمة الآلية، إطار عمل الخصوصية التابع للمعهد الوطني للمعايير والتكنولوجيا	البيئات الخاضعة للتنظيم	مؤسسة-ي	يساعد في تطبيق القواعد - ولكنه لا يزال بحاجة إلى البشر لوضع القواعد

لاحظ ما هو مفقود: صف مكتوب عليه "اضغط على الزر لإزالة مهندسي البيانات". أجل... هذا الصف غير موجود 🙃

إذن... هل سيحلّ الذكاء الاصطناعي محلّ مهندسي البيانات، أم سيغيّر دورهم فقط؟ 🛠️

إليكم الإجابة غير الدرامية: سيحل الذكاء الاصطناعي محل أجزاء من سير العمل، وليس المهنة نفسها.

لكن ذلك سيُعيد تشكيل الدور. وإذا تجاهلت ذلك، فستشعر بالضغط.

ما الذي يتغير؟

تقليل الوقت المُستغرق في كتابة النصوص النمطية
تقليل الوقت المُستغرق في البحث عن المستندات
مزيد من الوقت للمراجعة والتحقق والتصميم
مزيد من الوقت لتحديد العقود وتوقعات الجودة، معيار عقد البيانات المفتوحة (ODCS)
مزيد من الوقت للشراكة مع أقسام المنتج والأمن والمالية

هذا هو التحول الدقيق: أصبحت هندسة البيانات أقل ارتباطًا بـ "بناء خطوط الأنابيب" وأكثر ارتباطًا بـ "بناء نظام منتج بيانات موثوق به"

وفي تطور هادئ، هذا الأمر أكثر قيمة، وليس أقل.

أيضًا - وسأقول هذا حتى لو بدا مبالغًا فيه - يزيد الذكاء الاصطناعي من عدد الأشخاص القادرين على إنتاج البيانات، مما يزيد الحاجة إلى شخص ما للحفاظ على سلامة النظام. المزيد من المخرجات يعني المزيد من الارتباك المحتمل. GitHub Copilot

كأنك تعطي الجميع مثقابًا كهربائيًا. رائع! الآن يجب على أحدهم تطبيق قاعدة "من فضلك لا تثقب أنبوب الماء" 🪠

مجموعة المهارات الجديدة التي تظل قيّمة (حتى مع وجود الذكاء الاصطناعي في كل مكان) 🧠⚙️

إذا كنت ترغب في قائمة مرجعية عملية "مستقبلية"، فستبدو كالتالي:

عقلية تصميم النظام

نمذجة البيانات التي تصمد أمام التغيير
المفاضلات بين المعالجة الدفعية والمعالجة المتدفقة
التفكير في زمن الاستجابة والتكلفة والموثوقية

هندسة جودة البيانات

العقود، والتحقق من الصحة، واكتشاف الحالات الشاذة، ومعيار عقد البيانات المفتوحة (ODCS)، وإمكانية مراقبة البيانات (Dynatrace).
اتفاقيات مستوى الخدمة، وأهداف مستوى الخدمة، وعادات الاستجابة للحوادث
تحليل الأسباب الجذرية بانضباط (وليس بمشاعر سلبية)

الحوكمة وهيكلية الثقة

أنماط الوصول
إمكانية التدقيق NIST SP 800-92 (إدارة السجلات)
الخصوصية بالتصميم - إطار عمل الخصوصية التابع للمعهد الوطني للمعايير والتكنولوجيا
إدارة دورة حياة البيانات، إرشادات الاتحاد الأوروبي بشأن الاحتفاظ بالبيانات

التفكير على المنصات

قوالب قابلة لإعادة الاستخدام، مسارات ذهبية
أنماط موحدة للاستيعاب والتحويلات والاختبارات Fivetran dbt data tests
أدوات الخدمة الذاتية التي لا تنصهر

التواصل (نعم، حقاً)

كتابة وثائق واضحة
مواءمة التعريفات
قول "لا" بأدب ولكن بحزم
شرح المفاضلات دون أن أبدو كآلة 🤖

إذا استطعتَ فعل ذلك، فإنّ السؤال "هل سيحلّ الذكاء الاصطناعي محلّ مهندسي البيانات؟" يصبح أقلّ تهديداً. يصبح الذكاء الاصطناعي بمثابة هيكلك الخارجي، وليس بديلاً عنك.

سيناريوهات واقعية قد تؤدي إلى تقلص بعض أدوار هندسة البيانات 📉

حسنًا، دعونا نُلقي نظرة سريعة على الواقع، لأن الأمور ليست كلها سعادة وفرح 🎉

بعض الأدوار أكثر عرضة للانكشاف:

أدوار مخصصة للاستيعاب فقط حيث تكون جميع الموصلات قياسية، مثل موصلات Fivetran.
فرق تقوم في الغالب بعمليات إعداد تقارير متكررة مع الحد الأدنى من الفروق الدقيقة في المجال
المنظمات التي يُعامل فيها مهندسو البيانات على أنهم "مجرد مبرمجين بلغة SQL" (قاسٍ، ولكنه صحيح)
وظائف ذات مسؤولية محدودة حيث يقتصر العمل على إصدار التذاكر ونسخها ولصقها

يمكن للذكاء الاصطناعي بالإضافة إلى الأدوات المُدارة أن يقلل من تلك الاحتياجات.

لكن حتى في هذه الحالة، عادةً ما يكون الاستبدال على النحو التالي:

عدد أقل من الأشخاص الذين يقومون بنفس العمل المتكرر
مزيد من التركيز على ملكية المنصة وموثوقيتها
التحول نحو "بإمكان شخص واحد دعم المزيد من خطوط الأنابيب"

نعم، يمكن أن تتغير أنماط التوظيف. تتطور الأدوار. تتغير المسميات الوظيفية. هذا أمر واقعي.

ومع ذلك، لا يزال نموذج الدور الذي يتميز بالملكية العالية والثقة العالية قائماً.

ملخص ختامي 🧾✅

هل سيحل الذكاء الاصطناعي محل مهندسي البيانات؟ ليس بالطريقة النظيفة والكاملة التي يتخيلها الناس.

سيقوم الذكاء الاصطناعي بما يلي:

أتمتة المهام المتكررة
تسريع عملية البرمجة وتصحيح الأخطاء والتوثيق: توثيق GitHub Copilot لـ SQL dbt
خفض تكلفة إنتاج خطوط الأنابيب

لكن هندسة البيانات تدور أساساً حول:

المساءلة
تصميم النظام
الثقة والجودة والحوكمة، معيار عقد البيانات المفتوحة (ODCS)، إطار عمل الخصوصية التابع للمعهد الوطني للمعايير والتكنولوجيا (NIST
تحويل واقع الأعمال الغامض إلى منتجات بيانات موثوقة

يمكن للذكاء الاصطناعي أن يساعد في ذلك... لكنه لا "يملكه".

إذا كنت مهندس بيانات، فالخطوة بسيطة (ليست سهلة، لكنها بسيطة):
ركّز على المسؤولية، والجودة، والتفكير الاستراتيجي، والتواصل. دع الذكاء الاصطناعي يتولى المهام الروتينية بينما تتولى أنت المهام الأساسية.

أجل، أحياناً يعني ذلك أن تكون الشخص الناضج في المكان. ليس بالضرورة أن تكون جذاباً، لكنك تتمتع بقوة هادئة 😄

هل سيحلّ الذكاء الاصطناعي محلّ مهندسي البيانات؟
سيحلّ محلّ بعض المهام، ويعيد ترتيب السلم الوظيفي، ويجعل أفضل مهندسي البيانات أكثر قيمة. هذه هي الحقيقة.

مثال واقعي: بناء سير عمل لمراجعة خط أنابيب البيانات بمساعدة الذكاء الاصطناعي 🛠️

سيناريو

تخيل شركة تجارة إلكترونية صغيرة تضم مهندس بيانات واحد ومحللين اثنين، ومشكلة مألوفة للغاية: لوحة التحكم المالية تتعطل باستمرار كلما قام مزود خدمات الدفع بتغيير اسم حقل.

لا يرغب الفريق في أن "يسيطر" الذكاء الاصطناعي على مسار العمل، فهذا ينطوي على مخاطرة. بدلاً من ذلك، يستخدمون الذكاء الاصطناعي كمساعد في المسودة الأولية للأعمال الروتينية ولكن المهمة: كتابة الهياكل الأساسية لنماذج dbt، واقتراح الاختبارات، وصياغة الوثائق، وإنشاء قائمة مراجعة للتعليمات البرمجية.

لا يزال مهندس البيانات البشري مسؤولاً عن التصميم النهائي، وتعريفات البيانات، وقواعد الوصول، ونشر الإنتاج. ويعمل الذكاء الاصطناعي ببساطة على تسريع المرحلة المتوسطة المعقدة.

ما يحتاجه سير العمل

قبل استخدام الذكاء الاصطناعي، يقوم الفريق بتزويده بالسياق الكافي ليكون مفيداً:

مخطط جدول المدفوعات الحالي
تعريفات المقاييس المالية المستهدفة، مثل "صافي الإيرادات" و"مبلغ الاسترداد" و"المدفوعات المسددة"
اصطلاحات التسمية لنماذج العلاج السلوكي الجدلي
أمثلة على الاختبارات المعتمدة
عقد بيانات قصير لتغذية المدفوعات
قواعد التعامل مع المعلومات الشخصية الحساسة، والمدفوعات الفاشلة، والنسخ المكررة، والسجلات المتأخرة
عينة من الحوادث السابقة، بما في ذلك ما حدث من أخطاء وكيف تم إصلاحها

ليس الحل في "طلب من الذكاء الاصطناعي بناء خط أنابيب". هذا غامض للغاية.

أما النهج الأقوى فهو: "هذه هي قواعدنا، وهذا هو المخطط، وهذا هو السلوك المتوقع. صِغ شيئًا يمكننا مراجعته."

مثال على التعليمات

أنت تساعد في صياغة نموذج dbt لبيانات المدفوعات لدينا. استخدم المخطط والقواعد أدناه لإنشاء نموذج أولي، واقتراح اختبارات dbt، وملاحظات التوثيق.

يجب على النموذج حساب الإيرادات اليومية المُسددة حسب رقم الطلب ومزود الدفع. يجب استبعاد المدفوعات الفاشلة، واستبعاد المعاملات التجريبية، وخصم المبالغ المستردة فقط عندما تكون حالة الاسترداد "مؤكدة".

لا تقم بإنشاء أعمدة جديدة. إذا كان هناك عمود مطلوب مفقود، فقم بإدراجه تحت عنوان "أسئلة للمراجعة البشرية" بدلاً من التخمين.

اقترح أيضًا اختبارات للتحقق من التفرد، والقيم الفارغة، والقيم المقبولة، ومعقولية الإيرادات. حدد أي منطق قد يؤثر على التقارير المالية.

كيفية اختباره

الاختبار المعقول يكون صغيراً وعادياً عن قصد:

أعطِ الذكاء الاصطناعي مخطط دفع معروفًا وجيدًا وتحقق مما إذا كان يتجنب ابتكار الحقول.
أعطه مخططًا واحدًا مع عمود refund_status مفقود وانظر ما إذا كان سيطرح سؤالًا بدلاً من التخمين.
قم بتشغيل استعلام SQL المُنشأ على مجموعة بيانات تجريبية، وليس على مجموعة بيانات الإنتاج.
قارن الناتج مع 20 سجل دفع تم فحصها يدويًا.
اطلب من محلل البيانات ومهندس البيانات مراجعة التعريفات قبل دمجها.
أضف الاختبارات المقبولة إلى نظام التكامل المستمر (CI) حتى يستمر خط الأنابيب في التحقق من نفسه بعد النشر.

الشيء المهم هو اختبار الذكاء الاصطناعي على أنماط الفشل التي تخشاها أكثر من غيرها: الأعمدة المصطنعة، ومنطق الإيرادات الخاطئ، ومعالجة المبالغ المستردة المفقودة، والصفوف المكررة الصامتة.

نتيجة

نتيجة توضيحية: بناءً على توقيت ثلاث مهام نموذجية لتغيير مسار العمل قبل وبعد استخدام سير العمل هذا.

قبل استخدام الذكاء الاصطناعي، كان المهندس يقضي حوالي 5 ساعات و30 دقيقة لكل تغيير: ما يقرب من ساعتين في كتابة SQL، وساعة واحدة في إنشاء الاختبارات، و45 دقيقة في كتابة الوثائق، والباقي في التحقق من الحالات الشاذة مع قسم المالية.

باستخدام الذكاء الاصطناعي فقط في المسودات الأولية، استغرق نفس نوع التغيير حوالي ساعتين و10 دقائق. وجاء التوفير الأكبر من إعداد نماذج الاختبارات ومسودات التوثيق، حيث انخفض الوقت من ساعة و45 دقيقة إلى حوالي 25 دقيقة.

لا تزال خطوة المراجعة البشرية تستغرق حوالي 45 دقيقة، ولا ينبغي إزالتها.

في اختبار المهام الثلاث، اقترح الذكاء الاصطناعي 18 عملية تحقق. قبل المهندس 11 منها، وعدّل 5، ورفض 2 لافتراضه قواعد عمل غير صحيحة. هذا العدد من عمليات الرفض مهم، فهو يُثبت أن سير العمل يحتاج إلى مراجعة، لا إلى ثقة عمياء.

ما الذي يمكن أن يحدث خطأً؟

يمكن للذكاء الاصطناعي أن يجعل خط الإنتاج يبدو أكثر اكتمالاً مما هو عليه في الواقع.

تشمل نقاط الضعف الشائعة ما يلي:

ابتكار أعمدة تبدو معقولة
التعامل مع عمليات رد الأموال، وعمليات الاعتراض على الدفع، والمدفوعات الفاشلة على أنها شيء واحد
مشاكل عدم وجود مناطق زمنية في الإيرادات اليومية
اقتراح اختبارات عامة لا تكشف عن الأخطاء المالية
كتابة وثائق تبدو واثقة ولكنها تخفي عدم اليقين
تجاهل قواعد الخصوصية عندما تحتوي بيانات العينة على تفاصيل العملاء

قاعدة جيدة: يمكن للذكاء الاصطناعي صياغة النموذج، ولكن يجب على الإنسان الموافقة على التعريفات، والمنطق المالي، والتحكم في الوصول، وإصدار الإنتاج.

الخلاصة العملية

إنّ النسخة القيّمة من الذكاء الاصطناعي في هندسة البيانات لا تكمن في "استبدال مهندس البيانات"، بل في "إزالة الصفحة البيضاء، ثمّ المراجعة الدقيقة".

وهذا يعني استعلام SQL أسرع، واختبارات أسرع، وتوثيقًا أوليًا أفضل، بينما يظل المهندس مسؤولاً عن الجزء الأكثر أهمية: ما إذا كانت البيانات صحيحة وموثوقة وآمنة وقابلة للتفسير.

التعليمات

هل سيحل الذكاء الاصطناعي محل مهندسي البيانات تماماً؟

في معظم المؤسسات، يُرجّح أن يتولى الذكاء الاصطناعي مهامًا محددة بدلًا من إلغاء دور هندسة البيانات تمامًا. فهو يُسرّع كتابة استعلامات SQL، وبناء هياكل خطوط البيانات، وإعداد الوثائق الأولية، وإنشاء الاختبارات الأساسية. لكن هندسة البيانات تنطوي أيضًا على مسؤولية وملكية، فضلًا عن العمل الشاق المتمثل في جعل بيئة العمل المعقدة تعمل كنظام موثوق. ولا تزال هذه الجوانب بحاجة إلى العنصر البشري لتحديد معايير الأداء الأمثل وتحمّل المسؤولية عند حدوث أي خلل.

ما هي جوانب هندسة البيانات التي يقوم الذكاء الاصطناعي بأتمتتها بالفعل؟

يُحقق الذكاء الاصطناعي أفضل أداء في المهام المتكررة: مثل صياغة وإعادة هيكلة استعلامات SQL، وإنشاء هياكل نماذج dbt، وشرح الأخطاء الشائعة، وإعداد مخططات التوثيق. كما يُمكنه إنشاء نماذج اختبارات مثل التحقق من القيم الفارغة أو التفرد، وتوليد قوالب برمجية "رابطة" لأدوات التنسيق. تكمن الفائدة في الزخم - حيث تبدأ أقرب إلى حل عملي - ولكن لا يزال عليك التحقق من صحة الحل والتأكد من ملاءمته لبيئتك.

إذا كان بإمكان الذكاء الاصطناعي كتابة استعلامات SQL وخطوط البيانات، فماذا يتبقى لمهندسي البيانات؟

الكثير: تحديد عقود البيانات، ومعالجة تغيرات المخططات، وضمان أن تكون مسارات البيانات قابلة للتكرار، وقابلة للمراقبة، وقابلة للاسترداد. يقضي مهندسو البيانات وقتًا في دراسة تغييرات المقاييس، وبناء ضوابط للمستخدمين النهائيين، وإدارة المفاضلات بين التكلفة والموثوقية. غالبًا ما تتلخص المهمة في بناء الثقة والحفاظ على استقرار منصة البيانات، أي أن تكون مستقرة بما يكفي بحيث لا يضطر أحد للتفكير فيها يوميًا.

كيف يُغيّر الذكاء الاصطناعي العمل اليومي لمهندس البيانات؟

يُقلل هذا الأسلوب عادةً من التعليمات البرمجية المتكررة ووقت البحث، مما يُتيح لك قضاء وقت أقل في الكتابة ووقت أطول في المراجعة والتحقق والتصميم. هذا التحول يُوجه الدور نحو تحديد التوقعات ومعايير الجودة والأنماط القابلة لإعادة الاستخدام بدلاً من كتابة كل شيء يدويًا. عمليًا، من المرجح أن تُجري المزيد من العمل التشاركي مع فرق المنتج والأمن والمالية، لأن الناتج التقني يصبح أسهل في الإنشاء، لكن يصعب إدارته.

لماذا يواجه الذكاء الاصطناعي صعوبة في التعامل مع التعريفات التجارية الغامضة مثل "المستخدم النشط"؟

لأن منطق الأعمال ليس ثابتًا أو دقيقًا، بل يتغير أثناء المشروع ويختلف باختلاف أصحاب المصلحة. يمكن للذكاء الاصطناعي صياغة تفسير، لكنه لا يستطيع اتخاذ القرار النهائي عندما تتطور التعريفات أو تظهر تعارضات. غالبًا ما تتطلب هندسة البيانات التفاوض، وتوثيق الافتراضات، وتحويل المتطلبات الغامضة إلى عقود متينة. يُعدّ هذا العمل المتعلق بـ"التنسيق البشري" سببًا رئيسيًا لعدم اختفاء هذا الدور حتى مع تحسن الأدوات.

هل يمكن للذكاء الاصطناعي التعامل مع إدارة البيانات والخصوصية والامتثال بشكل آمن؟

يمكن للذكاء الاصطناعي المساعدة في صياغة السياسات أو اقتراح المناهج، لكن التنفيذ الآمن لا يزال يتطلب هندسة دقيقة وإشرافًا دقيقًا. تشمل الحوكمة ضوابط الوصول، ومعالجة المعلومات الشخصية الحساسة، وقواعد الاحتفاظ بالبيانات، وسجلات التدقيق، وأحيانًا قيود الإقامة. هذه مجالات عالية المخاطر لا يُقبل فيها التقريب من الصواب. يجب على البشر تصميم القواعد، والتحقق من تطبيقها، وتحمل مسؤولية نتائج الامتثال.

ما هي المهارات التي تظل قيّمة لمهندسي البيانات مع تطور الذكاء الاصطناعي؟

المهارات التي تجعل الأنظمة مرنة: التفكير التصميمي للنظام، وهندسة جودة البيانات، والتوحيد القياسي المراعي للمنصات. تزداد أهمية العقود، والمراقبة، وعادات الاستجابة للحوادث، والتحليل المنهجي للأسباب الجذرية، عندما يتمكن عدد أكبر من الأشخاص من إنشاء وثائق البيانات بسرعة. كما يصبح التواصل عاملاً حاسماً في التميّز؛ فتوحيد التعريفات، وكتابة وثائق واضحة، وشرح المفاضلات بسلاسة، كلها عناصر أساسية للحفاظ على موثوقية البيانات.

ما هي وظائف هندسة البيانات الأكثر عرضة للخطر من الذكاء الاصطناعي والأدوات المُدارة؟

تُعدّ الأدوار التي تركز بشكل ضيق على عمليات استيعاب البيانات المتكررة أو مسارات إعداد التقارير القياسية أكثر عرضةً للخطر، لا سيما عندما تغطي موصلات ELT المُدارة معظم المصادر. قد يتقلص العمل الذي يتطلب مسؤولية محدودة ويعتمد على نظام التذاكر، لأن الذكاء الاصطناعي والتجريد يقللان الجهد المبذول لكل مسار. ولكن هذا عادةً ما يعني انخفاض عدد الأشخاص الذين يقومون بمهام متكررة، وليس "انعدام مهندسي البيانات". أما الأدوار التي تتطلب مسؤولية عالية وتتمحور حول الموثوقية والجودة والثقة، فتبقى راسخة.

كيف يمكنني استخدام أدوات مثل GitHub Copilot أو dbt مع الذكاء الاصطناعي دون إحداث فوضى؟

تعامل مع مخرجات الذكاء الاصطناعي كمسودة، لا كقرار نهائي. استخدمها لإنشاء هياكل استعلامات، وتحسين سهولة القراءة، أو لإنشاء نماذج أولية لاختبارات قواعد البيانات والوثائق، ثم تحقق من صحتها باستخدام بيانات حقيقية وحالات استثنائية. اربطها بمعايير صارمة: عقود، ومعايير تسمية، وفحوصات مراقبة، وممارسات مراجعة. الهدف هو تسليم أسرع دون التضحية بالموثوقية، أو التحكم في التكاليف، أو الحوكمة.

مراجع

المفوضية الأوروبية - شرح حماية البيانات: مبادئ اللائحة العامة لحماية البيانات - commission.europa.eu
مكتب مفوض المعلومات (ICO) - قيود التخزين - ico.org.uk
المفوضية الأوروبية - ما هي مدة الاحتفاظ بالبيانات وهل من الضروري تحديثها؟ - commission.europa.eu
المعهد الوطني للمعايير والتكنولوجيا (NIST) - إطار الخصوصية - nist.gov
مركز موارد أمن الحاسوب التابع للمعهد الوطني للمعايير والتكنولوجيا (NIST) - SP 800-92: دليل إدارة سجلات أمن الحاسوب - csrc.nist.gov
مركز أمن الإنترنت (CIS) - إدارة سجلات التدقيق (ضوابط مركز أمن الإنترنت) - cisecurity.org
وثائق Snowflake - سياسات الوصول إلى الصفوف - docs.snowflake.com
وثائق جوجل كلاود - أمان BigQuery على مستوى الصف - docs.cloud.google.com
BITOL - معيار عقد البيانات المفتوحة (ODCS) الإصدار 3.1.0 - bitol-io.github.io
BITOL (GitHub) - معيار عقد البيانات المفتوحة - github.com
أباتشي إيرفلو - الوثائق (النسخة المستقرة) - airflow.apache.org
أباتشي إيرفلو - الرسوم البيانية الموجهة غير الدورية (المفاهيم الأساسية) - airflow.apache.org
وثائق مختبرات العلاج السلوكي المعرفي - ما هو العلاج السلوكي المعرفي؟ - docs.getdbt.com
وثائق مختبرات dbt - حول نماذج dbt - docs.getdbt.com
وثائق مختبرات dbt - الوثائق - docs.getdbt.com
وثائق مختبرات dbt - اختبارات البيانات - docs.getdbt.com
وثائق مختبرات dbt - الطبقة الدلالية لـ dbt - docs.getdbt.com
وثائق فايفتران - البدء - fivetran.com
فايفتران - الموصلات - fivetran.com
وثائق AWS - دليل مطوري AWS Lambda - docs.aws.amazon.com
جيت هاب - جيت هاب كوبيلوت - github.com
وثائق GitHub - الحصول على اقتراحات برمجية في بيئة التطوير المتكاملة (IDE) باستخدام GitHub Copilot - docs.github.com
Microsoft Learn - GitHub Copilot for SQL (إضافة لبرنامج VS Code) - learn.microsoft.com
وثائق Dynatrace - إمكانية مراقبة البيانات - docs.dynatrace.com
داتا جالكسي - ما هي إمكانية مراقبة البيانات؟ - datagalaxy.com
وثائق مشروع التوقعات العظيمة - نظرة عامة على التوقعات - docs.greatexpectations.io

اكتشف أحدث تقنيات الذكاء الاصطناعي في متجر مساعدي الذكاء الاصطناعي الرسمي

معلومات عنا

العودة إلى المدونة