الذكاء الاصطناعي بالعربية: لماذا تخسر لغتنا السباق؟

اسأل أيّ نموذج ذكاء اصطناعي سؤالاً قانونياً دقيقاً بالعربية، ثم اسأله السؤال ذاته بالإنجليزية. الفارق لن يكون في الأسلوب وحده، بل في العمق والدقة وطبقات التفصيل التي يقدّمها النموذج. الإجابة الإنجليزية ستستحضر سوابق قضائية ومراجع أكاديمية وتفاصيل تنظيمية، أما الإجابة العربية فستبقى غالباً على السطح، عامةً ومبهمةً، كأنها مكتوبة بلغة يعرفها النموذج لكنه لا يفهمها حقاً.

هذا المشهد اليومي الذي يعيشه ملايين المستخدمين العرب ليس خللاً عابراً في برمجية قابلة للتحديث. إنه عَرَض لمشكلة أعمق تتعلق بموقع العربية في البنية التحتية للذكاء الاصطناعي العالمي. ومسألة الذكاء الاصطناعي بالعربية لم تعد شأناً تقنياً محضاً، بل باتت تمسّ السيادة الرقمية والهوية الثقافية والقدرة التنافسية لمنطقة يقطنها أكثر من 400 مليون إنسان.

الذكاء الاصطناعي بالعربية: لغة مليارات الكلمات على هامش الخوارزميات

الأرقام وحدها تكشف حجم الاختلال. وفق دراسات أجرتها مؤسسات بحثية مثل Common Crawl، التي توفّر مجموعات البيانات الأساسية لتدريب معظم النماذج اللغوية الكبرى، تستحوذ الإنجليزية على ما يقارب نصف المحتوى الرقمي المستخدم في التدريب، بينما لا تتجاوز حصة العربية بضع نقاط مئوية. والناطقون بالعربية يمثّلون نحو 5.5% من سكان العالم وفق تقديرات الأمم المتحدة السكانية، ما يعني أن التمثيل اللغوي الرقمي لا يعكس الثقل الديمغرافي الفعلي.

لكن المسألة لا تُختزل في نسب مئوية.

حتى حين تدخل بيانات عربية في مجموعات التدريب، تظل جودتها محلّ تساؤل جدّي. جزء كبير من المحتوى العربي المتاح رقمياً يتركز في المنتديات والتعليقات ومنشورات التواصل الاجتماعي. هذا محتوى يختلف جذرياً عن النصوص الأكاديمية والقانونية والعلمية المنظّمة التي تشكّل العمود الفقري لتدريب النماذج على اللغات الأخرى. المحتوى العربي الرقمي الرصين، من أبحاث محكّمة وتقارير مؤسسية ووثائق قانونية ومالية، يبقى شحيحاً مقارنة بنظيره الإنجليزي أو حتى الصيني.

النتيجة أن النماذج الذكية لا تتعامل مع العربية بوصفها لغة تحليل وتفكير، بل بوصفها لغة ترجمة. والفارق جوهري: حين يعالج النموذج استفساراً عربياً عبر طبقات مفاهيمية إنجليزية ثم يُخرج النتيجة بالعربية، فإنه يُسقط على النص بنى معرفية وثقافية لا تنتمي إلى سياقه، ويفقد في الطريق دقائق المعنى والسياقات المحلية والمفاهيم التي لا نظير مباشراً لها في الثقافة الأنجلوساكسونية.

ليست فجوة تقنية: الجذور الاقتصادية والبنيوية للتهميش

التفسير التقني وحده يُقصّر عن تفسير المشهد كاملاً. فحين نسأل لماذا تتخلف العربية في هذا السباق، تتكشف شبكة من العوامل تتجاوز حجم البيانات بكثير.

تعقيد اللغة العربية ذاتها يمثّل تحدياً حقيقياً. الجذر الثلاثي الواحد يولّد عشرات الأشكال المشتقة، والتشكيل يغيّر المعنى جذرياً. أما اللهجات المحلية فتخلق طبقة إضافية من التعقيد تُرهق خوارزميات المعالجة اللغوية التي صُمّمت أصلاً للتعامل مع بنى أبسط. هذا التعقيد ليس عيباً في العربية، بل هو ثراء لم تستطع التقنية الحالية استيعابه بعد.

غير أن السبب الأعمق اقتصادي بامتياز.

شركات التقنية العملاقة، من OpenAI إلى Google وMeta، تستثمر في اللغات التي تدرّ عائداً تجارياً مباشراً. السوق الناطق بالإنجليزية يمثّل القوة الشرائية الأعلى رقمياً، تليه الصينية ثم لغات أوروبية وآسيوية أخرى. السوق العربي، رغم ضخامته الديمغرافية، لا يُولّد القيمة الاقتصادية الرقمية ذاتها. الإنفاق على البرمجيات والخدمات السحابية في المنطقة العربية يظل متواضعاً إذا قيس بأمريكا الشمالية أو شرق آسيا، ما يجعل تحسين النماذج للعربية أقلّ أولويةً في حسابات هذه الشركات.

هذه ليست فجوة تقنية عابرة. إنها إعادة إنتاج لنمط تاريخي مألوف: تُحدَّد أولويات التطوير وفق مصالح المركز الاقتصادي العالمي، فيما تبقى الأطراف في موقع المتلقي والمستهلك. وحين كانت المطبعة العربية قد تأخرت قروناً عن نظيرتها الأوروبية لأسباب مركّبة، فإن التاريخ يكاد يعيد نفسه اليوم في الفضاء الرقمي بآليات مختلفة ونتائج مشابهة.

التحيز الخفي: حين تُعيد الخوارزميات تشكيل المعرفة العربية

لا يقتصر الأثر على ضعف الأداء اللغوي. بُعد أخطر يتكشّف حين نتأمل التحيز المعرفي الذي تُرسّخه هذه النماذج.

حين يبحث طالب حقوق عربي عن تحليل لمفهوم “الشفعة” في الفقه الإسلامي مستخدماً أداة ذكاء اصطناعي، فإن النموذج سيحاول تقريب المفهوم من مؤسسات قانونية غربية كحق الشراء الأول (Right of First Refusal)، مُختزلاً تراثاً فقهياً عمره أربعة عشر قرناً في قالب مفاهيمي لا يسعه. الأمر ذاته ينطبق على مفاهيم اقتصادية مثل “الوقف” أو “المضاربة الشرعية” أو “الحسبة”، إذ تحمل دلالات لا نظير مباشراً لها في التراث المعرفي الغربي الذي تتشرّبه هذه النماذج.

المشكلة لا تبدأ هنا.

تبدأ حين يعتمد صنّاع القرار العرب على أدوات ذكية لا تفهم سياقاتهم. مستشار في وزارة اقتصاد خليجية يستخدم نموذجاً ذكياً لتحليل بيانات سوق العمل سيجد أن النموذج يُسقط على البيانات افتراضات مستمدة من أسواق عمل مختلفة تماماً في بنيتها، حيث نسب العمالة الوافدة والقطاع غير الرسمي والأنماط الثقافية للتوظيف تختلف جذرياً عن نظيراتها الغربية. ما يبدو تحليلاً علمياً قد يكون في جوهره إسقاطاً لأُطر لا تنطبق على الواقع المحلي.

في دول الخليج تحديداً، حيث تُسرّع الحكومات خطط التحول الرقمي وتدمج الأدوات الذكية في خدماتها، يغدو هذا التحيز مسألةَ سيادة لا مسألةَ راحة مستخدم. فالقرارات المبنية على تحليلات منحازة ثقافياً ولغوياً قد تُفضي إلى سياسات لا تلائم سياقها.

محاولات عربية لردم الفجوة: بين الطموح وتشتت الموارد

لم تقف المنطقة العربية مكتوفة الأيدي بالكامل. أبرز المحاولات جاءت من الإمارات، حيث أطلق معهد الابتكار التكنولوجي في أبوظبي نموذج “جيس” (Jais) عام 2023، وهو نموذج لغوي كبير ثنائي اللغة دُرّب على مجموعة بيانات عربية تُعدّ من الأضخم في مشاريع من هذا النوع. المبادرة أثبتت أن بناء نماذج تفهم العربية بعمق أمر ممكن تقنياً حين تتوفر الإرادة والتمويل. لكن السؤال الذي يظل معلّقاً: هل يُستخدم “جيس” فعلياً في تطبيقات حقيقية تمسّ حياة المستخدم العربي، أم لا يزال محصوراً في نطاق البحث والتطوير؟

السعودية بدورها استثمرت عبر هيئة البيانات والذكاء الاصطناعي “سدايا” في مشاريع تتعلق بمعالجة اللغة العربية، ضمن طموح أوسع لجعل المملكة مركزاً إقليمياً للذكاء الاصطناعي. وفي مصر، تعمل مؤسسات أكاديمية مثل الجامعة الأمريكية بالقاهرة على تطوير أدوات معالجة لغوية عربية منذ سنوات، أسهمت في بناء مجموعات بيانات أساسية استفادت منها مشاريع لاحقة. المغرب كذلك يُطوّر منظومة رقمية للمحاكم، وتونس تحتضن كفاءات بحثية في معالجة اللغات الطبيعية أسهمت في مشاريع دولية.

هذه الجهود، على أهميتها كلّ منها على حدة، تفتقر إلى الرابط الذي يجعلها أكبر من مجموع أجزائها. لا يوجد حتى اليوم مشروع عربي مشترك لبناء بنية تحتية لغوية رقمية موحّدة، على غرار ما فعله الاتحاد الأوروبي حين أطلق مبادرة European Language Grid لدعم لغاته في الفضاء الرقمي. كل دولة عربية تعمل بمعزل عن الأخرى، فتتشتت الموارد وتتكرر الجهود ويتبدد الأثر التراكمي. وميزانيات البحث والتطوير المخصصة لمعالجة العربية في كل دولة على حدة لا تقارن بما تنفقه شركة تقنية واحدة مثل Google على تطوير قدرات نماذجها للإنجليزية وحدها.

لماذا لم يتحقق هذا التنسيق بعد؟ الإجابة لا تتعلق بالتقنية، بل بالسياسة والمؤسسات. المنظومة العربية المشتركة، من جامعة الدول العربية إلى المنظمة العربية للتربية والثقافة والعلوم (الألكسو)، لم تنجح تاريخياً في قيادة مشاريع تقنية تكاملية كبرى. والتنافس بين المراكز التقنية الناشئة في الخليج، رغم أنه يُسرّع الابتكار على المستوى الوطني، قد يُعيق بناء مشروع جامع يوحّد البيانات والجهود.

اقتصاد اللغة: الكلفة التي لا يحسبها أحد

التبعات الاقتصادية لهذه الفجوة أعمق مما يظهر للوهلة الأولى. حين لا تعمل أدوات الذكاء الاصطناعي بالعربية بكفاءة مقبولة، تجد الشركات والمؤسسات العربية نفسها أمام خيارين كلاهما مُكلف: إما العمل بالإنجليزية، وهو ما يُقصي شرائح واسعة من القوى العاملة المحلية ويُرسّخ تبعية لغوية مهنية، أو التخلي عن هذه الأدوات والقبول بفقدان ميزة تنافسية تتعاظم يوماً بعد يوم.

أشار تقرير صادر عن مؤسسة ماكنزي (McKinsey) إلى أن تقنيات الذكاء الاصطناعي التوليدي قد تضيف ما بين 2.6 و4.4 تريليون دولار سنوياً إلى الاقتصاد العالمي. حصة المنطقة العربية من هذه القيمة ستتحدد جزئياً بقدرة مؤسساتها على دمج هذه التقنيات في عملياتها. وحين لا تعمل التقنية بلغة أكثر من 400 مليون إنسان، فإن جزءاً كبيراً من هذه القيمة يتبخر قبل أن يتشكّل.

القطاع القانوني يقدّم مثالاً صارخاً. أدوات البحث القانوني المدعومة بالأنظمة الذكية بالإنجليزية باتت تختصر ساعات العمل إلى دقائق وتُعيد تشكيل نماذج عمل مكاتب المحاماة الكبرى في نيويورك ولندن. في المقابل، لا يزال المحامي العربي يبحث يدوياً في نصوص تشريعية فهرستها الرقمية لا تزال قاصرة، ويعتمد على ذاكرته الشخصية أكثر مما يعتمد على الخوارزميات. الفجوة الرقمية في القطاع القانوني العربي ليست مسألة رفاهية تقنية، بل فارق إنتاجية يتراكم ويتحوّل مع الوقت إلى فارق تنافسي يصعب ردمه.

الوضع لا يختلف جوهرياً في التعليم. الطالب العربي الذي يستخدم أداة ذكية للمساعدة في أبحاثه يحصل على نتائج أدنى جودة من زميله الذي يبحث بالإنجليزية. مع مرور السنوات، يُرسّخ هذا الفارق دورة من التبعية المعرفية: المعرفة الأعمق تُنتج بالإنجليزية، فيلجأ إليها من يستطيع، ويبقى من لا يتقنها خارج الدائرة. تنظيم الذكاء الاصطناعي في المنطقة العربية لا يمكن أن يتجاهل هذا البعد اللغوي الذي يتحكم في مسار عدالة الوصول إلى المعرفة.

سباق بلا خط نهاية

ما يجعل هذا الملف عاجلاً أن الفجوة لا تضيق تلقائياً مع مرور الوقت، بل تتّسع. كل يوم تتحسن فيه النماذج الذكية بالإنجليزية دون تحسّن موازٍ بالعربية يعني أن المسافة بين اللغتين تتمدد. وكل تطبيق جديد يُبنى على أساس نماذج ضعيفة بالعربية يُراكم طبقة إضافية من التبعية الرقمية التي يزداد تفكيكها صعوبة.

الصين أدركت هذا مبكراً، فاستثمرت في بناء نماذجها اللغوية الخاصة وفرضت بيئة رقمية تمنح الصينية أولوية. الاتحاد الأوروبي بدأ يتحرك عبر تشريعات ومبادرات بحثية لحماية لغاته من التهميش الرقمي. المنطقة العربية، بثرواتها ومؤسساتها وطاقاتها البشرية، تملك مقومات الاستجابة. لكن الاستجابة لم تأتِ بعد بالحجم الذي يستدعيه حجم التحدي.

السؤال الذي يبقى معلّقاً ليس ما إذا كانت العربية ستحضر في عصر الذكاء الاصطناعي. ستحضر حتماً، فهي لغة حية يتحدثها مئات الملايين ويُصلّي بها أكثر من مليار إنسان. السؤال الحقيقي: هل ستحضر بوصفها لغة تفكير ومعرفة وإنتاج، أم بوصفها مجرد واجهة ترجمة لمعرفة أُنتجت في مكان آخر وبلغة أخرى ولمصلحة غيرها؟