هل يمكن للشركات استخدام بياناتك لتدريب الذكاء الاصطناعي؟

⏱️ 10 دقيقة قراءة

في ديسمبر 2023، لم تُرسل صحيفة نيويورك تايمز رسالة احتجاج إلى OpenAI. بل ذهبت مباشرةً إلى المحكمة الفيدرالية في نيويورك، مدّعيةً أن ملايين المقالات التي أنتجتها على مدى عقود جُمعت دون إذن وحُوّلت إلى مادة خام لتدريب نماذج لغوية تُباع الآن بمليارات الدولارات.

و في أبريل 2025، رفضت المحكمة طلب OpenAI برد الدعوى بالكامل، وأقرّت بأن ادعاءات الصحيفة بحدوث انتهاكات في مرحلة تدريب الذكاء الاصطناعي ادعاءات “معقولة قانونًا وتستحق المتابعة”. وفي أوائل 2026، كشفت وثائق مرحلة تبادل الأدلة عن مفهوم “الاسترجاع الحرفي”: قدرة النماذج على استحضار نصوص من بيانات التدريب كلمة بكلمة. ليس تلخيصًا. ليس استلهامًا. إعادة إنتاج.

هذا الكشف يُضعف الحجة التقنية التي تستند إليها شركات الذكاء الاصطناعي: أن نماذجها لا “تنسخ” البيانات بل “تستخلص الأنماط” منها. حين يستطيع النموذج استرجاع فقرة بعينها بدقة حرفية، يصبح هذا التمييز أقل إقناعًا قانونيًا.

الصحيفة لديها محامون وموارد. أنت، إن كنت كاتبًا مستقلًا أو مصوّرًا أو مجرد مستخدم نشر آراءه على الإنترنت طوال سنوات، تقف في المعركة نفسها بلا سلاح.

ما المقصود ببيانات التدريب أصلًا؟

قبل أي حكم قانوني، ضبط المصطلح ضروري. “بيانات التدريب” تشمل كل ما تتعلم منه النماذج: نصوصًا مكتوبة، صورًا، مقاطع صوتية وفيديو، بيانات تفاعل المستخدمين مع النماذج السابقة، وبيانات مُهيكلة من قواعد بيانات متعددة.

لكن “البيانات” هنا تنقسم قانونيًا إلى مسارين مختلفين كثيرًا ما يختلطان في النقاش العام.

المحتوى المحمي بحقوق النشر يشمل النصوص الإبداعية والصحفية والصور الفنية والمؤلفات. ما يحميه القانون هنا هو التعبير: الصياغة والترتيب والأسلوب.

البيانات الشخصية تشمل كل ما يُعرّف الشخص أو يصفه: الاسم والصورة والموقع والسلوك الرقمي. ما يحميه القانون هنا هو الشخص لا التعبير.

التمييز بينهما عملي لا نظري. تعليق قصير جدًا على منصة تواصل قد لا يرقى إلى مستوى الحماية بحقوق النشر لأنه لا يحمل قدرًا كافيًا من الإبداع، لكنه في الوقت نفسه بيانات شخصية تُفصح عن آراء صاحبها وسلوكه ويمكن أن تُثير التزامات خصوصية في أنظمة قانونية عدة. مقال طويل محكم الصياغة يقع في المسارين معًا. الشركات تتعامل مع هذا الخلط أحيانًا بوصفه ميزة لا مشكلة.

كيف يحدث التدريب فعليًا

نماذج اللغة الكبيرة محركات إحصائية تستخلص الأنماط من كميات هائلة من البيانات ثم تُعيد إنتاجها في سياقات جديدة. كلما اتّسعت القاعدة، ارتفعت دقة النموذج.

GPT-4 دُرِّب، وفق تقديرات متعددة، على مئات المليارات من الكلمات مستخرجة من الويب العام عبر مجموعات مثل Common Crawl، التي تجمع صفحات الإنترنت بصورة دورية وتُتيحها للباحثين والشركات. Common Crawl تحترم نظريًا ملف robots.txt الذي يُتيح لأصحاب المواقع منع الزحف، لكن معظم المستخدمين الأفراد لا يملكون مواقع شخصية تحتوي على هذا الملف أصلًا، ومحتواهم المنشور على المنصات الكبرى لا يخضع لسيطرتهم.

في عالم الصورة، دُرِّبت نماذج مثل Stable Diffusion على مجموعة LAION-5B التي تضم خمسة مليارات إدخال، كل إدخال عبارة عن رابط لصورة على الإنترنت مع وصفها النصي. الصور نفسها لا تُخزَّن مركزيًا بل تُستدعى من مواقعها الأصلية وقت التدريب، وهو تمييز تقني تستخدمه الشركات دفاعيًا لكنه لا يُغيّر حقيقة أن الأعمال استُخدمت دون إذن أصحابها.

ما يحدث فعليًا أن الإنترنت بكل ما فيه، مقالاتك وتعليقاتك وصورك وأسئلتك، تحوّل إلى مخزن بيانات لتدريب الخوارزميات. لم يُصمَّم لهذا الغرض. لكن أحدًا لم يسألك.

على أي أساس قانوني يحدث هذا؟

ثلاثة أبواب قانونية تدخل منها الشركات، وكل باب له حدوده.

الباب الأول: عقد الموافقة

حين تقبل شروط خدمة أي منصة، وهو ما يفعله الجميع دون قراءة، غالبًا ما تحتوي على فقرة تُتيح للشركة استخدام محتواك لـ”تحسين خدماتها”. عام 2023 حدّثت X (تويتر سابقًا) شروط خدمتها لتشمل صراحةً استخدام البيانات لتدريب نماذج الذكاء الاصطناعي. LinkedIn فعلت الأمر نفسه، وفي يناير 2025 رُفعت ضدها دعوى جماعية بسبب استخدام بيانات المستخدمين الشخصية في تدريب النماذج دون إذن صريح مسبق.

هذا الباب له سقف قانوني: الموافقة المبنية على صياغة فضفاضة وغير محددة قابلة للطعن في أنظمة قانونية تشترط الموافقة الحرة والمستنيرة والمحددة.

الباب الثاني: الاستخدام العادل

تستند شركات التقنية الأمريكية إلى مبدأ Fair Use الذي يُجيز استخدام المواد المحمية في حالات بعينها. القانون الأمريكي يقيس هذا المبدأ بأربعة عوامل متشابكة لا بعامل واحد:

غرض الاستخدام وطبيعته: هل هو تجاري أم تحويلي يُضيف قيمة جديدة؟ الشركات تقول: التدريب تحويلي. المحاكم تسأل: إلى أي حد؟

طبيعة العمل الأصلي: العمل الإبداعي يحظى بحماية أوسع من العمل الإخباري أو التعليمي، وإن كان الأخيران لا يفقدان حمايتهما.

قدر الجزء المستخدم: الكمية والجودة معًا. استخدام “جوهر” العمل حتى لو كان قصيرًا قد يكون أشد ضررًا من استخدام جزء كبير من عمل مطوّل.

الأثر على سوق العمل الأصلي: هذا العامل هو الأثقل. إذا أضرّ الاستخدام بالسوق التجارية للعمل أو حلّ محله أو قلّص فرص ترخيصه، يضعف دفاع الاستخدام العادل وقد ترجّح كفة المدّعي. تقارير فبراير 2026 تُشير إلى أن خسائر قطاع الإعلام الناتجة عن التدريب غير المرخّص تُقدَّر بمليارات الدولارات سنويًا، نتيجة انخفاض معدلات النقر المباشر لصالح الإجابات التوليدية. إذا ثبت هذا الضرر قانونيًا، ينهار الدفاع بالاستخدام العادل من عامله الأثقل.

الباب الثالث: استثناءات التنقيب النصي والبياني

في أوروبا، المسألة أكثر تعقيدًا من مجرد GDPR. توجيه حقوق النشر في السوق الرقمية الأوروبية (DSM Directive) الصادر عام 2019 أتاح صراحةً استخدام التنقيب النصي والبياني لأغراض البحث العلمي، لكنه أعطى في الوقت نفسه أصحاب الحقوق آلية حجز الحقوق (Opt-out): يمكن لأصحاب المحتوى التصريح بمنع استخدام أعمالهم في التنقيب التجاري عبر وسائل يمكن قراءتها آليًا. حين يُهمل مزود الذكاء الاصطناعي هذا الحجز، يفقد الغطاء القانوني الذي يوفره الاستثناء.

قانون الذكاء الاصطناعي الأوروبي (AI Act) دخلت معظم أحكامه حيز التنفيذ الفعلي بحلول أبريل 2026، بما فيها القواعد الصارمة لنماذج الذكاء الاصطناعي العامة (GPAI) والالتزامات المتعلقة بشفافية بيانات التدريب. أصدر مكتب الذكاء الاصطناعي الأوروبي توجيهات تُلزم الشركات بتقديم ملخصات مفصلة لمحتوى البيانات المستخدمة في التدريب مع احترام حقوق النشر الرقمية. وفتحت هيئات حماية البيانات في فرنسا وإيطاليا تحقيقات مشتركة بموجب AI Act وGDPR حول مشروعية استخدام بيانات الويب المفتوح في التدريب دون أساس قانوني كافٍ.


ين تقع المخالفة الفعلية؟

ثلاثة سيناريوهات يصعب فيها على الشركات الدفاع عن نفسها.

إعادة الإنتاج القابلة للإثبات: ما كشفته وثائق قضية نيويورك تايمز في 2026 من قدرة النماذج على الاسترجاع الحرفي يُثبت عمليًا أن حجة “استخلاص الأنماط” لها حدود. النموذج لا يهضم البيانات تمامًا؛ يحتفظ بأجزاء منها بطريقة يمكن استدعاؤها.

تجاهل حجز الحقوق: استخدام محتوى صرّح صاحبه بمنع تنقيبه، سواء عبر robots.txt أو وسوم noai/noimageai أو نصوص ترخيص واضحة، يُزيل الغطاء القانوني الذي يوفره استثناء التنقيب في الأنظمة التي تعترف به.

وجود سوق ترخيص قائم: حين يثبت صاحب الحق أنه كان يرخّص محتواه للاستخدام في التدريب، يصعب تبرير الاستخدام غير المرخّص بذريعة الاستخدام العادل. وهذا السوق بات قائمًا فعلًا: OpenAI أبرمت اتفاقيات ترخيص مع ناشرين كبار منهم Axel Springer وLe Monde وPrisa Media، تتلقى بموجبها مبالغ سنوية مقابل استخدام أرشيفها. وجود هذه الاتفاقيات يُقوّي حجة من لم يُبرم اتفاقية مماثلة: إذا كان الترخيص ممكنًا وقابلًا للتسعير، فالاستخدام دونه يصعب تصنيفه استخدامًا عادلًا.

ما الذي تقوله القضايا الحالية؟

نيويورك تايمز ضد OpenAI ومايكروسوفت: في أبريل 2025 رفضت المحكمة طلب OpenAI برد الدعوى، وفي ديسمبر 2025 ضيّقت المحكمة نطاقها برفض المطالبات الثانوية المتعلقة بالعلامات التجارية وقانون DMCA، مع الإبقاء على جوهر النزاع حول الانتهاك المباشر لحقوق النشر. القضية لا تزال في مرحلة تبادل الأدلة، وما كشفته من وثائق حول الاسترجاع الحرفي يجعلها أكثر القضايا أثرًا على مستقبل قانون الذكاء الاصطناعي في الولايات المتحدة.

الفنانون ضد Stability AI وMidjourney: في أغسطس 2024 حقق الفنانون انتصارًا إجرائيًا حين رفض القاضي وليام أوريك طلب الشركات برد الدعوى، معتبرًا أن نظرية “النسخ المضغوط” داخل النماذج نظرية قابلة للإثبات. المحاكمة الكاملة أمام هيئة المحلفين مقررة في سبتمبر 2026، وستكون أول اختبار قضائي فعلي لهذه النظرية أمام محكمة أمريكية.

الكتّاب ضد Meta وOpenAI: القضية تطرح سؤالًا لم يُحسم بعد حول مدى الحماية الممنوحة للكتب والمؤلفات الأدبية مقارنةً بالمحتوى الصحفي. التفريق القانوني بينها سيحدد مدى الحماية الممنوحة لكل نوع من المحتوى الرقمي.

دعوى LinkedIn: في يناير 2025 رُفعت دعوى جماعية ضد المنصة بسبب استخدام بيانات المستخدمين في تدريب النماذج دون إذن صريح مسبق، وهي تُضيف بُعدًا جديدًا: الفصل بين “المحتوى” و”البيانات السلوكية” التي يُولّدها المستخدم دون أن يكتبها قصدًا.

الدرس المشترك من هذه القضايا: المحاكم لا ترسم خطًا واضحًا بين “التدريب المسموح به” و”التدريب المحظور”. ما تفعله هو اختبار كل حالة بعواملها، مما يعني أن الشركات تعيش في منطقة رمادية انتهازية حتى يصدر حكم يضع حدًا فاصلًا. ومحاكمة سبتمبر 2026 قد تكون ذلك الحد.

حجة الشركات، وأين تضعف

موقف الشركات له منطق داخلي يستحق الفحص قبل تفكيكه.

الحجة الأساسية: التدريب عملية تحويلية لأنها لا تُنتج نسخًا من الأعمال الأصلية بل قدرات جديدة مغايرة. النموذج لا “يخزّن” النصوص بل يُشكّل أوزانًا رياضية مستخلصة منها. مخرجاته في الحالات الطبيعية ليست نسخًا.

هذا التفسير مقنع جزئيًا. لكنه لا يفسر كل شيء.

إمكانية الاسترجاع الحرفي التي كشفتها وثائق 2026 تُثبت أن النموذج يحتفظ بأجزاء من البيانات بطريقة قابلة للاستدعاء. وحتى لو كانت المخرجات في الحالات الطبيعية مغايرة، السؤال القانوني ليس عن المخرجات بل عن أثر النموذج على سوق العمل الأصلي. تقارير 2026 تُشير إلى أن النماذج التوليدية أضرّت بمعدلات النقر المباشر إلى المواقع الإخبارية، وهو ضرر سوقي قابل للقياس إذا ثبت ارتباطه السببي بالتدريب على المحتوى المعني. وأخيرًا، وجود سوق ترخيص ناضج بات واقعًا لا افتراضًا: الشركات نفسها تدفع لبعض الناشرين، مما يُقوّض حجتها بأن التدريب لا يحتاج ترخيصًا أصلًا.

المحامي الذي سيدافع عن الشركة سيستند إلى العاملين الأول والثاني من اختبار الاستخدام العادل. المحامي المقابل سيركّز على العامل الرابع وعلى قابلية الاسترجاع وعلى وجود سوق ترخيص بديل. هذا التوتر هو ما ستحسمه محاكمة 2026.

الوضع العربي: غياب مُركَّب

البيانات العربية تُغذّي النماذج العالمية. النصوص المنشورة بالعربية، من مقالات ومنتديات ومنشورات وسائل تواصل، تدخل في مجموعات التدريب الكبرى دون آلية تعويض أو اعتراض منظّمة. اللغة العربية بتنوعاتها اللهجية والفصيحة تُشكّل مادة تدريب قيّمة لنماذج تُباع عالميًا، لكن أصحابها لا يرون من عائدها شيئًا.

في المقابل، هذه النماذج تعود إلى المنطقة منتجًا تجاريًا تدفع مقابله. مدرَّبةً في معظمها على سياقات ثقافية وقانونية مختلفة، تُفقر تمثيلها للواقع العربي بمختلف أبعاده. الاستجابة الإقليمية حتى الآن جاءت جزئية: في يناير 2026 أصدرت محكمة قطر الدولية توجيهًا إجرائيًا لضبط استخدام الذكاء الاصطناعي في المرافعات القضائية، وهي خطوة لافتة لكنها تعالج استخدام النماذج لا بناءها. المعادلة الجوهرية لم تتغير: المنطقة تقف في موضع المُصدِّر الخام والمستورد النهائي في آنٍ واحد.

ومقالنا حول من يملك بياناتك يملك قرارك؟ يتناول هذه المعادلة غير المتكافئة بمزيد من التفصيل. وما يترتب عليها من مسؤولية قانونية غائبة ناقشناه في عندما تخطئ الخوارزمية.

ماذا يمكنك أن تفعل الآن؟

على المنصات: ابحث في إعدادات الخصوصية عن خيارات تتعلق بـ”تدريب الذكاء الاصطناعي” أو “تحسين النماذج”. بعد الضغط التنظيمي الأوروبي، باتت منصات عدة تُتيح هذه الخيارات، لكنها تنطبق في الغالب على البيانات المستقبلية لا الماضية. Midjourney وStability AI أضافتا خيارات Opt-out للفنانين استجابةً للضغط القانوني، لكنهما لم تتراجعا عن البيانات المجمّعة سابقًا.

على موقعك الشخصي: ملف robots.txt مع توجيهات لعناكب التدريب المعروفة كـGPTBot يُرسل إشارة حجز حقوق، وإن كانت ليست ملزمة قانونيًا في كل ولاية قضائية. وسوم noai وnoimageai في الصور وصفحات HTML تُكمل هذه الإشارة. Google أطلقت أدوات تُتيح للناشرين منع زواحف بحثها من استخدام محتواهم في تدريب نماذج Gemini مع الحفاظ على ظهورهم في نتائج البحث التقليدية، وهي سابقة تقنية تستحق الاستفادة منها.

للمصورين والمبدعين: بيانات الميتاداتا المضمّنة في الملفات والعلامات المائية الرقمية أدوات توثيق لا حماية مباشرة. لكن توثيق المصدر والتاريخ يُسهل الإثبات إذا دعت الحاجة. Apple طوّرت نموذجًا تعويضيًا يركز على ترخيص مجموعات البيانات “النظيفة” ضمن نظامها البيئي، وهو مؤشر على اتجاه السوق نحو التمييز بين البيانات المرخّصة وغيرها.

للكتّاب والباحثين: إطار الترخيص الذي تنشر به محتواك مهم. ترخيص Creative Commons بقيود صريحة، أو ترخيص مخصص يمنع الاستخدام في تدريب النماذج، يُعطيك أساسًا قانونيًا أوضح من الصمت. ووجود سوق ترخيص ناضج بات يعني أن “القيمة السوقية” لمحتواك في سياق التدريب أصبحت قابلة للتحديد والمطالبة بها.

كل هذه الخطوات محدودة الأثر منفردةً. مجتمعةً تُبني سجلًا من الاعتراض الصريح يصعب تجاهله حين تتطور التشريعات، وهي تتطور بوتيرة متسارعة.

وفي الاخير

وجب التنبيه الى ان القانون الحالي بُني لحماية التعبير في عالم واضح الحدود: هذا الكتاب لهذا المؤلف، هذه الصورة لهذا الفنان. الذكاء الاصطناعي لا يُقوّض هذه الحدود بالسطو المباشر، بل بابتلاع الأعمال وهضمها وإعادة تقطيرها في صورة قدرة مُجرَّدة يصعب تتبعها إلى مصادرها. ما تحاول المحاكم الإجابة عنه ليس هل تستخدم الشركات البيانات، بل كيف يُعاد تعريف “الضرر” و”السوق” و”التحويل” في عصر النماذج الضخمة. محاكمة سبتمبر 2026 ستكون أول اختبار فعلي لهذه الأسئلة أمام هيئة محلفين. قد تُرسي سابقة تُغيّر المعادلة، أو قد تكشف أن القانون لا يزال يسير خطوة خلف التقنية. كلا الاحتمالين مقلق، لكن أحدهما على الأقل يُبقي الباب مفتوحًا.