GPT-5.4 مقابل Claude Sonnet 4.6: أيهما يصمد في المهام المعقدة؟

في مارس 2026، أعلنت OpenAI أن GPT-5.4 يستطيع معالجة مليون توكن في جلسة واحدة. في الأسبوع ذاته، كان مطورون في منتديات تقنية يشكون من فشله في إتمام مهمة من خمس خطوات.

التناقض ليس استثناءً. هو النمط. فجوة بين ما تعلنه مختبرات الذكاء الاصطناعي في صفحات الإطلاق وما يحدث فعلاً حين تدفع النموذج خارج حدود المحادثة المريحة. Claude Sonnet 4.6 صدر قبله بأسبوعين بفجوة أداء لا تتجاوز 1.2 نقطة مئوية عن النموذج الأكبر، بسعر أقل بخمسة أضعاف. ومن هنا يبدأ السؤال الحقيقي: ليس أيهما أذكى على الورق، بل أيهما يصمد حين يشتد العمل.

أربعة نماذج في أربعة أشهر: ماذا يعني هذا فعلاً؟

منذ نوفمبر 2025 حتى مارس 2026، أصدرت OpenAI أربعة نماذج متتالية من سلسلة GPT-5: 5.1 ثم 5.2 ثم 5.3 Codex المتخصص في البرمجة ثم 5.4. أربعة نماذج في أربعة أشهر وتيرةٌ يصعب تفسيرها إلا بالضغط التنافسي، وهو ما يدفع بعض المطورين إلى التساؤل: هل كل إصدار جوهري حقاً أم أن التسمية نفسها جزء من استراتيجية تحتل بها OpenAI مساحة الخطاب التقني قبل المنافسين؟

الجواب في GPT-5.4 جاء عبر ميزتين موثّقتين بأرقام.

الأولى نافذة سياق تبلغ مليون توكن عبر الـ API. مليون توكن يعني أنك تستطيع رفع قاعدة بيانات كاملة أو مئة صفحة من التقارير القانونية أو قاعدة برمجية متوسطة الحجم في جلسة واحدة متصلة، دون التجزئة اليدوية التي تُفقد السياق وتُكثّر الأخطاء. والجدير بالذكر أن هذه القيمة تنخفض إلى 272 ألف توكن حين تستخدم ChatGPT مباشرة لا عبر الـ API، وهو فارق جوهري يغيب عن معظم المقارنات الشائعة.

الثانية ميزة Tool Search، وهي الأكثر إغفالاً في مراجعات الإطلاق. حين يعمل GPT-5.4 مع منظومة تحتوي على عشرات الأدوات أو مئاتها، لا يستهلك تعريفات كل الأدوات دفعة واحدة في بداية كل طلب، بل يستدعي تعريف الأداة التي يحتاجها فقط في اللحظة التي يحتاجها. وثّقت اختبارات Scale’s MCP Atlas أن هذه الميزة خفضت استهلاك التوكن بنسبة 47% مع الحفاظ على الدقة ذاتها في 250 مهمة متنوعة. هذا وحده يُزيح حجة التكلفة التي كانت تُرجّح سونيت في المنظومات الكبيرة ذات الأدوات المتشعبة.

أما Computer Use، فـGPT-5.4 سجّل 75% على معيار OSWorld، أي القدرة على التفاعل الفعلي مع واجهات المستخدم على Windows وmacOS. ليس إنجازاً كاملاً، لكنه قابل للتطبيق في مهام محددة كإدخال البيانات الآلي أو تشغيل التقارير عبر تطبيقات سطح المكتب.

Claude Sonnet 4.6: النموذج الذي أربك المعادلة

أنثروبيك لم تُطلق نموذجاً متوسطاً معتاداً. وفق المعايير الرسمية لأنثروبيك، سجّل سونيت 4.6 نسبة 79.6% على معيار SWE-bench Verified المخصص لتقييم حل مشكلات GitHub الفعلية. الفجوة بينه وبين أوبس 4.6 لا تتجاوز 1.2 نقطة مئوية، بينما تبلغ تكلفته خُمس تكلفة أوبس.

ثلاثة دولارات لكل مليون توكن مدخل و15 دولاراً للمخرج. في حين يُكلّف أوبس 4.6 خمسة عشر دولاراً للمدخل وخمسةً وسبعين للمخرج. لمن يُشغّل نموذجاً في تطبيق يعالج ملايين التوكن يومياً، الحسابات تُحسم بسرعة.

السرعة تُضاف إلى المعادلة. وفق بيانات أنثروبيك التقنية، سونيت 4.6 يُنتج بين 40 و60 توكن في الثانية، بينما يتراوح أوبس بين 20 و30. لمن يبني مساعدات تفاعلية أو أدوات كتابة يستخدمها عشرات المستخدمين بالتوازي، هذا الفارق يُحسم القرار قبل أي مقارنة معيارية.

لكن سونيت 4.6 له سقف واضح: 64 ألف توكن كحد أقصى للمخرجات في طلب واحد، مقابل 128 ألفاً لدى أوبس. وميزة Agent Teams التي تُتيح تشغيل نسخ متوازية متعددة من النموذج على مهام مختلفة بالتوازي، غير متاحة إلا في النموذج الأكبر. هذان القيدان ليسا هامشيين في مهام بعينها.

إذن الذكاء وحده لم يعد الحاسم.

المقارنة العملية: متى يُفرق الاختيار؟

المقارنات التجريدية مضيّعة للوقت. ما يهم هو السياق الذي ستستخدم فيه النموذج فعلاً. يمكن تلخيص الفوارق الجوهرية على النحو الآتي:

المعيار	GPT-5.4	Claude Sonnet 4.6
نافذة السياق (API)	1 مليون توكن	1 مليون توكن
نافذة السياق (ChatGPT المباشر)	272 ألف توكن	متاح عبر claude.ai
SWE-bench Verified	~80%	79.6%
OSWorld — أتمتة الواجهة	75%	72.5%
GPQA Diamond — استدلال علمي	غير مُعلن*	74.1%
حد المخرجات (طلب واحد)	غير محدد علناً	64 ألف توكن
السرعة التقريبية	أبطأ نسبياً	40-60 توكن/ث
سعر المخرجات (مليون توكن)	15 دولاراً	15 دولاراً
Tool Search	متاحة	غير متاحة
Computer Use	متاحة	متاحة

*لم تُفصح OpenAI عن أداء GPT-5.4 على GPQA Diamond حتى الآن، وهو صمت لافت لأن هذا المعيار يقيس الاستدلال العلمي العميق الذي يُميّز أوبس 4.6 تحديداً.

الجدول لا يحكي القصة كاملة.

الفجوة بين النموذجين في البرمجة والأتمتة ضيقة إلى حد يجعل التكلفة والسرعة وبيئة الاستخدام هي الفاصل الفعلي، لا أرقام المعايير. مثال واحد يوضّح ذلك: فريق يعمل على مشروع يحتوي على خمسين ملف Python ويريد مراجعة شاملة للأمان. مع GPT-5.4 عبر الـ API يمكن رفع القاعدة البرمجية بالكامل في سياق واحد واستخدام Tool Search للتنقل بين أدوات التحليل دون تضخم في تكلفة التوكن. مع سونيت 4.6، السرعة أعلى والتكلفة مماثلة تقريباً، لكن تقرير المراجعة قد يحتاج تجزئة إن تجاوز 64 ألف توكن. كلا الخيارين قابل للتطبيق، لكن الأول يُفضَّل حين يكون انكسار السياق خطأً لا تحتمله المهمة.

لماذا تُضيّق أنثروبيك الفجوة عمداً؟

هذا هو السؤال الذي لا تطرحه مراجعات المنتجات عادةً.

حين تُقرّب أنثروبيك سونيت 4.6 من أوبس حتى تبلغ الفجوة 1.2 نقطة مئوية في SWE-bench، فهي لا تُشوّش على منتجها الأفضل. هي تُعيد هيكلة الطلب. المستخدم الذي كان يصطدم بسعر أوبس ويتراجع أصبح اليوم يشتري سونيت ويبقى داخل المنظومة. والمطوّر الذي يبني تطبيقاً تجارياً يختار سونيت لأنه الخيار الاقتصادي المعقول، ويلجأ إلى أوبس فقط في المهام التي لا تحتمل التنازل. هذا نموذج تسعير يُعظّم الإيرادات لا الأداء وحده.

لكن ثمة تفسير مقابل يستحق طرحه: ربما ما نراه ليس استراتيجية تسعير بل دليلاً على أن الفجوة بين النماذج الكبيرة تضيق لأسباب هندسية بنيوية. إذا كانت هذه الفرضية صحيحة، فمعنى ذلك أن تمييز المنتجات مستقبلاً سيتحول من الأداء المعياري إلى ما لا يُقاس بسهولة: الموثوقية في المهام الغامضة، وسلوك النموذج حين يفشل، وجودة إقراره بحدوده.

في المقابل، OpenAI تراهن على الوتيرة. كل إصدار يُعيد رسم خارطة المنافسة ويُجبر المطورين على مراجعة حساباتهم، فيما يُبقي OpenAI زمام الخطاب التقني في يدها. تُظهر تقارير الإيرادات الأخيرة أن OpenAI تجاوزت 25 مليار دولار في الإيرادات السنوية المقدّرة على أساس المعدل الراهن، بينما اقتربت أنثروبيك من 19 ملياراً. الرقمان يُعيدان تعريف “سوق النماذج” من منتج تقني إلى بنية تحتية أساسية، وهو ما يُفسّر لماذا كل قرار في التسعير والأداء والوتيرة هو قرار استراتيجي قبل أن يكون تقنياً.

الاستخدام العربي: فارق لا تُقيسه المعايير الدولية

أرقام SWE-bench وOSWorld مُعدّة أساساً للمطورين الناطقين بالإنجليزية في بيئات تقنية محددة. القارئ العربي الذي يستخدم هذه النماذج للبحث القانوني أو كتابة التقارير أو تلخيص الوثائق أو تحليل العقود يواجه سياقاً مختلفاً لا تقيسه هذه المعايير.

لا يوجد حتى الآن معيار تقييم موحّد يقيس أداء النماذج الكبيرة في مهام التحليل القانوني والاقتصادي باللغة العربية، وهي فجوة بنيوية تكبر مع كل إصدار جديد. كيف تستخدم الذكاء الاصطناعي في العمل دون انتهاك سرية البيانات سؤال يعود إلى ذهن كل مستخدم عربي في القطاع القانوني والمالي حين يُحمّل وثيقة حساسة إلى نموذج تجاري، بصرف النظر عن أيهما أكثر قدرةً على SWE-bench. ولماذا تخسر العربية سباق الذكاء الاصطناعي ليست مجرد إشارة إلى سياق سابق، بل تشخيص لمشكلة بنيوية لا يحلها ارتفاع نسبة 0.4% في أي معيار دولي.

الموقف: أيهما تختار؟

رأيي الصريح: لا توجد إجابة صحيحة مستقلة عن السياق، لكن توجد إجابة واضحة لكل سياق بعينه.

إذا كنت تبني نظاماً يعمل باستقلالية ويتنقل بين أدوات كثيرة ويحتاج إلى استيعاب كميات ضخمة من البيانات في جلسة واحدة، فـGPT-5.4 يتفوق بميزة Tool Search وبأداء Computer Use الأعلى وبمرونة التحكم في مستوى التفكير عبر خمسة مستويات من الجهد. أما إذا كنت تريد نموذجاً سريعاً لتطبيق يخدم مستخدمين متزامنين، أو مساعداً للكتابة والبحث، فسونيت 4.6 أجدى من الناحيتين الاقتصادية والأدائية في الوقت نفسه.

ومن يريد النموذج الأقوى في المهام العلمية والاستدلالية المعقدة، فلا GPT-5.4 ولا سونيت 4.6 هو الخيار الأمثل. وفق التوثيق الرسمي لأنثروبيك، سجّل Claude Opus 4.6 نسبة 91.3% على GPQA Diamond مقابل 74.1% لسونيت، وهو يبقى الخيار الأول لمن يعمل في البحث العلمي العميق وإن جاء بثمن مختلف.

أيّ مهمة بعينها دفعتك إلى البحث عن هذه المقارنة؟

GPT-5.4 مقابل Claude Sonnet 4.6: أيهما يصمد حين يشتد العمل؟

أربعة نماذج في أربعة أشهر: ماذا يعني هذا فعلاً؟