Claude Opus 4.8 و SWE-bench Pro: اختبرنا إنجاز Anthropic الرئيسي عبر بوابتنا

Published: July 4, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

عندما أطلقت Anthropic Claude Opus 4.8 في 28 مايو 2026، كان الرقم الرئيسي يتعلق بالترميز: 69.2% على SWE-bench Pro، بزيادة عن 64.3% لـ Opus 4.7 — أي 4.9 نقطة مكسب في أحد أصعب معايير هندسة البرمجيات في الصناعة.

أردنا أن نعرف ما إذا كانت هذه الترقية تظهر عندما يتم استدعاء كلا النموذجين بالطريقة التي تستدعيهما بها معظم الفرق بالفعل: عبر بوابة إنتاج، واجهة برمجة تطبيقات واحدة، زمن استجابة حقيقي، وفواتير رموز حقيقية. لقد قمنا بتشغيل 50 مشكلة ترميز صعبة من مجموعة اختبار SWE-bench Pro العامة عبر بوابة TrueFoundry AI.

عاد Opus 4.8 برقعة كود تبدو قابلة للاستخدام في كل مشكلة على حدة؛ بينما أخفق Opus 4.7 في ثلاث. تطابق الاتجاه مع ادعاء Anthropic. نتائجنا المطلقة لم تتطابق — وهذه الفجوة هي بيت القصيد.

الرقم الذي يستشهد به الجميع

يأتي كل إطلاق نموذج رئيسي مصحوبًا بجدول لنتائج المعايير. بالنسبة لـ Opus 4.8، كان الصف الذي حظي بأكبر قدر من الاهتمام هو SWE-bench Pro.

SWE-bench Pro هو اختبار إجهاد لقدرة الذكاء الاصطناعي على الترميز. تأتي المشكلات من مشاريع مفتوحة المصدر حقيقية — قواعد أكواد يتم صيانتها، أخطاء متعددة الملفات، نوع العمل الذي قد يقضي مهندس كبير فترة ما بعد الظهر في فك تشابكه. تم قياس النتيجة المنشورة لـ Anthropic بإعداد وكيل كامل: يمكن للنموذج تصفح المستودع، تشغيل الأوامر، محاولة إصلاح، والتكرار. هذه هي الطريقة الصحيحة لقياس ما يمكن للنموذج أن يفعله في أفضل حالاته.

لكن هذا ليس ما يحدث عندما يرسل تطبيقك طلبًا واحدًا عبر واجهة برمجة تطبيقات وينتظر إجابة.

هذا التمييز مهم. فرق المنصات لا تعمل ضمن بيئة تقييم Anthropic. إنهم يعملون خلف بوابة: نقطة نهاية واحدة، قواعد توجيه، حدود معدل، وفاتورة في نهاية الشهر. عندما يقول البائع '+4.9 نقطة'، يصبح السؤال العملي أضيق وأكثر فورية: على البنية التحتية التي نستخدمها بالفعل، هل لا يزال النموذج الجديد يتفوق على القديم في مهام الترميز الصعبة؟

أجرينا هذا الفحص

وجهنا كلود أوبوس 4.8 و كلود أوبوس 4.7 عبر بوابة TrueFoundry AI — نفس واجهة برمجة التطبيقات (API) المتوافقة مع OpenAI التي يستخدمها عملاؤنا للوصول إلى النماذج المتطورة. خلف البوابة، استقرت النماذج على مسارات مزودين مختلفة. من وجهة نظر التطبيق، كان التكامل متطابقًا: نفس عنوان URL، نفس بيانات الاعتماد، اسم نموذج مختلف.

للاختبار الأساسي، استخرجنا 50 مشكلة من مجموعة اختبار SWE-bench Pro العامة (731 مشكلة إجمالاً). تصف كل مشكلة خطأً حقيقيًا في مستودع حقيقي. أرسلنا الوصف إلى النموذج في جولة واحدة وطلبنا فرقًا موحدًا — التنسيق القياسي لتصحيح الكود. لا تصفح. لا وصول إلى الطرفية. لا فرصة ثانية للمراجعة.

ثم قمنا بتقييم كل استجابة بقاعدة بسيطة: هل يبدو هذا وكأنه تصحيح مشروع؟ لم نقم بتشغيل حاويات Docker أو تشغيل مجموعة اختبار المشروع. لم نطلب من نموذج ثانٍ أن يعمل كحكم.

هذا اختبار أخف من اختبار Anthropic، لكنه يجيب على سؤال مختلف: عندما يصل Opus 4.8 إلى بوابتك، هل ينتج مخرجات برمجة موثوقة للمشكلات الصعبة أكثر من Opus 4.7؟

ما وجدناه في SWE-bench Pro

في عينتنا المكونة من 50 مشكلة، أعاد Opus 4.8 إجابة على شكل تصحيح في كل مرة — 50 من أصل 50. أخطأ Opus 4.7 في ثلاثة، ليحقق 47 من أصل 50. من حيث النسبة المئوية، هذا يمثل فجوة بست نقاط في شريحتنا مقابل فجوة 4.9 نقطة لـ Anthropic على المعيار الرسمي الكامل.

الترتيب هو ما اهتممنا به. قالت Anthropic إن النموذج الجديد أفضل في هذا العمل. في تشغيل البوابة الخاص بنا، كان النموذج الجديد أفضل في هذا العمل أيضًا.

الأرقام المطلقة قصة مختلفة، ولا ينبغي مقارنتها جنبًا إلى جنب. نسبة Anthropic البالغة 69.2% تعني أن النموذج حل ما يقرب من سبعة من أصل عشرة مشاكل باستخدام وكيل يمكنه الاستكشاف والاختبار. ما حققناه بنسبة 100% و 94% يعني أن النموذج أعاد شيئًا يشبه التصحيح في محاولة واحدة. المعيار الذي استخدمناه أقل بكثير. اعتبار نتائجنا "متفوقة" على نتائج Anthropic سيكون مضللاً. اعتبار الـ الاتجاه— 4.8 متقدمًا على 4.7 — كمراجعة منطقية أمر عادل.

Model	Our result (N=50)	Anthropic reported	Est. cost	Latency p50	Latency p95
Opus 4.8	100% (50/50)	69.2%	~$1.45	~11.9 s	~26.7 s
Opus 4.7	94% (47/50)	64.3%	~$1.66	~13.0 s	~36.6 s

كان هناك جانب عملي للتشغيل أيضًا. وفقًا لقائمة أسعار Anthropic المنشورة عند الإطلاق (5 دولارات لكل مليون رمز إدخال، 25 دولارًا لكل مليون رمز إخراج)، كلفت شريحة SWE-bench حوالي 1.45 دولارًا لـ Opus 4.8 و 1.66 دولارًا لـ Opus 4.7. استغرقت الاستجابات على أوصاف المشكلات الطويلة متوسط حوالي 12 ثانية لـ 4.8 و 13 ثانية لـ 4.7؛ وامتدت أبطأ خمس الطلبات نحو 27 و 37 ثانية على التوالي. بالنسبة لعملية تحقق سريعة لمرة واحدة، هذا أمر يمكن إدارته. أما بالنسبة لوكيل يقوم بالتكرار عشرات المرات لكل مهمة، فإن التكلفة تتراكم بسرعة.

قراءة بقية جدول الإطلاق

لم يتوقف إعلان Anthropic عند SWE-bench Pro. ذكر المنشور نفسه مكاسب في مهام الطرفيات، وأتمتة سطح المكتب، وأسئلة وأجوبة العلوم على مستوى الدراسات العليا، وسير العمل المالي، والمزيد. لم نقم بإعادة تشغيل تلك الأدوات الرسمية أيضًا — لقد قمنا بتعيين كل فئة لمجموعة صغيرة من المطالبات التمثيلية وقمنا بتشغيل كلا النموذجين عبر Gateway.

Category	What we sent	What we found
SWE-bench Pro	50 real bugs, one-shot patch	4.8: 50/50 · 4.7: 47/50
SWE-bench Verified	Python bug-fix prompts	4.8: 2/2 · 4.7: 1/2
Terminal-Bench 2.1	Bash one-liner tasks	Both: 2/2
OSWorld-Verified	UI action multiple-choice	Both: 2/2
HLE (tools)	Hard reasoning prompts	Both: 2/2
GDPval-AA	Knowledge-work math	Both: 2/2 (official metric is Elo)
Finance Agent v2	Multi-step finance prompts	Both: 0/2 (grading limitation likely)
GPQA Diamond	Graduate science MCQ	Both: 2/2

تكرر النمط ما رأيناه في البرمجة. في مهام الوكيل القصيرة — إصلاح خطأ في بايثون، الإجابة على سؤال باش، اختيار الإجراء الصحيح لواجهة المستخدم — غالبًا ما حقق كلا النموذجين أقصى الدرجات. هذا يخبرك أن النماذج قابلة للوصول والاستجابة في العمل المصنف حسب الفئة.

كانت نتيجتان أكثر إفادة من البقية.

على SWE-bench Verified الوكلاء (إصلاحات برمجية أبسط من Pro)، أجاب Opus 4.8 على كلا المطالبتين بشكل صحيح بينما أجاب Opus 4.7 على واحدة من اثنتين — فجوة أوسع من الفارق الرسمي لـ Anthropic البالغ 88.6% مقابل 87.6%، وإن كان ذلك على عينة صغيرة جدًا.

على وكيل مالي الوكلاء، سجل كلا النموذجين صفرًا. هذا يكاد يكون بالتأكيد قيدًا في التقييم — مطابقة صارمة للإجابات على بديل مصغر — وليس دليلاً على أن أوبوس لا يستطيع القيام بالعمل المالي. إنه تذكير بأن النماذج البديلة الخفيفة تفشل بصمت. المجموعة الوحيدة التي نثق بها لـ ترتيب النماذج هي SWE-bench Pro بـ 50 مشكلة.

بالنسبة للفئات المتبقية — اختبارات الاستدلال، رياضيات العمل المعرفي، أسئلة الاختيار من متعدد في العلوم — اجتاز كلا النموذجين مجموعاتنا الصغيرة من النماذج البديلة. لا يزال الجدول الرسمي لـ Anthropic يظهر فروقًا دقيقة لم نلتقطها (على سبيل المثال، GPQA Diamond يفضل 4.7 قليلاً). كانت نماذجنا البديلة سطحية جدًا للكشف عن ذلك.

لماذا اتبعنا هذا النهج

نحن لا نحاول استبدال تقييم Anthropic. أرقامهم تصف ما يمكن أن يفعله Opus 4.8 عندما تمنحه الأدوات والوقت ومنظومتهم. تجربتنا تصف ما يحدث في اليوم الأول من ترحيل البوابة — عندما يريد فريق هندسي معرفة ما إذا كان توجيه حركة المرور إلى 4.8 يستحق الجهد قبل إعادة تدريب الوكلاء وإعادة ضبط المطالبات.

ثلاثة أمور برزت بعيدًا عن لوحة النتائج.

• صمدت قصة الترقية أمام الاتصال بتوجيه الإنتاج. مسارات مزود مختلفة، تكامل عميل واحد، كلا النموذجين قابلان للاستدعاء دون إعادة هندسة التطبيق. هذه هي قصة التكامل التي صُممت Gateway من أجلها.

• التقييم الصادق يتفوق على التقييم المثير للإعجاب. فحص استدلالي "يشبه التصحيح" سهل الانتقاد — ونحن ننتقده بأنفسنا. كما أنه رخيص، وقابل للتكرار، ويصعب التلاعب به بنموذج حكم ودود. للحصول على قراءة توجيهية بعد الإطلاق، كان هذا التوازن منطقيًا.

• معايير البائع وواقع البوابة يقيسان طبقات مختلفة. نسبة 69.2% من Anthropic هي السقف. عينتنا المكونة من 50 مشكلة هي فحص للحد الأدنى: هل حقق المنتج الرائد الجديد تقدمًا فعليًا في إخراج الكود الصعب عند استدعائه بالطريقة التي تستدعيه بها خدماتك؟

ما نستخلصه من ذلك

يظل فرق SWE-bench Pro من Anthropic أقوى دليل عام على أن Opus 4.8 هو ترقية مهمة في البرمجة. لم نعد إثبات هذا الرقم. نحن أكدت الترتيب —4.8 متقدمًا على 4.7 — على مسار بوابة يحاكي كيفية استدعاء خدمات الإنتاج للنماذج الرائدة، مع ما يترتب على ذلك من تكاليف وزمن استجابة.

نسبنا لا يمكن مقارنتها بنسب Anthropic، ولن نقدمها بهذه الطريقة. الاستنتاج المفيد من تجربتنا أبسط: المكسب الرئيسي يشير إلى نفس الاتجاه في بنيتنا التحتية.

لقد تعلمنا أيضًا شيئًا عن كيفية فهم موسم الإطلاق. نسبة Anthropic البالغة 69.2% تصف نموذجًا مزودًا بأدوات ووقت ونظام تقييم كامل — وهذا هو الحد الأقصى. عينتنا المكونة من خمسين مشكلة تصف استدعاءً واحدًا لواجهة برمجة التطبيقات وفحصًا بسيطًا لتنسيق التعديل — وهذا هو الحد الأدنى. كلاهما مشروع؛ يجيبان على أسئلة مختلفة. سؤالنا كان: عندما يصل Opus 4.8 إلى Gateway، هل يتقدم بشكل واضح على 4.7 في إخراج الكود المعقد؟ في هذه العينة، نعم.

بوابة TrueFoundry AI هي الطبقة التي أجرينا عليها هذا الاختبار: واجهة برمجة تطبيقات واحدة متوافقة مع OpenAI، أكثر من 1000 نموذج، يتم التعامل مع توجيه المزود في الخلفية. نفس العميل، اسم نموذج مختلف، فرق قابل للقياس على البنية التحتية التي نعمل عليها بالفعل.

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now