Blank white background with no objects or features visible.

تعلن TrueFoundry عن استحواذها على Seldon AI، موسعة بذلك لوحة التحكم الخاصة بها للذكاء الاصطناعي للمؤسسات. البيان الصحفي الكامل →

Claude Opus 4.8 و SWE-bench Pro: اختبرنا إنجاز Anthropic الرئيسي عبر بوابتنا

By أمروثا بوتلوري

Published: July 4, 2026

عندما أطلقت Anthropic Claude Opus 4.8 في 28 مايو 2026، كان الرقم الرئيسي يتعلق بالترميز: 69.2% على SWE-bench Pro، بزيادة عن 64.3% لـ Opus 4.7 — أي 4.9 نقطة مكسب في أحد أصعب معايير هندسة البرمجيات في الصناعة.

أردنا أن نعرف ما إذا كانت هذه الترقية تظهر عندما يتم استدعاء كلا النموذجين بالطريقة التي تستدعيهما بها معظم الفرق بالفعل: عبر بوابة إنتاج، واجهة برمجة تطبيقات واحدة، زمن استجابة حقيقي، وفواتير رموز حقيقية. لقد قمنا بتشغيل 50 مشكلة ترميز صعبة من مجموعة اختبار SWE-bench Pro العامة عبر بوابة TrueFoundry AI.

عاد Opus 4.8 برقعة كود تبدو قابلة للاستخدام في كل مشكلة على حدة؛ بينما أخفق Opus 4.7 في ثلاث. تطابق الاتجاه مع ادعاء Anthropic. نتائجنا المطلقة لم تتطابق — وهذه الفجوة هي بيت القصيد.

الرقم الذي يستشهد به الجميع

يأتي كل إطلاق نموذج رئيسي مصحوبًا بجدول لنتائج المعايير. بالنسبة لـ Opus 4.8، كان الصف الذي حظي بأكبر قدر من الاهتمام هو SWE-bench Pro.

SWE-bench Pro هو اختبار إجهاد لقدرة الذكاء الاصطناعي على الترميز. تأتي المشكلات من مشاريع مفتوحة المصدر حقيقية — قواعد أكواد يتم صيانتها، أخطاء متعددة الملفات، نوع العمل الذي قد يقضي مهندس كبير فترة ما بعد الظهر في فك تشابكه. تم قياس النتيجة المنشورة لـ Anthropic بإعداد وكيل كامل: يمكن للنموذج تصفح المستودع، تشغيل الأوامر، محاولة إصلاح، والتكرار. هذه هي الطريقة الصحيحة لقياس ما يمكن للنموذج أن يفعله في أفضل حالاته.

لكن هذا ليس ما يحدث عندما يرسل تطبيقك طلبًا واحدًا عبر واجهة برمجة تطبيقات وينتظر إجابة.

هذا التمييز مهم. فرق المنصات لا تعمل ضمن بيئة تقييم Anthropic. إنهم يعملون خلف بوابة: نقطة نهاية واحدة، قواعد توجيه، حدود معدل، وفاتورة في نهاية الشهر. عندما يقول البائع '+4.9 نقطة'، يصبح السؤال العملي أضيق وأكثر فورية: على البنية التحتية التي نستخدمها بالفعل، هل لا يزال النموذج الجديد يتفوق على القديم في مهام الترميز الصعبة؟

أجرينا هذا الفحص

وجهنا كلود أوبوس 4.8 و كلود أوبوس 4.7 عبر بوابة TrueFoundry AI — نفس واجهة برمجة التطبيقات (API) المتوافقة مع OpenAI التي يستخدمها عملاؤنا للوصول إلى النماذج المتطورة. خلف البوابة، استقرت النماذج على مسارات مزودين مختلفة. من وجهة نظر التطبيق، كان التكامل متطابقًا: نفس عنوان URL، نفس بيانات الاعتماد، اسم نموذج مختلف.

للاختبار الأساسي، استخرجنا 50 مشكلة من مجموعة اختبار SWE-bench Pro العامة (731 مشكلة إجمالاً). تصف كل مشكلة خطأً حقيقيًا في مستودع حقيقي. أرسلنا الوصف إلى النموذج في جولة واحدة وطلبنا فرقًا موحدًا — التنسيق القياسي لتصحيح الكود. لا تصفح. لا وصول إلى الطرفية. لا فرصة ثانية للمراجعة.

ثم قمنا بتقييم كل استجابة بقاعدة بسيطة: هل يبدو هذا وكأنه تصحيح مشروع؟ لم نقم بتشغيل حاويات Docker أو تشغيل مجموعة اختبار المشروع. لم نطلب من نموذج ثانٍ أن يعمل كحكم.

هذا اختبار أخف من اختبار Anthropic، لكنه يجيب على سؤال مختلف: عندما يصل Opus 4.8 إلى بوابتك، هل ينتج مخرجات برمجة موثوقة للمشكلات الصعبة أكثر من Opus 4.7؟

ما وجدناه في SWE-bench Pro

في عينتنا المكونة من 50 مشكلة، أعاد Opus 4.8 إجابة على شكل تصحيح في كل مرة — 50 من أصل 50. أخطأ Opus 4.7 في ثلاثة، ليحقق 47 من أصل 50. من حيث النسبة المئوية، هذا يمثل فجوة بست نقاط في شريحتنا مقابل فجوة 4.9 نقطة لـ Anthropic على المعيار الرسمي الكامل.

الترتيب هو ما اهتممنا به. قالت Anthropic إن النموذج الجديد أفضل في هذا العمل. في تشغيل البوابة الخاص بنا، كان النموذج الجديد أفضل في هذا العمل أيضًا.

الأرقام المطلقة قصة مختلفة، ولا ينبغي مقارنتها جنبًا إلى جنب. نسبة Anthropic البالغة 69.2% تعني أن النموذج حل ما يقرب من سبعة من أصل عشرة مشاكل باستخدام وكيل يمكنه الاستكشاف والاختبار. ما حققناه بنسبة 100% و 94% يعني أن النموذج أعاد شيئًا يشبه التصحيح في محاولة واحدة. المعيار الذي استخدمناه أقل بكثير. اعتبار نتائجنا "متفوقة" على نتائج Anthropic سيكون مضللاً. اعتبار الـ الاتجاه— 4.8 متقدمًا على 4.7 — كمراجعة منطقية أمر عادل.

Model Our result (N=50) Anthropic reported Est. cost Latency p50 Latency p95
Opus 4.8 100% (50/50) 69.2% ~$1.45 ~11.9 s ~26.7 s
Opus 4.7 94% (47/50) 64.3% ~$1.66 ~13.0 s ~36.6 s

كان هناك جانب عملي للتشغيل أيضًا. وفقًا لقائمة أسعار Anthropic المنشورة عند الإطلاق (5 دولارات لكل مليون رمز إدخال، 25 دولارًا لكل مليون رمز إخراج)، كلفت شريحة SWE-bench حوالي 1.45 دولارًا لـ Opus 4.8 و 1.66 دولارًا لـ Opus 4.7. استغرقت الاستجابات على أوصاف المشكلات الطويلة متوسط حوالي 12 ثانية لـ 4.8 و 13 ثانية لـ 4.7؛ وامتدت أبطأ خمس الطلبات نحو 27 و 37 ثانية على التوالي. بالنسبة لعملية تحقق سريعة لمرة واحدة، هذا أمر يمكن إدارته. أما بالنسبة لوكيل يقوم بالتكرار عشرات المرات لكل مهمة، فإن التكلفة تتراكم بسرعة.

قراءة بقية جدول الإطلاق

لم يتوقف إعلان Anthropic عند SWE-bench Pro. ذكر المنشور نفسه مكاسب في مهام الطرفيات، وأتمتة سطح المكتب، وأسئلة وأجوبة العلوم على مستوى الدراسات العليا، وسير العمل المالي، والمزيد. لم نقم بإعادة تشغيل تلك الأدوات الرسمية أيضًا — لقد قمنا بتعيين كل فئة لمجموعة صغيرة من المطالبات التمثيلية وقمنا بتشغيل كلا النموذجين عبر Gateway.

Category What we sent What we found
SWE-bench Pro 50 real bugs, one-shot patch 4.8: 50/50 · 4.7: 47/50
SWE-bench Verified Python bug-fix prompts 4.8: 2/2 · 4.7: 1/2
Terminal-Bench 2.1 Bash one-liner tasks Both: 2/2
OSWorld-Verified UI action multiple-choice Both: 2/2
HLE (tools) Hard reasoning prompts Both: 2/2
GDPval-AA Knowledge-work math Both: 2/2 (official metric is Elo)
Finance Agent v2 Multi-step finance prompts Both: 0/2 (grading limitation likely)
GPQA Diamond Graduate science MCQ Both: 2/2

تكرر النمط ما رأيناه في البرمجة. في مهام الوكيل القصيرة — إصلاح خطأ في بايثون، الإجابة على سؤال باش، اختيار الإجراء الصحيح لواجهة المستخدم — غالبًا ما حقق كلا النموذجين أقصى الدرجات. هذا يخبرك أن النماذج قابلة للوصول والاستجابة في العمل المصنف حسب الفئة.

كانت نتيجتان أكثر إفادة من البقية.

على SWE-bench Verified الوكلاء (إصلاحات برمجية أبسط من Pro)، أجاب Opus 4.8 على كلا المطالبتين بشكل صحيح بينما أجاب Opus 4.7 على واحدة من اثنتين — فجوة أوسع من الفارق الرسمي لـ Anthropic البالغ 88.6% مقابل 87.6%، وإن كان ذلك على عينة صغيرة جدًا.

على وكيل مالي الوكلاء، سجل كلا النموذجين صفرًا. هذا يكاد يكون بالتأكيد قيدًا في التقييم — مطابقة صارمة للإجابات على بديل مصغر — وليس دليلاً على أن أوبوس لا يستطيع القيام بالعمل المالي. إنه تذكير بأن النماذج البديلة الخفيفة تفشل بصمت. المجموعة الوحيدة التي نثق بها لـ ترتيب النماذج هي SWE-bench Pro بـ 50 مشكلة.

بالنسبة للفئات المتبقية — اختبارات الاستدلال، رياضيات العمل المعرفي، أسئلة الاختيار من متعدد في العلوم — اجتاز كلا النموذجين مجموعاتنا الصغيرة من النماذج البديلة. لا يزال الجدول الرسمي لـ Anthropic يظهر فروقًا دقيقة لم نلتقطها (على سبيل المثال، GPQA Diamond يفضل 4.7 قليلاً). كانت نماذجنا البديلة سطحية جدًا للكشف عن ذلك.

لماذا اتبعنا هذا النهج

نحن لا نحاول استبدال تقييم Anthropic. أرقامهم تصف ما يمكن أن يفعله Opus 4.8 عندما تمنحه الأدوات والوقت ومنظومتهم. تجربتنا تصف ما يحدث في اليوم الأول من ترحيل البوابة — عندما يريد فريق هندسي معرفة ما إذا كان توجيه حركة المرور إلى 4.8 يستحق الجهد قبل إعادة تدريب الوكلاء وإعادة ضبط المطالبات.

ثلاثة أمور برزت بعيدًا عن لوحة النتائج.

•  صمدت قصة الترقية أمام الاتصال بتوجيه الإنتاج. مسارات مزود مختلفة، تكامل عميل واحد، كلا النموذجين قابلان للاستدعاء دون إعادة هندسة التطبيق. هذه هي قصة التكامل التي صُممت Gateway من أجلها.

•  التقييم الصادق يتفوق على التقييم المثير للإعجاب. فحص استدلالي "يشبه التصحيح" سهل الانتقاد — ونحن ننتقده بأنفسنا. كما أنه رخيص، وقابل للتكرار، ويصعب التلاعب به بنموذج حكم ودود. للحصول على قراءة توجيهية بعد الإطلاق، كان هذا التوازن منطقيًا.

•  معايير البائع وواقع البوابة يقيسان طبقات مختلفة. نسبة 69.2% من Anthropic هي السقف. عينتنا المكونة من 50 مشكلة هي فحص للحد الأدنى: هل حقق المنتج الرائد الجديد تقدمًا فعليًا في إخراج الكود الصعب عند استدعائه بالطريقة التي تستدعيه بها خدماتك؟

ما نستخلصه من ذلك

يظل فرق SWE-bench Pro من Anthropic أقوى دليل عام على أن Opus 4.8 هو ترقية مهمة في البرمجة. لم نعد إثبات هذا الرقم. نحن أكدت الترتيب —4.8 متقدمًا على 4.7 — على مسار بوابة يحاكي كيفية استدعاء خدمات الإنتاج للنماذج الرائدة، مع ما يترتب على ذلك من تكاليف وزمن استجابة.

نسبنا لا يمكن مقارنتها بنسب Anthropic، ولن نقدمها بهذه الطريقة. الاستنتاج المفيد من تجربتنا أبسط: المكسب الرئيسي يشير إلى نفس الاتجاه في بنيتنا التحتية.

لقد تعلمنا أيضًا شيئًا عن كيفية فهم موسم الإطلاق. نسبة Anthropic البالغة 69.2% تصف نموذجًا مزودًا بأدوات ووقت ونظام تقييم كامل — وهذا هو الحد الأقصى. عينتنا المكونة من خمسين مشكلة تصف استدعاءً واحدًا لواجهة برمجة التطبيقات وفحصًا بسيطًا لتنسيق التعديل — وهذا هو الحد الأدنى. كلاهما مشروع؛ يجيبان على أسئلة مختلفة. سؤالنا كان: عندما يصل Opus 4.8 إلى Gateway، هل يتقدم بشكل واضح على 4.7 في إخراج الكود المعقد؟ في هذه العينة، نعم.

بوابة TrueFoundry AI هي الطبقة التي أجرينا عليها هذا الاختبار: واجهة برمجة تطبيقات واحدة متوافقة مع OpenAI، أكثر من 1000 نموذج، يتم التعامل مع توجيه المزود في الخلفية. نفس العميل، اسم نموذج مختلف، فرق قابل للقياس على البنية التحتية التي نعمل عليها بالفعل.

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

One Gateway for Every LLM, Agent and MCP Server

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo
Summarize with
ChatGPT logo by OpenAI
Perplexity AI logo
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

Discover More

July 20, 2023
|
5 min read

LLMOps CoE: الحدود التالية في مشهد MLOps

May 25, 2023
|
5 min read

النماذج اللغوية الكبيرة مفتوحة المصدر: تبنّها أو تندثر

August 27, 2025
|
5 min read

Mapping the On-Prem AI Market: From Chips to Control Planes

September 28, 2023
|
5 min read

ما هو الضبط الدقيق باستخدام Lora؟ الدليل الشامل

July 4, 2026
|
5 min read

تكاملات منصة التعلم الآلي #1: Weights & Biases

Use Cases
Engineering and Product
July 4, 2026
|
5 min read

تكامل Pillar Security مع TrueFoundry

No items found.
July 4, 2026
|
5 min read

التخزين المؤقت الدلالي لنماذج اللغة الكبيرة (LLMs): تقليل التكلفة وزمن الاستجابة بما يتجاوز التخزين المؤقت للبادئات

No items found.
July 4, 2026
|
5 min read

تكاملات أدوات التعلم الآلي #2 DVC لإدارة إصدارات بياناتك

Engineering and Product
Use Cases
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour