Blank white background with no objects or features visible.

تعلن TrueFoundry عن استحواذها على Seldon AI، موسعة بذلك لوحة التحكم الخاصة بها للذكاء الاصطناعي للمؤسسات. البيان الصحفي الكامل →

Kimi-K2 Thinking: كيف يمكنك تجربته الآن باستخدام بوابة Truefoundry AI

By TrueFoundry

Published: July 4, 2026

باختصار: Kimi-K2 Thinking (Moonshot AI) هو نموذج "تفكير" مفتوح الوزن وواعٍ بالأدوات يدفع حدود التفكير متعدد الخطوات، وتنسيق الأدوات طويل الأمد، ونوافذ السياق الضخمة. في اختبار البشرية الأخير (HLE) والعديد من معايير الأنظمة الوكيلة، يحقق أرقامًا رائدة (خاصة عند تمكين الوصول إلى الأدوات)، مما يؤكد بقوة أن الحدود الكبيرة التالية في نماذج اللغة الكبيرة (LLMs) هي التفكير + الأدوات + السياق الطويل، وليس مجرد عدد المعاملات الخام.
استخدم بوابة الذكاء الاصطناعي من Truefoundry لتجربتها الآن.

مقدمة — لماذا تهم نماذج "التفكير"

لقد أخبرتنا المعايير مثل MMLU واختبارات البرمجة ومعايير الدردشة الكثير، لكنها لا تقيس بشكل كامل التفكير متعدد الخطوات، أو تنسيق الأدوات، أو التخطيط طويل الأمد. فئة جديدة من نماذج "التفكير" تتدرب صراحة على هذه القدرات: يجب على النموذج أن يدمج التفكير الداخلي خطوة بخطوة مع استدعاءات الأدوات الخارجية (البحث، مفسرات الأكواد، تصفح الويب)، وأن يحافظ على الترابط عبر العديد من الخطوات المتتالية.

يُعد Kimi-K2 Thinking مثالاً رائداً لهذا الاتجاه. لقد صُمم كنظام وكيل ذكي: فهو يفكر، ويقرر استدعاء الأدوات، ويستوعب مخرجات الأدوات، ويواصل التفكير — كل ذلك مع الحفاظ على السياق عبر مئات الخطوات. النتيجة: مكاسب كبيرة في معايير "التفكير" الصعبة مثل HLE و BrowseComp.

ما هو Kimi-K2 Thinking (جولة تقنية مختصرة)

أبرز النقاط التقنية الرئيسية من بطاقة النموذج الرسمية:

  • البنية المعمارية: مزيج من الخبراء (MoE) مع حوالي 1 تريليون معلمة إجمالية وحوالي 32 مليار معلمة نشطة.
  • نافذة السياق: سياق ضخم بحجم 256 ألف رمز للتفكير طويل الأمد.
  • تنسيق الأدوات: تدريب شامل لدمج تسلسل التفكير مع استدعاءات الوظائف/الأدوات؛ مصمم ليتحمل 200-300 استدعاء متتالي للأدوات دون انحراف.
  • تكميم INT4 الأصلي: تدريب يراعي التكميم لدعم الاستدلال بتقنية INT4 مع تحسينات كبيرة في السرعة دون الإبلاغ عن فقدان في الدقة.
  • النشر: دعم واجهة برمجة التطبيقات ومكدسات الاستدلال القياسية (مثل vLLM، إلخ). 

هذه العناصر — نطاق MoE، والسياق الضخم، والتنسيق الواضح للأدوات، والاستدلال الفعال منخفض البتات — هي اللبنات الأساسية التي تسمح لـ Kimi-K2 بالتصرف كوكيل أكثر من كونه محولًا للمحادثة.

حول HLE (لماذا هذا المعيار مهم هنا)

امتحان البشرية الأخير (HLE) يهدف إلى أن يكون معيارًا صعبًا للغاية على غرار الامتحانات يركز على الاستدلال الحقيقي، وليس الاسترجاع أو الاختصارات. يحتوي على مسائل معقدة ومتعددة الخطوات غالبًا في مجالات الرياضيات والعلوم والهندسة ومواضيع أخرى. نظرًا لأن مسائل HLE تتطلب عادةً استدلالًا متعدد الخطوات، وفي بعض الحالات، بحثًا خارجيًا أو حسابات، فهو اختبار إجهاد ممتاز للوكلاء القادرين على استخدام الأدوات وذوي السياق الطويل. ركز تطوير Kimi-K2 على HLE ومعايير الوكلاء الأخرى — وتبرز بطاقة النموذج HLE كأحد أهداف التقييم الأساسية. 

كيف يعمل Kimi-K2 في HLE و — الأرقام

وفقًا لنتائج التقييم المنشورة من Moonshot AI:

الاستدلال الوكيلي على
امتحان البشرية الأخير (نص فقط) مع الأدوات  
البحث والتصفح الوكيلي على
BrowseComp

للمقارنة، حقق GPT-5 (إصدار عالي) حوالي 41.7% في HLE باستخدام الأدوات (إعادة تشغيلهم الداخلية) و Claude Sonnet 4.5 حوالي 32.0% (وضع التفكير). وبالتالي، تضع نتائج Kimi-K2 النموذج متقدمًا على الخطوط الأساسية المبلغ عنها في تشغيل HLE المدعوم بالأدوات. (جميع الأرقام مأخوذة من جدول تقييم Moonshot AI والحواشي). 

فروق دقيقة مهمة: توثق بطاقة النموذج بعناية كيفية التعامل مع الوصول إلى الأدوات، وإعدادات المحكم، وميزانيات الرموز، وحدود السياق؛ ويشير المؤلفون أيضًا إلى أن بعض الأرقام الأساسية أُخذت من منشورات رسمية بينما أُعيد اختبار البعض الآخر داخليًا. باختصار: هذه مؤشرات قوية، ولكن يجب على القراء ملاحظة أنها مقدمة من Moonshot AI وتعتمد على بروتوكول التقييم المفصل الموضح مع النتائج.

ما وجدناه في تحليلنا

أخذنا عينة من 50 صفًا من البيانات من HLE، وهذه هي النتائج

High-Level Evaluation (HLE) — Pass Rate
GPT-5 Claude - 4.5 Kimi K2 Thinking
38% 33% 44%
  • بعض الأمثلة النموذجية حيث تفوق Kimi K2 Thinking على النماذج الأخرى
 الإجابة الصحيحة - (1,4,5)(1,3,4,5,6)
           الإجابة الصحيحة - C 

حصل Kimi K2 على الإجابة والمنطق الصحيحين، بينما حصل GPT-5 على الإجابة الصحيحة فقط، ولم يكن كلود صحيحًا.

أهمية قفزة الأداء باستخدام الأدوات

تضاعف أداء Kimi-K2 تقريبًا مضاعفة في HLE من عدم استخدام الأدوات إلى استخدامها (≈24% إلى 45%) يوضح نقطة حاسمة:

  • تتطلب العديد من أسئلة HLE استرجاعًا/تحققًا، أو حسابًا منهجيًا، أو معلومات خارجية متعددة الخطوات. النموذج الذي تم تدريبه على تخطيط استدعاءات الأدوات كجزء من سلسلة تفكيره سيستفيد أكثر من الوصول إلى الأدوات من نموذج يستخدم الأدوات كفكرة لاحقة.
  • سياق طويل وسلوك وكيل مستقر يسمح لـ Kimi-K2 بالحفاظ على الحالة الوسيطة، ومراجعة خطوات الاستدلال السابقة، وإدارة العديد من مخرجات الأدوات دون فقدان الاتساق. وهذا أمر بالغ الأهمية عندما تكون سلاسل الاستدلال طويلة (على غرار HLE).
  • الوضع الثقيل (نشر المسارات المتوازية + التجميع الانعكاسي) يزيد من المتانة وجودة الإجابة النهائية لهذه العناصر الصعبة. 

ببساطة: تشير مكاسب HLE إلى أن المشكلة الأساسية هي كيف يستدل النموذج ويستخدم الأدوات، وليس فقط حجم النموذج الخام.

نقاط عملية رئيسية

  • إذا كان عبء عملك يتضمن بحثًا متعدد الخطوات، أو استدلالًا آليًا مع عمليات بحث عبر الويب، أو مهامًا طويلة متعددة المراحل، أو سير عمل وكيلية (أتمتة سير العمل، الترميز المستقل + التحقق، مهام التحقيق الطويلة)، فإن نموذجًا يعتمد التفكير أولاً مثل Kimi-K2 يستحق التجربة.
  • بالنسبة للمهام الحوارية ذات اللقطة الواحدة أو النشر المقيد بدون الوصول إلى أدوات خارجية، تتضاءل الميزة — اختر الأدوات والنموذج وفقًا لمتطلباتك.
  • تعني طبيعة الوزن المفتوح والكمّية الحديثة أن الفرق يمكنها التجربة دون تعقيدات الصندوق الأسود لبعض المكدسات الاحتكارية.
  • بينما يعد نشر هذا النموذج الكبير أمرًا مستبعدًا للكثيرين، يمكنك تجربته باستخدام TrueFoundry ببضع نقرات.

الخلاصة — جربه بنفسك باستخدام TrueFoundry AI Gateway

أبعد من المعايير، الأكثر إثارة هو مدى سهولة الوصول إلى هذا النوع من الإمكانات. لا يتعين عليك الانتظار لأشهر للتجربة — يمكنك تجربته بنفسك. TrueFoundry AI Gateway يسهّل الوصول إلى Kimi-K2 Thinking والنماذج المتطورة الأخرى مباشرةً، وقياس أدائها على بياناتك الخاصة، أو دمجها في سير العمل.

إذا كنت ترغب في الحصول على مساعدة أكثر تخصيصًا، احجز عرضًا توضيحيًا — يمكن للفريق أن يشرح لك الأداء، وخيارات النشر، والتكلفة، وكيفية تقييم هذه النماذج لمهامك. نحن نبقى على اطلاع دائم بالسوق ونتأكد من توفير النماذج الجديدة لك بأسرع وقت ممكن.

الخلاصة: Kimi-K2 Thinking ليس مجرد نموذج لغوي كبير آخر (LLM) — إنه لمحة واضحة عن مستقبل الوكلاء القادرين على الاستدلال: مفتوح، فعال، مدرك للأدوات، ومُعدّ لحل المشكلات متعددة الخطوات. جربه، قارنه بمشكلاتك الخاصة، وشاهد الفارق الذي يحدثه تنسيق الأدوات الوكيلية في المهام الحقيقية.

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

One Gateway for Every LLM, Agent and MCP Server

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo
Summarize with
ChatGPT logo by OpenAI
Perplexity AI logo
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

Discover More

No items found.
July 4, 2026
|
5 min read

تكاملات منصة التعلم الآلي #1: Weights & Biases

Use Cases
Engineering and Product
July 4, 2026
|
5 min read

تكامل Pillar Security مع TrueFoundry

No items found.
July 4, 2026
|
5 min read

التخزين المؤقت الدلالي لنماذج اللغة الكبيرة (LLMs): تقليل التكلفة وزمن الاستجابة بما يتجاوز التخزين المؤقت للبادئات

No items found.
July 4, 2026
|
5 min read

تكاملات أدوات التعلم الآلي #2 DVC لإدارة إصدارات بياناتك

Engineering and Product
Use Cases
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour