الانفجار الرمزي للوكلاء: إسناد التكلفة والميزانيات لكود Claude في CI/CD

Published: July 4, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

عندما تنتقل الوكلاء من الجلسات التفاعلية إلى مسارات CI/CD، تختفي آلية التحكم البشري في الوتيرة وتنمو حلقات ReAct سياقها بشكل تربيعي. تخبرك فاتورة المزود بالمبلغ الذي أنفقته، لكنها لا تخبرك بالسبب — أو أين يمكنك التخفيض دون الإضرار بالسرعة.

Core Idea Callout

The Core Idea

Visibility without control is just accounting. Control without attribution is just blanket bans. The interesting engineering happens at the gateway, which is the only place where the request can be tagged at ingest, the cost can be priced at egress, and a budget can fire at the threshold between the two.

لماذا يغير CI/CD الجدوى الاقتصادية

تحتوي جلسات الذكاء الاصطناعي التفاعلية على آلية مدمجة للتحكم في الوتيرة: وهي الإنسان أمام لوحة المفاتيح. يقرأ الإنسان مخرجات الوكيل، ويقرر ما يجب فعله بعد ذلك، ويستهلك تقريبًا موجهًا واحدًا كل بضع دقائق. هذه الوتيرة هي بمثابة حد أقصى غير صارم للمعدل حتى عندما لا تفرضها أي سياسة.

مسارات CI/CD لا تحتوي على ذلك. يمكن لوكيل مُعد لمراجعة طلبات السحب (PR) الآلية أن يتم تشغيله مئات المرات في الساعة بسبب حركة التزام الكود العادية، ولا يوجد شيء في بيئته يبطئ من سرعته. الحسابات أسوأ مما توحي به وتيرة التشغيل، لأن تكلفة كل استدعاء بحد ذاتها تتزايد — حيث تقوم الأطر القائمة على الوكلاء مثل ReAct بإلحاق نتيجة كل إجراء مرة أخرى بنافذة السياق قبل خطوة الاستدلال التالية. ينمو استهلاك الرموز المميزة لكل تشغيل وكيل تقريبًا بمعدل O(n²) بالنسبة لعدد الخطوات.

الشكل 1 — حلقة تبدو رخيصة في الاختبار المحلي — ثلاث خطوات، سياق متواضع — تتحول بهدوء إلى تشغيل عطلة نهاية أسبوع يستهلك ملايين الرموز المميزة عندما تتعثر في إعادة المحاولة. أول مرة يلاحظ فيها قادة الهندسة هي عندما تحول الإدارة المالية فاتورة برقم لا يتطابق مع أي نموذج ذهني.

‍

النقطة العمياء في فواتير المزود

ستخبرك لوحات تحكم Anthropic وOpenAI بالضبط بعدد الرموز المميزة التي استهلكتها مؤسستك يوم الثلاثاء الماضي. لكنها لن تخبرك بالسبب. لا يمتلك المزود سياق التطبيق — لا يمكنهم التمييز بين مسار بيانات إنتاجي حرج ومشروع جانبي لمهندس مبتدئ يدور في حلقة لا نهائية. كلاهما يُحاسب بنفس الطريقة.

بدون إسناد دقيق، تلجأ الإدارة المالية إلى الأداة الوحيدة المتاحة: الحظر الشامل. يتم إيقاف استخدام الذكاء الاصطناعي مؤقتًا بانتظار المراجعة. يتم تقييد أعباء العمل المشروعة جنبًا إلى جنب مع تلك الخارجة عن السيطرة. يتعلم قادة الهندسة أن يخشوا مكالمة الإغلاق الشهرية. المشكلة الأساسية هي أن الإسناد يجب أن يحدث عند الاستيعاب، وليس عند الفوترة — بحلول وقت وصول الفاتورة، تكون العلامات التي كنت تحتاجها قد اختفت.

فاتورة المزود تجيب على سؤال "كم التكلفة؟". بينما يجيب السجل المنسوب للبوابة على سؤال "أي مستودع، أي مسار، أي خطوة وكيل، وماذا يجب إصلاحه؟". هذا الاختلاف يحول أزمة مالية إلى تذكرة هندسية.

Quote Block

The provider invoice answers "how much." The gateway-attributed ledger answers "which repo, which pipeline, which agent step, and what to fix." That difference turns a finance crisis into an engineering ticket.

وسم البيانات الوصفية على مستوى البوابة

أساس إسناد التكلفة هو الوسم الإلزامي عند البوابة. يقوم كل طلب من مسار CI/CD بإدخال كائن JSON صغير عبر ترويسة X-TFY-METADATA، يحدد الفريق، المستودع، المسار، خطوة الوكيل، ومركز التكلفة المسؤول. الشكل بسيط، ومقصود، ومتطابق عبر كل فريق:

HTTP · ترويسة مطلوبة في كل طلب CI

X-TFY-METADATA: {
  "team":         "payments-platform",
  "repo":         "transaction-service",
  "pipeline":     "pr-security-audit",
  "agent_step":   "step-2-policy-check",
  "cost_center":  "eng-backend",
  "environment":  "production"
}

العلامات إلزامية، وليست استشارية. يتم رفض الطلبات غير الموسومة عند البوابة، ولا يتم تمريرها بصمت. هذه هي السياسة التي تنتج قابلية مراقبة بنسبة 100% — لا يوجد "دلو غير معروف" في لوحة التحكم، لأنه لا يوجد مسار ينتج واحدًا. تكلفة التنفيذ هي قاعدة واحدة من Cedar/OPA. تكلفة عدم التنفيذ هي تصعيد مالي ربع سنوي.

‍

‍

باستخدام العلامات، تقوم البوابة بحساب الرموز المدخلة والمخرجة والمخزنة مؤقتًا لكل استدعاء، وتُسعّر النتيجة بناءً على أسعار المزود الحالية، وتسجل إدخالاً كاملاً في دفتر الأستاذ مع تحديد المصدر. يمكن تقسيم عروض التكلفة حسب المستخدم والنموذج والفريق بشكل جاهز، مع خيار تنزيل البيانات الأولية الذي يتيح لك التصدير باستخدام حقول تجميع مخصصة (اسم المستخدم، اسم النموذج، الفرق، أو أي مفتاح بيانات وصفية قمت بوضع علامات عليه). لكل دولار اسم.

ميزانيات لكل مشروع مع قواطع الدائرة

الرؤية بدون تطبيق هي لوحة تحكم لا يتصرف أحد بناءً عليها. تُرفق TrueFoundry ميزانيات هرمية ومفروضة رياضيًا بكل مركز تكلفة تنتجه عملية وضع العلامات. الميزانيات هي قائمة مرتبة من القواعد، كل منها محدد النطاق حسب الموضوعات أو النماذج أو مفاتيح البيانات الوصفية. يميز معنيان قواعد الميزانية عن قواعد تحديد المعدل، ويستحقان الفهم الدقيق:

يتم تتبع الميزانية لكل قاعدة مطابقة. إذا طابق طلب ثلاثة قواعد، يتم خصم التكلفة من جميع القواعد الثلاثة. الميزانيات المتعددة الطبقات — ميزانية فريق بقيمة 500 دولار فوق ميزانية 50 دولارًا لكل مستودع فوق ميزانية 10 دولارات لكل مطور — تبقى جميعها متزامنة في وقت واحد.
تأتي قرارات السماح/الحظر من القاعدة المطابقة الأولى فقط. يتم تقييم القواعد من الأعلى إلى الأسفل، وأول قاعدة تتطابق شروطها تحدد ما إذا كان الطلب سيمر أم سيتم رفضه. ضع التجاوزات ذات الأولوية العالية في الأعلى، والإعدادات الافتراضية في الأسفل.

يتم إطلاق تنبيهات الميزانية عند أربعة حدود قابلة للتكوين — 75%، 90%، 95%، و100% من الحد الأقصى — مع قنوات إشعارات للبريد الإلكتروني، وخطاف ويب Slack، وروبوت Slack. يتم تشغيل الفحص كل 20 دقيقة مقابل أحدث دفتر أستاذ محدد المصدر:

Threshold Table

Threshold	What happens	Who is notified
75%	Soft alert. Pipelines unaffected.	Team Slack channel — "three-quarters of this week's AI budget consumed"
90%	Constrained mode (configurable). Premium models can be rerouted to cheaper fallbacks.	Team lead + finance
95%	Final warning before hard cap.	On-call rotation
100%	Hard cap. Gateway returns 429 with descriptive error.	Pipeline fails clean; quota request ticket auto-files

الجدول 1 — حدود الميزانية. يتم تفعيل كل حد مرة واحدة لكل فترة ميزانية (يوم / أسبوع / شهر) ويعاد ضبطه في بداية الفترة التالية. يتم فحص التنبيهات كل 20 دقيقة.

سلوك الـ 100% هو جزء من التصميم، وليس مجرد فكرة لاحقة. تعيد البوابة خطأً منظمًا يحدد الميزانية المستنفدة ويوجه المشغل إلى لوحة التحكم:

JSON · استجابة 429 عند الوصول للحد الأقصى

{
  "error":      "Budget Exceeded",
  "rule_id":    "transaction-service-daily",
  "detail":     "Repository \"transaction-service\" has exhausted its
                 daily $50 AI budget at 14:32 UTC.",
  "mitigation": "Review pipeline logs for infinite loops or request a
                 quota increase via the platform team.",
  "dashboard":  "https://gateway.example.com/budgets/transaction-service"
}

يجب أن يعرف مسار العمل الذي يصل إلى ميزانيته ما يجب فعله بعد ذلك دون أن يضطر المطور لملاحقة فريق المنصة للحصول على السياق. تفسر أدوات تشغيل التكامل المستمر (CI) رمز 429 كإشارة تراجع قياسية؛ يفشل البناء بشكل نظيف برسالة قابلة للتنفيذ بدلاً من الانهيار بطرق مربكة.

هناك سلوك آخر يستحق المعرفة: وضع التدقيق. يؤدي تعيين block_on_budget_exceed: false على أي قاعدة إلى إبقاء التتبع والتنبيهات نشطة ولكن يسمح بمرور الطلبات. هذا هو الإعداد الافتراضي الصحيح خلال الشهر الأول من الإطلاق. راقب التنبيهات وهي تنطلق مقابل الحدود القصوى المحاكية؛ اضبط الحدود؛ ثم فقط قم بتشغيل التطبيق. تخطي وضع التدقيق هو كيف تستيقظ على فريق غاضب فشلت جميع مسارات عمله في الساعة 03:00.

YAML · إعداد ميزانية متعددة الطبقات

name: cicd-budget
type: gateway-budget-config
rules:
  - id: "ml-team-override"
    when: { subjects: ["team:ml-engineering"] }
    limit_to: 200
    unit: cost_per_day
    budget_applies_per: ["user"]
  - id: "default-user-daily"
    when: {}
    limit_to: 10
    unit: cost_per_day
    budget_applies_per: ["user"]
  - id: "per-repo-daily"
    when: {}
    limit_to: 50
    unit: cost_per_day
    budget_applies_per: ["metadata.repo"]
    alerts:
      thresholds: [75, 90, 100]
      notification_target:
        - type: slack-webhook
          notification_channel: "ai-budget-alerts"

بناء لوحة تحكم لتحديد مصدر التكلفة

تسمح البيانات الموسومة التي تتدفق إلى طبقة مقاييس البوابة لفريق المنصة ببناء لوحات تحكم تجيب على أسئلة الملكية بدلاً من إنتاج المزيد من الضوضاء التجميعية. بدلاً من التحديق في ارتفاع مفاجئ والتساؤل "من فعل هذا؟"، تخبرك لوحة التحكم بالفعل أنه في الساعة 02:00 بالتوقيت العالمي المنسق، قام فريق الواجهة الأمامية بنشر عامل جديد إلى react-monorepo الذي تخيل تبعية مفقودة ودخل في حلقة حل من 400 خطوة.

هذا النوع من السياق التشغيلي يحول التكلفة من مشكلة مالية إلى مشكلة هندسية. بمجرد أن ترى أن تبديل خطوة تلخيص الكود الأولية من Sonnet إلى Haiku يقلل تكلفة تلك الخطوة بنسبة 80% دون التأثير على جودة مراجعة طلبات السحب (PR)، فإنك تقوم بالتغيير. أنت لا تتجادل حول حدود الميزانية في لجنة توجيهية. تتوفر عروض تتبع التكلفة من TrueFoundry جاهزة للاستخدام من منظور المستخدم والنموذج والفريق، ويتيح لك تصدير البيانات الأولية تقسيمها حسب أي مفتاح بيانات وصفية — لذا فإن عرضًا لكل مستودع أو لكل مسار عمل أو لكل خطوة عامل هو تنزيل بنقرة واحدة، وليس مشروع هندسة بيانات.

‍

‍

التنبؤ بالإنفاق الشهري قبل وصول الفاتورة

تسهل بيانات العلامات المجمعة أيضًا عملية التنبؤ. أعباء العمل القائمة على الوكلاء متقطعة — حيث تهيمن مهام التكامل المستمر (CI) الثقيلة الدورية على الفاتورة — وهذا هو السبب في أن المتوسطات المتحركة البسيطة تقلل بشكل منهجي من تقدير الإنفاق. متوسط آخر 7 أيام هو التنبؤ الخاطئ لعبء عمل يكون فيه المئين الخامس والتسعون أربعة أضعاف متوسطه.

النموذج الصحيح هو توقعات P95 متجددة، تُجرى لكل مستودع ولكل فريق. تلتقط P95 مخاطر الارتفاع المفاجئ التي تخفيها المتوسطات، متوقعة الإنفاق في نهاية الشهر بوقت كافٍ لتعديل الميزانيات، أو رفع الحصص، أو إيقاف مسار عمل مسبب للمشاكل قبل أن تتفاجأ الإدارة المالية. "مفاجأة" هي الكلمة المفتاحية: هذا توقع مصمم لعدم إحداثها. عمليًا، تتبعت توقعات P95 لمدة 7 أيام الإنفاق الفعلي في نهاية الشهر بدقة تتراوح بين 8-12% على أعباء العمل التي قمنا بقياسها — وهي دقة كافية لاتخاذ إجراء، وأفضل بكثير من بديل المتوسط المتحرك.

مثال واقعي: 8,400 دولار ← أقل من 800 دولار

قامت منظمة تضم 50 مهندسًا ببناء وكيل مراجعة أكواد Claude من ثلاث خطوات يعمل على كل طلب سحب (pull request): (1) تلخيص التغييرات، (2) مراجعة التغييرات مقابل سياسات الأمان عبر خادم توثيق MCP، (3) اقتراح تغييرات في الكود. هندسة معمارية منطقية، سير عمل مفيد، لا توجد علامات حمراء واضحة.

بمعدل حوالي 15 طلب سحب (PR) لكل مهندس في الأسبوع، ومع الأخذ في الاعتبار عمليات إعادة المحاولة وتكلفة نافذة السياق لإدخال ملفات كاملة في المطالبات، بلغ متوسط الوكيل حوالي 400,000 رمز إدخال لكل طلب سحب. فاتورة الشهر الأول لأتمتة CI/CD: 8,400 دولار.

Table 2: Cost Attribution Debug Walkthrough

Stage of investigation	What we knew	What we did
Provider invoice arrives	$8,400 spent on Claude API	Started panicking
Gateway dashboard	$8,200 of the $8,400 came from one pipeline (pr-security-review)	Stopped panicking, kept investigating
Per-step breakdown	Step 2 alone was 92% of pipeline cost	Inspected step 2's prompt
Step 2 prompt audit	50,000-token security manual was being injected into every PR	Routed step 2 through gateway semantic cache
Month two bill	Under $800. Same coverage. Same suggestions.	Wrote this blog post.

الجدول 2 — شرح تفصيلي لتصحيح أخطاء إسناد التكلفة. خمس نقرات على البوابة، تغيير واحد في الإعدادات. بدون إسناد التكلفة، كان الرد سيكون حظرًا شاملاً لـ Sonnet على مسارات عمل CI. مع إسناد التكلفة، كان الرد تغييرًا في الإعدادات من سطر واحد.

هذه الفجوة — بين "حظر النموذج" و"تخزين مطالبة واحدة مؤقتًا" — هي المكافأة الكاملة لإجراء إسناد التكلفة بشكل صحيح. بيانات التكلفة موجودة في كلتا الحالتين؛ السؤال هو ما إذا كانت لديك التصنيفات لقراءتها.

الأسئلة الشائعة

هل يجب أن تُحدد الميزانيات بالدولار أم بالرموز (tokens)؟

كلاهما، بالتزامن. الدولار يتوافق مع التخطيط المالي والتشغيلي. الرموز هي المقياس الهندسي الذي يتيح لك تصحيح كفاءة المطالبات. تتتبع TrueFoundry كلاهما — تمتلك الإدارة المالية لوحات معلومات الدولار، وتمتلك الهندسة لوحات معلومات الرموز، والبوابة هي مصدر الحقيقة لكلاهما. يتم استيعاب تغييرات أسعار المزودين على مستوى الدولار دون الحاجة إلى إعادة هيكلة أي شيء من قبل الهندسة؛ ويتم استيعاب التعديلات الدقيقة الجديدة على مستوى الرموز دون حاجة الإدارة المالية لمعرفة اسم النموذج.

ماذا يحدث عندما يتم الوصول إلى حد أقصى (hard limit) في منتصف مسار العمل؟

يتلقى مسار العمل رمز 429 مع الخطأ الوصفي الموضح سابقًا ورابطًا إلى لوحة معلومات الميزانية. تفسر أدوات تشغيل CI رمز 429 كإشارة تراجع قياسية؛ ويفشل البناء بشكل نظيف برسالة قابلة للتنفيذ بدلاً من الانهيار بطرق مربكة. يتم تقديم طلبات زيادة الحصص كتذاكر قياسية لفريق المنصة — وعنوان URL للوحة المعلومات في نص الخطأ يختصر الجولة المعتادة من "لا أفهم لماذا يفشل هذا".

هل يؤدي وضع العلامات الإلزامي إلى إبطاء عملية النشر؟

عمليًا، لا — تتعامل أغلفة SDK مع الإدخال تلقائيًا داخل قوالب CI، لذلك لا يقوم المطورون الأفراد أبدًا بتحرير الرؤوس. التكلفة لمرة واحدة هي تحديث قوالب مسار عمل الفريق؛ التكلفة المتكررة صفر. الفائدة المتكررة هي كل لوحة معلومات، وكل تنبيه، وكل تحليل بعد الوفاة يتبع ذلك.

ما الفرق بين حدود المعدل وحدود الميزانية — ومتى أستخدم كل منهما؟

توقف حدود المعدل الارتفاعات المفاجئة؛ وتوقف حدود الميزانية الإنفاق. تُحدد حدود المعدل بعدد الطلبات/الدقيقة أو الرموز/الدقيقة — فهي تحمي الخدمات التابعة من الضغط الزائد ويتم تقييمها لكل طلب. تُحدد الميزانيات بالدولار لكل يوم/أسبوع/شهر — فهي تحمي محفظة الشركة ويتم تقييمها مقابل الدفتر التراكمي. تعمل معظم مكدسات الإنتاج بكلاهما، وتكون مخصصة لكيانات مختلفة. الأنماط متكاملة، وليست زائدة عن الحاجة.

‍

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now