ثلاثية TOKENMAXXING · الجزء الثاني من 3: هندسة استخدام الذكاء الاصطناعي المُحكَم

By بويو وانغ

Published: July 4, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

الرؤية الأساسية

الجزء الأول شخّصت الأمر بأن: تعظيم الرموز (tokenmaxxing) ليس مشكلة في استخدام الذكاء الاصطناعي؛ بل هو مشكلة في مستوى التحكم. إذا أصبحت الرموز الخام هدفًا، فسيعمل الناس على تحسينها. وإذا أصبح الاستخدام المُحكَم للذكاء الاصطناعي هو نموذج التشغيل، يمكن للمنصة تشجيع التبني مع تحديد التكلفة والمخاطر والضوضاء التشغيلية. هذا الجزء يجعل تلك الهندسة ملموسة.

الفرضية بسيطة. كل طلب ذكاء اصطناعي يغادر تطبيق مؤسسي هو، سواء تعاملت معه بهذه الطريقة أم لا، حدث وقت تشغيل له تبعات تتعلق بالتكلفة والأمان والتدقيق. المكان الوحيد الأكثر فاعلية لربط الضوابط بهذه الأحداث هو البوابة — الطبقة التي تقع بين كل تطبيق وكل نموذج وواجهة خلفية للأدوات. يمكن للوحة معلومات مبنية في المراحل اللاحقة أن تصف ما حدث. البوابة وحدها هي التي يمكنها تحديد ما سيحدث بعد ذلك.

لوحة المعلومات تبلغ عن مشكلة. البوابة تمنع المشكلة التالية. الهندسة المعمارية أدناه هي ما يجعل هذا التمييز عمليًا.

أربعة أغلفة حول كل طلب

يحتاج طلب الذكاء الاصطناعي المُحكَم إلى أربعة أغلفة تحيط به قبل أن يغادر التطبيق. فكر في هذا كنموذج OSI للذكاء الاصطناعي المؤسسي — كل طبقة لها مسؤولية محددة ونمط فشل محدد عند غيابها.

Envelope	What It Contains	Failure Mode Without It
🪪 IDENTITY	User, team, project, workflow, environment, cost center, ticket or artifact link	Unattributable spend spikes; no FinOps chargebacks; dashboard shows totals only
🔒 POLICY	Rate limits, budgets, model allowlists, routing, retries, fallbacks, timeouts	Runaway agents; surprise invoices; no circuit breakers; premium-model sprawl
🛡️ SAFETY	LLM input/output guardrails + MCP pre-/post-tool hooks	PII leakage in prompts; prompt injection; credential exposure in outputs
📡 OBSERVABILITY	Resolved model, applied config, latency phases, request/response logs, OTEL export	Unreproducible incidents; blind cost attribution; no regression root-cause

يجب أن تكون هذه الأغلفة على مسار الطلب، وليس في تقرير يقرأه أحدهم يوم الجمعة. يمكن للوحة معلومات مبنية بعد وقوع الحدث أن تصف مشكلة؛ فقط الغلاف الموجود على الطلب المباشر يمكنه تشكيل المكالمة التالية. هذا هو المبدأ المعماري الذي يفصل منصة الذكاء الاصطناعي المُحكَم عن إضافة التحليلات.

البيانات الوصفية هي مفتاح الربط

أول معيار للتنفيذ هو عقد بيانات وصفية صارم. استخدم مفاتيح ذات قيم نصية، وأرسلها مع كل طلب، واجعلها إلزامية في أغلفة SDK الخاصة بك، ومكتبات العملاء الداخلية، وأطر عمل الروبوتات، وقوالب الوكلاء. تظهر تكلفة حقل واحد مفقود لاحقًا كبند فاتورة مفقود، أو ارتفاع غير قابل للنسبة، أو حدث حماية لا يمكن لأحد توجيهه إلى مالك.

// JSON — minimum metadata contract
// Treat as a strict schema, not a suggestion.
{
  "team":            "payments-platform",      // maps to FinOps cost center
  "project_id":      "proj-agentic-refactor",  // rate/budget scoping key
  "workflow":        "repo-understanding",      // routing and policy selector
  "surface":         "ide-agent",               // hourly rate-limit selector
  "environment":     "production",              // budget tier selector
  "cost_center":     "eng-core",                // accounting integration
  "ticket_id":       "ENG-18472",               // outcome join key — THE most important field
  "policy_version":  "ai-leverage-v1"           // audit trail
}

// Python SDK — never skip the metadata header:
// extra_headers={"X-TFY-METADATA": json.dumps(metadata)}

الوسم هو أرخص عمل هندسي في هذه الهندسة المعمارية بأكملها وأول ما يتعطل عندما تتجاهله الفرق.

في بوابة TrueFoundry، ينتقل هذا كعنوان X-TFY-METADATA. ثم يقوم نفس نطاق اسم المفتاح بتشغيل كل شيء في المراحل اللاحقة: تُطبق الميزانيات لكل مشروع، وتُطبق حدود المعدل لكل سير عمل، وتُجمع لوحات المعلومات حسب الفريق، وتُربط التتبعات بالتذاكر، ويخصص التمويل الإنفاق حسب مركز التكلفة. لا يوجد مصدر ثانٍ للحقيقة.

‍

*الشكل 1 – مثال يوضح كيف أن حقل session_id داخل X-TFY-METADATA هو مفتاح الربط الذي يربط كل استدعاء LLM*

‍

من نمط الفشل إلى التحكم: التعيين الكامل

الهدف المعماري ليس إضافة تعقيدات. بل هو الحفاظ على ربط وثيق بين كل نمط فشل واقعي والتحكم المحدد الذي يمنعه. إليك التصنيف الكامل:

Failure Mode	Control Mechanism	TrueFoundry Docs
Runaway agent loops	tokens_per_hour rate limit per project/workflow	docs/ai-gateway/ratelimiting
Minimum-spend incentives	Project budgets + high-spend review; no individual leaderboards	docs/ai-gateway/budgetlimiting
Premium-model overuse	Virtual model routing by workflow and complexity	docs/ai-gateway/load-balancing-overview
Unsafe tool calls (agentic)	MCP pre-tool + post-tool guardrails; Cedar/OPA permissions	docs/ai-gateway/guardrails-overview
PII leakage in prompts	Input guardrail: PII redaction before model sees content	docs/ai-gateway/tfy-pii
Prompt injection attacks	Input guardrail: injection detection; validates, then cancels	docs/ai-gateway/commonly-used-guardrails
Credential exposure in outputs	Output guardrail: secrets detection (validate + mutate modes)	docs/ai-gateway/secrets-detection
Hard-to-debug regressions	Resolved model, applied config, server-timing phase headers	docs/ai-gateway/headers
Prompt drift across providers	Versioned prompt management with per-target overrides	docs/ai-gateway/prompt-management
Outcome-blind dashboards	Join gateway metrics to PRs/tickets via ticket_id key	docs/ai-gateway/analytics
Multi-cloud lock-in	Virtual models abstract provider names from app code	docs/ai-gateway/load-balancing-overview
Silent provider outages	Priority-based fallback routing with per-target retry config	docs/ai-gateway/load-balancing-overview

التوجيه: التطبيقات تستدعي الإمكانيات، والبوابة تختار الأهداف

إذا سمى كود التطبيق نموذج مزود خدمة معينًا، فقد فقدت القدرة على الترحيل أو الاختبار أو إجراء اختبارات A/B أو تجاوز الفشل دون تغييرات في الكود. النمط الصحيح هو إظهار الإمكانيات المنطقية — أسماء مثل prod/engineering-assistant أو prod/frontier-reasoning — والسماح للبوابة بتحويلها إلى أهداف مادية بناءً على البيانات الوصفية أو الأولوية أو الوزن أو زمن الاستجابة المقاس.

في TrueFoundry، هذا هو الغرض من النماذج الافتراضية وتكوين التوجيه. تغطي نفس القواعد عمليات النشر التدريجي، والتفضيل الإقليمي، والتشغيل المحلي مع تجاوز الفشل السحابي، وتجاوزات المطالبة الخاصة بالمزود. هذه هي القدرة الأكثر استهانة بها في مكدس الحوكمة — فهي تجعل الامتثال، وتحسين التكلفة، وترحيل النماذج غير مرئية لمطوري التطبيقات.

الشكل 2 — التطبيق يسمي قدرة منطقية (intent-fast). تحولها البوابة إلى استدعاء مزود خدمة ملموس بناءً على قواعد الوزن وسلاسل التجاوز. إعادة التوجيه هي فرق YAML، وليست تغييرًا في الكود.

# YAML — gateway-load-balancing-config
# Evaluated top-to-bottom; first match wins.
name: engineering-agent-routing
type: gateway-load-balancing-config

rules:
  # Simple repo questions: cheap-first with frontier fallback.
  - id: 'simple-repo-questions'
    type: priority-based-routing
    when:
      models: ['prod/engineering-assistant']
      metadata:
        workflow: 'repo-understanding'
    load_balance_targets:
      - target: openai-main/gpt-4o-mini
        priority: 0
        retry_config: {attempts: 2, delay: 100, on_status_codes: ['429','500']}
        fallback_status_codes: ['429', '500', '502', '503']
      - target: anthropic-main/claude-sonnet
        priority: 1

  # Security-critical: strongest reasoner first.
  - id: 'security-critical-review'
    type: priority-based-routing
    when:
      metadata:
        workflow: 'security-review'
    load_balance_targets:
      - target: anthropic-main/claude-opus
        priority: 0
      - target: openai-main/gpt-4.1
        priority: 1

  # Cost-sensitive batch: on-prem first, cloud as overflow.
  - id: 'batch-processing-jobs'
    type: priority-based-routing
    when:
      metadata:
        surface: 'batch-pipeline'
    load_balance_targets:
      - target: on-prem/llama-3.1-70b
        priority: 0
      - target: openai-main/gpt-4o-mini
        priority: 1

وثائق التوجيه: truefoundry.com/docs/ai-gateway/load-balancing-overview

الأمان: أربع نقاط ربط، لا واحدة

بمجرد أن تصل تطبيقات الذكاء الاصطناعي إلى مرحلة الإنتاج، فإنها تتعامل مع بيانات مستخدم حقيقية، وفي الإعدادات الوكيلة، تتخذ إجراءات حقيقية عبر الأدوات. محيط الأمان ليس شيئًا واحدًا. بل هو أربع نقاط ربط، تقع في اللحظات الأربع التي يمكن للبوابة أن تتدخل فيها قبل أن يتسبب الطلب في ضرر.

‍

Hook	When It Runs	Latency Profile	Primary Use Cases
LLM Input Validate	Before model, parallel	Adds ~0ms (parallel)	Injection detection, topic filtering, policy audit
LLM Input Mutate	Before model, sequential	Adds guardrail latency	PII redaction, prompt rewriting
LLM Output Validate	After response, async OK	~0ms if async	Hallucination check, content policy
LLM Output Mutate	After response	Adds guardrail latency	Secrets redaction, output filtering
MCP Pre-Tool	Before tool invocation	Synchronous, blocking	SQL sanitation, Cedar/OPA permissions
MCP Post-Tool	After tool returns	Synchronous, blocking	PII scan of tool outputs, code safety lint

# Per-request guardrails — passed via X-TFY-GUARDRAILS header.
# For org-wide enforcement: AI Gateway → Controls → Guardrails.

X-TFY-GUARDRAILS: {
  "llm_input_guardrails": [
    "global/pii-redaction",
    "global/prompt-injection-detection"
  ],
  "llm_output_guardrails": [
    "global/secrets-detection",
    "global/hallucination-check"
  ],
  "mcp_tool_pre_invoke_guardrails": [
    "global/sql-sanitizer",
    "global/cedar-permissions"
  ],
  "mcp_tool_post_invoke_guardrails": [
    "global/secrets-detection",
    "global/pii-redaction"
  ]
}

# Rollout strategy — never go straight to blocking in production:
# Phase 1: mode=audit     (log violations, let requests through)
# Phase 2: mode=enforce   (block on fail, fail-open on provider errors)
# Phase 3: mode=strict    (block on fail AND on provider errors)

طبق الضوابط الوقائية على ثلاث خطوات: تدقيق ← فرض-مع-تجاهل-الخطأ ← صارم. الإعداد الأوسط هو الذي سينقذك في اليوم الذي يتعرض فيه مزود أمان خارجي لانقطاع.

‍

نظرة عامة على الضوابط الوقائية: truefoundry.com/docs/ai-gateway/guardrails-overview

اكتشاف PII/PHI: truefoundry.com/docs/ai-gateway/tfy-pii

اكتشاف الأسرار: truefoundry.com/docs/ai-gateway/secrets-detection

قابلية المراقبة: تفسيرات، وليس مجرد مقاييس

يهيمن سؤالان على العمليات بمجرد أن يصبح استخدام الذكاء الاصطناعي الخاضع للحوكمة في مرحلة الإنتاج: 'لماذا تصرف هذا الطلب بهذه الطريقة؟' و'هل تتناسب التكلفة التي ندفعها مع العمل الذي نحصل عليه؟' لا يمكن الإجابة على أي منهما من مخطط عدد الرموز.

الحد الأدنى من المعلومات المطلوبة للإجابة عليها — والمعلومات التي توفرها بوابة TrueFoundry جاهزة للاستخدام:

Signal	Why It Matters	How to Access
Resolved model + config	What actually ran vs. what was requested	X-TFY-RESOLVED-MODEL response header
Server-timing phases	Gateway / guardrail / model / tool latency split	Server-Timing header on every response
Per-request logs (full I/O)	Reproduce incidents exactly; complete audit trail	Analytics API + configurable retention policy
OpenTelemetry traces/metrics	Export to Datadog / Grafana / Honeycomb / any OTEL stack	OTEL exporter config in gateway settings
Budget/rate-limit events	Alert before ceilings are hit; not after invoices arrive	Slack/email webhooks + analytics events API
Guardrail audit events	Which hook fired, what was blocked or mutated, why	Security audit log + OTEL span attributes
Metadata-keyed aggregates	Group costs by team, project, workflow, cost center	Analytics dashboard + raw metrics API

وثائق التحليلات: truefoundry.com/docs/ai-gateway/analytics

تصدير OpenTelemetry: truefoundry.com/docs/ai-gateway/export-opentelemetry-data

الذكاء الاصطناعي الوكيل: حيث تصبح الأدوات هي السطح الحقيقي للتكلفة

تم تصميم الأغلفة الأربعة المذكورة أعلاه بافتراض طلبات على غرار الدردشة: يرسل تطبيقٌ موجهًا، ويعيد النموذج نصًا. لقد تجاوزت أعباء عمل الذكاء الاصطناعي الحديثة هذا الافتراض. تستدعي الوكلاء الأدوات. وتستدعي الأدوات أدوات أخرى. يمكن لطلب مستخدم واحد أن يولد مسار وكيل من 50 خطوة يلامس نصف دزينة من خوادم MCP. لقد انتقل سطح التكلفة، وسطح الأمان، وسطح التدقيق جميعها من الموجه إلى استدعاء الأداة.

لهذا السبب، تدعم بوابة TrueFoundry كلاً من واجهة برمجة تطبيقات LLM وبروتوكول سياق النموذج (MCP) بشكل أصلي. ينطبق نفس غلاف الهوية، ونفس قواطع الدائرة، ونفس آليات المراقبة على استدعاء الأداة كما ينطبق على إكمال الدردشة. يتم حقن هوية OAuth 2.0 في استدعاءات أدوات MCP بحيث يتصرف الوكيل كمستخدم محدد، وليس كحساب خدمة، عند استعلام قاعدة بيانات أو تقديم تذكرة Jira. تتيح لك خوادم MCP الافتراضية إنشاء "خادم وكيل مالي" منطقي من أدوات موزعة عبر ثلاثة خوادم MCP حقيقية، مع تطبيق التحكم في الوصول وحدود المعدل على هذا التكوين.

بروتوكول سياق النموذج مهم للتكلفة، وليس للهندسة المعمارية فحسب. تفيد TrueFoundry بتوفير يصل إلى 99% من رموز الاستدلال عند استخدام الوكلاء لاسترجاع الأدوات النشط بدلاً من حشو السياق في الموجهات — مع قياس الحمل الزائد لاستدعاء الأداة بحوالي 10 مللي ثانية.

→ نظرة عامة على بوابة MCP

→ خوادم MCP الافتراضية

لماذا يجب أن يتم ذلك عند البوابة

من المغري دفع هذه الضوابط إلى رمز التطبيق: غلاف هنا، ومُزخرف بايثون هناك، وفئة مساعدة في إطار عمل الوكيل. يعمل ذلك حتى يكون لديك ثلاثة فرق تطبيقات، ومزودان للنماذج، وعملية استحواذ واحدة، وتدقيق PCI، وحادث حد معدل في يوم ثلاثاء.

عند هذه النقطة تكتشف أنك قد بنيت أربع مستويات تحكم مختلفة قليلاً وغير متوافقة، وأن أياً منها لا يمكنه إيقاف طلب من فريق لم يستورد الغلاف. توجد البوابة لنفس السبب الذي وجدت من أجله بوابات API قبل عقد من الزمان: فهي المكان الوحيد الذي يمكن فيه مراقبة وتشكيل كل طلب، من كل تطبيق، في كل بيئة، بشكل موحد.

الاعتراض على البوابة هو دائمًا "قفزة إضافية في مسار الطلب". تضيف بوابة TrueFoundry AI حوالي 5 مللي ثانية من الحمل الزائد p50 وتتعامل مع أكثر من 350 طلبًا في الثانية على وحدة معالجة مركزية افتراضية واحدة. لا يصمد هذا الاعتراض أمام الأرقام.

‍

Application-level wrappers	Gateway-level governance (TrueFoundry)
Only catches requests from teams that adopted the wrapper	Catches every request from every application unconditionally
Policy changes require code deploys across all services	Policy changes deploy once; enforce everywhere instantly
Each team re-implements retry, fallback, rate-limit logic	Platform owns retry, fallback, rate-limit — once, for all
No cross-team visibility into cost or safety events	Unified cost, safety, and routing view across all teams
PCI / SOC-2 audit requires reviewing every service	Single audit surface: the gateway config and its logs
Model migration requires touching every calling service	Update the virtual model target; zero application changes

البوابة هي أيضاً المكان الوحيد الذي يمكنه التعامل مع النطاق الكامل للبنية التحتية الحديثة للذكاء الاصطناعي: أكثر من 1000 نموذج لغوي كبير (LLM) عبر أكثر من 19 مزودًا، بالإضافة إلى خوادم MCP التي تستدعيها وكلاؤك، بالإضافة إلى النماذج المستضافة ذاتيًا خلف شبكتك الافتراضية الخاصة (VPC). تم ذكر TrueFoundry في تقرير غارتنر "10 أفضل الممارسات لتحسين تكاليف الذكاء الاصطناعي التوليدي والوكيل 2026" — لأن الطريقة الوحيدة التي يمكن للمؤسسات من خلالها تحقيق التحسين الفعلي في هذا النطاق هي بتشغيل كل طلب عبر طبقة واحدة محكومة.

→ هندسة المنصة

→ هندسة مستوى البوابة

خلاصة الجزء الثاني

زيادة الرموز (Tokenmaxxing) هي عرض لتبني الذكاء الاصطناعي غير المدار. الهندسة المعمارية المذكورة أعلاه هي العلاج. تحدد الهوية من يطلب. تحدد السياسة ما هو مسموح به. يحدد الأمان ما هو مقبول. تحدد المراقبة ما حدث بالفعل. معًا، يحولون نشاط الرموز الخام إلى دورة حياة طلب محكومة — مسؤولة، مفيدة، آمنة، قابلة للضبط.

‍

الهدف ليس تقليل استخدام الذكاء الاصطناعي. الهدف هو جعل كل سطر منه قابلاً للتفسير.

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now