تكامل TrueFoundry AI Gateway مع Elastic
.webp)
Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
تتصرف أنظمة LLM الإنتاجية كأنظمة موزعة. يمكن لطلب مستخدم واحد أن يؤدي إلى استدعاءات متعددة للنماذج، واستدعاءات للأدوات، ومحاولات إعادة. بدون حدود تنفيذ واحدة، تصبح القياسات عن بعد مجزأة ويصبح تصحيح الأخطاء مجرد تخمين.
توضح هذه المقالة كيفية ربط بوابة TrueFoundry للذكاء الاصطناعي مع Elastic Cloud لتتدفق آثار البوابة إلى Elastic Observability باستخدام OpenTelemetry. ستقوم بتكوين نقطة نهاية OTLP ومفتاح API في البوابة.
مستوى التحكم المفقود في معماريات LLM
عندما تتحدث التطبيقات مباشرة إلى موفري النماذج، لا يوجد مكان متسق لفرض السياسات والتقاط الآثار. تنشئ البوابة هذا السطح المتسق بحيث يتم مركزة الحوكمة والتوجيه وتوليد القياسات عن بعد.
بوابة TrueFoundry للذكاء الاصطناعي
بوابة TrueFoundry للذكاء الاصطناعي تنشئ نقطة دخول واحدة محكومة لطلبات النماذج والوكلاء. تتحدث التطبيقات والوكلاء إلى وكيل البوابة بدلاً من التحدث مباشرة إلى الموفرين. تجعل هذه المعمارية قرارات التوجيه وتوليد القياسات عن بعد متسقة عبر كل طلب.
يمكن للبوابة تصدير الآثار باستخدام بروتوكولات OpenTelemetry القياسية حتى تتمكن من إرسال نفس تدفق الآثار إلى منصة المراقبة التي تستخدمها فرقك بالفعل.
Elastic Cloud
Elastic Cloud هي خدمة مُدارة لمجموعة Elastic Stack تدعم مهام سير عمل البحث والمراقبة والأمان. يمكنها تحليل السجلات والمقاييس والآثار على نطاق واسع مما يجعلها وجهة طبيعية لآثار البوابة.
تدعم بوابة TrueFoundry للذكاء الاصطناعي تصدير آثار OpenTelemetry إلى منصات خارجية مثل Elastic Cloud حتى تتمكن من استخدام Elastic للمراقبة مع الحفاظ على TrueFoundry كطبقة وصول LLM الموحدة.
OpenTelemetry كطبقة تكامل
يستخدم هذا التكامل OpenTelemetry من البداية إلى النهاية. تقوم البوابة بتصدير آثار OTEL وتستقبلها Elastic Cloud عبر نقطة نهاية OTLP المُدارة الخاصة بها.
التكامل مع Elastic Cloud
الخطوة 1 احصل على نقطة نهاية Elastic Cloud ومفتاح API الخاص بك
في لوحة تحكم Elastic Cloud، افتح مشروعك المنشور أو مشروعك بدون خادم، ثم انتقل إلى إضافة بيانات (Add data) ثم التطبيقات (Applications) ثم OpenTelemetry. انسخ عنوان URL لنقطة نهاية OTLP المُدارة وانسخ قيمة مفتاح API المعروضة لرؤوس المصادقة. تتطلب عمليات النشر المستضافة على Elastic Cloud الإصدار 9.2 أو أحدث لنقطة نهاية OTLP المُدارة.
الخطوة 2 افتح إعدادات OTEL لبوابة الذكاء الاصطناعي في TrueFoundry
في لوحة تحكم TrueFoundry، انتقل إلى بوابة الذكاء الاصطناعي (AI Gateway) ثم عناصر التحكم (Controls) ثم الإعدادات (Settings). مرر إلى قسم إعدادات OTEL وافتح المحرر لتكوين المصدر.
الخطوة 3 تكوين نقطة نهاية Elastic Cloud
قم بتمكين مُصدّر تتبع OTEL. عيّن نوع التكوين إلى http. عيّن نقطة نهاية التتبعات إلى نقطة نهاية OTLP المُدارة التي نسختها من Elastic Cloud. اختر ترميز Json أو Proto.
يبدو التكوين البسيط كالتالي.
نوع التكوين: http
نقطة نهاية التتبعات: https://<your motlp endpoint>
الترميز: Json أو Proto

الخطوة 4 أضف الرأس المطلوب
أضف رأس HTTP باسم Authorization بالقيمة بتنسيق ApiKey. بادئة ApiKey مطلوبة.
Authorization: ApiKey <your api key>
الخطوة 5 احفظ التكوين
احفظ تكوين تصدير OTEL. بعد ذلك، سيتم تصدير جميع تتبعات البوابة إلى Elastic Cloud تلقائيًا.
الخطوة 6 عرض التتبعات في Elastic
أرسل بعض الطلبات عبر البوابة. ثم افتح Kibana وانتقل إلى Observability ثم APM ثم Services وابحث عن الخدمة المسماة tfy-llm-gateway. من هناك يمكنك فحص التتبعات والمعاملات لكل طلب.
ملاحظات تشغيلية
اختيار الترميز
تدعم نقطة نهاية OTLP المُدارة من Elastic Cloud تنسيقي Json و Proto. تنسيق Json أسهل للقراءة أثناء تصحيح الأخطاء. تنسيق Proto أكثر كفاءة للبيانات ذات الحجم الكبير.
إضافة سمات الموارد
يمكنك تعيين سمات موارد إضافية في تكوين المُصدّر لإرفاق علامات متسقة بكل تتبع مُصدّر. هذا مفيد للتصفية على مستوى البيئة والمستأجر في Elastic.
استكشاف الأخطاء وإصلاحها
إذا رأيت خطأ مصادقة يذكر بادئة ApiKey، فهذا يعني أن ترويسة Authorization ليست منسقة بشكل صحيح ويجب أن تبدأ بـ ApiKey. إذا رأيت HTTP 429، فقد يكون نشرك يصل إلى حدود معدل الاستيعاب ويجب عليك التفكير في تغييرات الخطة أو تعديلات أخذ العينات.
ما يمكنك فعله باستخدام هذا التكامل
عندما يقوم AI Gateway بتصدير التتبعات إلى Elastic Cloud، تحصل على مكان واحد لتحليل تتبعات البوابة باستخدام نفس سير عمل المراقبة الذي تستخدمه بالفعل لبقية مكدسك. يجمع Elastic السجلات والمقاييس والتتبعات وعروض APM معًا في منصة واحدة حتى لا تكون حركة مرور LLM الخاصة بك معزولة عن إشارات التطبيق والبنية التحتية.
يمكنك تصحيح طلب مستخدم واحد من البداية إلى النهاية عن طريق فتح التتبع في Elastic. تعرض واجهة مستخدم التتبعات (Traces UI) التتبع الموزع حتى تتمكن من رؤية المسار الكامل للتنفيذ. تساعدك خريطة الخدمة على فهم تبعيات الخدمة. توفر تفاصيل المعاملة التوقيت وبيانات تعريف الطلب حتى تتمكن من تحديد الخطوة البطيئة بسرعة.
يمكنك اكتشاف التراجعات مبكرًا من خلال مراقبة الاتجاهات بدلاً من الحوادث الفردية. توفر Elastic Observability لوحات معلومات وميزات تحليل تساعد الفرق على الانتقال من القياس عن بعد الخام إلى الرؤى. كما تتضمن إمكانيات اكتشاف الشذوذ التي يمكن أن تكشف عن أنماط غير عادية عبر الإشارات.
يمكنك تشغيل سير عمل مراقبة خاص بنماذج اللغة الكبيرة (LLM) داخل Elastic. يسلط Elastic الضوء على حالات استخدام مراقبة نماذج اللغة الكبيرة (LLM) مثل تتبع زمن الوصول والأخطاء والمطالبات والاستجابات والاستخدام والتكاليف. مع AI Gateway كحدود تنفيذ، يمكنك جعل هذه التغطية متسقة عبر كل استدعاء نموذج يمر عبر البوابة.
يمكنك جعل التتبعات أسهل في التصفية والتجميع عن طريق إضافة سمات الموارد في إعدادات مُصدّر البوابة. هذا مفيد لبيانات تعريف البيئة وعلامات المستأجر حتى تتمكن الفرق من تقسيم التتبعات حسب بيئة الإنتاج أو الاختبار أو الوحدة التجارية داخل Elastic.
الخلاصة
يوفر لك TrueFoundry AI Gateway حدود تنفيذ متسقة لجميع حركة مرور نماذج اللغة الكبيرة (LLM). يمنحك Elastic Cloud سطح مراقبة ناضجًا للتتبعات وسير عمل مستوى الخدمة. مع ربط OpenTelemetry بينهما، يمكنك تصحيح وتشغيل أنظمة نماذج اللغة الكبيرة (LLM) بنفس الدقة التي تتوقعها من أي نظام موزع إنتاجي.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI

















.png)
.webp)










.webp)






