قياس أداء بوابة TrueFoundry LLM: إنها فائقة السرعة ⚡

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
- توفر بوابة TrueFoundry LLM واجهة موحدة متوافقة مع OpenAI لمختلف مقدمي نماذج اللغة الكبيرة (LLM) مثل Anthropic وOpenAI وBedrock وGemini والعديد غيرها
- تتوسع بوابة TrueFoundry LLM بسلاسة لتصل إلى 350 طلبًا في الثانية (RPS) على نسخة واحدة بوحدة معالجة مركزية واحدة، مع استخدام 270 ميجابايت من الذاكرة. قارنا ذلك بمنتج بوابة آخر، LiteLLM، على إعداد مماثل، وفشل LiteLLM في التوسع لأكثر من 50 طلبًا في الثانية (RPS)
- تضيف بوابة TrueFoundry LLM زمن انتقال إضافي يتراوح بين 3-5 مللي ثانية فقط، بينما يضيف LiteLLM ما بين 15-30 مللي ثانية لكل طلب.
لماذا تحتاج مؤسستك إلى بوابة LLM؟
توفر بوابة LLM واجهة موحدة لإدارة استخدام مؤسستك لـ LLM:
- واجهة برمجة تطبيقات موحدة: الوصول إلى العديد من مقدمي LLM من خلال واجهة واحدة متوافقة مع OpenAI ، دون الحاجة لتغييرات في الكود
- أمان مفتاح API: إدارة آمنة ومركزية لبيانات الاعتماد
- الحوكمة والتحكم: تحديد الحدود، وضوابط الوصول، وتصفية المحتوى
- تحديد المعدل: منع إساءة الاستخدام وضمان الاستخدام العادل
- قابلية المراقبة: تتبع الاستخدام والتكاليف وزمن الانتقال والأداء
- موازنة التحميل: توجيه الطلبات عبر المزودين تلقائيًا
- إدارة التكاليف: مراقبة الإنفاق وتعيين تنبيهات الميزانية
- سجلات التدقيق: تسجيل جميع تفاعلات نماذج اللغة الكبيرة (LLM) للامتثال
ما مدى سرعة بوابة TrueFoundry LLM؟
إعداد اختبار التحميل
لتجربة اختبار التحميل الخاصة بنا، قمنا بإعداد ونشر هذا خدمة نقطة نهاية OpenAI وهمية باستخدام TrueFoundry. ستحاكي الخدمة تنسيق طلب واستجابة OpenAI دون إنتاج رموز فعلية.
قمنا أيضًا بنشر بوابة TrueFoundry LLM وخادم وكيل LiteLLM، وكلاهما يعمل بنسخة واحدة (replica) بمعالج مركزي (CPU) واحد وذاكرة 1 جيجابايت.

أضفنا مزود OpenAI الوهمي الخاص بنا إلى كل من بوابتي TrueFoundry وLiteLLM. أثناء اختبار التحميل، أرسلنا طلبات إلى خادم OpenAI الوهمي بثلاث طرق مختلفة:
- الإعداد 1: مباشرة دون استخدام أي وكيل أو بوابة
- الإعداد 2: عبر بوابة TrueFoundry LLM المنشورة على وحدة معالجة مركزية واحدة وذاكرة 1 جيجابايت
- الإعداد 3: عبر خادم وكيل LiteLLM المنشور على وحدة معالجة مركزية واحدة وذاكرة 1 جيجابايت
الملاحظات
- تضيف بوابة TrueFoundry 3 مللي ثانية فقط إضافية في زمن الاستجابة حتى 250 طلبًا في الثانية (RPS) و4 مللي ثانية عند أكثر من 300 طلب في الثانية.
- تمكنت بوابة TrueFoundry LLM من التوسع دون أي تدهور في الأداء حتى حوالي 350 طلبًا في الثانية (RPS) (جهاز بمعالج افتراضي واحد وذاكرة 1 جيجابايت) قبل أن يصل استخدام وحدة المعالجة المركزية إلى 100% وبدأت أزمنة الاستجابة تتأثر. مع المزيد من وحدات المعالجة المركزية أو المزيد من النسخ المتماثلة، يمكن لبوابة LLM أن تتوسع لتصل إلى عشرات الآلاف من الطلبات في الثانية.
- لم يتمكن LiteLLM على نفس الجهاز من التوسع إلى ما بعد 40-50 طلب في الثانية قبل الوصول إلى حد استخدام وحدة المعالجة المركزية (CPU)
المزيد من المقاييس
الإعداد 1: استدعاء نقطة نهاية OpenAI مباشرة



الإعداد 2: بوابة TrueFoundry LLM



الإعداد 3: LiteLLM


ميزات السرعة لبوابة LLM
- حمل إضافي شبه معدوم: زمن انتقال إضافي يتراوح بين 3-5 مللي ثانية فقط
- الواجهة الخلفية المحسّنة: مبني باستخدام إطار عمل Node.js عالي الأداء
- التخزين المؤقت للتكوين: تُخزّن الإعدادات في الذاكرة للوصول السريع
- التوجيه الذكي: أدنى عبء معالجة
- جاهز للحافة: انشر بالقرب من تطبيقاتك
- سعة عالية: A
t2.2xlargeمثيل AWS (43 دولارًا شهريًا عند الطلب الفوري) يمكن للجهاز التوسع حتى حوالي 3000 طلب في الثانية دون أي مشاكل.

المزودون المدعومون
فيما يلي قائمة شاملة بمزودي LLM المشهورين التي تدعمها بوابة TrueFoundry LLM:
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI





















.png)
.webp)










.webp)






