قياس أداء Falcon-40B

Published: July 4, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

نقوم في هذه المقالة بتقييم أداء Falcon-40B-Instruct من منظور زمن الاستجابة والتكلفة وعدد الطلبات في الثانية. سيساعدنا هذا في تقييم ما إذا كان يمكن أن يكون خيارًا جيدًا بناءً على متطلبات العمل. يرجى ملاحظة أننا لا نغطي الأداء النوعي في هذه المقالة - توجد طرق مختلفة لمقارنة نماذج اللغات الكبيرة (LLMs) يمكن العثور عليها هنا.

النموذج: Falcon-40B-Instruct

في هذه المدونة، قمنا بتقييم أداء نموذج Falcon-40B-Instruct من tiiuae. Falcon-40B-Instruct هو نموذج فك تشفير سببي (decoder-only) بـ 40 مليار معلمة، تم بناؤه بواسطة TII بناءً على Falcon-40B وتم ضبطه بدقة على مزيج من Baize. وهو متاح بموجب ترخيص Apache 2.0.

tiiuae/falcon-40b-instruct · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

‍

مقاييس الأداء

الطلبات في الثانية (RPS): عدد الطلبات في الثانية التي يتعامل معها النموذج. مع ارتفاع معدل الطلبات في الثانية (RPS)، يزداد زمن الاستجابة عادةً.
زمن الاستجابة: ما هو الوقت المستغرق لإكمال طلب استدلال؟
التكلفة الاقتصادية: ما هي التكاليف المرتبطة بنشر نموذج لغوي كبير (LLM)؟

حالات الاستخدام وأنماط النشر التي تم قياس أدائها

العوامل الرئيسية التي قمنا بقياس أدائها هي:

نوع وحدة معالجة الرسوميات (GPU):

4 وحدات A100 بسعة 40 جيجابايت وحدة معالجة الرسوميات

طول المطالبة:

1500 رمز إدخال، 100 رمز إخراج (مشابه لحالات استخدام التوليد المعزز بالاسترجاع)
50 رمز إدخال، 500 رمز إخراج (حالات استخدام تتطلب توليدًا مكثفًا)

إعداد قياس الأداء

لقياس الأداء، استخدمنا Locust، وهي أداة مفتوحة المصدر لاختبار التحميل. تعمل Locust عن طريق إنشاء مستخدمين/عاملين لإرسال الطلبات بالتوازي. في بداية كل اختبار، يمكننا تعيين عدد المستخدمين و معدل التوليد. هنا، عدد المستخدمين يشير إلى الحد الأقصى لعدد المستخدمين الذين يمكنهم الظهور/العمل بالتزامن، بينما معدل التوليد يشير إلى عدد المستخدمين الذين سيتم إنشاؤهم في الثانية.

في كل اختبار قياس أداء لتكوين نشر، بدأنا من 1 مستخدم وواصلنا زيادة عدد المستخدمين تدريجياً حتى رأينا زيادة مطردة في عدد الطلبات في الثانية (RPS). خلال الاختبار، قمنا أيضًا برسم بياني لـ أوقات الاستجابة (بالمللي ثانية) و إجمالي الطلبات في الثانية.

في كل من تكويني النشر، استخدمنا خادم نموذج huggingface text-generation-inference الذي يحمل version=0.9.4. فيما يلي المعلمات التي تم تمريرها إلى text-generation-inference صورة لتكوينات النماذج المختلفة:

‍

PARAMETERS	FALCON-40B-INSTRUCT ON A100
Max Batch Prefill Tokens	10000

‍

ملخص نتائج قياس الأداء

الكمون، عدد الطلبات في الثانية، والتكلفة

نحسب أفضل زمن استجابة بناءً على إرسال طلب واحد فقط في كل مرة. لزيادة الإنتاجية، نرسل الطلبات بالتوازي إلى نموذج اللغة الكبير (LLM). تكون الإنتاجية القصوى عندما يتمكن النموذج من معالجة طلبات الإدخال دون تدهور كبير في زمن الاستجابة.

نتائج قياس الأداء لنموذج Falcon-40B-Instruct

الرموز في الثانية

تعالج نماذج اللغة الكبيرة (LLMs) رموز الإدخال والتوليد بشكل مختلف، ولهذا السبب قمنا بحساب معدل معالجة رموز الإدخال ورموز الإخراج بشكل مختلف.

النتائج التفصيلية

4 وحدات معالجة رسوميات A100 بحجم 40 جيجابايت (1500 رمز إدخال + 100 رمز إخراج)

يمكننا أن نلاحظ في الرسوم البيانية أعلاه أن الـ أفضل زمن استجابة (عند مستخدم واحد) يبلغ 4.6 ثانية. يمكننا زيادة عدد المستخدمين لتوجيه المزيد من حركة المرور إلى النموذج - نلاحظ زيادة الإنتاجية حتى 2.0 طلبات في الثانية دون انخفاض كبير في زمن الاستجابة. بعد 2.0 طلبات في الثانية، يزداد زمن الاستجابة بشكل كبير مما يعني أن الطلبات تتراكم في قائمة الانتظار.

4 وحدات معالجة رسوميات A100 بحجم 40 جيجابايت (50 رمز إدخال + 500 رمز إخراج)

يمكننا أن نلاحظ في الرسوم البيانية أعلاه أن الـ أفضل وقت استجابة (عند مستخدم واحد) يبلغ 20 ثانية. يمكننا زيادة عدد المستخدمين لزيادة الضغط على النموذج - نلاحظ أن الإنتاجية تزداد حتى 2.5 RPS دون انخفاض كبير في زمن الاستجابة. بعد 2.5 RPS، يزداد زمن الاستجابة بشكل كبير مما يعني أن الطلبات تتراكم في قائمة الانتظار.

نأمل أن يكون هذا مفيدًا لك لتقرر ما إذا كان Falcon-40B-Instruct سيناسب حالة استخدامك والتكاليف التي قد تتكبدها أثناء استضافة Falcon-40B-Instruct.

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now