قياس أداء Llama-2-70B

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
نقوم بقياس أداء LLama2-70B في هذه المقالة من منظور زمن الاستجابة والتكلفة وعدد الطلبات في الثانية. سيساعدنا هذا في تقييم ما إذا كان خيارًا جيدًا بناءً على متطلبات العمل. يرجى ملاحظة أننا لا نغطي الأداء النوعي في هذه المقالة - هناك طرق مختلفة لمقارنة نماذج اللغات الكبيرة (LLMs) يمكن العثور عليها هنا.
النموذج: Llama2-70B
في هذه المدونة، قمنا بقياس أداء Llama-2-70B النموذج من NousResearch. هذه نسخة مدربة مسبقًا من Llama-2 بـ 70 مليار معلمة.
قامت Meta بتطوير وإطلاق علني عائلة نماذج اللغات الكبيرة (LLMs) Llama 2، وهي مجموعة من نماذج النصوص التوليدية المدربة مسبقًا والمُحسّنة تتراوح في حجمها من 7 مليارات إلى 70 مليار معلمة.
مقاييس لقياس الأداء
- الطلبات في الثانية. (RPS): عدد الطلبات في الثانية التي يتعامل معها النموذج. مع زيادة عدد الطلبات في الثانية (RPS)، يرتفع زمن الاستجابة عادةً.
- زمن الاستجابة: كم من الوقت يستغرق لإكمال طلب استدلال؟
- التكاليف الاقتصادية: ما هي التكاليف المرتبطة بنشر نموذج لغة كبير (LLM)؟
حالات الاستخدام وأنماط النشر التي تم قياس أدائها
العوامل الرئيسية التي قمنا بقياس الأداء بناءً عليها هي:
نوع وحدة معالجة الرسوميات (GPU):
- 4 وحدات A100 بسعة 40 جيجابايت وحدة معالجة الرسوميات
طول المطالبة:
- 1500 رمز إدخال، 100 رمز إخراج (مشابه لحالات استخدام التوليد المعزز بالاسترجاع)
- 50 رمز إدخال، 500 رمز إخراج (حالات استخدام كثيفة التوليد)
إعداد قياس الأداء
لقياس الأداء، استخدمنا Locust، وهي أداة مفتوحة المصدر لاختبار التحميل. تعمل Locust عن طريق إنشاء مستخدمين/عاملين لإرسال الطلبات بالتوازي. في بداية كل اختبار، يمكننا تعيين عدد المستخدمين و معدل التوليد. هنا، يشير عدد المستخدمين إلى الحد الأقصى لعدد المستخدمين الذين يمكنهم الظهور/العمل بالتزامن، بينما يشير معدل التوليد إلى عدد المستخدمين الذين سيتم توليدهم في الثانية.
في كل اختبار قياس أداء لتكوين نشر، بدأنا من 1 مستخدم واستمررنا في زيادة عدد المستخدمين تدريجياً حتى رأينا زيادة مطردة في عدد الطلبات في الثانية (RPS). خلال الاختبار، قمنا أيضاً برسم
[SEG SEGMENT 6]
أوقات الاستجابة (بالمللي ثانية) و إجمالي الطلبات في الثانية .في كل من تكويني النشر، استخدمنا خادم نموذج huggingface
text-generation-inference الذي يحمل version=0.9.4 . فيما يلي المعلمات التي تم تمريرها إلىtext-generation-inference الصورة لتكوينات النموذج المختلفة:
ملخص نتائج قياس الأداء
زمن الاستجابة، عدد الطلبات في الثانية (RPS)، والتكلفة
نحسب أفضل زمن استجابة بناءً على إرسال طلب واحد فقط في كل مرة. لزيادة الإنتاجية، نرسل الطلبات بالتوازي إلى نموذج اللغة الكبير (LLM). تتحقق الإنتاجية القصوى عندما يتمكن النموذج من معالجة طلبات الإدخال دون تدهور كبير في زمن الاستجابة.

الرموز في الثانية
تعالج نماذج اللغة الكبيرة (LLMs) رموز الإدخال والتوليد بشكل مختلف، ولذلك قمنا بحساب معدل معالجة رموز الإدخال ورموز الإخراج بشكل مختلف.

النتائج التفصيلية
4 وحدات معالجة رسومية A100 بسعة 40 جيجابايت (1500 رمز إدخال + 100 رمز إخراج)


يمكننا أن نلاحظ في الرسوم البيانية أعلاه أن الـ أفضل زمن استجابة (عند مستخدم واحد) هو 7.4 ثانية. يمكننا زيادة عدد المستخدمين لتوجيه المزيد من حركة المرور إلى النموذج - نرى أن الإنتاجية تزداد حتى 1.1 طلب في الثانية (RPS) دون انخفاض كبير في زمن الاستجابة. بعد 1.1 طلب في الثانية (RPS)، يزداد زمن الاستجابة بشكل كبير مما يعني أن الطلبات تتراكم في قائمة الانتظار.
4 وحدات معالجة رسومية A100 بسعة 40 جيجابايت (50 رمز إدخال + 500 رمز إخراج)


يمكننا أن نلاحظ في الرسوم البيانية أعلاه أن الـ أفضل زمن استجابة (عند مستخدم واحد) هو 33 ثانية. يمكننا زيادة عدد المستخدمين لتوجيه المزيد من حركة المرور إلى النموذج - يمكننا أن نرى معدل النقل يزداد حتى 0.8 طلبات في الثانية دون انخفاض كبير في زمن الاستجابة. بعد 0.8 طلبات في الثانية، يزداد زمن الاستجابة بشكل كبير مما يعني أن الطلبات يتم وضعها في قائمة الانتظار.
نأمل أن يكون هذا مفيدًا لك لتقرر ما إذا كان LLama2-70B سيناسب حالة استخدامك والتكاليف التي يمكنك توقع تكبدها أثناء استضافة LLama2-70B.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI


























.png)
.webp)










.webp)






