فهم معايير أداء نموذج LLAMA 2 لتقييم الأداء

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
نقوم في هذه المقالة بتقييم أداء LLama2-7B من منظور زمن الاستجابة والتكلفة وعدد الطلبات في الثانية. سيساعدنا هذا في تقييم ما إذا كان خيارًا جيدًا بناءً على متطلبات العمل. يرجى ملاحظة أننا لا نغطي الأداء النوعي في هذه المقالة - هناك طرق مختلفة لمقارنة نماذج اللغات الكبيرة (LLMs) يمكن العثور عليها هنا.
النموذج: Llama2-7B
في هذه المدونة، قمنا بتقييم أداء Llama-2-7B النموذج من NousResearch. هذه نسخة مدربة مسبقًا من Llama-2 بسبعة مليارات معلمة.
قامت Meta بتطوير وإصدار علني لعائلة نماذج اللغات الكبيرة (LLMs) Llama 2، وهي مجموعة من نماذج النصوص التوليدية المدربة مسبقًا والمُعدّلة بدقة، تتراوح في حجمها من 7 مليارات إلى 70 مليار معلمة.
المقاييس التي تم تقييمها باستخدام نموذج LLAMA 2: تقييم مؤشرات الأداء الرئيسية
- الطلبات في الثانية. (RPS): عدد الطلبات في الثانية التي يتعامل معها النموذج. مع زيادة عدد الطلبات في الثانية (RPS)، يرتفع زمن الاستجابة عادةً.
- زمن الاستجابة: كم من الوقت يستغرق إكمال طلب استدلال؟
- الاقتصاديات: ما هي التكاليف المرتبطة بنشر نموذج لغوي كبير (LLM)؟
حالات الاستخدام وأنماط النشر مع LLAMA 2: تقييم السيناريوهات
العوامل الرئيسية التي قمنا بقياس الأداء بناءً عليها هي:
نوع وحدة معالجة الرسوميات (GPU):
- A100 40GB وحدة معالجة الرسوميات (GPU)
- A10 24GB وحدة معالجة الرسوميات (GPU)
طول الموجه:
- 1500 رمز إدخال، 100 رمز إخراج (مشابه لحالات استخدام التوليد المعزز بالاسترجاع)
- 50 رمز إدخال، 500 رمز إخراج (حالات استخدام كثيفة التوليد)
إعداد قياس الأداء مع LLAMA 2: تهيئة بيئات الاختبار
لقياس الأداء، استخدمنا Locust، وهي أداة مفتوحة المصدر لاختبار التحميل. يعمل Locust عن طريق إنشاء مستخدمين/عاملين لإرسال الطلبات بالتوازي. في بداية كل اختبار، يمكننا تحديد عدد المستخدمين و معدل التوليد. هنا عدد المستخدمين تشير إلى العدد الأقصى للمستخدمين الذين يمكنهم الظهور/التشغيل بشكل متزامن، بينما يشير معدل الظهور إلى عدد المستخدمين الذين سيتم إنشاؤهم في الثانية.
في كل اختبار أداء لتكوين نشر معين، بدأنا من 1 مستخدم واستمررنا في زيادة عدد المستخدمين تدريجياً حتى لاحظنا زيادة مطردة في RPS. خلال الاختبار، قمنا أيضًا برسم بياني لـ أوقات الاستجابة (بالمللي ثانية) و إجمالي الطلبات في الثانية.
في كل من تكويني النشر، استخدمنا خادم نموذج huggingface text-generation-inference بالإصدار version=0.9.4. فيما يلي المعلمات التي تم تمريرها إلى صورة text-generation-inference لتكوينات النماذج المختلفة:
ملخص نتائج المقارنة المعيارية: تلخيص نتائج LLAMA 2
زمن الاستجابة، الطلبات في الثانية، والتكلفة
نحسب أفضل زمن استجابة بناءً على إرسال طلب واحد فقط في كل مرة. لزيادة الإنتاجية، نرسل الطلبات بالتوازي إلى نموذج اللغة الكبير (LLM). تكون الإنتاجية القصوى عندما يتمكن النموذج من معالجة طلبات الإدخال دون تدهور كبير في زمن الاستجابة.

الرموز في الثانية
تعالج نماذج اللغة الكبيرة (LLMs) رموز الإدخال والتوليد بشكل مختلف - لذلك، قمنا بحساب معدل معالجة رموز الإدخال ورموز الإخراج بشكل مختلف.

النتائج التفصيلية: تحليل متعمق لـ LLAMA 2
وحدة معالجة الرسوميات A10 بحجم 24 جيجابايت (1500 رمز إدخال + 100 رمز إخراج)


يمكننا أن نلاحظ في الرسوم البيانية أعلاه أن الـ أفضل زمن استجابة (عند مستخدم واحد) هو 4.1 ثانية. يمكننا زيادة عدد المستخدمين لتوجيه المزيد من حركة المرور إلى النموذج - يمكننا أن نرى الإنتاجية تزداد حتى 0.9 طلبات في الثانية دون انخفاض كبير في زمن الاستجابة. بعد 0.9 طلبات في الثانية، يزداد زمن الاستجابة بشكل كبير مما يعني أن الطلبات يتم وضعها في قائمة الانتظار.
وحدة معالجة الرسوميات A10 بسعة 24 جيجابايت (50 رمز إدخال + 500 رمز إخراج)


نلاحظ في الرسوم البيانية أعلاه أن الـ أفضل وقت استجابة (عند مستخدم واحد) هو 15 ثانية. يمكننا زيادة عدد المستخدمين لتوجيه المزيد من حركة المرور إلى النموذج - نرى أن الإنتاجية تزداد حتى 0.9 RPS دون انخفاض كبير في زمن الاستجابة. بعد 0.9 RPS، يزداد زمن الاستجابة بشكل كبير مما يعني أن الطلبات يتم وضعها في قائمة الانتظار.
وحدة معالجة الرسوميات A100 بسعة 40 جيجابايت (1500 رمز إدخال + 100 رمز إخراج)


نلاحظ في الرسوم البيانية أعلاه أن الـ أفضل وقت استجابة (عند مستخدم واحد) هو ثانيتين. يمكننا زيادة عدد المستخدمين لتوجيه المزيد من حركة المرور إلى النموذج - نرى أن الإنتاجية تزداد حتى 3.6 RPS دون انخفاض كبير في زمن الاستجابة. بعد تجاوز 3.6 RPS، يزداد زمن الاستجابة بشكل كبير مما يعني أن الطلبات تتراكم في قائمة الانتظار.
وحدة معالجة رسوميات A100 بسعة 40 جيجابايت (50 رمز إدخال + 500 رمز إخراج)


يمكننا أن نلاحظ في الرسوم البيانية أعلاه أن أفضل زمن استجابة (عند مستخدم واحد) يبلغ 8.5 ثانية. يمكننا زيادة عدد المستخدمين لتوجيه المزيد من حركة المرور إلى النموذج - نلاحظ زيادة في الإنتاجية حتى 3.5 RPS دون انخفاض كبير في زمن الاستجابة. بعد تجاوز 3.5 RPS، يزداد زمن الاستجابة بشكل كبير مما يعني أن الطلبات تتراكم في قائمة الانتظار.
نأمل أن يكون هذا مفيدًا لك لتحديد ما إذا كان LLama7B سيناسب حالة استخدامك والتكاليف التي قد تتكبدها أثناء استضافة Llama7B.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI





















.png)
.webp)










.webp)






