نشر Falcon-40B على AWS: أرخص بنسبة 40% من Sagemaker

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
في هذه المقالة، نناقش نشر نموذج Falcon على سحابتك الخاصة.
قام معهد الابتكار التكنولوجي في أبوظبي بتطوير Falcon، وهي سلسلة مبتكرة من نماذج اللغة. تمثل هذه النماذج، التي صدرت بموجب ترخيص Apache 2.0، تقدمًا كبيرًا في هذا المجال. ومن الجدير بالذكر، Falcon-40B يبرز كنموذج مفتوح حقًا، متفوقًا على العديد من النماذج مغلقة المصدر في قدراته. يجلب هذا التطور فرصًا هائلة للمحترفين والمتحمسين والصناعة، حيث يمهد الطريق لتطبيقات مثيرة ومتنوعة.
في منشور المدونة هذا، سنصف LLMOps عملية LLMOps على SageMaker - استضافة نموذج Falcon على حسابك السحابي الخاص بـ AWS والخيارات المختلفة المتاحة. علاوة على ذلك، نخطط لإصدار منشور مدونة آخر في المستقبل، يركز على تشغيل Falcon على سحابات أخرى.
لقد كتبنا أيضًا مدونة أخرى حول نشر Llama 2 على سحابتك. تحقق أدناه:
بالانتقال إلى نقطة أخرى، تحتوي عائلة Falcon على نموذجين أساسيين: Falcon-40B و Falcon-7B. يتصدر نموذج المعلمات 40B حاليًا قوائم لوحة صدارة نماذج اللغة الكبيرة المفتوحة (Open LLM Leaderboard)، بينما يُعد نموذج 7B الأفضل في فئته الوزنية. سنناقش الخيارات المتاحة لنشر نموذج Falcon 40B.
يتطلب Falcon-40B حوالي 90 جيجابايت من ذاكرة GPU - لذا لن يتناسب هذا مع مثيل A100 واحد بذاكرة وصول عشوائي (RAM) تبلغ 80 جيجابايت. نوع المثيل المناسب للعمل في AWS هو g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/) يمكننا نشر النموذج إما كنقطة نهاية API للاستدلال في الوقت الفعلي أو تحميله في الكود نفسه لحالات استخدام الاستدلال الدفعي.
الكود لتحميل النموذج وتشغيل مهمة توليد النصوص عليه هو كما يلي:
# pip install "transformers[tokenizers]>=4.29.2,<5.0.0" # "sentencepiece==0.1.99" "accelerate>=0.19.0,<1.0.0" # "safetensors>=0.3.1,<0.4.0"
import torch
from transformers import pipeline
generator = pipeline(
"text-generation",
model="tiiuae/falcon-40b-instruct",
tokenizer="tiiuae/falcon-40b-instruct",
torch_dtype=torch.bfloat16,
device_map="balanced_low_0",
)
output = generator(
"اشرح لي الفرق بين الانشطار النووي والاندماج النووي.",
min_new_tokens=30,
max_new_tokens=50
)
print(output)
كود بايثون لتحميل Falcon40B في دفتر الملاحظات
نشر النموذج كواجهة برمجة تطبيقات (API)
يمكننا نشر النموذج كنقطة نهاية إما على AWS Sagemaker أو مجموعة EKS أو جهاز EC2 عادي. لنشر النموذج على Sagemaker، يمكنك اتباع هذا الدليل التعليمي: https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

لنشر النموذج على EKS، سنحتاج إلى إنشاء مجموعة EKS، وإعداد مجموعة عقد GPU ومشغل GPU عليها، وطبقة دخول للتمكن من الوصول إلى نقطة نهاية واجهة برمجة التطبيقات. TrueFoundry يمكن أن يجعل هذه الرحلة بأكملها أبسط بكثير من خلال جعل نشر النموذج عملية بنقرة واحدة.

تحليل التكلفة
دعنا نتعمق في تكلفة تشغيل Falcon LLM على حساب AWS الخاص بك. سنقارن تكلفة تشغيله على Sagemaker مقابل TrueFoundry.
تكلفة Sagemaker
تكلفة مثيل Sagemaker (ml.g5.12xlarge) في الساعة (us-east-1): 7.09 دولار
أجرينا اختبار أداء سريعًا لحساب إنتاجية الطلبات وزمن الاستجابة لنموذج Falcon على AWS Jumpstart. ستختلف الأرقام الدقيقة بناءً على أطوال مطالباتك وتزامن الطلبات، ولكن هذا يجب أن يوفر فكرة تقريبية:


كما نرى في الرسوم البيانية أعلاه، يبلغ زمن الاستجابة p50 حوالي 5.7 ثانية وp90 حوالي 9.4 ثانية. ونحن قادرون على الحصول على إنتاجية تبلغ حوالي 6-7 طلبات في الثانية.
نشر النموذج على EKS باستخدام TrueFoundry
ينشر TrueFoundry النموذج على EKS ويمكننا الاستفادة من المثيلات الفورية وعند الطلب لتقليل التكلفة بشكل كبير. دعنا نقارن التسعير بالساعة للمثيلات عند الطلب والفورية والمحجوزة لـ g5.12xlarge آلة في منطقة us-east-1.
عند الطلب: 5.672 دولار (20% أرخص من Sagemaker)
الفوري: 2.076 دولار (70% أرخص من Sagemaker)
محجوز لسنة واحدة: 3.573 دولار (50% أرخص من Sagemaker)
محجوز لـ 3 سنوات: 2.450 دولار (65% أرخص من Sagemaker)
دعنا نقارن الإنتاجية وزمن الاستجابة للنموذج المنشور على EKS باستخدام TrueFoundry.


كما نرى من الإحصائيات أعلاه، فإن زمن الاستجابة p50 هو 5.8 ثانية و p90 هو 9.5 ثانية. الإنتاجية حوالي 6-7 طلبات في الثانية. كما نرى أعلاه، فإن
حاسبة الأسعار
دعنا نحاول تقدير تكلفة استضافة نموذج Falcon لحالة استخدام فعلية مع حركة مرور حية. لنفترض أننا نستقبل 100 ألف طلب يوميًا وأننا نستخدم نموذج Falcon لكل طلب. لخدمة هذه الحركة المرورية، يجب أن تكون نسخة واحدة من g5.2xlarge كافية للتعامل مع حركة المرور، حيث يمكن لكل نسخة معالجة 6 طلبات في الثانية، و100 ألف طلب يوميًا تعني طلبًا واحدًا في الثانية. ومع ذلك، لأسباب تتعلق بالموثوقية، سنرغب في تشغيل نسختين على الأقل. دعنا نقارن تكلفة تشغيل النسختين:
Sagemaker: 7.1 دولار * 2 (دولار في الساعة) = 10000 دولار شهريًا
EKS:
استخدام النسخ الفورية: $2 * 2 ($ في الساعة) = $2880 شهريًا
استخدام النسخ حسب الطلب: = $8000 شهريًا
يمكننا أيضًا استخدام مزيج من نسخة فورية واحدة ونسخة واحدة حسب الطلب لتقليل التكلفة بنحو 40% ولتحقيق مستوى عالٍ من الموثوقية أيضًا.
تواصل معنا
إذا كنت تتطلع إلى تعظيم العوائد من مشاريعك في نماذج اللغة الكبيرة (LLM) وتمكين عملك من الاستفادة من الذكاء الاصطناعي بالطريقة الصحيحة، فيسعدنا التحدث وتبادل الأفكار.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI





















.png)
.webp)










.webp)






