نشر Falcon-40B على AWS: أرخص بنسبة 40% من Sagemaker

By أبهيشيك شودهاري

Published: July 4, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

في هذه المقالة، نناقش نشر نموذج Falcon على سحابتك الخاصة.

قام معهد الابتكار التكنولوجي في أبوظبي بتطوير Falcon، وهي سلسلة مبتكرة من نماذج اللغة. تمثل هذه النماذج، التي صدرت بموجب ترخيص Apache 2.0، تقدمًا كبيرًا في هذا المجال. ومن الجدير بالذكر، Falcon-40B يبرز كنموذج مفتوح حقًا، متفوقًا على العديد من النماذج مغلقة المصدر في قدراته. يجلب هذا التطور فرصًا هائلة للمحترفين والمتحمسين والصناعة، حيث يمهد الطريق لتطبيقات مثيرة ومتنوعة.

في منشور المدونة هذا، سنصف LLMOps عملية LLMOps على SageMaker - استضافة نموذج Falcon على حسابك السحابي الخاص بـ AWS والخيارات المختلفة المتاحة. علاوة على ذلك، نخطط لإصدار منشور مدونة آخر في المستقبل، يركز على تشغيل Falcon على سحابات أخرى.

لقد كتبنا أيضًا مدونة أخرى حول نشر Llama 2 على سحابتك. تحقق أدناه:

‍

Deploy & Fine Tune Meta’s Open source LLM: Llama 2 on your cloud

Meta’s Open Source LLM, Llama 2 is available to use for free for research and commercial purposes. In this blog we explain how you can finetune and deploy it on your cloud.

TrueFoundry Blog Truefoundry

‍

بالانتقال إلى نقطة أخرى، تحتوي عائلة Falcon على نموذجين أساسيين: Falcon-40B و Falcon-7B. يتصدر نموذج المعلمات 40B حاليًا قوائم لوحة صدارة نماذج اللغة الكبيرة المفتوحة (Open LLM Leaderboard)، بينما يُعد نموذج 7B الأفضل في فئته الوزنية. سنناقش الخيارات المتاحة لنشر نموذج Falcon 40B.

يتطلب Falcon-40B حوالي 90 جيجابايت من ذاكرة GPU - لذا لن يتناسب هذا مع مثيل A100 واحد بذاكرة وصول عشوائي (RAM) تبلغ 80 جيجابايت. نوع المثيل المناسب للعمل في AWS هو g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/) يمكننا نشر النموذج إما كنقطة نهاية API للاستدلال في الوقت الفعلي أو تحميله في الكود نفسه لحالات استخدام الاستدلال الدفعي.

الكود لتحميل النموذج وتشغيل مهمة توليد النصوص عليه هو كما يلي:

# pip install "transformers[tokenizers]>=4.29.2,<5.0.0" # "sentencepiece==0.1.99" "accelerate>=0.19.0,<1.0.0" # "safetensors>=0.3.1,<0.4.0" import torch from transformers import pipeline generator = pipeline( "text-generation", model="tiiuae/falcon-40b-instruct", tokenizer="tiiuae/falcon-40b-instruct", torch_dtype=torch.bfloat16, device_map="balanced_low_0", ) output = generator( "اشرح لي الفرق بين الانشطار النووي والاندماج النووي.", min_new_tokens=30, max_new_tokens=50 ) print(output)

كود بايثون لتحميل Falcon40B في دفتر الملاحظات

نشر النموذج كواجهة برمجة تطبيقات (API)

يمكننا نشر النموذج كنقطة نهاية إما على AWS Sagemaker أو مجموعة EKS أو جهاز EC2 عادي. لنشر النموذج على Sagemaker، يمكنك اتباع هذا الدليل التعليمي: https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

Model Catalogue - Falcon models — كتالوج النماذج الذي يضم نماذج Falcon

لنشر النموذج على EKS، سنحتاج إلى إنشاء مجموعة EKS، وإعداد مجموعة عقد GPU ومشغل GPU عليها، وطبقة دخول للتمكن من الوصول إلى نقطة نهاية واجهة برمجة التطبيقات. TrueFoundry يمكن أن يجعل هذه الرحلة بأكملها أبسط بكثير من خلال جعل نشر النموذج عملية بنقرة واحدة.

deploying Falcon 40B — طرق مختلفة لنشر Falcon 40B

تحليل التكلفة

دعنا نتعمق في تكلفة تشغيل Falcon LLM على حساب AWS الخاص بك. سنقارن تكلفة تشغيله على Sagemaker مقابل TrueFoundry.

تكلفة Sagemaker

تكلفة مثيل Sagemaker (ml.g5.12xlarge) في الساعة (us-east-1): 7.09 دولار

أجرينا اختبار أداء سريعًا لحساب إنتاجية الطلبات وزمن الاستجابة لنموذج Falcon على AWS Jumpstart. ستختلف الأرقام الدقيقة بناءً على أطوال مطالباتك وتزامن الطلبات، ولكن هذا يجب أن يوفر فكرة تقريبية:

كما نرى في الرسوم البيانية أعلاه، يبلغ زمن الاستجابة p50 حوالي 5.7 ثانية وp90 حوالي 9.4 ثانية. ونحن قادرون على الحصول على إنتاجية تبلغ حوالي 6-7 طلبات في الثانية.

نشر النموذج على EKS باستخدام TrueFoundry

ينشر TrueFoundry النموذج على EKS ويمكننا الاستفادة من المثيلات الفورية وعند الطلب لتقليل التكلفة بشكل كبير. دعنا نقارن التسعير بالساعة للمثيلات عند الطلب والفورية والمحجوزة لـ g5.12xlarge آلة في منطقة us-east-1.

عند الطلب: 5.672 دولار (20% أرخص من Sagemaker)

الفوري: 2.076 دولار (70% أرخص من Sagemaker)

محجوز لسنة واحدة: 3.573 دولار (50% أرخص من Sagemaker)

محجوز لـ 3 سنوات: 2.450 دولار (65% أرخص من Sagemaker)

دعنا نقارن الإنتاجية وزمن الاستجابة للنموذج المنشور على EKS باستخدام TrueFoundry.

كما نرى من الإحصائيات أعلاه، فإن زمن الاستجابة p50 هو 5.8 ثانية و p90 هو 9.5 ثانية. الإنتاجية حوالي 6-7 طلبات في الثانية. كما نرى أعلاه، فإن

حاسبة الأسعار

دعنا نحاول تقدير تكلفة استضافة نموذج Falcon لحالة استخدام فعلية مع حركة مرور حية. لنفترض أننا نستقبل 100 ألف طلب يوميًا وأننا نستخدم نموذج Falcon لكل طلب. لخدمة هذه الحركة المرورية، يجب أن تكون نسخة واحدة من g5.2xlarge كافية للتعامل مع حركة المرور، حيث يمكن لكل نسخة معالجة 6 طلبات في الثانية، و100 ألف طلب يوميًا تعني طلبًا واحدًا في الثانية. ومع ذلك، لأسباب تتعلق بالموثوقية، سنرغب في تشغيل نسختين على الأقل. دعنا نقارن تكلفة تشغيل النسختين:

Sagemaker: 7.1 دولار * 2 (دولار في الساعة) = 10000 دولار شهريًا

EKS:
استخدام النسخ الفورية: $2 * 2 ($ في الساعة) = $2880 شهريًا
استخدام النسخ حسب الطلب: = $8000 شهريًا

يمكننا أيضًا استخدام مزيج من نسخة فورية واحدة ونسخة واحدة حسب الطلب لتقليل التكلفة بنحو 40% ولتحقيق مستوى عالٍ من الموثوقية أيضًا.

تواصل معنا

إذا كنت تتطلع إلى تعظيم العوائد من مشاريعك في نماذج اللغة الكبيرة (LLM) وتمكين عملك من الاستفادة من الذكاء الاصطناعي بالطريقة الصحيحة، فيسعدنا التحدث وتبادل الأفكار.

Take TrueFoundry for a Spin

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now