Blank white background with no objects or features visible.

تعلن TrueFoundry عن استحواذها على Seldon AI، موسعة بذلك لوحة التحكم الخاصة بها للذكاء الاصطناعي للمؤسسات. البيان الصحفي الكامل →

نشر Falcon-40B على AWS: أرخص بنسبة 40% من Sagemaker

By أبهيشيك شودهاري

Published: July 4, 2026

في هذه المقالة، نناقش نشر نموذج Falcon على سحابتك الخاصة.

قام معهد الابتكار التكنولوجي في أبوظبي بتطوير Falcon، وهي سلسلة مبتكرة من نماذج اللغة. تمثل هذه النماذج، التي صدرت بموجب ترخيص Apache 2.0، تقدمًا كبيرًا في هذا المجال. ومن الجدير بالذكر، Falcon-40B يبرز كنموذج مفتوح حقًا، متفوقًا على العديد من النماذج مغلقة المصدر في قدراته. يجلب هذا التطور فرصًا هائلة للمحترفين والمتحمسين والصناعة، حيث يمهد الطريق لتطبيقات مثيرة ومتنوعة.

في منشور المدونة هذا، سنصف LLMOps عملية LLMOps على SageMaker - استضافة نموذج Falcon على حسابك السحابي الخاص بـ AWS والخيارات المختلفة المتاحة. علاوة على ذلك، نخطط لإصدار منشور مدونة آخر في المستقبل، يركز على تشغيل Falcon على سحابات أخرى.

لقد كتبنا أيضًا مدونة أخرى حول نشر Llama 2 على سحابتك. تحقق أدناه:

بالانتقال إلى نقطة أخرى، تحتوي عائلة Falcon على نموذجين أساسيين: Falcon-40B و  Falcon-7B. يتصدر نموذج المعلمات 40B حاليًا قوائم لوحة صدارة نماذج اللغة الكبيرة المفتوحة (Open LLM Leaderboard)، بينما يُعد نموذج 7B الأفضل في فئته الوزنية. سنناقش الخيارات المتاحة لنشر نموذج Falcon 40B.

يتطلب Falcon-40B حوالي 90 جيجابايت من ذاكرة GPU - لذا لن يتناسب هذا مع مثيل A100 واحد بذاكرة وصول عشوائي (RAM) تبلغ 80 جيجابايت. نوع المثيل المناسب للعمل في AWS هو g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/) يمكننا نشر النموذج إما كنقطة نهاية API للاستدلال في الوقت الفعلي أو تحميله في الكود نفسه لحالات استخدام الاستدلال الدفعي.  

الكود لتحميل النموذج وتشغيل مهمة توليد النصوص عليه هو كما يلي:

# pip install "transformers[tokenizers]>=4.29.2,<5.0.0" # "sentencepiece==0.1.99" "accelerate>=0.19.0,<1.0.0" # "safetensors>=0.3.1,<0.4.0"

import torch
from transformers import pipeline

generator = pipeline(
   "text-generation",
   model="tiiuae/falcon-40b-instruct",
   tokenizer="tiiuae/falcon-40b-instruct",
   torch_dtype=torch.bfloat16,
   device_map="balanced_low_0",
)
output = generator(
   "اشرح لي الفرق بين الانشطار النووي والاندماج النووي.",
   min_new_tokens=30,
   max_new_tokens=50
)
print(output)

كود بايثون لتحميل Falcon40B في دفتر الملاحظات

نشر النموذج كواجهة برمجة تطبيقات (API)

يمكننا نشر النموذج كنقطة نهاية إما على AWS Sagemaker أو مجموعة EKS أو جهاز EC2 عادي. لنشر النموذج على Sagemaker، يمكنك اتباع هذا الدليل التعليمي: https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

Model Catalogue - Falcon models
كتالوج النماذج الذي يضم نماذج Falcon

لنشر النموذج على EKS، سنحتاج إلى إنشاء مجموعة EKS، وإعداد مجموعة عقد GPU ومشغل GPU عليها، وطبقة دخول للتمكن من الوصول إلى نقطة نهاية واجهة برمجة التطبيقات. TrueFoundry يمكن أن يجعل هذه الرحلة بأكملها أبسط بكثير من خلال جعل نشر النموذج عملية بنقرة واحدة.

deploying Falcon 40B
طرق مختلفة لنشر Falcon 40B

تحليل التكلفة

دعنا نتعمق في تكلفة تشغيل Falcon LLM على حساب AWS الخاص بك. سنقارن تكلفة تشغيله على Sagemaker مقابل TrueFoundry.

تكلفة Sagemaker

تكلفة مثيل Sagemaker (ml.g5.12xlarge) في الساعة (us-east-1): 7.09 دولار

أجرينا اختبار أداء سريعًا لحساب إنتاجية الطلبات وزمن الاستجابة لنموذج Falcon على AWS Jumpstart. ستختلف الأرقام الدقيقة بناءً على أطوال مطالباتك وتزامن الطلبات، ولكن هذا يجب أن يوفر فكرة تقريبية:

كما نرى في الرسوم البيانية أعلاه، يبلغ زمن الاستجابة p50 حوالي 5.7 ثانية وp90 حوالي 9.4 ثانية. ونحن قادرون على الحصول على إنتاجية تبلغ حوالي 6-7 طلبات في الثانية.

نشر النموذج على EKS باستخدام TrueFoundry

ينشر TrueFoundry النموذج على EKS ويمكننا الاستفادة من المثيلات الفورية وعند الطلب لتقليل التكلفة بشكل كبير. دعنا نقارن التسعير بالساعة للمثيلات عند الطلب والفورية والمحجوزة لـ g5.12xlarge آلة في منطقة us-east-1.

عند الطلب: 5.672 دولار (20% أرخص من Sagemaker)
الفوري: 2.076 دولار (70% أرخص من Sagemaker)
محجوز لسنة واحدة: 3.573 دولار (50% أرخص من Sagemaker)
محجوز لـ 3 سنوات: 2.450 دولار (65% أرخص من Sagemaker)

دعنا نقارن الإنتاجية وزمن الاستجابة للنموذج المنشور على EKS باستخدام TrueFoundry.

إحصائيات زمن استجابة الطلب والإنتاجية
إحصائيات النموذج على TrueFoundry

كما نرى من الإحصائيات أعلاه، فإن زمن الاستجابة p50 هو 5.8 ثانية و p90 هو 9.5 ثانية. الإنتاجية حوالي 6-7 طلبات في الثانية. كما نرى أعلاه، فإن

حاسبة الأسعار

دعنا نحاول تقدير تكلفة استضافة نموذج Falcon لحالة استخدام فعلية مع حركة مرور حية. لنفترض أننا نستقبل 100 ألف طلب يوميًا وأننا نستخدم نموذج Falcon لكل طلب. لخدمة هذه الحركة المرورية، يجب أن تكون نسخة واحدة من g5.2xlarge كافية للتعامل مع حركة المرور، حيث يمكن لكل نسخة معالجة 6 طلبات في الثانية، و100 ألف طلب يوميًا تعني طلبًا واحدًا في الثانية. ومع ذلك، لأسباب تتعلق بالموثوقية، سنرغب في تشغيل نسختين على الأقل. دعنا نقارن تكلفة تشغيل النسختين:

Sagemaker: 7.1 دولار * 2 (دولار في الساعة) = 10000 دولار شهريًا
EKS:
استخدام النسخ الفورية: $2 * 2 ($ في الساعة) = $2880 شهريًا
استخدام النسخ حسب الطلب: = $8000 شهريًا

يمكننا أيضًا استخدام مزيج من نسخة فورية واحدة ونسخة واحدة حسب الطلب لتقليل التكلفة بنحو 40% ولتحقيق مستوى عالٍ من الموثوقية أيضًا.

تواصل معنا

إذا كنت تتطلع إلى تعظيم العوائد من مشاريعك في نماذج اللغة الكبيرة (LLM) وتمكين عملك من الاستفادة من الذكاء الاصطناعي بالطريقة الصحيحة، فيسعدنا التحدث وتبادل الأفكار.

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

One Gateway for Every LLM, Agent and MCP Server

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo
Summarize with
ChatGPT logo by OpenAI
Perplexity AI logo
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

Discover More

July 20, 2023
|
5 min read

LLMOps CoE: الحدود التالية في مشهد MLOps

May 25, 2023
|
5 min read

النماذج اللغوية الكبيرة مفتوحة المصدر: تبنّها أو تندثر

August 27, 2025
|
5 min read

Mapping the On-Prem AI Market: From Chips to Control Planes

September 28, 2023
|
5 min read

ما هو الضبط الدقيق باستخدام Lora؟ الدليل الشامل

July 4, 2026
|
5 min read

تكاملات منصة التعلم الآلي #1: Weights & Biases

Use Cases
Engineering and Product
July 4, 2026
|
5 min read

تكامل Pillar Security مع TrueFoundry

No items found.
July 4, 2026
|
5 min read

التخزين المؤقت الدلالي لنماذج اللغة الكبيرة (LLMs): تقليل التكلفة وزمن الاستجابة بما يتجاوز التخزين المؤقت للبادئات

No items found.
July 4, 2026
|
5 min read

تكاملات أدوات التعلم الآلي #2 DVC لإدارة إصدارات بياناتك

Engineering and Product
Use Cases
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour