تكامل نماذج Resemble AI الصوتية مع TrueFoundry

Published: July 4, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

يسعدنا أن نعلن عن تكامل Resemble AI مع بوابة TrueFoundry AI، والذي يتيح استنساخ الصوت وتحويل النص إلى كلام متزامن والبث المباشر لـ TTS ضمن نفس مسار البوابة الذي تستخدمه الفرق بالفعل لـ LLMs والتضمينات وحركة مرور الوكلاء.

يمكن للفرق التي توجه حركة مرور الذكاء الاصطناعي عبر بوابة TrueFoundry AI الآن ربط Resemble AI كمزود تحويل نص إلى كلام من الدرجة الأولى عبر تمرير SDK الأصلي للبوابة. تتدفق الطلبات إلى نقطة نهاية /synthesize ونقطة نهاية /stream الخاصة بـ Resemble عبر مسار البوابة مع مصادقة مركزية وتحكم في الوصول لكل فريق وتتبع موحد للتكلفة وتتبع كامل للطلبات. لا يلزم إجراء تغييرات على رمز العميل بخلاف توجيه عنوان URL الأساسي لـ Resemble إلى البوابة والمصادقة باستخدام رمز TrueFoundry.

تغطي هذه المقالة بنية التكامل. وتوضح كيف تعرض بوابة TrueFoundry AI مزودي TTS وكيف يتم الحفاظ على واجهة برمجة تطبيقات Resemble الأصلية عبر طبقة التمرير وكيف يعمل تجاوز الفشل عبر مزودي TTS المتعددين من خلال النماذج الافتراضية (Virtual Models).

لماذا تضع الفرق بوابة أمام تطبيقات الصوت

TrueFoundry توفر طبقة التحكم لأنظمة الذكاء الاصطناعي الإنتاجية. من خلال بوابة الذكاء الاصطناعي، تقوم الفرق بمركزة توجيه النماذج وإدارة المفاتيح والتحكم في الوصول والمراقبة وتتبع التكلفة عبر LLMs والتضمينات ومزودي الصور والصوت. يتدفق كل طلب عبر طبقة وكيل واحدة حيث يتم التحقق من الهوية وتطبيق حدود المعدل والتقاط التتبعات.

تميل حركة مرور TTS في بيئة الإنتاج إلى أن تشبه حركة مرور LLM بثلاث طرق. عادةً ما يكون هناك العديد من المزودين قيد الاستخدام لأنه لا يوجد بائع TTS واحد يتفوق في كل بُعد. تعد زمن الاستجابة مهمة لأن وكلاء الصوت يقومون ببث الصوت إلى المستخدمين في الوقت الفعلي. تتراكم التكلفة بسرعة على مستوى كل حرف أو كل ثانية وتستفيد من نفس ضوابط الاسترداد والميزانية التي تطبقها الفرق بالفعل على إكمال الدردشة. تنطبق الحجج المؤيدة لوضع بوابة أمام مزودي LLM مباشرة.

Resemble AI هي منصة أمان شاملة للذكاء الاصطناعي التوليدي لإنشاء الوسائط الاصطناعية والتحقق منها واكتشافها عبر الصوت والفيديو والصور. تبني Resemble أيضًا نماذجها الأساسية الخاصة لكل من التوليد والاكتشاف، مما يتيح ميزة قوية في تحديد المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. لتوليد الصوت، نموذج التوليف الأساسي الخاص بها هو Chatterbox، و Chatterbox Multilingual، مع متغير Chatterbox Turbo لتقليل زمن الاستجابة ودعم علامات ما وراء اللغة. جميع نماذج TTS التي طورتها Resemble تأتي مع العلامة المائية افتراضيًا. تدعم المنصة أيضًا استنساخ الصوت وتصميم الصوت وتحرير الصوت وSSML والتوليف عالي الدقة والإخراج بالبث المباشر. معًا، توفر المنصتان للفرق مكانًا واحدًا لإدارة وتتبع توليد الصوت جنبًا إلى جنب مع بقية مكدس الذكاء الاصطناعي الخاص بهم. تتولى TrueFoundry النشر والتوجيه والتحكم التشغيلي. تتولى Resemble التوليف الفعلي. يستخدم التكامل تمرير SDK الأصلي لـ TrueFoundry الذي يحافظ على واجهة برمجة تطبيقات Resemble الكاملة دون إجبارها على شكل متوافق مع OpenAI.

واجهة برمجة تطبيقات Resemble

تستقبل نقطة نهاية تحويل النص إلى كلام المتزامن من Resemble مجموعة صغيرة من الحقول وتعيد الصوت مع بيانات تعريف التوقيت. تقبل نقطة نهاية التوليف معرف صوت (voice_uuid) يحدد الصوت المدرب أو الجاهز للاستخدام، وحقل بيانات يحتوي على نص أو SSML يصل إلى 3000 حرف. تتحكم الحقول الاختيارية في اختيار النموذج عبر model (على سبيل المثال chatterbox-turbo) ودقة الصوت عبر precision (أحد MULAW أو PCM_16 أو PCM_24 أو PCM_32) وتنسيق الإخراج عبر output_format (wav أو mp3) ومعدل العينة ووضع HD عبر use_hd ومعالجة النطق المخصص عبر apply_custom_pronunciations.

يعيد حمولة الاستجابة حالة النجاح وحقل audio_content مشفرًا بـ base64 يحتوي على بايتات الصوت المركب. تصل بيانات تعريف التوقيت في audio_timestamps مع أحرف الجرافيم وأوقات الجرافيم وأحرف الفونيم وأوقات الفونيم لحالات استخدام المحاذاة اللاحقة مثل مزامنة الشفاه والتعليقات التوضيحية. تفيد الاستجابة أيضًا بالمدة (طول الصوت بالثواني) وsynth_duration (وقت التوليف الخام) وoutput_format وsample_rate وأي مشكلات أشار إليها المولد أثناء الإنشاء.

تدعم نقطة نهاية ثانية على /stream التوليف بالبث المباشر عبر HTTP لحالات استخدام وكيل الصوت حيث يكون وقت وصول أول جزء صوتي مهمًا. شكل الطلب هو نفسه. الاستجابة هي تدفق من إطارات الصوت بدلاً من حمولة base64 واحدة. المصادقة لكلا نقطتي النهاية هي رمز مميز (bearer token) صادر من لوحة تحكم حساب Resemble.

كيف تتعامل البوابة مع مزودي TTS

تعمل بوابة TrueFoundry AI على إطار عمل Hono وتتعامل وحدة بوابة واحدة مع أكثر من 250 طلبًا في الثانية على 1 vCPU و 1 جيجابايت من ذاكرة الوصول العشوائي مع حوالي 3 مللي ثانية من زمن الاستجابة الإضافي. وحدات البوابة عديمة الحالة ومقيدة بوحدة المعالجة المركزية وتتوسع أفقيًا لتصل إلى عشرات الآلاف من الطلبات في الثانية (RPS) من خلال وحدات إضافية. يتم فصل مستوى التحكم ومستوى البوابة. توجد تهيئة المزود بما في ذلك بيانات الاعتماد وقواعد التوجيه وحدود المعدل في مستوى التحكم وتتم مزامنتها مع وحدات البوابة عبر NATS. يبقى مسار الطلب الفعلي في الذاكرة دون أي مكالمات خارجية تتجاوز مكالمة المزود نفسها.

بالنسبة لـ TTS، تعرض البوابة نمطين للتكامل.

النمط الأول هو الـ واجهة برمجة تطبيقات متوافقة مع OpenAI نمط عند عنوان URL الأساسي للبوابة. يتصل هنا المزودون الذين يدعمون صيغة OpenAI /audio/speech (OpenAI و Azure OpenAI و Azure AI Foundry و Groq). يستخدم العملاء حزمة تطوير البرامج (SDK) القياسية لـ OpenAI وتقوم البوابة بترجمة الطلب إلى التنسيق الأصلي للمزود عبر طبقة محول.

الثاني هو تمرير حزمة تطوير البرامج (SDK) الأصلية نمط عند {GATEWAY_BASE_URL}/tts/{providerAccountName}. يتصل هنا المزودون الذين لديهم واجهات برمجة تطبيقات (APIs) أصلية غنية ولا تتوافق بشكل مباشر مع صيغة OpenAI. يتم الحفاظ على الشكل الكامل لطلب واستجابة المزود. تتولى البوابة المصادقة والتحكم في الوصول والتتبع والتوجيه ولكنها لا تعيد كتابة الحمولة. هذا هو النمط الذي تستخدمه Resemble لأن نص طلب Resemble الذي يتضمن voice_uuid و audio_timestamps ومستويات الدقة ومحدد نموذج chatterbox-turbo ليس له مكافئ في عقد OpenAI TTS.

عندما يصل طلب إلى وحدة بوابة، يكون المسار كالتالي. يتم التحقق من صحة رمز TrueFoundry في رأس التفويض (Authorization header) مقابل المفاتيح العامة لمزود الهوية (IdP) المخزنة مؤقتًا. يتم تحديد هوية الفريق مقابل خريطة في الذاكرة ويتم التحقق من التفويض لحساب مزود Resemble. يتم إعادة توجيه نص الطلب إلى نقطة نهاية Resemble للتوليف (synthesize) أو البث (stream) مع إرفاق رمز حامل Resemble من جانب الخادم. يتم بث الاستجابة مرة أخرى إلى العميل. يتم التقاط التفاعل الكامل في نطاق تتبع يتضمن اسم النموذج وحساب المزود وعدد الأحرف المدخلة ومدة الاستجابة ومدة التوليف وزمن الاستجابة. لا توجد رحلات ذهاب وعودة إضافية تتجاوز استدعاء المزود الفعلي.

واجهة التكامل

يتم تسجيل Resemble في لوحة تحكم TrueFoundry كحساب مزود مع تخزين رمز حامل Resemble كسر. بمجرد إضافة الحساب، تعرض البوابة مسارين لخدمة تحويل النص إلى كلام (TTS) له. يقوم مسار حزمة تطوير البرامج (SDK) الأصلية عند {GATEWAY_BASE_URL}/tts/{providerAccountName}/synthesize بالوكالة إلى نقطة النهاية المتزامنة. يقوم مسار البث عند {GATEWAY_BASE_URL}/tts/{providerAccountName}/stream بالوكالة إلى نقطة نهاية البث. يحافظ كلا المسارين على شكل طلب واستجابة Resemble بدقة.

Field	Value
Provider	Resemble AI
Integration Pattern	Native SDK pass-through
Gateway Routes	/tts/{providerAccountName}/synthesize /tts/{providerAccountName}/stream
Upstream Endpoints	https://f.cluster.resemble.ai/synthesize https://f.cluster.resemble.ai/stream
Auth — Client → Gateway	Bearer token via Authorization header (TrueFoundry token)
Auth — Gateway → Resemble	Bearer token held server-side in TrueFoundry secret store
Request Body Fields	voice_uuid data model precision output_format sample_rate use_hd apply_custom_pronunciations
Response Body Fields	audio_content audio_timestamps duration synth_duration
Models Supported	Chatterbox Chatterbox Multilingual Chatterbox Turbo

يبدو استدعاء العميل الأدنى كما هو موضح في المقتطف أدناه. لاحظ أن التغيير الوحيد عن استدعاء Resemble المباشر هو عنوان URL الأساسي ورأس المصادقة.

curl -X POST {GATEWAY_BASE_URL}/tts/resemble-prod/synthesize \  -H "Authorization: Bearer ${TFY_API_KEY}" \  -H "Content-Type: application/json" \  -d '{    "voice_uuid": "55592656",    "data": "Hello from the gateway.",    "model": "chatterbox-turbo",    "output_format": "mp3",    "use_hd": false  }'

تنتقل شيفرة التطبيق الحالية التي تستهدف Resemble مباشرة عن طريق تبديل عنوان URL الأساسي ورمز الحامل. يتم نقل معرفات UUID الصوتية وحمولات SSML وإعدادات الدقة ووضع HD جميعها دون تعديل. يمكن تكوين مكتبات عميل Resemble الرسمية بنفس الطريقة عن طريق تجاوز عنوان URL الأساسي الخاص بها.

التوجيه وتجاوز الفشل عبر مزودي خدمة تحويل النص إلى كلام (TTS)

غالبًا ما تشغل مكدسات وكلاء الصوت أكثر من مزود واحد لخدمة تحويل النص إلى كلام (TTS) في الإنتاج لأسباب تتعلق بالتكلفة وزمن الاستجابة. يمتد تجريد النموذج الافتراضي للبوابة إلى مزودي خدمة تحويل النص إلى كلام (TTS) بنفس الطريقة التي يمتد بها إلى مزودي نماذج اللغة الكبيرة (LLM). يرتبط معرف النموذج الافتراضي بعملية نشر واحدة أو أكثر لخدمة تحويل النص إلى كلام (TTS) فعلية مع قواعد توجيه. على أساس الوزن يوزع التوجيه حركة المرور بنسبة مئوية عبر المزودين. على أساس الأولوية يحاول التوجيه مع المزود الأول وينتقل إلى مزود آخر في حالة حدوث خطأ 5xx أو انتهاء مهلة أو تجاوز حد المعدل. على أساس زمن الاستجابة يرسل التوجيه حركة المرور إلى المزود الذي لديه أقل زمن استجابة p50 في النافذة المنزلقة.

يعمل تجاوز الفشل لخدمة تحويل النص إلى كلام (TTS) على نفس المبادئ الأساسية لتجاوز الفشل لنماذج اللغة الكبيرة (LLM). تؤدي الأخطاء غير القابلة لإعادة المحاولة إلى إعادة محاولة فورية على المزود ذي الأولوية التالية. تضع ارتفاعات الأخطاء المزود في فترة تهدئة مدتها 5 دقائق، وتتحقق حركة مرور الفحص من التعافي. يمكن لفريق يستخدم Resemble Chatterbox Turbo كمسار أساسي بزمن استجابة منخفض أن ينتقل إلى Cartesia أو ElevenLabs دون تغيير شيفرة العميل. يتولى النموذج الافتراضي عملية الاختيار.

يتتبع تتبع التكلفة استخدام خدمة تحويل النص إلى كلام (TTS) بنفس دقة استخدام نماذج اللغة الكبيرة (LLM). تسجل البوابة عدد الأحرف المدخلة ومدة التوليف والنموذج والفريق والمستخدم لكل طلب. تحسب خدمة التجميع الإنفاق لكل فريق ولكل مستخدم وتغذي نفس لوحات المعلومات ومبادئ تطبيق الميزانية التي تغطي بالفعل إكمال الدردشة والتضمينات. تطبق حدود المعدل من خلال خوارزمية Sliding Window Token Bucket مع نوافذ لكل دقيقة محددة حسب المستخدم أو الفريق أو النموذج. بالنسبة لخدمة تحويل النص إلى كلام (TTS)، الوحدة هي الأحرف أو الطلبات بدلاً من الرموز، لكن الخوارزمية لا تتغير.

المراقبة والتتبع

يُصدر كل طلب TTS نطاق تتبع. تتضمن سمات النطاق حساب المزود ومعرف النموذج (على سبيل المثال resemble-prod/chatterbox-turbo) وعدد أحرف الإدخال ومدة الاستجابة بالثواني ووقت التوليف الخام وتنسيق الإخراج ومعدل العينة وزمن الاستجابة من جانب البوابة. تُصدر آثار التتبع بشكل غير متزامن عبر NATS وتُصدّر عبر OTEL إلى أي واجهة خلفية للمراقبة قام الفريق بتكوينها (Arize أو Langfuse أو LangSmith أو أي من الأهداف المدعومة). ينطبق مفتاح تبديل "استبعاد بيانات الطلب" بنفس الطريقة التي ينطبق بها على إكمال الدردشة لإبقاء نص الإدخال خارج آثار التتبع المصدرة عندما تتطلب خصوصية البيانات ذلك.

هذا يعني أن مكالمات TTS تظهر في نفس الجدول الزمني للتتبع مثل استدعاء LLM السابق الذي أنتج النص وإجراء الوكيل اللاحق الذي استهلك الصوت. بالنسبة لتصحيح أخطاء وكيل الصوت، فإن هذا التوحيد مهم. يمكن تتبع الدور الفاشل من إكمال LLM الذي اختار الاستجابة، مروراً بتوليف TTS الذي قدمها، وصولاً إلى الإجراء الذي اتخذه الوكيل بعد ذلك.

ملخص البنية

يبدو تدفق الطلب من البداية إلى النهاية كالتالي. يرسل العميل طلب TTS إلى البوابة على {GATEWAY_BASE_URL}/tts/{providerAccountName}/synthesize أو نظيره المتدفق باستخدام رمز حامل TrueFoundry. تصادق البوابة المتصل مقابل مفاتيح IdP المخزنة مؤقتًا وتحل حساب المزود وتتحقق من صلاحيات الفريق والمستخدم في الذاكرة. إذا كان نموذج افتراضي قيد الاستخدام، يختار منطق التوجيه مزودًا فعليًا بناءً على الوزن أو الأولوية أو زمن الاستجابة. يتم إعادة توجيه نص الطلب إلى Resemble مع إرفاق رمز حامل Resemble من جانب الخادم. يتم بث الاستجابة مرة أخرى إلى العميل مع الحفاظ على الشكل الكامل لحمولة Resemble بما في ذلك محتوى الصوت والطوابع الزمنية وبيانات تعريف المدة. يتم التقاط كل خطوة في نطاق تتبع يُصدر بشكل غير متزامن إلى NATS ويُصدّر عبر OTEL.

لا يلزم تغيير أي شيء آخر في التطبيق. لا توجد حاجة لإعادة كتابة SDK ولا معالجة مصادقة لكل مزود على العميل ولا مسار مراقبة منفصل لحركة مرور الصوت. البوابة موجودة بالفعل في مسار الطلب لبقية مكدس الذكاء الاصطناعي، ويتصل Resemble بهذا المسار من خلال التمرير الأصلي. يستمر رمز عميل Resemble الحالي في العمل بمجرد تبديل عنوان URL الأساسي.

المبدأ المعماري الذي يجعل هذا الأمر واضحًا هو نمط التكامل المزدوج. يتصل المزودون الذين يتوافقون مع عقد OpenAI عبر المحول المتوافق مع OpenAI ويعيدون استخدام نفس حزم SDK للعميل. يتصل المزودون الذين لديهم واجهات برمجة تطبيقات أصلية غنية عبر مسار التمرير المباشر الذي يحافظ على السطح الكامل للمزود دون فرض الترجمة. بالنسبة لـ TTS، هذا مهم لأن الاختلافات بين المزودين ليست تجميلية. تختلف معرفات UUID الصوتية وتنسيقات الطوابع الزمنية الصوتية ومستويات الدقة وأشكال إطارات البث بطرق قد يضطر المحول على غرار OpenAI إلى تسويتها. يحافظ نمط التمرير المباشر على اختيار نموذج Chatterbox الخاص بـ Resemble والطوابع الزمنية الصوتية وعناصر التحكم في الدقة سليمة بينما تتولى البوابة الاهتمامات الشاملة للمصادقة والتوجيه والمراقبة وتتبع التكلفة.

ابدأ

تعرف على المزيد حول TrueFoundry AI Gateway و Resemble AI platform. أضف Resemble كحساب مزود في لوحة تحكم البوابة واستدعِ نقطة نهاية التوليف (synthesize) أو البث (stream) على المسار /tts/{providerAccountName} من رمز التطبيق الحالي.

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now