ما وراء SSML: التحكم في الهمس والصراخ والبكاء عبر واجهة برمجة التطبيقات
إذا طلبت من محرك TTS القياسي أن يقول 'أنا غاضب جداً الآن'، فسيقولها بنفس الهدوء. هذا التنافر يكسر ثقة المستخدم.
تيح لك MorVoice التحكم في هذا التنغيم الصوتي ليس فقط من خلال فئات واسعة، ولكن باستخدام **ناقلات النمط القياسية**.
واجهة برمجة تطبيقات متجه النمط
وسم العواطف الأساسي
// Simple request
{
"text": "Get out of my office!",
"emotion": "anger"
}يختار هذا نمط 'الغضب' الافتراضي. لكن المشاعر البشرية دقيقة.
خلط قياسي متقدم
نحن نكشف عن 6 أبعاد أساسية للعاطفة: السعادة، الحزن، الغضب، الخوف، الاشمئزاز، والمفاجأة.
// Complex 'passive-aggressive' mix
{
"text": "Oh, sure, that's a great idea.",
"emotion": {
"anger": 0.3, // Underlying tension
"happiness": 0.6, // Fake politeness
"disgust": 0.2 // Subtle judgment
},
"voice_settings": {
"speed": 0.9, // Slightly slower for emphasis
"pitch": -1.0 // Lower tone
}
}والنتيجة هي أداء ساخر بشكل مخيف لا يمكن لأي نموذج قياسي إنتاجه.
ذكاء اصطناعي سياقي ديناميكي
تكمن القوة الحقيقية عند توصيل هذا بـ LLM. اطلب من GPT-4 إخراج متجه نمط JSON جنباً إلى جنب مع الرد النصي.
# System Prompt for GPT-4
SYSTEM_PROMPT = """
You are a helpful assistant.
Analyze the sentiment of your reply and provide emotion scores (0.0-1.0).
Format: JSON
"""
# GPT-4 Output:
{
"message": "I'm so sorry to hear that your account was locked. That must be frustrating.",
"emotion": {
"sadness": 0.7, // Empathy
"anger": 0.1 // Mirroring user frustration
}
}حالات الاستخدام
1. الكتب الصوتية
يمكن للشخصيات الهمس أثناء مشاهد التخفي أو الصراخ أثناء المعارك. يتحكم معامل 'الإسقاط' في المسافة المحاكية.
2. بوتات العلاج
يحتاج البوت الذي يتعامل مع مواضيع حساسة إلى أن يبدو لطيفاً ومطمئناً (دفء عالٍ، سرعة منخفضة).
مثال على الكود: وظيفة 'الشياح'
async function shout(text) {
return await morvoice.generate({
text: text,
style: {
projection: "shout", // Special mode for loud projection
anger: 0.8,
excitement: 0.5
},
// IMPORTANT: Turn on clipping protection for loud audio
post_processing: { normalize: true }
});
}الخلاصة
العاطفة هي واجهة برمجة تطبيقات الإنسانية. تحول MorVoice 'قارئ النص' إلى 'ممثل رقمي'.