Au-delà du SSML : Contrôler le chuchotement, le cri et les pleurs via API
Si vous dites à un moteur TTS standard 'Je suis tellement en colère', il le dira avec le même calme plat que 'Il fait beau'. Cette dissonance brise la confiance.
MorVoice vous permet de contrôler cette prosodie avec des **Vecteurs de Style Scalaires**.
L'API de vecteur de style
Étiquetage émotionnel de base
// Simple request
{
"text": "Get out of my office!",
"emotion": "anger"
}Cela choisit un style 'en colère' par défaut. Mais les émotions humaines sont nuancées.
Mélange scalaire avancé
Nous exposons 6 dimensions émotionnelles fondamentales : Bonheur, Tristesse, Colère, Peur, Dégoût et Surprise.
// Complex 'passive-aggressive' mix
{
"text": "Oh, sure, that's a great idea.",
"emotion": {
"anger": 0.3, // Underlying tension
"happiness": 0.6, // Fake politeness
"disgust": 0.2 // Subtle judgment
},
"voice_settings": {
"speed": 0.9, // Slightly slower for emphasis
"pitch": -1.0 // Lower tone
}
}Le résultat est une livraison d'un sarcasme glacial qu'aucun modèle standard ne pourrait produire.
IA contextuelle dynamique
La véritable puissance apparaît lorsque vous connectez cela à un LLM. Demandez à GPT-4 de sortir le vecteur de style JSON.
# System Prompt for GPT-4
SYSTEM_PROMPT = """
You are a helpful assistant.
Analyze the sentiment of your reply and provide emotion scores (0.0-1.0).
Format: JSON
"""
# GPT-4 Output:
{
"message": "I'm so sorry to hear that your account was locked. That must be frustrating.",
"emotion": {
"sadness": 0.7, // Empathy
"anger": 0.1 // Mirroring user frustration
}
}Cas d'utilisation
1. Livres audio
Les personnages peuvent chuchoter pendant les scènes d'infiltration ou crier pendant les batailles.
2. Bots de thérapie
Un bot traitant de sujets sensibles doit sembler doux et rassurant (Haute 'Chaleur', Basse 'Vitesse').
Exemple de code : La fonction 'Shout'
async function shout(text) {
return await morvoice.generate({
text: text,
style: {
projection: "shout", // Special mode for loud projection
anger: 0.8,
excitement: 0.5
},
// IMPORTANT: Turn on clipping protection for loud audio
post_processing: { normalize: true }
});
}Conclusion
L'émotion est l'API de l'humanité. MorVoice transforme un 'lecteur de texte' en un 'acteur numérique'.