Jenseits von SSML: Steuerung von Flüstern, Schreien und Weinen per API
Wenn Sie einer Standard-TTS-Engine sagen, sie soll 'Ich bin gerade so wütend' sagen, wird sie es mit derselben flachen Ruhe sagen wie 'Das Wetter ist heute schön'. Diese Dissonanz bricht das Vertrauen der Nutzer. Menschen kommunizieren 40% der Bedeutung durch Text und 60% durch Tonfall (Prosodie). (Siehe auch: [Medical Voice Banking](/blog/medical-voice-banking-als) dafür, wie wir diese Identität bewahren).
MorVoice ermöglicht es Ihnen, diese Prosodie nicht nur mit breiten Kategorien, sondern mit **Skalaren Style-Vektoren** zu steuern. Sie können Emotionen wie Farbe mischen.
Die Style-Vector-API
Basis-Emotions-Tagging
// Simple request
{
"text": "Get out of my office!",
"emotion": "anger"
}Dies wählt einen standardmäßigen 'wütenden' Stil. Aber menschliche Emotionen sind nuanciert. Vielleicht wollen Sie 'kalte, stille Wut' statt 'heißem Schreien'.
Fortgeschrittenes Skalares Mischen
Wir stellen 6 Kern-Emotionsdimensionen bereit: Glück, Traurigkeit, Wut, Angst, Ekel und Überraschung. Sie können jede von 0.0 bis 1.0 bewerten.
// Complex 'passive-aggressive' mix
{
"text": "Oh, sure, that's a great idea.",
"emotion": {
"anger": 0.3, // Underlying tension
"happiness": 0.6, // Fake politeness
"disgust": 0.2 // Subtle judgment
},
"voice_settings": {
"speed": 0.9, // Slightly slower for emphasis
"pitch": -1.0 // Lower tone
}
}Das Ergebnis ist eine erschreckend sarkastische Lieferung, die kein Standardmodell produzieren könnte.
Dynamische Kontextuelle KI
Die wahre Kraft entsteht, wenn Sie dies mit einem LLM verbinden. Bitten Sie GPT-4, den JSON-Style-Vektor zusammen mit der Textantwort auszugeben.
# System Prompt for GPT-4
SYSTEM_PROMPT = """
You are a helpful assistant.
Analyze the sentiment of your reply and provide emotion scores (0.0-1.0).
Format: JSON
"""
# GPT-4 Output:
{
"message": "I'm so sorry to hear that your account was locked. That must be frustrating.",
"emotion": {
"sadness": 0.7, // Empathy
"anger": 0.1 // Mirroring user frustration
}
}Anwendungsfälle
1. Hörbücher
Charaktere können in Stealth-Szenen flüstern oder in Kämpfen schreien. Der 'Projection'-Parameter steuert den simulierten Abstand zum Mikrofon.
2. Therapie-Bots
Ein Bot, der sensible Themen behandelt, muss sanft und beruhigend klingen (Hohe 'Wärme', Niedrige 'Geschwindigkeit'), nicht peppig und energiegeladen.
Code-Beispiel: Die 'Schrei'-Funktion
async function shout(text) {
return await morvoice.generate({
text: text,
style: {
projection: "shout", // Special mode for loud projection
anger: 0.8,
excitement: 0.5
},
// IMPORTANT: Turn on clipping protection for loud audio
post_processing: { normalize: true }
});
}Fazit
Emotion ist die API der Menschlichkeit. Indem wir Ihnen feinkörnige Kontrolle über den emotionalen Vektor der Stimme geben, verwandelt MorVoice einen 'Textleser' in einen 'digitalen Schauspieler'. Experimentieren Sie noch heute mit dem Style Lab in Ihrem Dashboard.