Warum wir für Audio von Transformern zu Latent Diffusion gewechselt sind
Der Industriestandard (genutzt von OpenAI und alten ElevenLabs-Modellen) verlässt sich auf Auto-Regressive Transformer. Diese sagen das nächste Audio-Token basierend auf dem vorherigen voraus. Das ist großartig für Text, aber Audio ist kontinuierlich, nicht diskret. Dies führt oft zu 'roboterhaften Artefakten' oder metallischen Klängen, wenn das Modell verwirrt ist.
Der Paradigmenwechsel zur Diffusion
Morvoice nutzt ein Latent Diffusion Model (LDM). Anstatt den nächsten Schritt vorherzusagen, beginnen wir mit reinem Rauschen und 'entrauschen' es iterativ, geleitet durch die Texteingabe. Dies ermöglicht einen ganzheitlichen Generierungsprozess. Das Modell 'hört' die gesamte Satzstruktur, bevor es sich auf einen Klang festlegt.
Umgang mit Atem und Pausen
Da Diffusion den gesamten Kontext berücksichtigt, fügt es natürlich Atemzüge *vor* langen Sätzen und Pausen *nach* Kommas ein und ahmt so die menschliche Physiologie ohne explizite Regeln nach. Das ist das Geheimnis hinter unserem hohen 'Naturalness MOS' (Mean Opinion Score).