Warum wir für Audio von Transformern zu Latent Diffusion gewechselt sind

Dr. Arash Vahdat, Lead Scientist

2/10/2025

Der Industriestandard (genutzt von OpenAI und alten ElevenLabs-Modellen) verlässt sich auf Auto-Regressive Transformer. Diese sagen das nächste Audio-Token basierend auf dem vorherigen voraus. Das ist großartig für Text, aber Audio ist kontinuierlich, nicht diskret. Dies führt oft zu 'roboterhaften Artefakten' oder metallischen Klängen, wenn das Modell verwirrt ist.

Der Paradigmenwechsel zur Diffusion

Morvoice nutzt ein Latent Diffusion Model (LDM). Anstatt den nächsten Schritt vorherzusagen, beginnen wir mit reinem Rauschen und 'entrauschen' es iterativ, geleitet durch die Texteingabe. Dies ermöglicht einen ganzheitlichen Generierungsprozess. Das Modell 'hört' die gesamte Satzstruktur, bevor es sich auf einen Klang festlegt.

Visualisierung des Entrauschungsprozesses von Audio-Spektrogrammen

Umgang mit Atem und Pausen

Da Diffusion den gesamten Kontext berücksichtigt, fügt es natürlich Atemzüge *vor* langen Sätzen und Pausen *nach* Kommas ein und ahmt so die menschliche Physiologie ohne explizite Regeln nach. Das ist das Geheimnis hinter unserem hohen 'Naturalness MOS' (Mean Opinion Score).

Warum wir für Audio von Transformern zu Latent Diffusion gewechselt sind

Der Paradigmenwechsel zur Diffusion

Umgang mit Atem und Pausen

Ähnliche Artikel lesen

Der ultimative Leitfaden für KI-Text-zu-Sprache im Jahr 2026

Die KI-Voice-Revolution 2026: Von Modellen zu autonomen Audio-Agenten

Das Ende von HTTP: Warum Morvoice eine native WebSocket-Architektur für <70ms Latenz gebaut hat

Der Latenz-Benchmark 2025: Morvoice vs. ElevenLabs vs. Azure Neural

Jenseits von Roboterhaft: Wie Morvoice menschliche emotionale Reichweite erreicht

Enterprise Voice AI: DSGVO, SOC2 und Wasserzeichen

2026 TTS-Latenz-Benchmark: Warum MorVoice (68ms) ElevenLabs (240ms) schlägt

Warum 'metallische' Stimmen entstehen: Die Wissenschaft hinter MorVoices Latent-Diffusion-Architektur

Warum EU-Banken MorVoice wählen: DSGVO, Datensouveränität und akustische Wasserzeichen