Pourquoi nous sommes passés des Transformers à la Diffusion Latente pour l'audio
La norme industrielle repose sur des Transformers Auto-Régressifs. Ils sont excellents pour le texte, mais l'audio est continu. Cela conduit souvent à des 'artefacts robotiques' lorsque le modèle est confus.
The Diffusion Paradigm Shift
Morvoice utilise un Modèle de Diffusion Latente (LDM). Au lieu de prédire l'étape suivante, nous commençons par du bruit pur et le 'débruitons' itérativement. Cela permet un processus de génération holistique.
Handling Breath and Pauses
Parce que la Diffusion considère l'ensemble du contexte, elle insère naturellement des respirations *avant* les longues phrases, imitant la physiologie humaine. C'est le secret derrière notre score élevé de 'Naturalité'.