Pourquoi les voix 'métalliques' arrivent : La science de l'architecture de MorVoice
Si vous avez testé des modèles TTS open-source, vous connaissez ce 'bourdonnement' métallique. Ce sont des limitations mathématiques des architectures GAN.
Chez MorVoice, nous avons abandonné cette approche héritée en 2024 pour un **modèle de diffusion latente (LDM)**.
Le piège auto-régressif
Les modèles traditionnels traitent la génération audio comme la prédiction de texte (Générer une trame à la fois).
# Pseudo-code for Auto-Regressive Generation
audio = []
for i in range(duration):
# Predict next sample based on history
next_sample = model(history=audio)
# If model creates a small artifact here...
if has_error(next_sample):
# ...it feeds that error back into itself forever
audio.append(next_sample)C'est le **problème d'accumulation d'erreurs**. Une distorsion minime finit par s'amplifier, créant cet effet robotique.
La solution : Diffusion holistique
MorVoice's 'Sonos-Diffusion' engine works backwards. We don't build the audio left-to-right. We start with a block of pure Gaussian noise representing the *entire duration* of the sentence, and we refine the whole thing simultaneously.
Le processus d'étape de débruitage
Step 0: [Static Noise] ---------------------- (Pure randomness)
Step 10: [Static] -- [Vague Formants] -- [Static]
Step 30: [Muffled Speech] --------------------
Step 50: [Clear Speech] + [Background Hiss]
Step 80: [High-Fidelity Voice] --------------- (Studio Quality)Because the model 'sees' the end of the sentence while it's generating the beginning, it can plan intonation curves perfectly. It knows it needs to raise the pitch at the start to land a question mark at the end.
Modéliser 'l'âme' : Souffle et micro-tremblements
La parole humaine est définie par des imperfections : tremblements, respiration, bruits de lèvres.
Les modèles de diffusion préservent ces textures que les GAN lissent comme du bruit.
1. Pre-utterance Breaths: The intake of air before a long sentence.
2. Vocal Fry: The creaky sound at the end of a tired sentence.
3. Sibillance: The sharp 'S' sounds that cheap TTS models slur.Analyse comparative : Scores MOS
Nous avons mené un test d'écoute à l'aveugle avec 500 ingénieurs du son (Mean Opinion Score).
| Model Architecture | Naturalness | Intonation | Signal Clarity | Long-Form Stability |
| :--- | :--- | :--- | :--- | :--- |
| **MorVoice (Diffusion)** | **4.8/5** | **4.9/5** | **4.9/5** | **4.9/5** |
| Competitor A (VALL-E) | 4.2/5 | 4.1/5 | 3.8/5 | 2.5/5 |
| Competitor B (Tacotron) | 3.5/5 | 3.2/5 | 4.0/5 | 4.0/5 |Notez le score de stabilité. Les concurrents s'effondrent souvent après 20 secondes, contrairement à MorVoice.
FAQ Technique
La diffusion est-elle plus lente que les GAN ?
Historiquement oui, mais MorVoice utilise la 'Consistency Distillation' pour réduire le temps d'inférence à 68 ms.
Est-ce qu'il hallucine des mots ?
Les modèles de diffusion sont intrinsèquement plus stables car l'alignement du texte est intégré aux cartes d'attention.
Conclusion : Le futur est diffusé
Tout comme DALL-E pour les images, la Diffusion prend le dessus sur l'audio pour un rendu indiscernable de la réalité.
Listen to the samples on our homepage. The proof is in the spectrogram.