لماذا تحدث الأصوات 'المعدنية': علم بنية MorVoice
إذا كنت قد جربت نماذج TTS مفتوحة المصدر، فأنت تعرف ذلك 'الطنين' المعدني. هذه ليست أخطاء عشوائية؛ بل هي قيود رياضية أساسية لهندسة GAN.
في MorVoice، تخلصنا من هذا النهج القديم في عام 2024. انتقلنا إلى بنية **نموذج الانتشار الكامن (LDM)**.
فخ الانحدار الذاتي
تعامل النماذج التقليدية توليد الصوت مثل التنبؤ بالنصوص. يتم توليد إطار صوتي واحد في كل مرة.
# Pseudo-code for Auto-Regressive Generation
audio = []
for i in range(duration):
# Predict next sample based on history
next_sample = model(history=audio)
# If model creates a small artifact here...
if has_error(next_sample):
# ...it feeds that error back into itself forever
audio.append(next_sample)هذه هي **مشكلة تراكم الأخطاء**. إن تشوهاً بسيطاً بنسبة 0.1٪ في الإطار 50 يصبح 5٪ في الإطار 500.
الحل: الانتشار الشامل
MorVoice's 'Sonos-Diffusion' engine works backwards. We don't build the audio left-to-right. We start with a block of pure Gaussian noise representing the *entire duration* of the sentence, and we refine the whole thing simultaneously.
عملية خطوة إزالة الضوضاء
Step 0: [Static Noise] ---------------------- (Pure randomness)
Step 10: [Static] -- [Vague Formants] -- [Static]
Step 30: [Muffled Speech] --------------------
Step 50: [Clear Speech] + [Background Hiss]
Step 80: [High-Fidelity Voice] --------------- (Studio Quality)Because the model 'sees' the end of the sentence while it's generating the beginning, it can plan intonation curves perfectly. It knows it needs to raise the pitch at the start to land a question mark at the end.
نمذجة 'الروح': التنفس والارتعاشات الدقيقة
يتم تعريف الكلام البشري بالعيوب. نحن لا نتحدث في موجات جيبية مثالية؛ حبالنا الصوتية ترتعد؛ ننفد من أنفاسنا.
غالباً ما تقوم شبكات GAN بتنعيم هذه العيوب لأنها تعتبرها 'ضوضاء'. بينما تحافظ نماذج الانتشار عليها.
1. Pre-utterance Breaths: The intake of air before a long sentence.
2. Vocal Fry: The creaky sound at the end of a tired sentence.
3. Sibillance: The sharp 'S' sounds that cheap TTS models slur.التحليل المقارن: درجات MOS
لقد أجرينا اختبار استماع أعمى مع 500 مهندس صوت قاموا بتقييم العينات على مقياس من 1-5.
| Model Architecture | Naturalness | Intonation | Signal Clarity | Long-Form Stability |
| :--- | :--- | :--- | :--- | :--- |
| **MorVoice (Diffusion)** | **4.8/5** | **4.9/5** | **4.9/5** | **4.9/5** |
| Competitor A (VALL-E) | 4.2/5 | 4.1/5 | 3.8/5 | 2.5/5 |
| Competitor B (Tacotron) | 3.5/5 | 3.2/5 | 4.0/5 | 4.0/5 |لاحظ درجة 'استقرار المحتوى الطويل'. ينهار المنافس أ بعد 20 ثانية، بينما تحافظ MorVoice على التماسك لساعات.
الأسئلة الشائعة التقنية
هل الانتشار أبطأ من شبكات GAN؟
تاريخياً، نعم. لكن MorVoice تستخدم تقنية تسمى 'Consistency Distillation' لتقليل وقت الاستدلال إلى 68 مللي ثانية.
هل يهلوِس بكلمات؟
تشتهر النماذج الانحدارية الذاتية بتكرار الكلمات. نماذج الانتشار أكثر استقراراً بطبيعتها.
الخلاصة: المستقبل منتشر
تماماً كما قضت DALL-E على مولدات الفن القديمة، يسيطر الانتشار على الصوت.
Listen to the samples on our homepage. The proof is in the spectrogram.