لماذا انتقلنا من المحولات إلى الانتشار الكامن للصوت
يعتمد معيار الصناعة على المحولات الانحدارية الذاتية. هذه رائعة للنص، لكن الصوت مستمر. غالباً ما يؤدي هذا إلى 'تحف روبوتية' عندما يرتبك النموذج.
The Diffusion Paradigm Shift
تستخدم Morvoice نموذج انتشار كامن (LDM). بدلاً من التنبؤ بالخطوة التالية، نبدأ بضوضاء نقية ونقوم 'بإزالة الضوضاء' منها بشكل تكراري. هذا يسمح بعملية توليد شاملة.
Handling Breath and Pauses
لأن الانتشار يراعي السياق بالكامل، فإنه يدرج بشكل طبيعي الأنفاس *قبل* الجمل الطويلة، محاكياً الفسيولوجيا البشرية. هذا هو السر وراء درجة 'الطبيعية' العالية لدينا.