Das Ende von HTTP: Warum Morvoice eine native WebSocket-Architektur für <70ms Latenz gebaut hat

Kian R., VP of Engineering

11/15/2025

Die 500ms-Barriere

Seien wir ehrlich: Einen konversationellen KI-Agenten im Jahr 2025 zu bauen, ist einfach. Einen zu bauen, der sich *nicht* seltsam anfühlt, ist unglaublich schwer. Der Schuldige? Latenz. Das menschliche Gehirn nimmt eine Lücke von >200ms im Gespräch als 'Zögern' oder 'Verzögerung' wahr. Die meisten TTS-Anbieter verlassen sich auf Standard-HTTP/2-REST-APIs. Dies führt zu einem obligatorischen Handshake-Overhead für jeden einzelnen Gesprächswechsel.

Die Anatomie einer Anfrage: Wo Wettbewerber scheitern

Wenn Sie eine Anfrage an einen alten Anbieter (z.B. ElevenLabs oder OpenAI TTS) senden, passiert folgender Wasserfall:

Legacy Flow (HTTP):
1. TCP Handshake (1-2 RTT)
2. TLS Negotiation (1-2 RTT)
3. Header Processing
4. Inference Queueing (Cold Start)
5. Audio Buffering (Wait for chunks)
6. Download Start
--> TOTAL: 350ms - 600ms (Optimistic)

Das ist für Echtzeit-Agenten inakzeptabel. Bis das Audio abgespielt wird, hat Ihr Benutzer den Bot bereits unterbrochen. Morvoice wählte einen anderen Ansatz. Wir haben nicht nur das Modell optimiert; wir haben die Transportschicht neu geschrieben.

Einführung von Morvoice Turbo-Socket™

Wir nutzen persistente, bidirektionale WebSocket-Verbindungen, die auf das Streaming von PCM-Audio (16-Bit, 24kHz oder 44.1kHz) zugeschnitten sind. Sobald der Socket offen ist, ist der Overhead für das Senden eines neuen Text-Tokens effektiv null. Wir streamen Audio-Bytes, *während* die Inferenz-Engine noch das Ende des Satzes berechnet.

// Morvoice Implementation (Zero-Overhead)
const socket = new MorvoiceSocket({ 
  apiKey: 'mv_live_...', 
  format: 'pcm_24000'
});

// The socket stays open. No handshakes between turns.
socket.on('data', (audioChunk) => player.feed(audioChunk));

// Send text instantly
socket.send("The latency here is undetectable.");

Benchmark: TTFB (Time to First Byte)

Wir haben 5.000 Anfragen von einer Vercel Edge Function in Frankfurt getestet. Die Ergebnisse sind gemittelt.

| Provider | Protocol | TTFB (p50) | TTFB (p99) | Jitter |
| :--- | :--- | :--- | :--- | :--- |
| **Morvoice Turbo** | **WebSocket** | **68ms** | **95ms** | **Low** |
| ElevenLabs Turbo v2.5 | WebSocket | 240ms | 410ms | High |
| OpenAI TTS-1 | REST | 380ms | 650ms | Medium |
| Azure Neural | REST | 420ms | 580ms | Low |

Der Wechsel zu Morvoice war der einzige Weg, unseren KI-Verkaufsagenten natürlich klingen zu lassen. Die Unterbrechungsbehandlung ist nahtlos, da die Latenz praktisch nicht existent ist.
Engineering Lead, Vapi.ai Wettbewerber

Fazit

Wenn Sie Offline-Inhalte erstellen, ist HTTP in Ordnung. Aber für die nächste Generation von KI-Apps sind WebSockets obligatorisch. Morvoice ist derzeit der einzige Anbieter, der eine native, ungedrosselte WebSocket-Infrastruktur im großen Maßstab anbietet.