Freitag, 24. April 2026

KI

Mistral veröffentlicht Voxtral TTS für KI-Stimmen

Stand: 29. März 2026, 17:45 Uhr Berlin Auf einen Blick Mistral AI hat mit Voxtral TTS ein offenes Text-zu-Sprache-Modell vorgestellt. Nach Angaben des Unternehmens unterstützt…

Von Wolfgang

29. März 20262 Min. Lesezeit

Mistral veröffentlicht Voxtral TTS für KI-Stimmen

Mistral AI hat mit Voxtral TTS ein offenes Text-zu-Sprache-Modell vorgestellt. Nach Angaben des Unternehmens unterstützt das System neun Sprachen, ist per API und in Mistral Studio verfügbar und soll Audio mit niedriger Startlatenz erzeugen.…

Stand: 29. März 2026, 17:45 Uhr
Berlin

Auf einen Blick

Mistral AI hat mit Voxtral TTS ein offenes Text-zu-Sprache-Modell vorgestellt. Nach Angaben des Unternehmens unterstützt das System neun Sprachen, ist per API und in Mistral Studio verfügbar und soll Audio mit niedriger Startlatenz erzeugen. Damit erweitert Mistral sein Angebot für sprachbasierte KI-Anwendungen.

Das Wichtigste

  • Mistral AI hat Voxtral TTS am 26. März als neues Text-zu-Sprache-Modell vorgestellt.
  • Mistral nennt neun unterstützte Sprachen, offene Gewichte unter CC BY-NC 4.0 und einen Preis von 0,016 US-Dollar je 1.000 Zeichen über die API.
  • Das Modell ist in Mistral Studio, über die API und über Hugging Face verfügbar.

Mistral stellt Voxtral TTS offiziell vor

Mistral AI hat am 26. März Voxtral TTS veröffentlicht. Das Text-zu-Sprache-Modell steht laut Unternehmen in Mistral Studio, über die API und mit offenen Gewichten auf Hugging Face bereit. Mistral nennt neun unterstützte Sprachen und eine Streaming-Latenz von rund 100 Millisekunden bis zum ersten Audio. Mit dem Start ergänzt das Unternehmen seine Voxtral-Reihe um ein eigenes Modell für Sprachausgabe.

Neun Sprachen und Preis pro 1.000 Zeichen

Nach Angaben von Mistral unterstützt Voxtral TTS neun Sprachen. Das Unternehmen verlangt für die Nutzung über die API 0,016 US-Dollar je 1.000 Zeichen. In der Dokumentation nennt Mistral zudem Zero-shot Voice Cloning mit Sprachproben von fünf bis 25 Sekunden sowie eine native Audiolänge von bis zu zwei Minuten. Die offene Version verweist Mistral auf Hugging Face.

Offene Gewichte erweitern das Sprachangebot

Mit Voxtral TTS deckt Mistral nun neben Sprachmodellen und Sprachverarbeitung auch die Sprachausgabe innerhalb derselben Produktfamilie ab. Für Entwickler und Unternehmen, die Sprachfunktionen in Anwendungen integrieren, ist vor allem die Kombination aus gehosteter API und offenen Gewichten relevant. Sie erlaubt sowohl den direkten Bezug über Mistrals Infrastruktur als auch eigene Implementierungen im Rahmen der Lizenz.

Nutzung startet über Studio, API und Hugging Face

Das Modell ist nach Unternehmensangaben ab sofort in Mistral Studio verfügbar und kann über die API eingebunden werden. Die offenen Gewichte stehen auf Hugging Face bereit. Weitere Termine für zusätzliche Versionen nannte das Unternehmen bislang nicht.

Neues Produkt im Markt für Sprach-KI

Die Veröffentlichung ist ein aktueller Produktausbau im Markt für generative Sprachsysteme. Für Mistral ist Voxtral TTS der Schritt von Sprachverstehen und Sprachverarbeitung zur Sprachausgabe innerhalb einer gemeinsamen Modellfamilie.