Auf einen Blick
Kani‑TTS‑2 ist als Open-Source-Sprachsynthese veröffentlicht und unterstützt Stimmenklonen über Referenz-Audio auch bei lokaler Ausführung. Nach Angaben der Projektseite soll das Modell mit geringer GPU-Speicherauslastung laufen. Die Veröffentlichung senkt die Einstiegshürde für synthetische Stimmen und verschiebt Anforderungen an Datenschutz und Betrugsprävention.
Das Wichtigste
- Das Projekt nineninesix hat Kani‑TTS‑2 als frei nutzbares TTS-Modell mit Voice-Cloning-Funktion veröffentlicht.
- Laut Model Card steht das System unter der Apache-2.0-Lizenz und setzt auf eine Audio-Token-Architektur mit Neural-Codec-Decoding.
- Entwickler und Unternehmen können das Modell lokal betreiben; die Dokumentation nennt dafür eine geringe VRAM-Anforderung von rund 3 GB.
Veröffentlichung mit Fokus auf lokale Ausführung
Der Entwickler nineninesix hat Kani‑TTS‑2 veröffentlicht, ein Text-to-Speech-Modell, das Stimmen anhand kurzer Referenzaufnahmen nachbilden kann. Im Unterschied zu vielen kommerziellen Angeboten ist der Betrieb laut Projektangaben auch auf eigener Hardware möglich. Damit wird Sprachsynthese mit Voice-Cloning für mehr Anwendungsfälle technisch und organisatorisch relevant.
Technische Eckdaten und Lizenz
Nach Angaben der Projekt-Dokumentation handelt es sich bei Kani‑TTS‑2 um ein Modell der 400-Millionen-Parameter-Klasse, das Audio als Folge diskreter Tokens erzeugt. Für die Umwandlung der Tokens in ein Audiosignal verweist das Projekt auf NVIDIA NanoCodec, ausgegeben wird Audio mit 22 kHz. Für das Stimmenklonen nutzt das System einen Sprecher-Embedding-Ansatz mit 128 Dimensionen, der aus einer Referenzaufnahme berechnet und bei der Generierung übergeben wird.
Die Model Card nennt als Ziel geringe Hardwareanforderungen, unter anderem eine VRAM-Nutzung von rund 3 GB bei GPU-Inferenz. Das Projekt stellt Quellcode und Modelle öffentlich bereit und weist die Apache-2.0-Lizenz aus, die eine kommerzielle Nutzung grundsätzlich erlaubt.
Wichtig: Konkrete Angaben zu unabhängigen Qualitätsmessungen, etwa standardisierten Hörtests, bleiben bislang offen.
Bedeutung für Deutschland und Europa
Für Anwendungen in Deutschland und der EU verlagert die Möglichkeit des lokalen Betriebs den Schwerpunkt von Plattformregeln hin zu organisatorischen Kontrollen bei Betreibern und Nutzern. Sprachaufnahmen und daraus abgeleitete Sprechermerkmale können personenbezogene Daten sein. Wenn Stimmenmerkmale zur eindeutigen Identifizierung eingesetzt werden, können zudem besondere Schutzanforderungen nach der DSGVO greifen. In der Praxis betrifft das vor allem Szenarien mit Kundenkommunikation, Authentifizierung oder automatisierten Anrufen, in denen synthetische Stimmen als Identitätsmerkmal missbraucht werden können.
Wie es weitergeht
Mit der Veröffentlichung liegen Modell, Beispielcode und ein Pretraining-Repository vor. Damit können Dritte das System in eigene Anwendungen integrieren oder weiterentwickeln. Für den Einsatz in produktiven Umgebungen dürften neben Leistungswerten insbesondere Zugriffs- und Nachweiskonzepte beim Umgang mit Referenzaufnahmen eine Rolle spielen, etwa bei der Speicherung und Weitergabe von Sprecherprofilen.
Einordnung
Kani‑TTS‑2 erweitert den Kreis lokal betreibbarer TTS-Systeme um eine Voice-Cloning-Funktion mit niedrigen Einstiegshürden. Für Entwickler entsteht damit eine zusätzliche Option jenseits von Cloud-Diensten. Parallel steigt der Druck auf Prozesse, die sich auf Stimme als Merkmal stützen, und auf die datenschutzkonforme Handhabung von Referenzmaterial.





