TensorFlow 2.21 beschleunigt KI auf Endgeräten

Stand: 07. March 2026, 15:45 Uhr Berlin Auf einen Blick Google hat TensorFlow 2.21 veröffentlicht und verlagert den bisherigen TensorFlow-Lite-Stack in LiteRT. Das Update erweitert…

Von Wolfgang

07. März 20263 Min. Lesezeit

TensorFlow 2.21 beschleunigt KI auf Endgeräten

Google hat TensorFlow 2.21 veröffentlicht und verlagert den bisherigen TensorFlow-Lite-Stack in LiteRT. Das Update erweitert den Support für NPU-Beschleunigung und neue Niedrigpräzisionsformate. Für Entwickler von Edge-KI sinken damit Initialisierungszeiten und der Aufwand für die…

Stand: 07. March 2026, 15:45 Uhr

Berlin

Auf einen Blick

Das Wichtigste

Google hat TensorFlow 2.21 freigegeben und LiteRT als neuen Laufzeitpfad für On-Device-KI hervorgehoben.
Neu sind unter anderem zusätzliche Operatoren für INT2, INT4, INT8 und INT16x8 sowie ein Compiled-Model-Ansatz für CPU, GPU und NPU.
Betroffen sind Entwickler von Android-, iOS- und Linux-Anwendungen, die Modelle direkt auf Geräten ausführen.

Google stellt TensorFlow 2.21 bereit

Google hat TensorFlow 2.21 veröffentlicht und zugleich die Umstellung von TensorFlow Lite auf LiteRT weiter vorangetrieben. Im Mittelpunkt stehen schnellere Ausführung von KI-Modellen auf Endgeräten und ein breiterer Support für NPUs. Damit verschiebt sich die praktische Bereitstellung von Modellen stärker in Richtung lokaler Verarbeitung auf Smartphones, Embedded-Systemen und anderen Geräten.

Neue Laufzeit und mehr Hardware-Support

Nach den Release-Hinweisen von TensorFlow und den Unterlagen zum LiteRT-Projekt ergänzt Version 2.21 mehrere Operatoren und Datentypen für niedrige Präzision. Genannt werden unter anderem INT2- und INT4-Unterstützung in Teilen des Stacks sowie Erweiterungen für INT8 und INT16x8. Zugleich verweist Google bei der Ausführung auf LiteRT als eigenständiges Projekt. Dort beschreibt das Unternehmen eine Laufzeit mit automatischer Auswahl von Beschleunigern, asynchroner Ausführung und Pufferübergaben ohne zusätzliche Kopiervorgänge. In der NPU-Dokumentation nennt Google Qualcomm und MediaTek als unterstützte Plattformen, für Google Tensor ist der Support als experimentell beschrieben.

Folgen für Anwendungen in Europa

Für Anbieter von Apps und Gerätesoftware in Deutschland und der EU bedeutet das Update vor allem kürzere Wege bei der lokalen KI-Ausführung. Modelle lassen sich stärker auf NPUs und GPUs verlagern, was Rechenlast und Speicherzugriffe auf dem Hauptprozessor senken kann. Google nennt in seinen NPU-Beispielen deutlich kürzere Initialisierungszeiten bei zwischengespeicherter Kompilierung. Konkrete, herstellerübergreifende Vergleichswerte für alle unterstützten Chips veröffentlicht das Unternehmen bislang nicht. Für Endnutzer kann die stärkere Verarbeitung auf dem Gerät Latenzen senken und Datenübertragungen an externe Server verringern.

Nächste Schritte bei der Umstellung

Als nächstes dürfte die Migration bestehender TensorFlow-Lite-Projekte auf LiteRT an Bedeutung gewinnen. Google dokumentiert dafür neue Schnittstellen und verweist auf eigene Werkzeuge für Build-Prozesse, AOT-Kompilierung und die Einbindung von NPU-Laufzeitbibliotheken. Offen bleibt, wie schnell Hardware-Partner den erweiterten Support flächendeckend in konkrete Geräteprofile und stabile Produktionsumgebungen überführen.

Einordnung

TensorFlow 2.21 setzt den Schwerpunkt klar auf KI-Ausführung direkt auf Endgeräten. Mit LiteRT, erweitertem NPU-Support und zusätzlichen Niedrigpräzisionsformaten schafft Google dafür die technische Grundlage. Die praktische Wirkung hängt nun vor allem von der Unterstützung durch Chipanbieter und Gerätehersteller ab.