Dienstag, 23. Juni 2026

KI

Zhipu AI veröffentlicht GLM-OCR für Dokumentanalyse

Stand: 15. March 2026, 15:45 Uhr Berlin Auf einen Blick Zhipu AI hat mit GLM-OCR ein neues OCR-Modell für die Auswertung von Dokumenten veröffentlicht. Das…

Von Wolfgang

15. März 20263 Min. Lesezeit

Zhipu AI veröffentlicht GLM-OCR für Dokumentanalyse

Zhipu AI hat mit GLM-OCR ein neues OCR-Modell für die Auswertung von Dokumenten veröffentlicht. Das Modell soll Text, Tabellen, Formeln und strukturierte Felder auslesen und steht als Open-Source-Projekt sowie über einen Cloud-Dienst bereit.

Stand: 15. March 2026, 15:45 Uhr
Berlin

Auf einen Blick

Zhipu AI hat mit GLM-OCR ein neues OCR-Modell für die Auswertung von Dokumenten veröffentlicht. Das Modell soll Text, Tabellen, Formeln und strukturierte Felder auslesen und steht als Open-Source-Projekt sowie über einen Cloud-Dienst bereit.

Das Wichtigste

  • Zhipu AI hat GLM-OCR im März 2026 als neues Modell für Dokumentanalyse veröffentlicht.
  • Der technische Bericht nennt 0,9 Milliarden Parameter und einen Wert von 94,62 Punkten auf OmniDocBench v1.5.
  • Betroffen sind Entwickler und Unternehmen, die PDF-Dateien, Scans und Formularinhalte automatisiert verarbeiten wollen.

Veröffentlichung mit Fokus auf Dokumente

Zhipu AI hat das OCR-Modell GLM-OCR veröffentlicht und dazu einen technischen Bericht, ein GitHub-Repository sowie ein Modellpaket auf Hugging Face bereitgestellt. Das System ist auf die Auswertung komplexer Dokumente ausgelegt, darunter Textseiten, Tabellen und Formeln. Damit erweitert der Anbieter sein Portfolio um ein Modell, das nicht auf allgemeine Bildanalyse, sondern auf Dokumentverarbeitung zielt.

Technische Angaben zum Start

Nach Angaben von Zhipu AI umfasst GLM-OCR 0,9 Milliarden Parameter. Der Aufbau kombiniert einen visuellen Encoder mit 0,4 Milliarden Parametern und einen Sprachdecoder mit 0,5 Milliarden Parametern. Laut technischem Bericht arbeitet das System in zwei Schritten: Zunächst erkennt es Layout-Bereiche auf einer Seite, danach liest es einzelne Regionen parallel aus. Der Bericht nennt als Leistungswert 94,62 Punkte auf OmniDocBench v1.5. Für die Verarbeitung gibt Zhipu AI eine Geschwindigkeit von 1,86 PDF-Seiten pro Sekunde und 0,67 Bildern pro Sekunde an.

Verfügbarkeit und mögliche Nutzung

GLM-OCR ist laut Projektseite als Open-Source-Modell verfügbar. Der Quellcode steht auf GitHub, die Gewichte werden über Hugging Face verteilt. Zhipu AI verweist zudem auf einen eigenen MaaS-Dienst für den Betrieb über eine Programmierschnittstelle. Für Nutzer in Deutschland und der EU ist damit sowohl eine lokale Integration als auch ein externer Cloud-Betrieb möglich. Angaben zu regional getrennten Rechenzentren oder vertraglichen Datenschutzoptionen macht die Produktbeschreibung in den Kernunterlagen nicht im Detail.

Nächste Schritte nach dem Start

Mit der Veröffentlichung liegen bereits SDKs, Beispielcode und Hinweise für den Betrieb über vLLM, SGLang und Ollama vor. Damit kann das Modell direkt in bestehende Dokumenten-Workflows eingebunden werden. Ob sich die im Bericht genannten Leistungswerte im breiten Praxiseinsatz bestätigen, dürfte nun von unabhängigen Tests in Unternehmen und Entwicklerteams abhängen.

Einordnung zum Marktstart

Mit GLM-OCR bringt Zhipu AI ein spezialisiertes OCR-Modell für Dokumente auf den Markt. Neu ist vor allem die Kombination aus offener Bereitstellung, kompaktem Modellformat und dem Anspruch auf hohe Verarbeitungsgeschwindigkeit bei strukturierten Inhalten.