Microsoft veröffentlicht Phi-4-Reasoning-Vision-15B

Stand: 07. March 2026, 17:45 Uhr
Berlin

Auf einen Blick

Microsoft hat Phi-4-Reasoning-Vision-15B veröffentlicht. Das multimodale Modell verarbeitet Bilder und Text, läuft laut Hersteller als Open-Weight-Modell auf Hugging Face, GitHub und Microsoft Foundry und zielt auf kompakte KI-Anwendungen mit Bildverständnis. Für Entwickler bedeutet das einen neuen offenen Baustein für lokale und Cloud-basierte Systeme.

Das Wichtigste

  • Microsoft hat Phi-4-Reasoning-Vision-15B am 4. März 2026 als offenes multimodales Modell vorgestellt.
  • Das Modell unterstützt laut Model Card einen Kontext von 16.384 Tokens und kombiniert ein Sprachmodell mit einem Vision-Encoder.
  • Verfügbar ist Phi-4-Reasoning-Vision-15B über Hugging Face, GitHub und Microsoft Foundry.

Microsoft schaltet neues Bildmodell frei

Microsoft hat mit Phi-4-Reasoning-Vision-15B ein neues KI-Modell für Bild- und Textverarbeitung freigegeben. Das Modell wurde am 4. März veröffentlicht und ist als Open-Weight-Angebot für Entwickler verfügbar. Damit erweitert Microsoft die Phi-4-Reihe um eine Variante, die visuelle Eingaben in Anwendungen mit begrenzterem Rechenbudget einbinden soll.

Technische Daten und Verbreitung

Nach Angaben von Microsoft Research basiert Phi-4-Reasoning-Vision-15B auf dem Phi-4-Reasoning-Sprachmodell und ergänzt es um einen Vision-Encoder aus der SigLIP-2-Familie. Der technische Bericht beschreibt eine Mid-Fusion-Architektur, bei der Bild- und Textinformationen gemeinsam verarbeitet werden. Die offizielle Model Card auf Hugging Face nennt eine Kontextlänge von 16.384 Tokens. Microsoft verteilt das Modell über Hugging Face, ein GitHub-Repository und Microsoft Foundry. Die Freigabe erfolgt unter MIT-Lizenz. Im technischen Bericht nennt das Unternehmen Einsatzfelder wie visuelles Schlussfolgern, Diagrammverständnis, mathematische Aufgaben mit Bildbezug und die Analyse grafischer Benutzeroberflächen.

Folgen für Entwickler und Anbieter

Für Anbieter in Deutschland und der EU ist vor allem relevant, dass Phi-4-Reasoning-Vision-15B als offenes Modell direkt in eigene Systeme eingebunden werden kann. Das senkt die Abhängigkeit von reinen API-Diensten und erleichtert Tests in lokalen oder unternehmenseigenen Umgebungen. Microsoft empfiehlt für den Betrieb aktuelle Beschleuniger und nennt in den Unterlagen unter anderem H100-, B200- und A100-Systeme. Konkrete Preise für einen gehosteten Betrieb nennt Microsoft bislang nicht.

Nächste Schritte nach der Freigabe

Als nächstes dürfte die praktische Nutzung über Hugging Face, GitHub und Microsoft Foundry im Vordergrund stehen. Microsoft hat den technischen Bericht, die Gewichte und Beispielcode bereits veröffentlicht. Damit können Entwickler die im Bericht genannten Benchmarks und Einsatzszenarien nachvollziehen. Ob weitere Varianten der Modellfamilie breit ausgerollt werden, bleibt offen.

Einordnung

Mit Phi-4-Reasoning-Vision-15B bringt Microsoft ein offenes multimodales Modell in die Phi-Reihe. Der Schritt ist vor allem für Softwareanbieter relevant, die Bildverständnis und sprachbasiertes Schlussfolgern mit einem kleineren Modell kombinieren wollen.

In diesem Artikel

Newsletter

Die wichtigsten Tech- & Wirtschaftsthemen – 1× pro Woche.

Avatar von Wolfgang

→ Weitere Artikel des Autors

Newsletter

Einmal pro Woche die wichtigsten Tech- und Wirtschafts-Takeaways.

Kurz, kuratiert, ohne Bullshit. Perfekt für den Wochenstart.

[newsletter_form]