Schlagwort: Benchmark

09.02.2026

Wirtschaft

Synergy nimmt 2,4-GWh-Batteriespeicher Collie in Betrieb

Stand: 09. February 2026, 13:46 Uhr Berlin Auf einen Blick Der Energieversorger Synergy hat den Batteriespeicher Collie mit 500 Megawatt Leistung und 2,4 Gigawattstunden Kapazität
Weiterlesen
27.01.2026

KI

GPT-5.2: Was das neue Spitzenmodell bei KI-Assistenz und Kosten ändert

Zuletzt aktualisiert: 27. January 2026 Berlin, 27. January 2026 Auf einen Blick Mit GPT-5.2 steht ein neues Spitzenmodell unter den KI-Modellen bereit. Entscheidend sind weniger
Weiterlesen
22.12.2025

Hardware

Warum ein Mini‑PC kein vollwertiger Desktop‑Ersatz ist

Mini‑PC vs Desktop: Kleine Rechner sparen Platz und Energie, aber nicht immer Leistung oder Aufrüstbarkeit. Viele Mini‑PCs reichen für Office, Streaming und Alltagsarbeit – bei
Weiterlesen
13.12.2025

KI

Kleine LLMs, große Leistung: Wie Daten‑Rezepte 3B‑Modelle stärken

Modelle mit nur wenigen Milliarden Parametern können überraschend viel leisten, wenn die Trainingsdaten stimmen. Dieses Stück zeigt, wie datenzentrierte Trainingsrezepte kleine Sprachmodelle konkret stärken und
Weiterlesen
03.12.2025

KI

Mistral 3 Inferenz: Was steckt hinter der 10×‑Aussage?

Anbieter und Medien nennen für Mistral 3 in Verbindung mit NVIDIAs GB200 NVL72 ungewöhnlich hohe Beschleunigungen — oft als “10×” formuliert. Diese Zahl fällt in
Weiterlesen
30.11.2025

KI

Neues Audio‑LLM Step‑Audio‑R1 nutzt Test‑Time Compute Scaling

Zuletzt aktualisiert: 30. November 2025 Berlin, 30. November 2025 Insights Step‑Audio‑R1 ist ein neues Audio‑LLM, das Modality‑Grounded Reasoning Distillation (MGRD) mit Test‑Time Compute Scaling kombiniert.
Weiterlesen
25.11.2025

KI

PropensityBench: Warum Agenten unter Druck riskanter handeln

PropensityBench ist ein 2025 entwickeltes Benchmark, das die Neigung von KI‑Agenten zu riskantem Verhalten in realitätsnahen Szenarien misst. Es zeigt, wie Zeitdruck, knappe Ressourcen und
Weiterlesen
21.11.2025

KI

Olmo 3: Was offene 7B/32B‑Modelle für reproduzierbare LLM‑Forschung bedeuten

Zuletzt aktualisiert: 2025-11-21 Kurzfassung Olmo 3 open models stehen für eine seltene Kombination: vollständig offen publizierte Modelle (7B und 32B), ein nachvollziehbares „model flow“ und
Weiterlesen
19.11.2025

Smartphone

Snapdragon 8 Gen 5: OnePlus Ace 6T mit Top-Leistung 2025

Zuletzt aktualisiert: 19. November 2025 Berlin, 19. November 2025 Kurzfassung Qualcomm enthüllt den Snapdragon 8 Gen 5 am 26. November 2025. Der Prozessor bringt starke
Weiterlesen
15.11.2025

KI

Warum Lasttests bei KI versagen: Token‑Durchsatz, Confusion & Kontext

Zuletzt aktualisiert: 15. November 2025 Kurzfassung Klassische Lasttests messen oft nur Token‑Durchsatz. Wer aber sinnvolle AI‑Performance verstehen will, muss token throughput testing mit Wahrnehmungsmetriken koppeln:
Weiterlesen
14.11.2025

Smartphone

Poco F8 Ultra: Starke Geekbench-Scores mit Snapdragon 8 Elite

Zuletzt aktualisiert: 14. November 2025 Berlin, 14. November 2025 Kurzfassung Das Poco F8 Ultra zeigt in Geekbench-Ergebnissen starke Werte. Mit dem Snapdragon 8 Elite Gen
Weiterlesen
11.11.2025

KI

Gelato‑30B‑A3B: Zuverlässiges GUI‑Grounding für Agenten

Zuletzt aktualisiert: 11. November 2025 Kurzfassung Gelato‑30B‑A3B ist ein spezialisiertes GUI‑Grounding‑Modell, trainiert auf dem öffentlichen Click‑100k‑Datensatz. Der Beitrag erklärt, wie das Modell trainiert wurde, welche
Weiterlesen
09.11.2025

KI

TabPFN‑2.5: Deep Dive zu Tabular Foundation Models

Zuletzt aktualisiert: 9. November 2025 Kurzfassung TabPFN‑2.5 ist ein Tabular Foundation Model, das One‑Forward‑Pass‑Inferenz für große Tabellen anstrebt. Dieser Text fasst die Architekturidee, die Herstelleraussagen
Weiterlesen
09.11.2025

Software

Von MCP-Tools zu TypeScript‑APIs: 98 % weniger Token

Zuletzt aktualisiert: 9. November 2025 Kurzfassung Der Artikel erklärt, wie das Muster „code execution with MCP” Tools und Daten aus dem Modellkontextfenster verlagert, um Tokenkosten
Weiterlesen
08.11.2025

KI

K2 Thinking: Open‑Source Thinking Agent mit 256k Kontextfenster

Zuletzt aktualisiert: 08. November 2025 Berlin, 08. November 2025 Kurzfassung K2 Thinking ist ein Open‑Source “thinking agent” von Moonshot/Kimi mit 256k Kontextfenster. Laut Projektseite erzielt
Weiterlesen