Schlagwort: Benchmark
-

Synergy nimmt 2,4-GWh-Batteriespeicher Collie in Betrieb
Stand: 09. February 2026, 13:46 Uhr Berlin Auf einen Blick Der Energieversorger Synergy hat den Batteriespeicher Collie mit 500 Megawatt Leistung und 2,4 Gigawattstunden Kapazität

GPT-5.2: Was das neue Spitzenmodell bei KI-Assistenz und Kosten ändert
Zuletzt aktualisiert: 27. January 2026 Berlin, 27. January 2026 Auf einen Blick Mit GPT-5.2 steht ein neues Spitzenmodell unter den KI-Modellen bereit. Entscheidend sind weniger

Warum ein Mini‑PC kein vollwertiger Desktop‑Ersatz ist
Mini‑PC vs Desktop: Kleine Rechner sparen Platz und Energie, aber nicht immer Leistung oder Aufrüstbarkeit. Viele Mini‑PCs reichen für Office, Streaming und Alltagsarbeit – bei

Kleine LLMs, große Leistung: Wie Daten‑Rezepte 3B‑Modelle stärken
Modelle mit nur wenigen Milliarden Parametern können überraschend viel leisten, wenn die Trainingsdaten stimmen. Dieses Stück zeigt, wie datenzentrierte Trainingsrezepte kleine Sprachmodelle konkret stärken und

Mistral 3 Inferenz: Was steckt hinter der 10×‑Aussage?
Anbieter und Medien nennen für Mistral 3 in Verbindung mit NVIDIAs GB200 NVL72 ungewöhnlich hohe Beschleunigungen — oft als “10×” formuliert. Diese Zahl fällt in

Neues Audio‑LLM Step‑Audio‑R1 nutzt Test‑Time Compute Scaling
Zuletzt aktualisiert: 30. November 2025 Berlin, 30. November 2025 Insights Step‑Audio‑R1 ist ein neues Audio‑LLM, das Modality‑Grounded Reasoning Distillation (MGRD) mit Test‑Time Compute Scaling kombiniert.

PropensityBench: Warum Agenten unter Druck riskanter handeln
PropensityBench ist ein 2025 entwickeltes Benchmark, das die Neigung von KI‑Agenten zu riskantem Verhalten in realitätsnahen Szenarien misst. Es zeigt, wie Zeitdruck, knappe Ressourcen und

Olmo 3: Was offene 7B/32B‑Modelle für reproduzierbare LLM‑Forschung bedeuten
Zuletzt aktualisiert: 2025-11-21 Kurzfassung Olmo 3 open models stehen für eine seltene Kombination: vollständig offen publizierte Modelle (7B und 32B), ein nachvollziehbares „model flow“ und

Snapdragon 8 Gen 5: OnePlus Ace 6T mit Top-Leistung 2025
Zuletzt aktualisiert: 19. November 2025 Berlin, 19. November 2025 Kurzfassung Qualcomm enthüllt den Snapdragon 8 Gen 5 am 26. November 2025. Der Prozessor bringt starke

Warum Lasttests bei KI versagen: Token‑Durchsatz, Confusion & Kontext
Zuletzt aktualisiert: 15. November 2025 Kurzfassung Klassische Lasttests messen oft nur Token‑Durchsatz. Wer aber sinnvolle AI‑Performance verstehen will, muss token throughput testing mit Wahrnehmungsmetriken koppeln:

Poco F8 Ultra: Starke Geekbench-Scores mit Snapdragon 8 Elite
Zuletzt aktualisiert: 14. November 2025 Berlin, 14. November 2025 Kurzfassung Das Poco F8 Ultra zeigt in Geekbench-Ergebnissen starke Werte. Mit dem Snapdragon 8 Elite Gen

Gelato‑30B‑A3B: Zuverlässiges GUI‑Grounding für Agenten
Zuletzt aktualisiert: 11. November 2025 Kurzfassung Gelato‑30B‑A3B ist ein spezialisiertes GUI‑Grounding‑Modell, trainiert auf dem öffentlichen Click‑100k‑Datensatz. Der Beitrag erklärt, wie das Modell trainiert wurde, welche

TabPFN‑2.5: Deep Dive zu Tabular Foundation Models
Zuletzt aktualisiert: 9. November 2025 Kurzfassung TabPFN‑2.5 ist ein Tabular Foundation Model, das One‑Forward‑Pass‑Inferenz für große Tabellen anstrebt. Dieser Text fasst die Architekturidee, die Herstelleraussagen

Von MCP-Tools zu TypeScript‑APIs: 98 % weniger Token
Zuletzt aktualisiert: 9. November 2025 Kurzfassung Der Artikel erklärt, wie das Muster „code execution with MCP” Tools und Daten aus dem Modellkontextfenster verlagert, um Tokenkosten

K2 Thinking: Open‑Source Thinking Agent mit 256k Kontextfenster
Zuletzt aktualisiert: 08. November 2025 Berlin, 08. November 2025 Kurzfassung K2 Thinking ist ein Open‑Source “thinking agent” von Moonshot/Kimi mit 256k Kontextfenster. Laut Projektseite erzielt