KI‑Agenten im Job: Neuer Test zeigt, wo sie noch scheitern

KI-Agenten wirken auf den ersten Blick wie digitale Kolleginnen und Kollegen, die Aufgaben am Computer selbstständig erledigen. In der Praxis entscheidet aber ein nüchterner Punkt, ob sie im Job wirklich helfen, nämlich ob sie in realen Programmen und auf echten Webseiten zuverlässig ans Ziel kommen. Neue Tests aus den Jahren 2024 und 2025 setzen genau dort an und messen Erfolg nicht in schönen Antworten, sondern in erledigten Aufgaben. Die Ergebnisse sind spannend, aber auch ernüchternd. Oft scheitern Agenten an kleinen Details, an fehlender Kontrolle und an der Frage, ob ein Ergebnis überhaupt stimmt.

Einleitung

Viele Jobs bestehen nicht aus einer einzigen Aufgabe, sondern aus kleinen Ketten. Du suchst eine Info, kopierst sie in ein Dokument, prüfst eine Zahl, verschickst eine Mail, legst eine Datei ab. Genau so arbeiten Menschen am Laptop. Genau daran scheitert Automatisierung oft, weil die Welt am Bildschirm voller Ausnahmen ist.

Ein KI-Agent soll diese Ketten eigenständig ablaufen. Er liest, klickt, tippt, öffnet Programme und nutzt Tools. Das klingt nach einem großen Schritt über Chatbots hinaus, weil am Ende nicht nur Text entsteht, sondern ein Ergebnis in einer echten Anwendung.

Im Jahr 2024 und 2025 haben Forschende deshalb Benchmarks gebaut, die sich weniger wie ein Quiz anfühlen und mehr wie ein Arbeitstag am Rechner. Solche Tests sind eine Art Hindernisparcours. Sie zeigen, wo Agenten überraschend gut sind, aber auch, wo kleine Bedienfehler alles stoppen. Für den Alltag ist das wichtiger als jede Demo, weil Verlässlichkeit am Ende Zeit und Vertrauen entscheidet.

Warum KI-Agenten im Job so schwer zu testen sind

Bei klassischen KI Tests reicht oft eine klare Frage und eine eindeutige Antwort. Arbeit am Computer ist anders. Ein Agent kann die richtige Idee haben und trotzdem scheitern, weil ein Button anders heißt, ein Pop-up den Fokus klaut oder ein Formular ein Pflichtfeld enthält, das niemand erwartet hat. In vielen Büros ist genau das Alltag.

Hinzu kommt ein Messproblem. Ein Chatbot kann flüssig klingen, obwohl er sich irrt. Ein Agent kann dagegen eine Aufgabe halb erledigen und dabei unbemerkt etwas Falsches speichern. Für Tests zählt deshalb nicht, ob der Text überzeugend wirkt, sondern ob am Ende der richtige Zustand erreicht ist. Wurde die Datei wirklich exportiert. Wurde die Buchung wirklich angelegt. Wurde der Fehler im Code wirklich behoben, ohne neue zu erzeugen.

Ein Agent ist erst dann hilfreich, wenn man ihm auch bei kleinen Überraschungen zutraut, den Faden nicht zu verlieren.

Gute Benchmarks versuchen genau das zu messen. Sie legen fest, was als Erfolg gilt, und prüfen es möglichst automatisch. Gleichzeitig müssen sie fair bleiben. Ein Test darf nicht nur den Trick belohnen, den ein Modell auswendig gelernt hat. Er sollte reale Variationen abbilden, zum Beispiel unterschiedliche Webseitenstrukturen oder kleine Änderungen in Programmen.

Ein Blick auf die veröffentlichten Zahlen zeigt, warum diese Tests gerade viel Aufmerksamkeit bekommen. Sie machen die Lücke zwischen menschlicher Routine und maschineller Ausführung sichtbar, nicht als Bauchgefühl, sondern als messbare Differenz.

Merkmal Beschreibung Wert
OSWorld Computeraufgaben in echten Desktop Umgebungen, Erfolg wird als erledigte Aufgabe gemessen Menschen rund 72 %, bestes Modell rund 12 %
WebArena Webaufgaben mit vielen Schritten, bewertet wird das tatsächliche Ergebnis Menschen rund 78 %, starke Baseline rund 14 %
SWE-bench Verified Softwarefehler beheben und Tests bestehen, 500 geprüfte Fälle Ein gemeldeter Wert liegt bei rund 33 %
GAIA Alltagsfragen mit Tool Nutzung, Datensatz mit 466 Aufgaben Menschliche Basis rund 92 %

Wie neue Benchmarks Arbeit am Bildschirm nachstellen

Die Idee hinter modernen Agenten Tests ist simpel. Statt nur Text zu bewerten, lässt man das System in einer Umgebung handeln, die sich wie echte Software verhält. Es gibt Klicks, Eingaben, Fehlermeldungen und manchmal auch Sackgassen. Das klingt banal, ist aber ein großer Unterschied, weil die Auswertung dadurch näher an echter Arbeit rückt.

OSWorld ist dafür ein gutes Beispiel. Der Benchmark setzt Agenten an einen Computer, auf dem reale Anwendungen laufen. Erfolgreich ist ein Agent nur, wenn er das gewünschte Ziel erreicht, etwa eine Einstellung ändern oder einen Vorgang korrekt abschließen. In den veröffentlichten Ergebnissen liegt die menschliche Erfolgsrate bei rund 72 %. Das beste getestete Modell erreichte in der ursprünglichen Auswertung rund 12 %. Solche Abstände sind genau der Grund, warum viele Teams Agenten zwar ausprobieren, ihnen aber noch keine kritischen Aufgaben geben.

WebArena richtet den Blick auf den Browser. Der Benchmark nutzt eine realistische Webumgebung mit vielen Schritten pro Aufgabe. In der Konferenzfassung von 2024 wird eine menschliche Erfolgsrate von rund 78 % berichtet. Eine starke GPT 4 Baseline kommt je nach Setup auf rund 14 %. Das ist keine Kleinigkeit, weil Webseiten oft das sind, woran Alltag automatisiert werden soll, von Formularen bis Support Portalen.

SWE-bench Verified geht in eine andere Richtung. Es misst, ob ein System Softwareprobleme beheben kann, so dass Tests wieder grün werden. Das Verified Set umfasst 500 Fälle, die zusätzlich geprüft wurden. In einem Bericht wird für ein modernes Modell eine Quote von rund 33 % auf dem Verified Split genannt. Das ist deutlich besser als frühere Werte, zeigt aber auch, dass zwei Drittel der Fälle noch scheitern. Gerade im Job ist das wichtig, weil ein halbfertiger Fix teurer sein kann als gar keiner.

Und dann gibt es Benchmarks wie GAIA, die allgemeine Assistenten Aufgaben testen, oft mit Tools und Recherche. Der GAIA Datensatz umfasst 466 Aufgaben. Die Studie ist von 2023 und damit älter als zwei Jahre, bleibt aber relevant, weil sie eine klare menschliche Basis von rund 92 % dokumentiert und damit einen stabilen Vergleichspunkt liefert.

Wo Agenten heute noch scheitern und warum das zählt

Die Zahlen sind nur die Oberfläche. Spannender ist die Frage, was hinter dem Scheitern steckt. In vielen Benchmark Berichten taucht ein Muster wieder auf. Agenten verlieren Kontext. Sie machen mehrere richtige Schritte und laufen dann in eine kleine Falle, zum Beispiel eine Seite, die anders lädt als erwartet. Menschen merken das meist sofort, weil sie ein Gefühl für Oberfläche und Ziel behalten. Ein Agent muss das aus Screenshots, Strukturinformationen und seinem eigenen Verlauf rekonstruieren.

Ein zweites Problem ist Verifikation. Ein Agent kann eine Aufgabe scheinbar lösen, aber der letzte Schritt ist falsch. In Webumgebungen ist das zum Beispiel eine Bestellung, die nicht abgeschickt wurde, oder ein Formular, das zwar ausgefüllt ist, aber nicht gespeichert. In Softwarebenchmarks ist es ein Patch, der lokale Tests bestehen lässt, aber an einer versteckten Ecke später bricht. Genau deshalb bauen Benchmarks harte Erfolgskriterien ein. Sie prüfen nicht das Gefühl von Erfolg, sondern den Zustand.

Drittens geht es um Robustheit gegen kleine Änderungen. Menschen kommen damit klar, dass ein Menü an eine andere Stelle wandert. Agenten reagieren darauf oft empfindlich, besonders wenn sie auf genaue Texte oder Layouts angewiesen sind. Das ist im Job ein echtes Risiko, weil sich Tools ständig verändern. Selbst harmlose Updates können Arbeitsabläufe brechen.

Viertens ist da die Frage der Verantwortung. In vielen realen Szenarien hat ein Agent Zugriff auf sensible Daten. Schon ein kleiner Fehlklick kann zu einem falschen Versand oder einer unerwünschten Freigabe führen. Benchmarks testen meist keine echten personenbezogenen Daten, aber sie zeigen, wie leicht Aktionen aus dem Ruder laufen, wenn der Agent nicht zuverlässig stoppt und prüft.

Für Unternehmen bedeutet das eine klare Spannung. Der Nutzen entsteht genau dort, wo Aufgaben lang und repetitiv sind. Das Risiko entsteht dort, wo ein Agent mehr Rechte hat als ein Mensch, der kurz nachdenkt. Deshalb ist die wichtige Frage nicht, ob ein Agent beeindruckend klingt, sondern wie er sich verhält, wenn er unsicher wird, und ob sein Systemdesign das auffängt.

Was sich bis 2026 abzeichnet und was realistisch ist

Benchmarks wie OSWorld und WebArena wirken manchmal wie schlechte Nachrichten, weil die Quoten niedrig sind. Gleichzeitig zeigen sie, wo Fortschritt überhaupt sinnvoll messbar ist. In den Jahren 2024 und 2025 ist ein Trend sichtbar. Agenten werden besser, sobald die Umgebung klarer begrenzt ist und Erfolg maschinell geprüft werden kann. Das gilt besonders für Aufgaben, bei denen es am Ende eine harte Prüfung gibt, zum Beispiel Tests in Softwareprojekten oder definierte Zielzustände in einer App.

Ein weiterer Trend ist das Zusammenspiel aus Agent und Leitplanken. Das sind technische Grenzen, die Fehler auffangen. Beispiele sind Sandboxes, also abgeschottete Umgebungen, in denen ein Agent üben kann, ohne echten Schaden anzurichten. Oder Freigabeabläufe, bei denen ein Mensch nur die letzten Schritte bestätigt. Auch Protokolle helfen, also nachvollziehbare Logs, die zeigen, was der Agent getan hat. Ohne so eine Spur ist ein Fehler schwer zu klären.

Praktisch wird es oft, wenn Agenten nicht alles allein machen müssen. Ein guter Modus ist, dass sie vorbereiten. Sie sammeln Informationen, erstellen Entwürfe, füllen Formulare bis kurz vor dem Abschicken aus oder schlagen Codeänderungen vor, die dann geprüft werden. Das spart Zeit, ohne die Kontrolle komplett abzugeben. Gerade in Teams, die bereits klare Prozesse haben, kann das ein realistischer Einstieg sein.

In vielen Diskussionen geht es auch um Kosten und Tempo. Ein Agent braucht häufig mehrere Versuche, und jeder Schritt kostet Rechenzeit. Benchmarks, die zusätzlich Effizienz messen, werden deshalb wichtiger. Für den Job zählt nicht nur, ob es irgendwann klappt, sondern ob es in einem sinnvollen Zeitrahmen klappt.

Die zentrale Erwartung bis 2026 sollte daher nüchtern bleiben. KI-Agenten können einzelne Abläufe schon heute spürbar beschleunigen, solange Aufgaben klar sind und das System gut abgesichert ist. Für offene, chaotische Bildschirmarbeit bleibt die Lücke groß. Genau das zeigen die neuen Tests, und genau daraus lässt sich vernünftig planen.

Fazit

Agenten sind mehr als Chatbots, weil sie handeln und nicht nur antworten. Genau deshalb fallen ihre Schwächen im Job auch schneller auf. Neue Benchmarks aus den Jahren 2024 und 2025 messen nicht, wie schön eine Ausgabe klingt, sondern ob Aufgaben wirklich erledigt werden. Die veröffentlichten Ergebnisse zeigen teils große Abstände zu menschlicher Routine, besonders in offenen Desktop und Webumgebungen. Gleichzeitig wird sichtbar, wo Agenten schon brauchbar sind, nämlich in klar begrenzten Prozessen mit harter Erfolgskontrolle.

Wer über Arbeiten mit KI nachdenkt, sollte deshalb weniger auf Demos und mehr auf Testdesign schauen. Gute Tests prüfen Ergebnis, Robustheit und Verifikation. Und sie erinnern daran, dass Kontrolle und Leitplanken kein Luxus sind, sondern Voraussetzung, sobald ein System klicken und senden darf.

Welche Aufgaben würdest du einem Agenten schon heute geben, und bei welchen wäre dir das Risiko zu hoch. Teile den Artikel gern und diskutiere deine Erfahrungen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

In diesem Artikel

Newsletter

Die wichtigsten Tech- & Wirtschaftsthemen – 1× pro Woche.

Avatar von Artisan Baumeister

→ Weitere Artikel des Autors

Newsletter

Einmal pro Woche die wichtigsten Tech- und Wirtschafts-Takeaways.

Kurz, kuratiert, ohne Bullshit. Perfekt für den Wochenstart.

[newsletter_form]