Tongyi DeepResearch: Alibaba zeigt sparsames SOTA‑Agenten‑Design

von Artisan Baumeister · Veröffentlicht 31. Oktober 2025 · Aktualisiert 31. Oktober 2025

Zuletzt aktualisiert: 31. Oktober 2025

Kurzfassung

Tongyi DeepResearch ist ein offener Agenten‑LLM von Alibaba, das mit rund 30 Mrd. Parametern und nur etwa 3,3 Mrd. aktivierten Parametern pro Token gezielt auf tiefes, webbasiertes Recherchieren setzt. Der Hauptanspruch: bessere Agentenfähigkeiten durch eine clevere Trainingspipeline (Agentic CPT → SFT → RL) statt durch reine Parameteraufblähung. In der Community sind die Benchmarks viel diskutiert; unabhängige Replikationen sind noch begrenzt. (Hauptkeyword: Tongyi DeepResearch)

Einleitung

Im Herbst 2025 hat Tongyi Lab / Alibaba ein Modell veröffentlicht, das die Routine des „mehr Parameter = besser“ herausfordert. Tongyi DeepResearch heißt das System, und es signalisiert, dass Agentische Intelligenz weniger mit exzessiver Größe als mit gezielter Trainingsarchitektur zu tun haben kann. Dieser Text begleitet die Ankündigung, erklärt die Technik, wägt Chancen gegen Risiken ab und ordnet ein, was die Community jetzt tun sollte — ohne Hype, aber mit offenem Blick.

Was ist Tongyi DeepResearch?

Tongyi DeepResearch ist ein offener Agenten‑LLM, das offiziell mit rund 30 Milliarden Parametern angegeben wird, von denen pro Token nur etwa 3,0–3,3 Milliarden aktiviert werden. Diese Ziffern stammen aus den Release‑Notizen, der Modellkarte auf Hugging Face und dem technischen Report des Projekts. Technisch handelt es sich um eine sparse Mixture‑of‑Experts‑Topologie mit einem ausgeweiteten Kontextfenster (Angaben: bis zu 128k Tokens) und speziellen Inferenzmodi, die längere, mehrstufige Recherchen erlauben.

“Tongyi beschreibt das Modell als für ‚deep information‑seeking‘ optimiert — nicht als noch größere Basis, sondern als smartere Agent‑Pipeline.”

Wichtig zu wissen: viele der Benchmark‑Werte, die Alibaba präsentiert (z. B. BrowseComp, xbench‑DeepSearch, Humanity’s Last Exam), stammen aus internen Evaluationen und aus dem technischen Report. Das Repo enthält Quellcode, Evaluationsskripte und Verweise auf die Modellgewichte; dadurch sind Nachtests möglich, aber unabhängige Replikationen sind zum aktuellen Stand noch überschaubar. Kurz gesagt: Tongyi DeepResearch ist ein offener Versuch, Agentenfähigkeiten durch methodische Trainingsentscheidungen zu stärken — eine provokante Antwort an die Industrie, die weiterhin auf reine Parameter‑Skalierung setzt.

Eine kleine Tabelle zur Einordnung:

Merkmal	Angabe	Quelle
Total‑Parameter	~30 Mrd.	GitHub / Hugging Face
Aktiv pro Token	~3,0–3,3 Mrd.	Technischer Report
Kontextfenster	bis 128k Tokens	Modellkarte

Wie gelangt Effizienz vor Größe?

Das zentrale Argument hinter Tongyi DeepResearch ist keine Verkleinerung um ihrer selbst willen, sondern eine andere Zuordnung von Kapazität zur Aufgabe. Durch eine sparse Mixture‑of‑Experts‑Architektur bleibt das Gesamtspektrum an Parametern groß, aktiviert aber zur Laufzeit nur einen Bruchteil. Das reduziert die aktive Rechenlast, erlaubt gleichzeitig spezialisierte Sub‑Netze und hält das Modell vielseitig — eine Technik, die bereits in anderen Kontexten Effizienzgewinne gezeigt hat.

Wesentlich aber ist die Trainingspipeline: Tongyi beschreibt einen dreistufigen Prozess — Agentic Continual Pre‑training (Agentic CPT) zur Erzeugung agentischer Trajektorien, ein klassisches Supervised Fine‑Tuning für Grundfähigkeiten und schließlich on‑policy Reinforcement Learning (im Repo und Report teilweise als GRPO bezeichnet), um Tool‑Aufrufe, Web‑Interaktion und iterative Recherche zu stabilisieren. Ergänzt wird das durch eine automatisierte, synthetische Daten‑Erzeugung, die offline komplexe Searching‑ und Browsing‑Szenarien simuliert.

Der reale Gewinn entsteht also nicht nur durch Architekturoptimierung, sondern durch Trainingsentscheidungen, die Agenten ein iteratives Arbeitsgedächtnis beibringen: Tools sicher anrufen, Quellen prüfen, Workflows über mehrere Schritte planen und Antworten mit Zitationen versehen. In Berichten behauptet Tongyi, dass diese Kombination auf Agenten‑Benchmarks sehr gut skaliert — teils auf Augenhöhe mit deutlich größeren, proprietären Systemen. Solche Behauptungen sind bemerkenswert, aber sie brauchen doppelten Boden: unabhängige Replikation und belastbare Vergleichsprotokolle.

Kurz: Effizienz hier heißt sorgfältige Aktivierung von Kapazität plus eine Trainingsökonomie, die Agentenfähigkeiten explizit kultiviert. Das kann in vielen Szenarien bessere Kosten‑Nutzen‑Relationen liefern — vorausgesetzt, die Versprechen halten bei unabhängigen Tests.

Praktische Folgen: Deployment, Kosten, Risiken

Die Hoffnung: ein leistungsfähiger Research‑Agent, den Teams selbst hosten oder über Drittanbieter‑APIs nutzen können. Die Realität ist pragmatischer. Das Repo enthält Inferenzskripte und Deploy‑Guides, und Modelle sind auf Hugging Face gelistet; OpenRouter und einige Cloud‑Anbieter bieten bereits gehostete Varianten an. Dennoch zeigen Community‑Berichte, dass ohne Quantisierung erhebliche VRAM‑Anforderungen bestehen. Praxis: Wer lokal arbeiten will, braucht Strategien wie AWQ/GGUF‑Quantisierung oder verteilte Instanzen.

Kostenseitig kann Tongyi DeepResearch Vorteile bringen: weniger aktive Parameter bedeuten potenziell geringere Laufkosten pro Anfrage. Allerdings darf man nicht einfach die Zahlen vergleichen — Tool‑gestützte Agenten führen Web‑Calls, Parsen und externen Code aus, was zusätzliche Latenz und Infrastrukturkosten erzeugt. Die vorgeschlagenen Heavy/IterResearch‑Modi, die parallel operierende Agenten nutzen, heben Nutzbarkeit, treiben aber Ressourcenbedarf während komplexer Tasks nach oben.

Risiken betreffen zwei Ebenen: factuality und Sicherheit. Agenten, die browsen und Tools nutzen, können falsche Quellen zitieren, vertrauliche Daten unabsichtlich weitergeben oder fehlerhafte Tool‑Aufrufe tätigen. Tongyi liefert Mechanismen zur Sandboxung von Tool‑Calls, aber in produktiven Setups sind Escalation‑Protokolle und Human‑in‑the‑Loop unabdingbar. Aus regulatorischer Sicht ist zu prüfen, ob Lizenz (laut Repo als permissiv angegeben) und Trainingskorpus kommerzielle Nutzung abdecken; Firmen sollten die LICENSE im Origin‑Repo verifizieren.

Fazit dieses Abschnitts: technisch interessanter, praktisch herausfordernd. Wer Tongyi einsetzen will, sollte vorab quantisieren, unabhängige Tests laufen lassen, und ein Monitoring‑ sowie Rollback‑Plan für Halluzinationen und Tool‑Fehler einrichten.

Was das für die Skalierungsdebatte bedeutet

Die Veröffentlichung von Tongyi DeepResearch setzt ein Argument in die Debatte: größere Modelle sind nicht die einzige Route zu besseren Agenten. Alibaba behauptet in seinem Report, dass Tongyi in mehreren Agentenbenchmarks mit Systemen wie GPT‑4o oder DeepSeek‑V3 auf Augenhöhe oder darüber liegt, obwohl es deutlich weniger aktivierte Parameter nutzt. Diese Aussage stammt aus den Autoren‑Benchmarks und den begleitenden Vergleichen; sie ist interessant, aber noch vorläufig, solange unabhängige Teams die Tests nicht reproduzieren.

Warum das trotzdem relevant ist: es ist ein klares Signal an Forschungsteams, dass Investitionen in Trainingsparadigmen, synthetische Datengenerierung und agentische RL‑Methoden hohe Hebelwirkung haben können. Gerade für Organisationen mit begrenzten Ressourcen kann das Modell eine Blaupause sein, wie spezialisierte Agenten mit geringerem Inferenz‑Footprint gebaut werden.

Gleichzeitig mahnt die Veröffentlichung zur Vorsicht. Benchmarks messen momentane Fähigkeiten auf eng definierten Datensätzen; echte Forschungsarbeit verlangt Robustheit gegenüber dynamischen Webinhalten, adversarialen Quellen und rechtlichen Einschränkungen. Der nächste Schritt in der Community wird deshalb nicht nur Performance‑Vergleich sein, sondern das gemeinsame Erstellen belastbarer Evaluationsprotokolle, die Tool‑Interaktion und factuality über lange Aufgabenketten messen.

Abschließend: Tongyi DeepResearch verschiebt die Frage vom „Wie groß?“ zum „Wie trainiert?“. Ob das Modell proprietäre Spitzenreiter dauerhaft in den Schatten stellt, bleibt offen. Was wir jetzt beobachten: eine Landschaft, in der kluge Trainingsentscheidungen genauso viel gelten wie pure Hardware‑Skalierung.

Fazit

Tongyi DeepResearch ist ein gut dokumentierter Versuch, agentische Recherchefähigkeiten durch Architektur‑ und Trainingsentscheidungen zu stärken, nicht durch blindes Aufblasen der Modelle. Die Release‑Artefakte ermöglichen Nachtests, doch unabhängige Replikationen sind noch begrenzt. Praktisch bringt das Modell interessante Optionen für kosteneffiziente Agenten, verlangt aber sorgfältiges Deployment, Sicherheitsprüfungen und Lizenzchecks.

Kurz: Die Botschaft an Forschungsteams lautet klarer Fokus auf Trainingsmethodik — und danach auf strenge Validierung in der Praxis.

*Diskutiere mit: Was würdest du zuerst mit Tongyi DeepResearch testen? Teile deine Erfahrungen in den Kommentaren und verbreite den Artikel in deinen Netzwerken!*