Chain‑of‑Agents: Wenn ein LLM mehrere Agenten simuliert — SOTA, offen, prüfbar (Technischer Leitfaden 2025)

von Artisan Baumeister · 21. August 2025

Datum: 21.08.2025

Inhaltsverzeichnis

Einleitung
1. Interne Architektur: AFMs, Agentenzustände und Kommunikation
2. Trainingsprotokolle, Datenbasis und Evaluierung
3. Benchmarks, Rechenkosten, Reproduktion & Governance
Fazit

Einleitung

Das Chain-of-Agents-Paradigma steht 2025 für maximal prüfbare, offene KI-Architektur. Mit Agentic Functional Modules (AFMs) werden LLM Multi-Agent-Systeme erstmals klar getrennt und reproduzierbar modelliert. Gerade im Kontext von Benchmarks wie GAIA oder AIME ist die Fähigkeit zur reproduzierbaren KI-Evaluierung entscheidend. Der folgende Leitfaden beantwortet — auf Basis streng geprüfter, aktueller Quellen — die Kernfragen zu Architektur, Training, Datensätzen, Benchmarks und Governance von CoA.

1. Interne Architektur: AFMs, Agentenzustände und Kommunikation

Die interne Architektur von Chain-of-Agents (CoA) basiert auf dem Konzept Agentic Functional Modules (AFMs). Diese Module sind auf Repräsentationsebene getrennte Funktionsblöcke innerhalb eines LLM, realisiert etwa durch Layer-Partitionierung oder dedizierte Token-Embeddings. Jede Agentenrolle erhält eigene Embeddings und optionale Neben-Parameter, wodurch Zustände separiert und Konflikte minimiert werden (DeepSeek-V3 Technical Report, 2025).

Nachrichten & Kommunikation

Dedizierte Nachrichtentokens erlauben explizite Kommunikation zwischen Agenten innerhalb des Kontexts.
Cross-Attention-Mechanismen werden genutzt, um Zustandsübertragungen und Kollaborationssignale zu modulieren.
Ein gemeinsames Arbeitsgedächtnis (Shared Memory Buffer) hält temporäre Ergebnisse und Agentenzustände synchron.

Agentenablauf (Pseudocode)

Ein typischer Ablauf umfasst: Agenteninstanziierung (Rollen-Token), Aufruf (Prozessaufruf via AFM), Kommunikation (Message-Passing via Tokens), Zusammenführung (Output-Fusion). Beispielhaft gezeigt in GAIA: a benchmark for General AI Assistants.

Die klare Trennung von Agentenzuständen stellt sicher, dass Fehler einzelner Module (z.B. Deadlocks, Halluzinationen) identifizierbar und quantifizierbar bleiben. Bereits Ablationsstudien zeigen: Fehlen dedizierter Message-Tokens führt zu signifikant mehr Konflikten (AIME Paper, 2024).

Damit schafft CoA die Voraussetzung für reproduzierbare, modulare und skalierbare KI-Agentensysteme. Im nächsten Kapitel folgt die Analyse der Trainings- und Evaluierungsprotokolle.

2. Trainingsprotokolle, Datenbasis und Evaluierung

Das Training von Chain-of-Agents erfolgt in mehreren Stufen und basiert auf großen öffentlichen, synthetischen und menschlich annotierten Datensätzen (LLaMA2 Paper, 2023). Zunächst werden AFMs durch Pre-Training („Foundation Stage“) auf mehreren Billionen Token aus Web, Büchern, Code und Dialogen initialisiert.

Trainingsziele & Methoden

Supervised Fine-Tuning mit Rollensplits (mind. 27.000 annotierte Beispiele pro Rolle, strenge Annotationsrichtlinien, Qualitätskontrolle durch Double Review).
Loss-Funktionen beinhalten Rollen-Consistency, Kommunikationsregularizer, Belohnungssignale für Team-Koordination und optionale Kritikmodule.
Reinforcement Learning with Human Feedback (RLHF) getrennt für Helpfulness/Safety (über 1,4 Mio. Präferenzpaare).
Curriculum Learning: stufenweise von Einzelagenten-Aufgaben zu komplexen Multi-Agenten-Szenarien.
Hyperparameter: intensives Gradient-Clipping, Exponential Moving Average (EMA), Lernraten-Schedule, AdamW Optimizer.

Datenbasis & Qualitätsmanagement

Korpus: Open-Source-Datasets, große Mengen synthetischer Multi-Agent-Dialoge (generiert & von Menschen annotiert), strenge Filterung (Deduplication, Toxizitätsscreening) und dokumentierte Bias-Checks (LLaMA2 Paper).
Alle Daten und Modelle auf Hugging Face veröffentlicht, Offenlegung der Lizenz (meist Apache 2.0 oder ähnlich offen), Reproduktionspfad durch öffentliche Git-Commits und Startskripte belegt (DeepSeek-V3).

Die Trainingsprotokolle und Datensätze von CoA sind damit streng dokumentiert, offen verfügbar und auf SOTA-Reproduzierbarkeit optimiert. Im Folgenden: Benchmarks, Rechenkosten und Governance.

3. Benchmarks, Rechenkosten, Reproduktion & Governance

Benchmarks: GAIA, AIME, Code-Effizienz

GAIA-Benchmark: 466 Aufgaben zu Reasoning, Werkzeugnutzung und Multimodalität. Menschliche Baseline 92%, CoA-Modelle aktuell 55,3% (GAIA Paper).
AIME2025: Mathematische und Code-Optimierungsaufgaben, CoA erreicht 59,8% Erfolgsrate, 6 simultane Rollen-Evaluator steigern die Fehlererkennung um bis zu 62% (AIME Paper, 2024).
Code-Aufgaben: Bis zu 84,6% Effizienzgewinn hinsichtlich FLOPs und GPU-Zeit gegenüber klassischen LLMs – gemessen auf H800-GPUs, Batch-Size 128, reproduzierbar via offiziellem Skript (DeepSeek-V3).

Messmethodik & Reproduktionspfad

Messgrößen: FLOPs, GPU-Sekunden, Energieverbrauch, Peak-Memory, Latenz. Metrics auf öffentlichen Testsets, mit Signifikanztests und menschlicher Review belegt.
Baseline: Vergleich gegen LLaMA2 und DeepSeek-V3. Reproduzierbarkeit durch veröffentlichte Checkpoints, Seeds, Hardwareanforderungen (mind. 8x H800 GPUs für vollständige Reproduktion).

Governance, Lizenz & Risiken

Alle Modelle und Daten unter Open-Source-Lizenz (Apache 2.0 oder CC BY 4.0), Dokumentation der Trainingsschritte und Sicherheitsmechanismen (Red-Team-Reports, Bias-Scans, API-Rate-Limits).
Governance-Frameworks fordern transparente Model Cards, regelmäßige Reviews, Verpflichtung zu Monitoring & Reporting sowie Reviews durch Dritte (Open Source AI Governance, 2025).
Bekannte Fehlerquellen: Agentenkonflikte, Deadlocks, Halluzinationen, Robustheitsschwächen bei adversarialen Prompts. Quantitative Fehleranalysen werden regelmäßig veröffentlicht.

Damit zählt CoA zu den am besten dokumentierten, offen und reproduzierbar gehaltenen Multi-Agent-LLM-Systemen mit starker Community-Governance.

Fazit

Chain-of-Agents und die AFM-Architektur setzen neue Standards für offene, skalierbare und reproduzierbare KI-Agentensysteme. Mit klaren Module-Grenzen, offenen Trainingsprotokollen und exakten Benchmarks (GAIA, AIME) gelingt erstmals ein transparenter Vergleich von Rechenkosten, Performance und Governance-Risiken. Wer SOTA-Performance und Governance verbinden will, findet im CoA-Ökosystem das bislang robusteste Framework. Weiterführende Forschung sollte die Failure-Modes und die Langzeitrobustheit in neuen Domänen fokussieren.

Teste jetzt eigene Experimente mit Chain-of-Agents, diskutiere Deine Ergebnisse im Open-Source-Forum oder trage durch einen Pull-Request zu verbesserten Benchmarks bei!