TZG – Technologie Zeitgeist

Aktuell – Interessant – Neu


Milliardenmarkt KI‑Daten: Warum Menschen fürs Training zahlen


Die Suche nach Daten für KI‑Modelle hat sich zu einem Milliardenmarkt entwickelt: Trainingsdaten KI stammen aus Web‑Scrapes, gekauften Korpora und menschlicher Annotation. Viele dieser Schritte verursachen Kosten, die am Ende von Menschen getragen werden — sei es durch bezahlte Labeler mit niedrigen Löhnen oder durch die Arbeit von Urheberinnen und Urhebern, deren Inhalte ohne klare Vergütung genutzt werden. Der Text ordnet Marktmechanik, Praxisbeispiele und regulatorische Entwicklungen ein und zeigt, warum Transparenz und faire Entlohnung zentrale Hebel sind.

Einleitung

Künstliche Intelligenz wirkt oft wie ein automatisches Produkt: Anfragen eingeben, Antworten erhalten. Was im Ergebnis verblüfft, entsteht im Hintergrund aus gewaltigen Datensammlungen und aus Aufgaben, die Menschen erfüllen — etwa Texte markieren, Bilder beschriften oder schwer zuzuordnende Inhalte beurteilen. Diese Arbeit ist nicht kostenlos: Firmen kaufen Datensätze, beauftragen Agenturen oder nutzen ganze Broker‑Märkte. Gleichzeitig kommen menschliche Annotatorinnen und Annotatoren häufig in prekären Arbeitsverhältnissen unter, ihre Stundenlöhne liegen nach Studien teils deutlich unter nationalen Mindestlöhnen. Die folgende Analyse erklärt Aufbau und Betreibermodelle dieses Marktes, zeigt konkrete Beispiele und ordnet aktuelle regulatorische Schritte ein.

Trainingsdaten KI: Wie sie entstehen und verkauft werden

Drei Quellen liefern die meisten Trainingsdaten: öffentlich zugängliche Webinhalte, gekaufte oder lizenzierte Sammlungen und speziell annotierte Datensätze. Web‑Scraping sammelt große Mengen von Texten und Bildern, die Firma A oder Plattform B aggregieren. Datenbroker und spezialisierte Anbieter verkaufen bereits gesäuberte Korpora oder Metadaten‑Pakete. Schließlich kommt menschliche Arbeit ins Spiel: Labeling‑Dienstleister erstellen Qualitätslabels, moderieren Inhalte oder erstellen Validierungssets.

Der Begriff „ghost work” beschreibt die unsichtbare menschliche Arbeit, die viele KI‑Modelle erst ermöglicht; diese Arbeit bleibt oft unzureichend sichtbar und vergütet. (Quelle: Gray & Suri, 2019)

Ökonomisch läuft das so: Unternehmen mit Rechenleistung bezahlen für Datenakquise und Annotation, weil die Qualität der Daten direkten Einfluss auf Leistung und Marktwert eines Modells hat. Manche Datensätze entstehen intern, andere werden extern bezogen — genau hier entsteht ein Markt mit verschiedenen Zwischenhändlern.

Die folgende Tabelle zeigt typische Quellen und ihre Rolle:

Merkmal Beschreibung Wert
Web‑Scrapes Automatisches Sammeln öffentlicher Webinhalte Hoher Umfang, variable Provenienz
Gekaufte Datensätze Aggregierte, lizensierte Korpora von Broker/Anbietern Bezahlte Zugriffsrechte, manchmal exklusiv

Wie Trainingsdaten im Alltag genutzt werden

Der Effekt ist überall spürbar: Wenn eine Suchmaschine Antworten zusammenfasst, basieren diese Zusammenfassungen auf zuvor gesammelten Texten; wenn eine Bildersuche Objekte erkennt, haben Menschen Millionen von Bildern mit Labels versehen. Für Endnutzerinnen und Endnutzer bleibt das unsichtbar, in Medien und Forschung wird die Herkunft der Inhalte dagegen zunehmend hinterfragt.

Journalistinnen und Journalisten beschrieben 2023–2024, wie Unternehmen Datensammlungen kaufen oder webscrapen und wie Publisher gegen die Nutzung ihrer Inhalte vorgehen. Parallel dokumentierten Recherchen, dass Labelerinnen und Labeler in einigen Ländern sehr niedrige Stundenlöhne erhielten und unter psychischen Belastungen leiden, weil sie oft Schwer‑ oder Extreminhalte beurteilen müssen (Quellen: Reuters 2024; Time 2023; The Guardian 2023). Die Studie von Hara et al. (2018) weist auf sehr niedrige Median‑Stundenlöhne in Crowdworking‑Settings hin; diese Studie ist älter als zwei Jahre und beschreibt ein Messverfahren aus 2018, das seither ergänzt wurde.

Für Unternehmen ergeben sich daraus zwei praktische Herausforderungen: Erstens müssen sie die Provenienz ihrer Trainingsdaten dokumentieren, um rechtliche und reputative Risiken zu verringern. Zweitens hat die Art, wie Annotation bezahlt wird (Pauschalen versus Zeitsätze, Bonusmechaniken), direkten Einfluss auf Datenqualität und damit auf Modellverhalten.

Chancen, Risiken und ethische Spannungsfelder

Der Markt für Trainingsdaten bringt Chancen: Gute Datensätze ermöglichen genauere Modelle, bessere Produkte und neue Dienste. Zugleich entstehen Risiken, die nicht nur technisch sind. Erstens führen intransparente Beschaffungswege zu Rechtsunsicherheit, etwa bei Urheberrechten und Datenschutz. Zweitens beeinflussen schlechte Arbeitsbedingungen die Datenqualität: Unterbezahlte oder überarbeitete Annotatorinnen und Annotatoren können Fehler einbringen, die Modelle später reproduzieren.

Ein weiteres Spannungsfeld entsteht zwischen Transparenzpflichten und Geschäftsgeheimnissen. Die EU‑Regulierung zwingt Anbieter zunehmend dazu, Trainings‑ und Validierungsdaten zu dokumentieren; für General‑Purpose‑Modelle existiert seit 2025 ein Kommissions‑Template, das Angaben zur Herkunft und Zusammensetzung der Datensätze verlangt. Gleichzeitig besteht die Gefahr, dass Anbieter aus Wettbewerbsgründen nur minimalen Angaben liefern oder sensible Details zurückhalten müssen — ein Zielkonflikt zwischen Rechenschaftspflicht und Schutz von Geschäftsgeheimnissen (Quelle: EU AI Act, EUR‑Lex 2024; EC‑Template 2025).

Schließlich bleibt die Verteilung der Erlöse und der Kosten ein Thema: Wenn Publisher oder einzelne Autorinnen und Autoren Ansprüche anmelden, dreht sich die Debatte zunehmend um faire Kompensation — nicht nur für die Menschen, die Daten erzeugen, sondern auch für die, die Daten nachbearbeiten und labeln.

Blick nach vorn: Regulierung und Marktverschiebungen

Die nächsten Jahre werden zeigen, ob Politik und Markt die aktuellen Defizite adressieren können. Die EU‑Verordnung (AI Act) hat seit 2024 verbindliche Vorgaben zu Daten‑Governance und zur Dokumentation eingeführt; 2025 veröffentlichte die Kommission ergänzende Templates, mit denen Anbieter von General‑Purpose‑Modellen die Zusammensetzung ihrer Trainingsdaten zusammenfassen sollen (Quelle: EUR‑Lex 2024; EC‑Template 2025). Diese Regelungen erhöhen den Druck auf Anbieter, Herkunft und Annotationen nachvollziehbar offen zu legen.

Aus Sicht der Praktikerinnen und Praktiker zeichnen sich mehrere Entwicklungen ab: Plattformen könnten standardisierte Zeit‑Reporting‑Funktionen und post‑hoc‑Bonusmechaniken einführen; Beschaffer könnten Lizenzmodelle bevorzugen, die klare Zahlungspflichten an Rechteinhaberinnen und Rechteinhaber vorsehen; und Regulierer könnten Mindestanforderungen an Entlohnung und Dokumentation stellen. Solche Änderungen würden die Gesamtkosten für KI‑Produkte erhöhen — aber sie könnten auch die Qualität der Daten und damit die Verlässlichkeit der Modelle verbessern.

Wer künftig in diesem Markt erfolgreich sein will, wird Transparenz als Wettbewerbsmerkmal nutzen: Organisationen, die offenlegen, welche Datensätze sie genutzt haben, wie Annotationen entstanden und wie Annotatorinnen und Annotatoren bezahlt wurden, bauen Vertrauen auf und reduzieren rechtliche Risiken.

Fazit

Der Handel mit Trainingsdaten ist nicht abstrakt: Er bündelt technische, rechtliche und soziale Fragen. Daten werden heute häufig gekauft, aggregiert und von Menschen annotiert — die Kosten dafür sind real und fallen oft auf jene zurück, die die Arbeit erledigen oder deren Inhalte genutzt werden. Studien und Recherchen zeigen wiederholt niedrige effektive Stundenlöhne in Crowdworking‑Kontexten (ältere Analysen aus 2018/2019 ergänzen aktuellere Befunde), und politische Maßnahmen wie der AI Act setzen neue Transparenz‑Anforderungen. Langfristig werden klare Dokumentationsstandards, faire Vergütungsmodelle und glaubwürdige Offenlegung die Richtung bestimmen — sie sind der Schlüssel, damit Qualität und Ethik bei der Entwicklung von KI‑Systemen zusammenwachsen.


Wenn Sie diesen Beitrag nützlich finden: diskutieren Sie hier im Kommentar und teilen Sie den Artikel mit Kolleginnen und Kollegen.


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Avatar von Artisan Baumeister

→ Weitere Artikel des Autors

Newsletter

Einmal pro Woche die wichtigsten Tech- und Wirtschafts-Takeaways.

Kurz, kuratiert, ohne Bullshit. Perfekt für den Wochenstart.

Hinweis: Lege eine Seite /newsletter mit dem Embed deines Providers an, damit der Button greift.