Verkehrsschilder: Wie leicht sich Autos mit KI-Tricks fehlleiten lassen

Moderne Autos lesen Verkehrsschilder mit Kamera und KI, damit Tempolimits, Überholverbote oder Stopps zuverlässig erkannt werden. Genau darin steckt eine Sicherheitslücke bei Fahrerassistenz: Forschende zeigen, dass gedruckte Sticker, Patches oder andere physische Manipulationen die Erkennung in bestimmten Situationen gezielt stören oder sogar auf eine falsche Klasse lenken können. Das ist kein Sci-Fi, sondern ein Zusammenspiel aus Bildverarbeitung, Trainingsdaten und den Grenzen von Systemen, die im Alltag mit Regen, Schatten, Reflexionen und schrägen Blickwinkeln zurechtkommen müssen. Der Artikel erklärt verständlich, wie solche Angriffe funktionieren, warum sie nicht immer klappen und welche Gegenmaßnahmen realistisch sind.

Einleitung

Du kennst das: Du fährst in eine fremde Stadt, das Navi spricht, es ist dunkel oder es regnet, und du verlässt dich darauf, dass das Auto das Tempolimit korrekt anzeigt. Viele Modelle unterstützen dabei mit Verkehrszeichenerkennung, adaptivem Tempomat oder Spurführung. Wenn das System ein Schild falsch liest, ist das nicht nur nervig. Es kann die Assistenz in eine falsche Richtung schieben, etwa wenn ein Tempo-30-Schild als anderes Limit erkannt wird oder ein Stoppschild nicht als solches zählt.

In der Forschung ist seit 2017/2018 gut dokumentiert, dass KI-Modelle durch sogenannte adversarielle Beispiele getäuscht werden können. Der spannende Teil: Es geht nicht nur um digitale Bildmanipulationen am Computer, sondern auch um gedruckte Veränderungen in der echten Welt, zum Beispiel Sticker auf einem Verkehrszeichen. Spätere Arbeiten zeigen zudem, dass nicht nur reine Klassifikatoren, sondern auch komplette Erkennungspipelines mit Objekt-Detektoren unter bestimmten Bedingungen angreifbar sind.

Wichtig ist der Blick auf das Gesamtbild: Fahrerassistenzsysteme sind unterschiedlich stark automatisiert. NHTSA und SAE unterscheiden etwa zwischen Level 2 (ständige Überwachung durch dich) und Level 3 (das System übernimmt innerhalb einer Betriebsdomäne, du musst aber auf Übernahmeaufforderungen reagieren). Das ist relevant, weil ein Schild-Fehler im Level-2-Kontext anders abgefangen wird als in einem stärker automatisierten Setting.

Wie Fahrerassistenz Verkehrsschilder erkennt

Damit ein Auto ein Verkehrszeichen „versteht“, laufen meist mehrere Schritte ab. Zuerst nimmt eine Kamera die Szene auf. Dann sucht eine Software nach Regionen, die wie ein Schild aussehen. Danach wird diese Region klassifiziert: also entschieden, ob es etwa „Stop“, „Tempo 50“ oder „Überholverbot“ ist. Manche Systeme kombinieren das zusätzlich mit Kartenwissen oder mit einer zeitlichen Glättung über mehrere Videoframes, damit ein einzelnes unscharfes Bild nicht sofort zu einer falschen Anzeige führt.

Warum ist das anfällig? Weil KI-Modelle nicht „sehen“ wie Menschen. Sie lernen aus vielen Beispielen, welche Muster typisch sind. In der Praxis können kleine, aber gezielt berechnete Muster die internen Aktivierungen so verschieben, dass das Modell eine andere Klasse bevorzugt. Eine bekannte Arbeit von Eykholt und Kollegen (CVPR 2018) zeigte, dass solche Muster sogar als gedruckte, sichtbare Perturbationen auf realen Schildern funktionieren können, wenn sie so optimiert werden, dass sie unter verschiedenen Blickwinkeln und Entfernungen robust bleiben. Diese Quelle ist von 2018 und damit älter als zwei Jahre.

Sinngemäß nach Eykholt et al. (2018): Physische Störungen müssen so gestaltet sein, dass sie unter wechselnden Perspektiven, Entfernungen und Beleuchtung ihre Wirkung behalten.

Ein wichtiger Punkt: Viele frühe Demonstrationen setzen voraus, dass das Angriffsmodell das Zielmodell gut kennt (White-Box-Annahme). Und sie testen oft an einem Klassifikator, der bereits ein sauber ausgeschnittenes Schild als Eingabe bekommt. In echten Autos sitzt davor aber häufig ein Detektor, der erst einmal entscheiden muss, wo das Schild überhaupt ist. Genau diese Pipeline-Frage taucht in neueren Arbeiten immer wieder auf.

Wo Verkehrszeichenerkennung typischerweise verwundbar ist
Baustein Was passiert Warum Angriffe ansetzen
Aufnahme (Kamera) Bild entsteht unter Regen, Schatten, Gegenlicht Störungen wirken je nach Licht und Winkel unterschiedlich stark
Detektion System sucht Schilder im Gesamtbild Angriffe können Erkennen verhindern oder Boxen verschieben
Klassifikation Schild wird einer Kategorie zugeordnet Gezielte Muster können zu falschen Klassen führen
Zeitliche Logik Mehrere Frames werden zusammen bewertet Angriffe brauchen oft Robustheit über viele Frames
Systementscheidung Anzeige, Assistenzverhalten, Warnungen Risiko hängt davon ab, wie stark das Auto dem Schild vertraut

Welche KI-Tricks in der Praxis funktionieren

Die populärste Idee sind Sticker oder gedruckte Patches, die auf ein Schild geklebt werden. In der Forschung werden solche Muster typischerweise per Optimierung berechnet. Entscheidend ist dabei die „Physical-World“-Komponente: Das Muster wird nicht nur für ein perfektes Foto optimiert, sondern für viele simulierte Varianten (andere Entfernungen, leicht andere Rotationen, Helligkeit, Zuschnitt). In der RP2-Arbeit (Eykholt et al.) wird zudem ein Druckbarkeits-Aspekt berücksichtigt, damit Farben und Kontraste überhaupt realistisch gedruckt werden können. Dadurch steigt die Chance, dass das, was am Bildschirm wirkt, auch auf Papier noch wirkt.

Neuere Arbeiten richten sich stärker auf Objekt-Detektoren, die direkt im Kamerabild „Boxen“ um Objekte ziehen. Ein Beispiel ist eine NDSS-2022-Studie zu robusten physischen adversariellen Beispielen gegen Verkehrszeichenerkennung mit einem YOLOv5-basierten Ansatz. Dort werden Angriffe als unterschiedliche Ziele beschrieben: Schilder „verstecken“ (damit der Detektor sie nicht findet), ein Schild wie ein anderes erscheinen lassen oder gezielt auf eine bestimmte Klasse lenken. In den Outdoor-Tests wird unter anderem über Distanzen von 0 bis 30 m und Blickwinkeln bis ±60° berichtet. Für eine Hiding-Attack wird in den beschriebenen Fahrtests eine Erfolgsrate von etwa 96,5 % über ausgewertete Frames angegeben. Diese Quelle ist von 2022 und damit älter als zwei Jahre.

Wichtig: Solche Zahlen sind kein Freifahrtschein für „Angriffe funktionieren immer“. Die Studien selbst diskutieren Bedingungen, unter denen die Erfolgsrate abnimmt, etwa bei großen Entfernungen, ungünstigen Winkeln oder schwieriger Beleuchtung. Genau das ist auch der Grund, warum Forschung häufig mit vielen Wiederholungen, mehreren Kameras und definierten Testprotokollen arbeitet.

Ein weiterer Realitätsfaktor sind Fahrerassistenz-Levels und Übergaben. NHTSA hat in einer Human-Factors-Evaluation (2015; älter als zwei Jahre) und einer Design-Guidance (2018; älter als zwei Jahre) untersucht, wie schnell Menschen auf Aufforderungen reagieren. In der 2015er Studie werden für bestimmte Szenarien im Testfeld beispielsweise Zeiten zur Wiedererlangung der Kontrolle im Bereich von etwa 1,2–1,3 s bei multimodalen, „imminent“ Warnungen in Level-2-Konzepten genannt, während visuelle Warnungen langsamer ausfallen können (im Bericht wird unter anderem ein Mittelwert von etwa 2,9 s für visuell-only imminent berichtet). Für Level-3-Szenarien werden für imminent Übernahmeaufforderungen Werte um etwa 2,1–2,3 s genannt; bei gestuften Informationshinweisen wird in einem Fall ein deutlich längerer Mittelwert von etwa 17 s beschrieben, weil Personen eher „vorbereiten“ als sofort übernehmen. Diese Zahlen sind ein guter Hinweis darauf, warum ein paar Sekunden im Straßenverkehr viel sind.

Was das für E-Autos und deinen Alltag bedeutet

Warum ist das Thema gerade für moderne E-Autos relevant? Weil viele Elektrofahrzeuge als „Software-first“-Produkte positioniert sind: häufige Updates, umfangreiche Sensorik und Assistenzfunktionen, die im Alltag stark genutzt werden. Gleichzeitig sind E-Autos oft in urbanen Umgebungen unterwegs, wo Schilderdichte, Baustellen, temporäre Beschilderung und visuelles Durcheinander besonders groß sind. Das erhöht nicht automatisch das Risiko eines gezielten Angriffs, aber es erhöht die Zahl der Situationen, in denen Erkennung ohnehin schwierig ist.

Für dich als Fahrer: In vielen Fahrzeugen sind Verkehrszeichen zunächst eine Information, die im Cockpit erscheint. Kritischer wird es, wenn diese Information in Regelkreise einfließt, zum Beispiel bei adaptiver Geschwindigkeitsregelung oder bei einer automatischen Anpassung an Tempolimits. Wie streng ein Auto dem Schild „glaubt“, ist hersteller- und funktionsabhängig. Manche Systeme verlangen eine Bestätigung, andere nutzen zusätzliche Plausibilitätschecks, etwa über Karten oder über die Konsistenz mehrerer Frames.

Der Blick auf Automatisierungsgrade hilft, Risiken sauber einzuordnen. SAE J3016 (APR 2021; älter als zwei Jahre) beschreibt Level 2 als „Partial Driving Automation“, bei der das System Längs- und Querführung übernehmen kann, du aber dauerhaft überwachen musst. Level 3 („Conditional Driving Automation“) bedeutet, dass das System innerhalb einer Betriebsdomäne die gesamte Fahraufgabe ausführt, du aber als „fallback-ready user“ auf eine Übernahmeaufforderung reagieren musst. Das ist nicht nur eine Normdefinition, sondern hat praktische Konsequenzen: Wenn die Software in einem Level-2-System ein Schild falsch interpretiert, ist die Sicherheitsidee, dass du das bemerkst und korrigierst. Bei stärkerer Automatisierung rückt die Frage nach robusten Übergaben und nach Minimal-Risk-Strategien stärker in den Vordergrund.

Ein realistisches Szenario aus dem Alltag ist nicht der „perfekte“ Angriff, sondern das Zusammenspiel aus schlechten Sichtbedingungen und suboptimaler Beschilderung. Forschung zu physischen adversariellen Beispielen macht deutlich, dass Systeme zusätzlich auch durch absichtliche Muster gestresst werden können. Gleichzeitig zeigen die gleichen Arbeiten, wie empfindlich die Wirksamkeit von Bedingungen wie Perspektive und Beleuchtung abhängt. In der Praxis ist daher weniger die Frage „Kann man es theoretisch täuschen?“, sondern eher: „Wie gut ist das System darin, Unsicherheit zu erkennen und sicher zu reagieren?“

Sicherheitslücke bei Fahrerassistenz: Was wirklich hilft

Die gute Nachricht: Es gibt keine einzelne Wundermaßnahme, aber es gibt ein Bündel aus Technik und Produktentscheidungen, das die Angriffsfläche deutlich reduziert. Forschung und Behörden-Guidance weisen dabei immer wieder in ähnliche Richtungen.

Erstens: Training und Tests müssen die echte Welt besser abbilden. In der Angriffs-Forschung ist „robust über Transformationen“ ein Kerngedanke: Muster werden so optimiert, dass sie trotz Drehung, Perspektive und Helligkeit funktionieren. Für Verteidigung heißt das umgekehrt: Modelle sollten genau gegen diese Variabilität robust gemacht werden, etwa durch gezielte Datenaugmentation und Testszenarien, die Winkel, Distanzen, Unschärfe und schwierige Beleuchtung systematisch abdecken. Die 2024er Survey zu physischen adversariellen Angriffen fasst diese Linie als wiederkehrendes Muster zusammen: Ohne realistische Transformationsmodelle bleibt eine Lücke zwischen Labor und Straße. Diese Quelle ist von 2024 und damit älter als zwei Jahre.

Zweitens: Pipeline statt Einzelmodell. Viele Diskussionen drehen sich um den Klassifikator („Welches Schild ist das?“). In echten Systemen entscheiden aber Detektion, Tracking und Entscheidungslogik gemeinsam. Verteidigung kann daher auch in der Logik liegen: temporale Glättung über mehrere Frames, Plausibilitätsprüfungen (passt ein plötzliches Tempolimit zur Umgebung?), oder das Markieren von Situationen als „unsicher“, in denen das System lieber nicht automatisiert nachregelt.

Drittens: Mensch-Maschine-Schnittstelle und Übergaben. NHTSA betont in der Design-Guidance für Level-2- und Level-3-Konzepte die Bedeutung klarer, auffälliger Warnungen und definierter Übergänge. Die im NHTSA-Bericht beschriebenen Unterschiede zwischen multimodalen und rein visuellen Warnungen zeigen, dass das Interface kein Detail ist, sondern Teil des Sicherheitskonzepts. Wer eine Assistenzfunktion anbietet, sollte auch transparent machen, was sie kann und was nicht, damit du deine Aufmerksamkeit realistisch kalibrierst.

Viertens: Redundanz durch Sensorfusion. Auch wenn die hier diskutierten Arbeiten stark kamera- und visionsgetrieben sind: Viele Fahrzeuge nutzen zusätzlich Radar, Kartenwissen oder andere Sensoren, um Entscheidungen robuster zu machen. Ein Schild allein sollte selten der einzige Trigger für sicherheitskritische Aktionen sein. Sensorfusion und konservative Sicherheitslogik sind in der Praxis oft wirkungsvoller als rein kosmetische Filter.

Fazit

Verkehrsschilder sind für Menschen eindeutig, für KI aber nur Muster im Bild. Forschung seit 2018 zeigt nachvollziehbar, dass gedruckte Manipulationen diese Muster in bestimmten Situationen so verschieben können, dass Systeme sich irren oder ein Schild gar nicht erst erkennen. Gleichzeitig zeigen neuere Arbeiten, dass die Wirksamkeit stark von Distanz, Winkel und Licht abhängt und dass komplette Erkennungspipelines anders reagieren als reine Klassifikatoren. Für den Alltag heißt das: Du solltest Verkehrszeichenanzeigen als Unterstützung sehen, nicht als unfehlbare Instanz, besonders bei schwierigen Sichtbedingungen oder in Baustellenbereichen.

Für Hersteller ist die Sicherheitslücke bei Fahrerassistenz vor allem ein Prozess-Thema: realistische Tests, robuste Trainingsdaten, Plausibilitätslogik und gut designte Übergaben sind oft wichtiger als eine einzelne „Anti-Hacker“-Funktion. Und je stärker Fahrzeuge automatisieren, desto mehr zählt ein konservatives Sicherheitskonzept, das Unsicherheit erkennt, Redundanz nutzt und im Zweifel lieber weniger automatisiert statt riskant handelt.

Wie siehst du das: Sollte ein Auto Tempolimits automatisch übernehmen dürfen, oder nur anzeigen? Teile deine Sicht und Beispiele aus dem Alltag.

In diesem Artikel

Newsletter

Die wichtigsten Tech- & Wirtschaftsthemen – 1× pro Woche.

Avatar von Artisan Baumeister

→ Weitere Artikel des Autors

Newsletter

Einmal pro Woche die wichtigsten Tech- und Wirtschafts-Takeaways.

Kurz, kuratiert, ohne Bullshit. Perfekt für den Wochenstart.

[newsletter_form]