Eine der am meisten nachgefragten Funktionen bei den Fahrten mit Robotaxis, die ich mit um die 300 Personen vorgenommen habe, war, dass man mit dem Auto doch sprechen können sollte. Anstatt auf der App die Route zu ändern oder die Musik zu wählen, warum nicht das Fahrzeug durch einen Sprachbefehl dazu anweisen?
Dank ChatGPT und anderen generativen KIs scheint der Wunsch rasch in Erfüllung zu gehen. Die Ingenieure des Londoner Startups Wayve Technologies demonstrieren, wie ein autonomes Fahrzeug durch Textausgabe den Passagieren seine einzelnen Manöver und die Gründe für die Wahl erklärt. Dank der Eigenentwicklung LINGO-1 kommentiert das System die aktuelle Fahrsituation, wie im folgenden Video gezeigt wird.
Die Technologie basiert auf einem sogenannten Vision-Language-Action Models (VLAMs), das ausgehend von großen Sprachmodellen (Large Language Models oder LLMs) nicht nur zum Erklären, sondern auch zum Trainieren von Robotern – wie eben einem autonomen Auto – eingesetzt werden kann. Einige der Manöver, die das Modell dann beschreibt, sind folgende:
- Abbremsen wegen eines vorausfahrenden Fahrzeugs oder einer Ampelschaltung,
- den Fahrstreifen wechseln, um einer Route zu folgen,
- auf die Höchstgeschwindigkeit beschleunigen,
- andere Fahrzeuge bemerken, die auf die Straße kommen oder an einer Kreuzung anhalten
- Annäherung an Gefahrenstellen wie Kreisverkehre und Vorfahrtsschilder,
- geparkte Autos, Ampeln oder Schulen,
- Handlungen anderer Verkehrsteilnehmer, wie z. B. das Wechseln der Fahrspur oder das Überholen von geparkten Fahrzeugen,
- Radfahrer und Fußgänger, die an Zebrastreifen warten oder auf einem Radweg hinter dem Auto auftauchen.
Mit den Trainingsfahrdaten, den aus den Sensoren erhaltenen und mit diesen Anweisungen verknüpften Daten, können neue angereicherte Datensätze erzeugt werden, mit denen das VLAM trainiert werden kann.
Noch befindet sich dieser Ansatz in den Kinderschuhen, doch es versprechen sich die Entwickler viele Vorteile davon. So sollen Roboter jeder Art dank der LLMs und VLAMs viel rascher und automatisiert trainiert und damit ihnen Bewegungsmuster beigebracht werden können. Und vor allem: die KI kann ihre Aktionen erklären, und das ist ein weiterer Ansatz, um erklärbare KI zu schaffen.
Wayve hat noch mehr Beispiele zum VLAM in Aktion in diesem Blogbeitrag.
Doch Vorsicht! Denn nicht immer ist das was man sich wünscht, nämlich mit dem Robotaxi sprechen zu können, von Vorteil. Wie in dieser lustigen Werbung zu sehen ist…
Im November kommt mein Buch zu künstlicher Intelligenz und großen Sprachmodellen, wo ich näher auf generative KI eingehe und viele Beispiele zeige. Es kann bereits vorbestellt werden. Hier sind mehr Details dazu:
KREATIVE INTELLIGENZ
Über ChatGPT hat man viel gelesen in der letzten Zeit: die künstliche Intelligenz, die ganze Bücher schreiben kann und der bereits jetzt unterstellt wird, Legionen von Autoren, Textern und Übersetzern arbeitslos zu machen. Und ChatGPT ist nicht allein, die KI-Familie wächst beständig. So malt DALL-E Bilder, Face Generator simuliert Gesichter und MusicLM komponiert Musik. Was erleben wir da? Das Ende der Zivilisation oder den Beginn von etwas völlig Neuem? Zukunftsforscher Dr. Mario Herger ordnet die neuesten Entwicklungen aus dem Silicon Valley ein und zeigt auf, welche teils bahnbrechenden Veränderungen unmittelbar vor der Tür stehen.
Dieser Beitrag wurde auch auf Englisch verfasst.

1 Kommentar