Die Data Factory – „Datenproduktion“ für das Training von KI-Software
Durch eine sogenannte Data Factory ist es möglich, große Mengen notwendiger Daten für das „Training“ von KI-Software systematisch bereitzustellen und dadurch z. B. sensorbasierte Wahrnehmungssysteme für die Streckenbeobachtung von Zugfahrten zu trainieren – ein wichtiger Schritt in Richtung des vollautomatisierten Fahrens.
In allen Industriesektoren, die autonome oder teilautonome Systeme einsetzen - wie z. B. beim autonomen Fahren auf der Straße oder in der Robotik - sind sensorbasierte Wahrnehmungssysteme von zentraler Bedeutung. In Verbindung mit intelligenter Software können diese Systeme das, was sie detektieren, erkennen, einordnen und analysieren. In der Bahnbranche werden solche Systeme insbesondere für das vollautomatische Fahren von Zügen erprobt. Aktuell testet die Digitale Schiene Deutschland dabei integrierte Systeme aus Umfeldwahrnehmung, Lokalisierung und hochgenauer digitaler Karte, die genaueste Informationen über das Umfeld des Zuges und seine präzise Position in Echtzeit zur Verfügung stellen. Im Projekt Sensors4Rail erprobt die Digitale Schiene Deutschland aktuell solche Systeme in der Praxis.
Sensorbasierte Wahrnehmungssysteme basieren auf Daten verschiedener Sensoren; beispielsweise Kameras, Infrarotkameras, Radar und Lidar (Laserscanner, s. Abb. 1).
Die Daten dieser Sensoren werden mit KI-Software aus dem Feld des maschinellen Lernens verarbeitet und interpretiert. Das versetzt diese Systeme in die Lage, ihre Umgebung und Objekte wie Züge, Gleise und Strommasten zu erkennen. Durch eine intelligente Kombination von KI-Software und einer leistungsfähigen Rechnerumgebung ist, neben der Erkennung von statischen und dynamischen Hindernissen auf und neben dem Gleis, auch eine Gefahreneinschätzung möglich. Dies spielt sowohl für die Entwicklung möglicher Assistenzsysteme als auch für einen vollautomatischen Bahnbetrieb eine entscheidende Rolle.
Für die Lokalisierung des Zuges wird unter anderem ein Geo-Positionssystem (z. B. GNSS – Global Navigation Satellite System) verwendet. Dieses allein reicht für die gleisgenaue Lokalisierung allerdings nicht aus. Daher werden über die Sensoren zusätzlich hochgenaue Lokalisierungsinformationen durch Vergleich mit einer zuvor erstellten digitalen Karte des Bahnumfeldes erhoben. Dabei erkennt die KI-Software unveränderbare statische Objekte (z.B. Strommasten) im Umfeld des Zuges und ordnet diese im nächsten Schritt bekannten Objekten auf der digitalen Karte zu. Durch diese sog. landmarkenbasierte Lokalisierung wird eine zentimetergenaue Lokalisierung sichergestellt.
Um eine solche KI-Software für die Umgebungswahrnehmung zu entwickeln, benötigt es sehr große Datenmengen mit sehr hoher Datenqualität. So werden z. B. zigtausende „Trainingsbilder“ benötigt, um eine KI-Software auf die Erkennung bestimmter Objekte zuverlässig zu trainieren. Wichtig beim Training ist, dass die Bildbereiche mit den zu erlernenden Objekten vorher bei der Datenaufbereitung markiert werden (s. Abb. 2). Diese markierten Bildbereiche nennt man Annotationen.
Diese große Datenmenge können zum einen durch die Aufzeichnung von Sensordaten im Bahnumfeld erhoben und zum anderen durch die Simulation von künstlich generierten Daten erzeugt werden. Bei letzterem werden - vergleichbar mit den simulierten 3D-Umgebungen von Computerspielen - künstliche Sensordaten „hergestellt“. Die zusätzliche Simulation von Sensordaten ist deshalb notwendig, weil es unmöglich ist, durch Aufzeichnungen des regulären Bahnbetriebs alle denkbaren Ereignisse und Sonderfälle zu erfassen. Außerdem stellt die Simulation von Daten eine signifikante Kosteneinsparung im Vergleich zu real erfassten Daten dar.
Durch eine Mischung aus aufgezeichneten Real-Daten und künstlichen Simulationsdaten wird schließlich die Datengrundlage für das Training der KI-Software geschaffen. Durch diese Datengrundlage und unter Zuhilfenahme von Hochleistungsrechnern ist die Entwicklung einer KI-basierten Objekterkennung und Zuglokalisierung möglich.
Um die KI-Software darüber hinaus stetig zu verbessern und weiter zu trainieren, ist ein sogenannter „Data-Loop“ erforderlich. Dies ist ein Datenkreislauf, bestehend aus Real-Daten und simulierten Daten, welcher die Datenbasis immer aktuell hält. Um die immense Datenmenge und den Data-Loop für das kontinuierliche Training der KI-Software bereitzustellen, hat die Digitale Schiene Deutschland nun begonnen, eine sog. Data-Factory aufzubauen, die aus drei Kernkomponenten bestehen wird:
Die noch zu entwickelnden Touch-Points der Data-Factory sollen den Datenfluss großer Mengen aufgezeichneter Sensordaten vom Zug ins Data-Center ermöglichen. Dabei soll sich ein Touch-Point drahtlos mit einem Zug in Reichweite verbinden und die große Menge an Sensordaten herunterladen, welcher der Zug während seiner Fahrt gesammelt hat. Anschließend werden die Daten im Touch-Point vorverarbeitet und vorsortiert (Datenreduktion), sodass nur der relevante Anteil der Daten an das Data-Center übermittelt werden muss (Abb. 4 links, Mitte). Die benötigte Datenmenge für das Training der KI-Software wird anfangs noch sehr hoch sein, sich aber mit fortschreitendem Weitertrainieren verringern.
Im Data-Center werden die Daten auf einem großen Speicher abgelegt. Im Folgenden werden Annotationen zu den aufgenommenen Sensordaten erstellt und durch das Daten-Management verwaltet, visualisiert und durchsuchbar gemacht (Abb. 4 rechts).
Am großen Speicher ist ein System von Hochleistungsrechnern angeschlossen. Dieses beinhaltet eine softwarebasierte Werkzeugkette (Abb. 4, blau) für die Entwicklung der KI-Software. Darin enthalten sind Werkzeuge für die Simulation, Daten-Pipelines für die Weiterverarbeitung und der qualitativen Aufwertung der Daten und Werkzeuge für das maschinelle Lernen. Hierdurch wird die KI-Software zur Umgebungswahrnehmung trainiert und getestet.
Da grenzüberschreitende Verkehre für die Bahnbranche eine sehr hohe Bedeutung haben, soll darüber hinaus auch eine weitere Ausbaustufe der Data-Factory auf europäischer Ebene realisiert werden. Für Spitzenlasten und spezielle Rechenoperationen soll die Data-Factory dann an eine Cloudumgebung angebunden werden. Diesen Ansatz bezeichnet man als Hybrid-Modell. Ziel ist es, mit einer europäisch vernetzten Data-Factory Synergieeffekte mit anderen europäischen Bahnbetreibern zu erzielen und eine Grundlage für europaweite Standards bei der Digitalisierung des Bahnsystems zu schaffen (Abb. 5). Dies ist Bestandteil der europäischen Initiativen wie ERJU (Europe's Rail Joint Undertaking).