
Data Factory
Durch eine sogenannte Data Factory werden große Mengen notwendiger Daten systematisch für die verschiedenen Anwendungsfälle des digitalisierten Bahnsystems erzeugt, aufbereitet und zur Verfügung gestellt. Ein prominenter Anwendungsfall ist dabei das Trainieren von Systemen, die mit Künstlicher Intelligenz (KI) arbeiten.
Projektlaufzeit
Unsere Partner









Die Digitale Schiene Deutschland hat 2022 mit dem Aufbau einer „Data Factory“ begonnen. Damit ist es möglich, große Mengen notwendiger Daten für die verschiedenen Anwendungsfälle des digitalisierten Bahnsystems systematisch zu erzeugen, zu verwalten und gezielt bereitzustellen. Einerseits erzeugen digitale Systeme große Mengen an Daten, so z. B. Sensoren wie Kameras an Zügen, die das Gleisumfeld detailliert erfassen. Andererseits erfordert Digitalisierung auch eine systematische Erzeugung von Daten, um z. B. Künstliche Intelligenz (KI), ausreichend „trainieren“ zu können. Ein populärer Anwendungsfall ist dabei das „Training“ von KI-Software für sensorbasierte Wahrnehmungssysteme. Dies wird insbesondere im Kontext der Erstellung eines digitalen Abbilds der Infrastruktur oder des vollautomatisierten, fahrerlosen Fahrens (sog. Grade of Automation 4, GoA4) benötigt. Um eine solche KI-Software z. B. für die Umfeldwahrnehmung zu entwickeln, werden große Mengen an realen Sensordaten und simulierten Daten mit sehr hoher Datenqualität benötigt.
Solche Daten für das Training KI-basierter Funktionen über eine einheitliche Cloud- und IT-Plattform zu organisieren, ist eine große Herausforderung. Die Plattform ermöglicht die Aufbereitung und Nutzung dieser Daten durch verschiedene Akteur:innen (Betreiber, Hersteller, KI-Expert:innen etc.).
Die Data Factory ist in nachfolgendem Bild dargestellt. Zu sehen ist der Datenfluss vom Zug über die Streckenseite, bis hin zum Backend.

Der Weg der Daten
Züge können mit Sensoren wie Kameras, Infrarotkameras, Lidare und Radare sowie Lokalisierungssensorikv ausgerüstet werden.
Während der Zugfahrt nehmen diese Sensoren das Bahnumfeld mit Infrastrukturelementen und weiteren Objekten auf. Auf Grund der verschiedenen Sensortypen spricht man von multimodalen (Sensor)Daten.

Auf dem Zug ist der Vehicle Data Logger (1) integriert, welcher die multimodalen Sensordaten abspeichert und die Datenintegrität sicherstellt. Der Vehicle Data Logger ist bahnzertifiziert und mit einem großen Speicher (120 TB) sowie WLAN Technologie für die drahtlose Datenübertragung ausgestattet (weitere Informationen zum VDL).

Sobald sich der Zug in der Abstellung befindet, werden die gesammelten Daten drahtlos an den Data Touchpoint (2) übertragen. Der Data Touchpoint ist eine streckenseitige Edge-Cloud Lösung, welche mit Speicher und Rechenkapazität ausgestattet ist. Im Data Touchpoint werden die Daten reduziert, vorverarbeitet und über eine WLAN Verbindung an das Data Center (3) übertragen.
Das von der DB betriebene Data Center (On-Premise)beinhaltet eine große Speicherinfrastruktur (>5 PB) sowie mehrere Nvidia DGX- und Nvidia OVX Server für anspruchsvolle Machine Learning-, Simulations- und Analyseaufgaben. Eine Microsoft Azure basierte Hyper Converged Infrastructure (HCI) steht als Rechenplattform zur Verfügung, weitere Cloud Anbindungen wie beispielsweise die Nutzung von AWS S3 Objektspeicher runden die hoch skalierbare Infrastrukturlösung ab.
Diese IT-Assets bilden die Grundlage für die Software Toolchain, welche aufeinander abgestimmte Anwendungen und Plattformen für die Verwaltung und Verarbeitung der Daten bereitstellt.

Darin enthalten sind die Data Pipelines (4). Diese sind containerisierte Anwendungen, welche auf dem Vehicle Data Logger, dem Data Touchpoint und im Data Center zum Einsatz kommen. Einige der Bestandteile sind Funktionen zur Datenaufzeichnung, Datenqualitätssicherung und Datentransformation, aber auch Funktionen zum Datenexport und -import.

Die erforderlichen Datenmengen können zum einen durch die Aufzeichnung von realen Sensordaten im Gleisumfeld und zum anderen durch die Generierung von künstlichen Daten mit verschiedenen Simulationsumgebungen erzeugt werden.

Die mit dem Vehicle Data Logger aufgenommenen und mit den Data Pipelines verarbeiteten Daten des realen Bahnumfelds müssen im Nachgang annotiert werden, das bedeutet, dass Bildbereiche mit den zu erlernenden Objekten markiert werden. Diese markierten Bildbereiche nennt man Annotationen.

Die Data Platform (5) ist der zentrale Ort, an dem alle Sensordaten, Analyseergebnisse und Annotationen zusammenfließen. Sie ermöglicht eine strukturierte Verwaltung der Daten, bietet eine leistungsfähige Suche und sorgt für die Visualisierung der multimodalen Daten. Darüber hinaus dient sie als zentrale Datenschnittstelle für sämtliche Funktionen der Software Toolchain und stellt die benötigten Daten sowohl externen Kunden als auch internen Bedarfsträgern der DB zur Verfügung.

Data Analytics (6) bündelt verschiedene Themen zur Extraktion von Information aus den Daten. Zum einen werden Machine Learning-basierte KI-Funktionen erstellt, trainiert und evaluiert. Diese KI-Funktionen werden verwendet, um automatisierte Datenanalysen und Erkennungen von Objekten wie Menschen, Fahrzeugen oder Infrastrukturelementen wie Oberleitungsmasten, PZB-Magnete, Kanal- und Kabelschächte usw. durchzuführen.

Alle Sensordaten, Annotationen, Detektionen und Analyseergebnisse werden in Datasets (7) gebündelt. Diese können internen und externen Bedarfsträgern zur Verfügung gestellt werden (weitere Informationen dazu hier). Außerdem werden gewisse Anteile der Daten als Open Data Sets zusammen mit dem Deutschen Zentrum für Schienenverkehrsforschung (DZSF) frei verfügbar gemacht.

-
Die vollautomatisierte Zugfahrt benötigt Züge, welche mit Sensoren an der Zugfront und KI-Funktionen ausgestattet sind. Für die Entwicklung von KI-Funktionen für das fahrerlose Fahren werden enorme Mengen an Sensordaten benötigt.
Die effiziente Erfassung und Speicherung dieser Daten wird von der Data Factory geleistet. Ein Schlüsselprojekt für die Entwicklung dieser Anwendung ist das Projekt AutomatedTrain, dass das automatische Auf- und Abrüsten sowie die vollautomatisierte Bereit- und Abstellung von Zügen erprobt. -
Die Erhebung von Sensordaten auf Bahnstrecken ist komplex und erfordert die Berücksichtigung zahlreicher technischer und regulatorischer Aspekte. Zudem sind Trassen und Fahrzeuge für Testfahrten rar und teuer. Die Data Factory verfügt über die Expertise, solche Daten unter diesen anspruchsvollen Bedingungen zu erzeugen. Dieses Alleinstellungsmerkmal unterscheidet die Bahnbranche deutlich vom Automobilsektor, wo Fahrzeughersteller problemlos Daten auf öffentlichen Straßen sammeln können.
-
Um die Forschung und die industrielle Entwicklung zu unterstützen, setzt sich die Data Factory für einen diskriminierungsfreien Zugang zu diesen Daten ein.
-
Hervorzuheben sind hier die Aktivitäten der Data Factory zusammen mit dem Deutschen Zentrum für Schienenverkehrsforschung (DZSF) des Eisenbahnbundesamts (EBA). Im Rahmen des Gemeinschaftsprojekts wurde der erste freiverfügbare annotierte multimodale Sensordatensatz OSDaR23 publiziert. Bald folgt ein noch umfangreicherer Datensatz OSDaR25.
-
- Die Sanierung der Bahninfrastruktur in Deutschland ist essenziell, um zuverlässige Leistungen sicherzustellen und die Kapazität für das steigende Passagieraufkommen zu erhöhen. Die digitale Bestandsaufnahme der Infrastruktur ist dabei entscheidend. Durch eine einheitliche Erfassung und Bewertung des Zustands von Strecken und Zügen kann gezielt und effizient saniert werden.
- Hier könnten die Sensordaten von Strecken und insbesondere die KI-Analyse-Tools der Data Factory bei der (prädiktiven) Instandhaltung helfen. Automatisiertes Erkennen von Oberleitungsmasten, PZB-Magneten, Kanal- und Kabelinfrastruktur wurden bereits prototypisch umgesetzt und können gewinnbringend erweitert werden.
- Großes Potential verbirgt sich in der Ausrüstung von Mess- und Inspektionszügen, welche mehrmals jährlich das gesamte deutsche Streckennetz befahren und dieses als digitalen Zwilling abbilden könnten.
Bisher gibt es kaum öffentliche Datensätze aus dem Bahnbereich. Deshalb hat die DB InfraGo AG im Rahmen der Sektorinitiative „Digitale Schiene Deutschland“ zusammen mit dem Deutschen Zentrum für Schienenverkehrsforschung (DZSF) beim Eisenbahn-Bundesamt (EBA) den ersten öffentlich verfügbaren Multisensordatensatz OSDaR23 erstellt und veröffentlicht.

Der Datensatz besteht aus zeitsynchronisierten Sensordaten von:
- 3 hochauflösende Kameras, 3 mittelauflösende Kameras, 3 Infrarotkameras
- 3 Langstrecken-LiDARe, 1 Mittelbereichs-Lidar, 2 Kurzstrecken-LiDARe
- 1 Langstreckenradar, 4 Inertiale Messeinheiten, 4 GPS/GNSS-Sensoren
Der Datensatz beinhaltet Annotationen von 20 Objektklassen, besitzt das Annotationsformat
ASAM Open Label und kann unter https://data.fid-move.de/dataset/osdar23 heruntergeladen werden.
Weitere Informationen:
https://digitale-schiene-deutschland.de/Downloads/ETR-OSDaR23.pdf
https://digitale-schiene-deutschland.de/aktuelles/Data-Factory
Die Auswertung der Sensordaten beim vollautomatisierten Fahren geschieht voraussichtlich auch durch KI-Modelle, die mit Algorithmen des Maschinellen Lernens (ML) auf Basis von geeigneten Trainings-, Validierungs- und Testdaten entwickelt wurden. Grundlage für ML sind Datensätze aus Ein- und Ausgabedaten, anhand derer ein ML-Algorithmus „lernen“ kann. Bei der Objekterkennung bei ATO sind die Eingabedaten etwa Sensordaten, die die relevanten Bereiche, z.B. Fahrweg vor dem Zug erfassen. Außerdem müssen die zu erkennenden Objekte (z.B. Personen, Gleise) erfasst sein. Die Ausgabedaten umfassen alle Daten, die das zu entwickelnde ML-Modell aus den Eingabedaten ableiten soll. Das sind beispielsweise Ortskoordinaten der Bereiche, in denen sich zu erkennende Objekte befinden, Klassifizierungen der Objekte oder Ausprägungen von Objektattributen.

Aufgrund der großen Menge an Daten, die für das Entwickeln, Testen und Zulassen der ATO-Funktionen notwendig sein werden, erscheint eine zumindest teilautomatische Voranalyse sinnvoll. In den aufgezeichneten Daten können dann automatisiert bestimmte Objekte, Situationen oder Umgebungsbedingungen identifiziert werden. Gezielt bestimmte Daten zu finden, wird somit möglich - etwa aufgezeichnete Wildtiere oder Objekte, die in besonders relevanten Distanzen oder Zonen um das Gleis stehen. Diese lassen sich dann annotieren, um für das Training der KI-Verfahren nutzbar zu werden. Auch besondere Wetterbedingungen wie Regen oder Schneetreiben lassen sich automatisiert erkennen und als maschinell erzeugte Beschreibung zu den Daten hinzufügen. In Zukunft soll außerdem die Gesamteinschätzung der Situation, also wie relevant die Daten für ein KI-Training oder –Testen sind, mithilfe des Computers bewertet werden.
Der Aufbau und Betrieb einer Data Factory für ein vollständig digitalisiertes Bahnsystem ist eine große Aufgabe. Im Bahnsektor herrscht daher Konsens, dass einzelne Eisenbahnunternehmen oder Hersteller zukünftig nicht genügend Sensordaten bereitstellen können, um die zahlreichen KI-Funktionen ausreichend trainieren zu können. Im europäischen Bahnsektor gibt es daher Überlegungen, eine „Pan-European Railway Data Factory“ mit einer gemeinsamen Infrastruktur zu schaffen, welche es Bahnunternehmen und Herstellern europaweit ermöglicht, Sensordaten zu sammeln, zu verarbeiten, zu simulieren und für die gegenseitige Nutzung zur Verfügung zu stellen.
Die Umsetzungsstrategie für die Pan-European Railway Data Factory (PEDF) ist in kurz-, mittel- und langfristige Maßnahmen unterteilt. Kurzfristig liegt der Fokus auf individuellen technischen und rechtlichen Lösungen für einzelne nationale Datenfabriken. Mittelfristig soll eine Angleichung der Standards erfolgen, um eine schrittweise Integration der Data Factories einzelner Mitglieder zu ermöglichen. Langfristig wird eine umfassende Koordinierung der Standardisierungsbemühungen angestrebt, insbesondere im Hinblick auf Datenqualität, -formate, Schnittstellen und Interkonnektivität.
Die Beteiligungspfade für PEDF-Mitglieder umfassen die Schnittstellen Abstimmungen für Flexibilität im Datenaustausch und die Toolchain Abstimmungen für die Harmonisierung von Werkzeugketten. Die Strategie zeichnet sich durch ihre pragmatische und schrittweise Entwicklung aus, um die PEDF zu einer vielseitigen und effektiven paneuropäischen Initiative zu machen.

Die Digitale Schiene Deutschland hat daher das Projekt „Rail Data Factory“ im Rahmen des Förderprogramms „CEF2 Digital“ mit ins Leben gerufen und gemeinsam mit der französischen Bahn SNCF und der niederländischen Bahn NS eine von der European Health and Digital Executive Agency (HADEA) co-finanzierte Studie durchgeführt. Gegenstand war die Bewertung der Umsetzbarkeit einer Pan-European Railway Data Factory aus technischer, wirtschaftlicher, regulatorischer und operativer Sicht. Die Studie startete im Januar 2023 und wurde im Dezember 2023 abgeschlossen. Durch ein so genanntes Rail Advisory Board und eine enge Synchronisation mit Data Factory-bezogenen Aktivitäten im Europe’s Rail Förderprojekt „R2DATO2 wird gewährleistet, dass die Studie die Bedarfe des Bahnsektors berücksichtigt und im Einklang vergleichbarer Aktivitäten durchgeführt wurde.
Neben der Ausarbeitung der Architektur und eines Umsetzungsplans war ein zentrales Ergebnis die Bestätigung, dass der Aufbau einer Pan-European Railway Data Factory für die Projektbeteiligten eine hohe Relevanz besitzt.
Weitere Informationen:
https://digitale-schiene-deutschland.de/de/aktuelles/Pan-European-Railway-Data-Factory
Projektlaufzeit Pan-European Railway Data Factory
Das Projekt ERJU „R2DATO“ (ERJU = Europe´s Rail Joint Undertaking) hat zum Ziel eine gemeinsame Innovationsroadmap der Bahnbetreiber und Hersteller für den künftigen europaweiten digitalen und automatisierten Bahnverkehr zu erarbeiten und die notwenigen technologischen Enabler hierfür zu entwickeln und zu erproben.
Im Rahmen des Arbeitspaketes 7 des „R2DATO“ Projekts, ist die Schaffung einer Umgebung für die Data Factory vorgesehen, welche eine kollaborative Daten- und Infrastrukturlösung bietet.
Einerseits werden Aspekte der Anforderungen an die Data Factory entwickelt und mit den Projektmitgliedern geteilt. Andererseits wird der Data Factory-Prototyp der Digitalen Schiene Deutschland parallel aufgebaut. Die Anforderungen konzentrieren sich auf die Assets im Data Center und die zukünftige Werkzeugkette sowie auf die Datenqualität und Annotation.
Die Werkzeugkette beinhaltet eine Datenplattform, welche die Datenverwaltung und -visualisierung übernimmt. Außerdem beinhaltet sie Tools zur Annotation von (Sensor-)Daten und eine Simulationsplattform, welche künstliche Daten synthetisiert (s. Abschnitt 2). Das Training und die Evaluation der KI-Funktionen wird in der Machine Learning Plattform durchgeführt, welche ebenfalls Bestandteil der Werkzeugkette ist. Die Testing & Certification Plattform soll die zukünftige Zulassung von KI-Funktionen unterstützen und eine Access & Information Plattform gewährleistet das nahtlose Zusammenspiel der einzelnen Werkzeuge.
Aufbauend auf den Ergebnissen der CEF2 Studie (Abschnitt 6), wird hier das Konzept der Pan-Europäischen Data Factory weiterverfolgt und ausgearbeitet. Ziel ist der Zusammenschluss von unabhängigen Data Factories und IT-Assets mittels eines Hochgeschwindigkeitsnetzwerks, die Definition gemeinsamer Schnittstellen sowie der Aufbau einer einheitlichen Toolchain.
Die einheitliche Toolchain soll dafür Sorge tragen, eine Datensouveränität zu gewährleisten sowie den diskriminierungsfreien Zugang der Stakeholder zu Daten zu ermöglichen. Darüber hinaus soll sie Synergien bei der Datenerhebung, Datenverarbeitung und der KI-Entwicklung schaffen und eine Zulassung von KI-Funktionen ermöglichen.
Ein Rechtsgutachten wird klären, welche Rechtsbereiche in dem Projekt R2DATO WP7 relevant sind. Dieses Gutachten wird somit die Grundlage für die weitere Ausarbeitung des Konzepts einer konsortial geführten Pan-Europäischen Data Factory darstellen.
Ein weiterer Bestandteil des Arbeitspakets ist die sektorweite Abstimmung bezüglich der Datensimulation und der Datenannotation. In Zusammenarbeit mit den Projektpartnern sollen im ersten Schritt nicht-reguläre Szenarien simuliert und Sensordaten annotiert werden.
Im nächsten Schritt werden diese Daten dann verwendet, um prototypische KI-Funktionen, insbesondere Objektdetektoren zu trainieren.
Die Digitale Karte (digital Register WP27) wird exemplarisch Kartendaten bereitstellen.
Abschließend wird ein Open-Data Set erstellt, welches reale Sensordaten, Annotationen, simulierte Sensordaten und Kartendaten enthält.
Projektlaufzeit
Unsere Partner
















Fachartikel
-
Pan-European Railway Data Factory – Infrastruktur und Ökosystem für einen vollautomatisierten Bahnbetrieb | April 2024
Viele europäische Eisenbahnen streben einen automatisierten Bahnbetrieb an. Dies erfordert die Sammlung umfangreicher Sensordaten für das KI-Training. Eine Pan-European Railway Data Factory (PEDF) als gemeinsames Infrastruktur- und Partner-Ökosystem erscheint hierfür passend. Dieser Beitrag fasst die Highlights und Ergebnisse der CEF2 RailDataFactory Studie von Deutscher Bahn AG (DB), Société nationale des chemins de fer français (SNCF) und Nederlandse Spoorwegen N.V. (NS) zusammen.
Erschienen in: SIGNAL+DRAHT
-
Studienergebnis "D1 – Data Factory Concept, Use Cases and Requirements" | Juni 2023
Die „pan-European Railway Data Factory“ ist eine Art Ökosystem mit einer gemeinsamen Infrastruktur, welches es Bahnunternehmen und Herstellern ermöglicht, Sensordaten europaweit zu sammeln, zu verarbeiten, zu simulieren und für die gegenseitige Nutzung zur Verfügung zu stellen.
*Die Studienergebnisse wurden nur auf Englisch publiziert
-
Artikel in "ETR - Eisenbahntechnische Rundschau" | Offener Multisensordatensatz für die Entwicklung der Umfeldwahrnehmung beim vollautomatischen Fahren | 04/23
Für die Umfeldwahrnehmung beim automatisierten Fahren im Eisenbahnbetrieb werden auch maschinelle Lernverfahren zum Einsatz kommen. Die für deren Entwicklung notwendigen Datensätze sind derzeit aber kaum öffentlich verfügbar. In einem Projekt des DZSF sowie der DB Netz AG im Rahmen der Sektorinitiative Digitale Schiene Deutschland wurde solch ein Multisensordatensatz erstellt und veröffentlicht.
Quelle: Eisenbahntechnische Rundschau