Menü
Schematic representation of a station with data from the sensors. Schematic representation of a station with data from the sensors.

Data Factory

Durch eine sogenannte Data Factory werden große Mengen notwendiger Daten systematisch für die verschiedenen Anwendungsfälle des digitalisierten Bahnsystems erzeugt, aufbereitet und zur Verfügung gestellt. Ein prominenter Anwendungsfall ist dabei das Trainieren von Systemen, die mit Künstlicher Intelligenz (KI) arbeiten.

Projektlaufzeit

Start
2022
Ende
offen

Unsere Partner

Die Digitale Schiene Deutschland hat 2022 mit dem Aufbau einer „Data Factory“ begonnen. Damit ist es möglich, große Mengen notwendiger Daten für die verschiedenen Anwendungsfälle des digitalisierten Bahnsystems systematisch zu erzeugen, zu verwalten und gezielt bereitzustellen. Einerseits erzeugen digitale Systeme große Mengen an Daten, so z. B. Sensoren wie Kameras an Zügen, die das Gleisumfeld detailliert erfassen. Andererseits erfordert Digitalisierung auch eine systematische Erzeugung von Daten, um z. B. Künstliche Intelligenz (KI), ausreichend „trainieren“ zu können. Ein populärer Anwendungsfall ist dabei das „Training“ von KI-Software für sensorbasierte Wahrnehmungssysteme. Dies wird insbesondere im Kontext der Erstellung eines digitalen Abbilds der Infrastruktur oder  des vollautomatisierten, fahrerlosen Fahrens (sog. Grade of Automation 4, GoA4) benötigt. Um eine solche KI-Software z. B. für die Umfeldwahrnehmung zu entwickeln, werden große Mengen an realen Sensordaten und simulierten Daten mit sehr hoher Datenqualität benötigt.

 

Solche Daten für das Training KI-basierter Funktionen über eine einheitliche Cloud- und IT-Plattform zu organisieren, ist eine große Herausforderung. Die Plattform ermöglicht die Aufbereitung und Nutzung dieser Daten durch verschiedene Akteur:innen (Betreiber, Hersteller, KI-Expert:innen etc.).

 

Die Data Factory ist in nachfolgendem Bild dargestellt. Zu sehen ist der Datenfluss vom Zug über die Streckenseite, bis hin zum Backend.

Zu sehen ist der Datenfluss vom Zug über die Streckenseite, bis hin zum Backend . Zu sehen ist der Datenfluss vom Zug über die Streckenseite, bis hin zum Backend . | © DB InfraGo AG
Zu sehen ist der Datenfluss vom Zug über die Streckenseite, bis hin zum Backend.

Der Weg der Daten

Züge können mit Sensoren wie Kameras, Infrarotkameras, Lidare und Radare sowie Lokalisierungssensorikv ausgerüstet werden.
Während der Zugfahrt nehmen diese Sensoren das Bahnumfeld mit Infrastrukturelementen und weiteren Objekten auf. Auf Grund der verschiedenen Sensortypen spricht man von multimodalen (Sensor)Daten.

Multimodale Sensordaten aus dem Bahnumfeld: (a) Infrarot, (b) Farbkamera, (c) Lidarpunktwolke, (d) Radarbild.  Multimodale Sensordaten aus dem Bahnumfeld: (a) Infrarot, (b) Farbkamera, (c) Lidarpunktwolke, (d) Radarbild.   | © NVIDIA und DB InfraGO
Multimodale Sensordaten aus dem Bahnumfeld: (a) Infrarot, (b) Farbkamera, (c) Lidarpunktwolke, (d) Radarbild. 

Auf dem Zug ist der Vehicle Data Logger (1) integriert, welcher die multimodalen Sensordaten abspeichert und die Datenintegrität sicherstellt. Der Vehicle Data Logger ist bahnzertifiziert und mit einem großen Speicher (120 TB) sowie WLAN Technologie für die drahtlose Datenübertragung ausgestattet (weitere Informationen zum VDL).

(1)  Der Vehicle Data Logger erfüllt alle relevanten Eisenbahnnormen für den Betrieb in Schienenfahrzeugen und ist ein modulares Hardware- und Software-System für  die Aufzeichnung von Daten, insb. Umfeldwahrnehmungssensoren. (1)  Der Vehicle Data Logger erfüllt alle relevanten Eisenbahnnormen für den Betrieb in Schienenfahrzeugen und ist ein modulares Hardware- und Software-System für  die Aufzeichnung von Daten, insb. Umfeldwahrnehmungssensoren.
(1) Der Vehicle Data Logger erfüllt alle relevanten Eisenbahnnormen für den Betrieb in Schienenfahrzeugen und ist ein modulares Hardware- und Software-System für die Aufzeichnung von Daten, insb. Umfeldwahrnehmungssensoren.

Sobald sich der Zug in der Abstellung befindet, werden die gesammelten Daten drahtlos an den Data Touchpoint (2) übertragen. Der Data Touchpoint ist eine streckenseitige Edge-Cloud Lösung, welche mit Speicher und Rechenkapazität ausgestattet ist. Im Data Touchpoint werden die Daten reduziert, vorverarbeitet und über eine WLAN Verbindung an das Data Center (3) übertragen.

Das von der DB betriebene Data Center (On-Premise)beinhaltet eine große Speicherinfrastruktur (>5 PB) sowie mehrere Nvidia DGX- und Nvidia OVX Server für anspruchsvolle Machine Learning-, Simulations- und Analyseaufgaben. Eine Microsoft Azure basierte Hyper Converged Infrastructure (HCI) steht als Rechenplattform zur Verfügung, weitere Cloud Anbindungen wie beispielsweise die Nutzung von AWS S3 Objektspeicher runden die hoch skalierbare Infrastrukturlösung ab.

Diese IT-Assets bilden die Grundlage für die Software Toolchain, welche aufeinander abgestimmte Anwendungen und Plattformen für die Verwaltung und Verarbeitung der Daten bereitstellt.

2) Data Touchpoint,  (3) Data Center 2) Data Touchpoint,  (3) Data Center
2) Data Touchpoint, (3) Data Center

Darin enthalten sind die Data Pipelines (4). Diese sind containerisierte Anwendungen, welche auf dem Vehicle Data Logger, dem Data Touchpoint und im Data Center zum Einsatz kommen. Einige der Bestandteile sind Funktionen zur Datenaufzeichnung, Datenqualitätssicherung und Datentransformation, aber auch Funktionen zum Datenexport und -import.

4) Bildunterschrift: In der Abbildung sind beispielhafte Datenpipelines dargestellt, die automatisiert verschiedenste Metadaten anhand der gespeicherten Daten generieren und in die Datenplattform zurückspielen. 4) Bildunterschrift: In der Abbildung sind beispielhafte Datenpipelines dargestellt, die automatisiert verschiedenste Metadaten anhand der gespeicherten Daten generieren und in die Datenplattform zurückspielen.
(4) In der Abbildung sind beispielhafte Datenpipelines dargestellt, die automatisiert verschiedenste Metadaten anhand der gespeicherten Daten generieren und in die Datenplattform zurückspielen.

Die erforderlichen Datenmengen können zum einen durch die Aufzeichnung von realen Sensordaten im Gleisumfeld und zum anderen durch die Generierung von künstlichen Daten mit verschiedenen Simulationsumgebungen erzeugt werden.

Simulation einer irregulären Situation im fotorealistischen digitalen Zwilling. Ein Gepäckstück fällt aufs Gleis während einer Zugeinfahrt im Bahnhof (Quelle: NVIDIA) Simulation einer irregulären Situation im fotorealistischen digitalen Zwilling. Ein Gepäckstück fällt aufs Gleis während einer Zugeinfahrt im Bahnhof (Quelle: NVIDIA) | © NVIDIA und DB InfraGO AG
Simulation einer irregulären Situation im fotorealistischen digitalen Zwilling. Ein Gepäckstück fällt aufs Gleis während einer Zugeinfahrt im Bahnhof (Quelle: NVIDIA)

Die mit dem Vehicle Data Logger aufgenommenen und mit den Data Pipelines verarbeiteten Daten des realen Bahnumfelds müssen im Nachgang annotiert werden, das bedeutet, dass Bildbereiche mit den zu erlernenden Objekten markiert werden. Diese markierten Bildbereiche nennt man Annotationen.

Sensordaten einer Farbkamera; (b) Annotationen der Objekte: Zug, Signal, Schienen und Personen; (c) Datensatz, der für das KI-Training verwendet wird Sensordaten einer Farbkamera; (b) Annotationen der Objekte: Zug, Signal, Schienen und Personen; (c) Datensatz, der für das KI-Training verwendet wird | © DB InfraGO AG
Sensordaten einer Farbkamera; (b) Annotationen der Objekte: Zug, Signal, Schienen und Personen; (c) Datensatz, der für das KI-Training verwendet wird

Die Data Platform (5) ist der zentrale Ort, an dem alle Sensordaten, Analyseergebnisse und Annotationen zusammenfließen. Sie ermöglicht eine strukturierte Verwaltung der Daten, bietet eine leistungsfähige Suche und sorgt für die Visualisierung der multimodalen Daten. Darüber hinaus dient sie als zentrale Datenschnittstelle für sämtliche Funktionen der Software Toolchain und stellt die benötigten Daten sowohl externen Kunden als auch internen Bedarfsträgern der DB zur Verfügung.

(5) Im Beispielbild ist die Suchfunktion und die multimodale Ansicht eines Datensatzes gezeigt. (5) Im Beispielbild ist die Suchfunktion und die multimodale Ansicht eines Datensatzes gezeigt.
(5) Im Beispielbild ist die Suchfunktion und die multimodale Ansicht eines Datensatzes gezeigt.

Data Analytics (6) bündelt verschiedene Themen zur Extraktion von Information aus den Daten. Zum einen werden Machine Learning-basierte KI-Funktionen erstellt, trainiert und evaluiert. Diese KI-Funktionen werden verwendet, um automatisierte Datenanalysen und Erkennungen von Objekten wie Menschen, Fahrzeugen oder Infrastrukturelementen wie Oberleitungsmasten, PZB-Magnete, Kanal- und Kabelschächte usw. durchzuführen.

Beispiel für automatische Infrastrukturelementerkennung die Detektion von Kanalschachtabdeckungen entlang einer Bahnstrecke in einem Tunnel. Der ML-Detektors wurde mit einer sog. Active Learning Pipeline entwickelt, welcher ein schnelles und unkompliziertes Trainieren ermöglicht. Videomaterial aufgenommen von Team Streckenvideo. Beispiel für automatische Infrastrukturelementerkennung die Detektion von Kanalschachtabdeckungen entlang einer Bahnstrecke in einem Tunnel. Der ML-Detektors wurde mit einer sog. Active Learning Pipeline entwickelt, welcher ein schnelles und unkompliziertes Trainieren ermöglicht. Videomaterial aufgenommen von Team Streckenvideo.
(6) Beispiel für automatische Infrastrukturelementerkennung die Detektion von Kanalschachtabdeckungen entlang einer Bahnstrecke in einem Tunnel. Der ML-Detektors wurde mit einer sog. Active Learning Pipeline entwickelt, welcher ein schnelles und unkompliziertes Trainieren ermöglicht. Videomaterial aufgenommen von Team Streckenvideo.

Alle Sensordaten, Annotationen, Detektionen und Analyseergebnisse werden in Datasets (7) gebündelt. Diese können internen und externen Bedarfsträgern zur Verfügung gestellt werden (weitere Informationen dazu hier). Außerdem werden gewisse Anteile der Daten als Open Data Sets zusammen mit dem Deutschen Zentrum für Schienenverkehrsforschung (DZSF) frei verfügbar gemacht.

(7) Datensets sind verschiedene Szenen, die aus exportierten und synchronisierten Sensordaten und den dazugehörigen Annotationen aufgebaut sind. Im Bild sind zum einen das RGB-Kamerabild und zum anderen die Infrrotkamera mit den dazugehörigen Annotationen gezeigt. (7) Datensets sind verschiedene Szenen, die aus exportierten und synchronisierten Sensordaten und den dazugehörigen Annotationen aufgebaut sind. Im Bild sind zum einen das RGB-Kamerabild und zum anderen die Infrrotkamera mit den dazugehörigen Annotationen gezeigt.
(7) Datensets sind verschiedene Szenen, die aus exportierten und synchronisierten Sensordaten und den dazugehörigen Annotationen aufgebaut sind. Im Bild sind zum einen das RGB-Kamerabild und zum anderen die Infrrotkamera mit den dazugehörigen Annotationen gezeigt.
  • Die vollautomatisierte Zugfahrt benötigt Züge, welche mit Sensoren an der Zugfront und KI-Funktionen ausgestattet sind. Für die Entwicklung von KI-Funktionen für das fahrerlose Fahren werden enorme Mengen an Sensordaten  benötigt.
    Die effiziente Erfassung und Speicherung dieser Daten wird von der Data Factory geleistet. Ein Schlüsselprojekt für die Entwicklung dieser Anwendung ist das Projekt AutomatedTrain, dass das automatische Auf- und Abrüsten sowie  die vollautomatisierte Bereit- und Abstellung von Zügen erprobt.

  • Die Erhebung von Sensordaten auf Bahnstrecken ist komplex und erfordert die Berücksichtigung zahlreicher technischer und regulatorischer Aspekte. Zudem sind Trassen und Fahrzeuge für Testfahrten rar und teuer. Die Data Factory verfügt über die Expertise, solche Daten unter diesen anspruchsvollen Bedingungen zu erzeugen. Dieses Alleinstellungsmerkmal unterscheidet die Bahnbranche deutlich vom Automobilsektor, wo Fahrzeughersteller problemlos Daten auf öffentlichen Straßen sammeln können.

    • Um die Forschung und die industrielle Entwicklung zu unterstützen, setzt sich die Data Factory für einen diskriminierungsfreien Zugang zu diesen Daten ein.

    • Hervorzuheben sind hier die Aktivitäten der Data Factory zusammen mit dem Deutschen Zentrum für Schienenverkehrsforschung (DZSF) des Eisenbahnbundesamts (EBA). Im Rahmen des Gemeinschaftsprojekts wurde der erste freiverfügbare annotierte multimodale Sensordatensatz OSDaR23 publiziert. Bald folgt ein noch umfangreicherer Datensatz OSDaR25.

  • Die Sanierung der Bahninfrastruktur in Deutschland ist essenziell, um zuverlässige Leistungen sicherzustellen und die Kapazität für das steigende Passagieraufkommen zu erhöhen. Die digitale Bestandsaufnahme der Infrastruktur ist dabei entscheidend. Durch eine einheitliche Erfassung und Bewertung des Zustands von Strecken und Zügen kann gezielt und effizient saniert werden. 
    • Hier könnten die Sensordaten von Strecken und insbesondere die KI-Analyse-Tools der Data Factory bei der (prädiktiven) Instandhaltung helfen. Automatisiertes Erkennen von Oberleitungsmasten, PZB-Magneten, Kanal- und Kabelinfrastruktur wurden bereits prototypisch umgesetzt und können gewinnbringend erweitert werden.
  • Großes Potential verbirgt sich in der Ausrüstung von Mess- und Inspektionszügen, welche mehrmals jährlich das gesamte deutsche Streckennetz befahren und dieses als digitalen Zwilling abbilden könnten.

Bisher gibt es kaum öffentliche Datensätze aus dem Bahnbereich. Deshalb hat die DB InfraGo AG im Rahmen der Sektorinitiative „Digitale Schiene Deutschland“ zusammen mit dem Deutschen Zentrum für Schienenverkehrsforschung (DZSF) beim Eisenbahn-Bundesamt (EBA) den ersten öffentlich verfügbaren Multisensordatensatz OSDaR23 erstellt und veröffentlicht.

verschiedene Darstellungen von Bahngleisen mit Menschen im Gleis oder am Bahnsteig verschiedene Darstellungen von Bahngleisen mit Menschen im Gleis oder am Bahnsteig | © NVIDIA und DB InfraGO AG
OSDaR23: Erster Multisensordatensatz aus dem Eisenbahnbereich mit Annotation von 20 Objektklassen für das maschinelle Lernen. Links oben: Bild des Versuchsfahrzeugs mit Sensoren.

Der Datensatz besteht aus zeitsynchronisierten Sensordaten von:

  • 3 hochauflösende Kameras, 3 mittelauflösende Kameras, 3 Infrarotkameras
  • 3 Langstrecken-LiDARe, 1 Mittelbereichs-Lidar, 2 Kurzstrecken-LiDARe
  • 1 Langstreckenradar, 4 Inertiale Messeinheiten, 4 GPS/GNSS-Sensoren

 

Der Datensatz beinhaltet Annotationen von 20 Objektklassen, besitzt das Annotationsformat

ASAM Open Label und kann unter https://data.fid-move.de/dataset/osdar23 heruntergeladen werden.

 

Weitere Informationen:

https://digitale-schiene-deutschland.de/Downloads/ETR-OSDaR23.pdf

https://digitale-schiene-deutschland.de/aktuelles/Data-Factory

Die Auswertung der Sensordaten beim vollautomatisierten Fahren geschieht voraussichtlich auch durch KI-Modelle, die mit Algorithmen des Maschinellen Lernens (ML) auf Basis von geeigneten Trainings-, Validierungs- und Testdaten entwickelt wurden. Grundlage für ML sind Datensätze aus Ein- und Ausgabedaten, anhand derer ein ML-Algorithmus „lernen“ kann. Bei der Objekterkennung bei ATO sind die Eingabedaten etwa Sensordaten, die die relevanten Bereiche, z.B. Fahrweg vor dem Zug erfassen. Außerdem müssen die zu erkennenden Objekte (z.B. Personen, Gleise) erfasst sein. Die Ausgabedaten umfassen alle Daten, die das zu entwickelnde ML-Modell aus den Eingabedaten ableiten soll. Das sind beispielsweise Ortskoordinaten der Bereiche, in denen sich zu erkennende Objekte befinden, Klassifizierungen der Objekte oder Ausprägungen von Objektattributen.

Beispielhafte Verarbeitungsschritte für die maschinelle Analyse: anonymisiertes Originalbild (links) - relative Tiefenschätzung (Mitte links) – Farbkodierung der relativen Bewegung von Objekten/Szene (Mitte rechts) - generische Segmentierung der Szene (rechts) Beispielhafte Verarbeitungsschritte für die maschinelle Analyse: anonymisiertes Originalbild (links) - relative Tiefenschätzung (Mitte links) – Farbkodierung der relativen Bewegung von Objekten/Szene (Mitte rechts) - generische Segmentierung der Szene (rechts) | © NVIDIA und DB InfraGO AG
Beispielhafte Verarbeitungsschritte für die maschinelle Analyse: anonymisiertes Originalbild (links) - relative Tiefenschätzung (Mitte links) – Farbkodierung der relativen Bewegung von Objekten/Szene (Mitte rechts) - generische Segmentierung der Szene (rechts)
generic object detection around tracks.mp4
Beispielhafte Erkennung generischer Objekte in Gleisnähe, um Anomalien und besondere Situationen auch von unbekannten oder unerwarteten Objekten zu analysieren.

Aufgrund der großen Menge an Daten, die für das Entwickeln, Testen und Zulassen der ATO-Funktionen notwendig sein werden, erscheint eine zumindest teilautomatische Voranalyse sinnvoll. In den aufgezeichneten Daten können dann automatisiert bestimmte Objekte, Situationen oder Umgebungsbedingungen identifiziert werden. Gezielt bestimmte Daten zu finden, wird somit möglich - etwa aufgezeichnete Wildtiere oder Objekte, die in besonders relevanten Distanzen oder Zonen um das Gleis stehen. Diese lassen sich dann annotieren, um für das Training der KI-Verfahren nutzbar zu werden. Auch besondere Wetterbedingungen wie Regen oder Schneetreiben lassen sich automatisiert erkennen und als maschinell erzeugte Beschreibung zu den Daten hinzufügen. In Zukunft soll außerdem die Gesamteinschätzung der Situation, also wie relevant die Daten für ein KI-Training oder –Testen sind, mithilfe des Computers bewertet werden.

Der Aufbau und Betrieb einer Data Factory für ein vollständig digitalisiertes Bahnsystem ist eine große Aufgabe. Im Bahnsektor herrscht daher Konsens, dass einzelne Eisenbahnunternehmen oder Hersteller zukünftig nicht genügend Sensordaten bereitstellen können, um die zahlreichen KI-Funktionen ausreichend trainieren zu können. Im europäischen Bahnsektor gibt es daher Überlegungen, eine „Pan-European Railway Data Factory“ mit einer gemeinsamen Infrastruktur zu schaffen, welche es Bahnunternehmen und Herstellern europaweit ermöglicht, Sensordaten zu sammeln, zu verarbeiten, zu simulieren und für die gegenseitige Nutzung zur Verfügung zu stellen.

Schematische Darstellung Europas mit verschiedenen Icons Schematische Darstellung Europas mit verschiedenen Icons
Schematische Darstellung der Pan-European Data Factory. Vernetzte Data Centers mit Data Touch-Points und Datensammelnden Zügen.

Die Umsetzungsstrategie für die Pan-European Railway Data Factory (PEDF) ist in kurz-, mittel- und langfristige Maßnahmen unterteilt. Kurzfristig liegt der Fokus auf individuellen technischen und rechtlichen Lösungen für einzelne nationale Datenfabriken. Mittelfristig soll eine Angleichung der Standards erfolgen, um eine schrittweise Integration der Data Factories einzelner Mitglieder zu ermöglichen. Langfristig wird eine umfassende Koordinierung der Standardisierungsbemühungen angestrebt, insbesondere im Hinblick auf Datenqualität, -formate, Schnittstellen und Interkonnektivität.

 

Die Beteiligungspfade für PEDF-Mitglieder umfassen die Schnittstellen Abstimmungen für Flexibilität im Datenaustausch und die Toolchain Abstimmungen für die Harmonisierung von Werkzeugketten. Die Strategie zeichnet sich durch ihre pragmatische und schrittweise Entwicklung aus, um die PEDF zu einer vielseitigen und effektiven paneuropäischen Initiative zu machen.

Aufbau der PEDF Aufbau der PEDF | © NVIDIA und DB InfraGO AG
Aufbau der PEDF

Die Digitale Schiene Deutschland hat daher das Projekt „Rail Data Factory“ im Rahmen des Förderprogramms „CEF2 Digital“ mit ins Leben gerufen und gemeinsam mit der französischen Bahn SNCF und der niederländischen Bahn NS eine von der European Health and Digital Executive Agency (HADEA) co-finanzierte Studie durchgeführt. Gegenstand war die Bewertung der Umsetzbarkeit einer Pan-European Railway Data Factory aus technischer, wirtschaftlicher, regulatorischer und operativer Sicht. Die Studie startete im Januar 2023 und wurde im Dezember 2023 abgeschlossen. Durch ein so genanntes Rail Advisory Board und eine enge Synchronisation mit Data Factory-bezogenen Aktivitäten im Europe’s Rail Förderprojekt „R2DATO2 wird gewährleistet, dass die Studie die Bedarfe des Bahnsektors berücksichtigt und im Einklang vergleichbarer Aktivitäten durchgeführt wurde.

 

Neben der Ausarbeitung der Architektur und eines Umsetzungsplans war ein zentrales Ergebnis die Bestätigung, dass der Aufbau einer Pan-European Railway Data Factory für die Projektbeteiligten eine hohe Relevanz besitzt.

 

Weitere Informationen:

https://digitale-schiene-deutschland.de/de/aktuelles/Pan-European-Railway-Data-Factory

Projektlaufzeit Pan-European Railway Data Factory

Start 
2022
Ende
2023

Das Projekt ERJU „R2DATO“ (ERJU = Europe´s Rail Joint Undertaking) hat zum Ziel eine gemeinsame Innovationsroadmap der Bahnbetreiber und Hersteller für den künftigen europaweiten digitalen und automatisierten Bahnverkehr zu erarbeiten und die notwenigen technologischen Enabler hierfür zu entwickeln und zu erproben. 


Im Rahmen des Arbeitspaketes 7 des „R2DATO“ Projekts, ist die Schaffung einer Umgebung für die Data Factory vorgesehen, welche eine kollaborative Daten- und Infrastrukturlösung bietet.

Einerseits werden Aspekte der Anforderungen an die Data Factory entwickelt und mit den Projektmitgliedern geteilt. Andererseits wird der Data Factory-Prototyp der Digitalen Schiene Deutschland parallel aufgebaut. Die Anforderungen konzentrieren sich auf die Assets im Data Center und die zukünftige Werkzeugkette sowie auf die Datenqualität und Annotation.

Die Werkzeugkette beinhaltet eine Datenplattform, welche die Datenverwaltung und -visualisierung übernimmt. Außerdem beinhaltet sie Tools zur Annotation von (Sensor-)Daten und eine Simulationsplattform, welche künstliche Daten synthetisiert (s. Abschnitt 2). Das Training und die Evaluation der KI-Funktionen wird in der Machine Learning Plattform durchgeführt, welche ebenfalls Bestandteil der Werkzeugkette ist. Die Testing & Certification Plattform soll die zukünftige Zulassung von KI-Funktionen unterstützen und eine Access & Information Plattform gewährleistet das nahtlose Zusammenspiel der einzelnen Werkzeuge.


Aufbauend auf den Ergebnissen der CEF2 Studie (Abschnitt 6), wird hier das Konzept der Pan-Europäischen Data Factory weiterverfolgt und ausgearbeitet. Ziel ist der Zusammenschluss von unabhängigen Data Factories und IT-Assets mittels eines Hochgeschwindigkeitsnetzwerks, die Definition gemeinsamer Schnittstellen sowie der Aufbau einer einheitlichen Toolchain.
Die einheitliche Toolchain soll dafür Sorge tragen, eine Datensouveränität zu gewährleisten sowie den diskriminierungsfreien Zugang der Stakeholder zu Daten zu ermöglichen. Darüber hinaus soll sie Synergien bei der Datenerhebung, Datenverarbeitung und der KI-Entwicklung schaffen und eine Zulassung von KI-Funktionen ermöglichen.
Ein Rechtsgutachten wird klären, welche Rechtsbereiche in dem Projekt R2DATO WP7 relevant sind. Dieses Gutachten wird somit die Grundlage für die weitere Ausarbeitung des Konzepts einer konsortial geführten Pan-Europäischen Data Factory darstellen.

Ein weiterer Bestandteil des Arbeitspakets ist die sektorweite Abstimmung bezüglich der Datensimulation und der Datenannotation. In Zusammenarbeit mit den Projektpartnern sollen im ersten Schritt nicht-reguläre Szenarien simuliert und Sensordaten annotiert werden.

Im nächsten Schritt werden diese Daten dann verwendet, um prototypische KI-Funktionen, insbesondere Objektdetektoren zu trainieren.

 

Die Digitale Karte (digital Register WP27) wird exemplarisch Kartendaten bereitstellen.

Abschließend wird ein Open-Data Set erstellt, welches reale Sensordaten, Annotationen, simulierte Sensordaten und Kartendaten enthält.

Projektlaufzeit

Start
2022
Ende
2026

Unsere Partner

Fachartikel