Warum Data Scientists zu oft Daten beschaffen – statt Modelle zu bauen
Künstliche Intelligenz lebt von Daten.
Das klingt banal, ist aber in der Praxis eines der größten Probleme vieler KI-Projekte. Denn bevor ein Modell trainiert, getestet und produktiv eingesetzt werden kann, beginnt meist eine mühsame Phase: Daten suchen, zusammenstellen, bereinigen, dokumentieren.
Viele Data-Science-Teams verbringen deshalb einen Großteil ihrer Zeit nicht mit der eigentlichen Modellierung – sondern mit der Beschaffung und Aufbereitung von Daten.
Das Ergebnis: Projekte dauern länger, Innovation entsteht langsamer und der eigentliche Mehrwert von KI bleibt hinter den Erwartungen zurück.
Dabei liegt die Lösung auf der Hand: Wenn KI skalieren soll, muss auch die Datenbereitstellung automatisiert werden.
Das eigentliche Problem: Daten sind selten projektbereit
In vielen Organisationen existieren große Datenbestände. Doch für KI-Projekte sind diese Daten oft nur eingeschränkt nutzbar.
Typische Herausforderungen:
- Daten liegen in verschiedenen Systemen
- Datenstrukturen sind uneinheitlich
- Historien fehlen oder sind unvollständig
- Datenqualität ist unklar
- Dokumentation fehlt
- Datenschutzanforderungen sind schwer nachvollziehbar
Das führt dazu, dass jedes neue KI-Projekt praktisch wieder bei Null beginnt.
Data Scientists entwickeln nicht nur Modelle – sie bauen zunächst eine eigene Dateninfrastruktur.
Und genau hier entsteht ein enormes Effizienzproblem.
Unser Ansatz: Automatisierte Datenbereitstellung
Bei crossnative verfolgen wir deshalb einen anderen Ansatz.
Wir automatisieren nicht nur die Modellentwicklung, sondern den gesamten Lebenszyklus eines Datenprojekts.
Damit verschiebt sich der Fokus im Projekt:
Weniger Zeit für Datenbeschaffung – mehr Zeit für Fachlichkeit und Modellqualität.
Die Automatisierung umfasst dabei alle zentralen Schritte:
- fachliche Analyse
- Datenmodellierung
- Entwicklung
- Test
- Deployment
- Produktionsbetrieb
Aber auch Aspekte, die in vielen Projekten erst spät betrachtet werden:
- DSGVO-Konformität
- Datenqualität
- Data Lineage
- Datenkataloge
- vollständige Nachvollziehbarkeit aller Abläufe
- bitemporale Historien
Gerade in regulierten Branchen wie Versicherungen oder Banken ist das entscheidend. Automatisierte Systeme müssen nicht nur funktionieren – sie müssen erklärbar, prüfbar und revisionssicher sein.
Genau hier entfaltet Hyperautomatisierung ihre Stärke: Sie verbindet Daten, Prozesse und Governance zu einem durchgängigen System.
Warum Automatisierung mehr ist als Code-Generatoren
Wenn von automatisierter Softwareentwicklung die Rede ist, denken viele zunächst an Code-Generatoren oder Low-Code-Tools.
Doch echte Automatisierung beginnt deutlich früher.
Entscheidend ist die systematische Ableitung der Daten aus dem gewünschten Ergebnis eines Prozesses. Erst wenn klar ist, welche Entscheidungen automatisiert getroffen werden sollen, lässt sich bestimmen, welche Daten dafür erforderlich sind.
Diese Logik verändert den Aufbau von Datenprojekten grundlegend:
- Ergebnis definieren
- Prozess vom Ergebnis her modellieren
- Datenbedarf ableiten
- Daten automatisch erzeugen und bereitstellen
- Modelle darauf aufbauen
So entsteht eine Architektur, in der Daten nicht zufällig entstehen – sondern gezielt erzeugt werden.
Mehr Nutzen bei gleichem Aufwand
Der Effekt ist deutlich spürbar.
Wenn die Datenbereitstellung automatisiert ist,
- sinkt der manuelle Aufwand erheblich
- Anforderungen aus Fachbereichen können schneller umgesetzt werden
- Datenqualität steigt
- Fehlerquellen werden reduziert
Vor allem aber verändert sich die Arbeit im Team.
Data Scientists können sich wieder stärker auf das konzentrieren, was sie eigentlich tun wollen: fachliche Fragestellungen lösen und bessere Modelle entwickeln.
Praxiswissen aus realen Projekten
Die Erfahrungen aus zahlreichen Projekten hat unser Kollege Jörg Stahnke in seinem Buch „Vollständig automatisierte Datenprojekte“ zusammengefasst.
Darin beschreibt er detailliert,
- wie automatisierte Datenarchitekturen aufgebaut werden können
- wie Datenprojekte systematisch standardisiert werden
- und wie sich KI-Vorhaben dadurch deutlich beschleunigen lassen.
Wer tiefer in das Thema einsteigen möchte, findet dort viele praktische Beispiele aus der Umsetzung.
Der nächste Schritt: Automatisierung der Datenplattform
Unsere Arbeit an automatisierten Datenprojekten geht noch weiter.
Aktuell arbeiten wir daran, unsere Automatisierungsansätze stärker in moderne Data-Engineering-Werkzeuge wie dbt zu integrieren.
Ein zentrales Ziel dabei:
Die Komplexität klassischer Data-Vault-Architekturen reduzieren und gleichzeitig eine vollständig automatisierte Datenbereitstellung ermöglichen.
Damit wird der Einstieg in skalierbare Datenplattformen deutlich einfacher – und KI-Projekte können schneller produktiv werden.
Fazit
KI braucht automatisierte Daten
KI wird in vielen Unternehmen als Technologieprojekt betrachtet.
In Wahrheit ist sie vor allem ein Datenprojekt.
Solange Data Scientists ihre Zeit mit der Suche nach Daten verbringen, bleibt ein Großteil des Potenzials ungenutzt.
Erst wenn Datenbereitstellung automatisiert wird, entsteht die Geschwindigkeit, die moderne KI-Anwendungen benötigen.
Oder anders gesagt:
Die Zukunft der KI entscheidet sich nicht nur im Modell –
sondern in der Architektur der Daten.
Spannend?
Wenn du dich für das Thema interessierst, senden wir dir gerne ein Exemplar des Buches „Vollständig automatisierte Datenprojekte“ zu.
Schreib dazu einfach unserem Autor Jörg eine E-Mail.




