DataDigitalisierung

Big Data Automation

Automatisierte Datenintegration

31.Oktober 2022 · 6 min Lesedauer

Beate Bergsmann

Marketing Manager

Die Schaffung einer qualitativ hochwertigen Datenressource war schon immer das Ziel von Data Warehousing. Und darum geht es auch bei der Automatisierung - nur schneller, besser und flexibler als herkömmliche Tools.

Mit Automatisierung können wir von dem alten Bedürfnis - oder der Notwendigkeit - der IT, alles zu kontrollieren, dazu übergehen, dass die Mitarbeiter die Daten in einem Umfang nutzen können, der für sie sinnvoll ist. Das Unternehmen definiert welche Daten benötigt werden und wie sie iterativ analysiert werden sollen, während die IT die Geschäftsanforderungen erfasst. Danach werden Daten konsolidiert, vermengt, bereinigt sowie für die Nutzung zertifiziert und erst dann können User darauf zugreifen.

Big Data Automation (BDA) ist:

  • Teil einer größer werdenden Bewegung in der der Technologiebranche, die sich auf die automatisierte Datenintegration (ADI) sowohl für traditionelle Data Warehousing-Infrastruktur als auch neue Big Data-Infrastruktur spezialisiert.
  • eine integrierte Plattform von Tools zur Automatisierung von IT-Routineaufgaben im Zusammenhang mit Entwurf, Aufbau, Betrieb und Änderung von Big Data-Infrastruktur und -Anwendungen, und zur Beschleunigung von Aufgaben, die nicht vollständig automatisiert werden können.
  • eine neue Denkweise darüber, wie Big Data-Infrastrukturen und Anwendungen entwickelt werden, und in kommerziellen Umgebungen eingesetzt werden.
  • eine Managementdisziplin mit Schwerpunkt auf Einfallsreichtum: Anwendung von IT-Talent und Innovation, um Werte zu schaffen, die von internen Kunden wahrgenommen und belohnt werden.

Logical Data Warehouse und Big Data Technologien

Das Logical Data Warehouse (LDW) ist eine neue Datenmanagement-Architektur für Analytics, die die Stärken von traditionellen Repository-Warehouses mit alternativen Datenmanagement und Zugriffsstrategie kombiniert. Dieses neue Architekturmodell vereint die Verarbeitung von traditionellen Daten aus transaktionalen Systemen mit den sogenannten „unstrukturierten“ Datensätzen, die von außen in das Unternehmen gelangen. Dazu gehören insbesondere Marktdaten, Daten aus sozialen Medien und eine große Menge von sensorbasierten Daten aus IoT-Anwendungen – insgesamt also Big Data.

Diese neue architektonische Vorlage wird von manchen das logischen Data Warehouse genannt, andere ähnliche Modelle werden als adaptives Daten-Ökosystem, hybrides Enterprise Data Warehousing usw. bezeichnet. Was aber alle diese Architekturmodelle gemeinsam haben, ist die Annahme, dass in Zukunft unternehmensweite Anwendungen zur Entscheidungsunterstützung eine hochgradig angepasste Mischung aus traditionellen Data Warehouses und Data Marts, sowie zweckgebundenen Data Warehousing Appliances und Big Data Technologien sein werden.

Vom Konzept her ist das logische Data Warehousing ein pragmatischer und sinnvoller Ansatz für die Entwicklung, den Aufbau und den Betrieb großer kommerzieller Entscheidungsunterstützungssysteme. Demgegenüber bieten Big Data Technologien Unternehmen attraktive, kostengünstige Alternativen zu herkömmlichen Daten Staging- und ETL-Verarbeitungsumgebungen, und bieten zudem Möglichkeiten zur Verarbeitung von Streaming-Daten, zur Durchführung komplexer statistischer Analysen und für maschinelles Lernen. Aus diesem Grund ist die Kombination der beiden Ökosysteme, einschließlich proprietärer Data Warehousing Anwendungen, die sinnvollste Lösung für die Entwicklung und Implementierung von Systemen zur Entscheidungsunterstützung in Zusammenhang mit Big Data.

Herausforderung von Big Data Technologien

Die Einführung von Big Data Technologien wirft jedoch Herausforderungen auf für Organisationen, die die Weisheit der Data Warehouse Automation und der Automatisierung von Datenlagern (DWA) erkannt haben.

Big Data Technologien sind oft vollständig handwerklich: Technologien, für und von Menschen, die alles von Hand programmieren und konfigurieren, alles manuell überprüfen. Keine Governance-Mechanismen. Keine Metadatenverwaltung. Keine Konfiguration und Änderungskontrolle. Keine Sicherheitsinfrastruktur. Dadurch wird verhindert, dass Unternehmen rechtzeitig auf die allgegenwärtige Nachfrage der Enduser reagieren können.

Eine der wichtigsten Erkenntnisse im Zusammenhang mit Big Data Automation (BDA) ist, dass menschliches Talent in IT-Organisationen knapp ist. Dadurch müssen Prioritäten gesetzt werden, welche internen und externen Kunden der Organisation am wertvollsten wahrgenommen werden und für welche neue Werte geschaffen werden.

Schwierig ist das vor allem, wenn IT-Teams ihre meiste Zeit mit intern ausgerichteten Routineaufgaben verbringen (meist für nach außen unsichtbare interne Geschäftskunden), von denen viele entweder automatisiert werden können (sodass keine menschliche Arbeit benötigt wird) oder beschleunigt werden können (so dass weniger menschliche Arbeitskraft aufgewendet wird).

Dem zu Folge lautet die wichtigste Regel der Big Data Automation: Setzen Sie menschliches Talent dort ein, wo es den vom Kunden wahrgenommenen Wert erhöht.

Automatisierte Datenintegration

Die Automatisierung von Big Data setzt muss strategisch präsent sein und geplant eingeführt werden. Vorausgesetzt wird für eine erfolgreiche Big Data Automation ein Verständnis für:

  • die entscheidende Rolle, die Big Data und die damit verbundenen Technologien in der Infrastruktur vieler Unternehmen spielen und künftigen spielen werden.
  • die Arbeit, die in das Integrieren, richtig Konfigurieren und Code schreiben der Big Data Technologie fließt und ein Eingeständnis, dass diese komplexen Aufgaben viel manuelle Arbeit erfordern.
  • den Druck des Marktes, der Unternehmen in Zukunft dazu zwingen wird, logische Data Warehouse Architekturen und eine komplexe, hybride Infrastruktur zu betreiben. All die Data Warehouses, Data Marts, zweckgebundene Datenanwendungen und Datenpools müssen zusammenarbeiten, um eine effiziente Daten-Umgebung zu schaffen.

Um die Umstellung auf Big Data und fortschrittliche Analysen zu meistern, müssen Unternehmen ihre besten und einfallsreichsten Experten für datengesteuerte Entscheidungsfindung einsetzen. Auch in der IT-Abteilung müssen die Ressourcen umgeschichtet werden, um eine noch schnellere und gründlichere Automatisierung der Data Warehouse Aufgaben zu erreichen und eine integrierte Automatisierungsplattform zu schaffen.

Integrierte BDA-Plattform

Eine integrierte Big-Data-Automatisierungsplattform umfasst mindestens Folgendes:

  • Mechanismen für die Verwaltung aller Metadaten, die mit dem Big-Data-"Datenpool" verbunden sind. Diese beinhalten Informationen dazu, wo sich die Datensätze befinden, wie sie in den Pool gelangt sind, in welche datentechnischen Abläufe sie eingebunden sind, für welche Arten von Algorithmen und Entscheidungsfindungsprozessen die Datensätze geeignet (und ungeeignet) sind, welche Arten von Governance-, Regulierungs- und Compliance-Beschränkungen (GRC) mit den Datensätzen verbunden sind, und so weiter. Dies ist ein Technologiebereich, der heute in generischen Open-Source-basierten Big-Data-Distributionen völlig fehlt.
  • Mechanismen zum Ausdrücken, Verwalten, Versionieren, Ausführen und Überwachen von Daten-Engineering-Arbeitsströmen.
  • Mechanismen zum Ausdrücken, Verwalten, Versionieren, Ausführen und Überwachen des Einsatzes von Modellen und Algorithmen und der Nutzung von Daten aus dem Datenpool und aus Data Warehouses und Data Marts über Industriestandards wie Predictive Modeling Markup Language (PMML).
  • Mechanismen zur Orchestrierung von Datenflüssen, die die logische Grenze zwischen dem Datenpool und dem Data Warehouse überschreiten, unabhängig davon, wo diese Ströme ihren Ursprung oder ihr Ende haben, oder wie oft sie diese logische Grenze überschreiten.

Die relativ sauberen, relativ gut dokumentierten, relativ stabilen Umgebungen, die wir bei der konventionellen Data Warehouses genossen haben, sind in der Big Data-Welt weitgehend nicht vorhanden. Man kann schließlich nicht feststellen, woher bestimmte Daten im Datenpool stammen, geschweige denn, ob diese Daten korrekt oder für bestimmte analytische Zwecke sicher sind. Wir können nicht ohne großen Aufwand feststellen, welche Prozesse und Gruppen einen bestimmten Datensatz für welche Zwecke nutzen oder welche Auswirkungen oder Änderungen der Verlust dieses Datensatzes auf die Entscheidungsfähigkeit des Unternehmens haben würden.

Der Übergang zur Big-Data-Automatisierung

Zu den Schlüsselfaktoren für einen erfolgreichen Übergang von handwerklichen Big Data-Pilotprojekten zur Big Data-Automatisierung auf Produktionsniveau gehören:

  • die sorgfältige Auswahl der anfänglichen Projektziele.
  • die Verbreitung von Erfolgen innerhalb der IT und innerhalb des Unternehmens durch bewusste interne Kommunikation, Interaktion und Zusammenarbeit.
  • die Erweiterung und Vertiefung der Anwendung von BDA-Methoden und -Werkzeugen innerhalb der IT-Organisation, und zwar konsequent und über einen längeren Zeitraum.

Erfolgreiche Verhaltensweisen von Big Data Automation-Teams

Erfolgreiche BDA-Teams weisen in ihrer Interaktion mit ihren internen Kunden bestimmte grundlegende gemeinsame Verhaltensweisen auf:

  • Unterversprechen und Übererfüllung: Erfolgreiche BDA-Teams setzen bei ihren Kunden im Unternehmen Erwartungen, von denen sie wissen, dass sie sie übertreffen können, und kommunizieren kontinuierlich mit den Beteiligten im Unternehmen über diese Erwartungen.
  • Kontinuierliche Einbindung: Erfolgreiche BDA-Teams nutzen ihre Big Data-Automatisierungsmethoden und -Tools, um die Vordenker des Unternehmens in den Design- und Entwicklungsprozess einzubinden und ihnen frühzeitig und häufig zu zeigen, was möglich ist und wie Erfolg aussieht.
  • Dokumentation und Kommunikation: Erfolgreiche BDA-Teams führen gründliche Projektnachbesprechungen mit ihren Geschäftskunden durch, in denen nicht nur der gelieferte Wert, sondern auch die Zeit bis zur Wertschöpfung und die Rolle der Big Data-Automatisierung der IT-Organisation bei der Schaffung des vom Kunden wahrgenommenen Wertes hervorgehoben (und nachgewiesen) wird.

Automatisierung ist der richtige Weg

Big Data-Technologien werden zu einem immer wichtigeren Bestandteil der Umgebungen für die Entscheidungsunterstützung in Unternehmen - sei es als Staging-Area, Data-Engineering-Umgebung, Sandbox für Data Scientists und fortgeschrittene Analyseprojekte oder als Datenmanagement-Plattform.

Um aus dieser gesamten Infrastruktur Big Data Automation zu schaffen, benötigen Sie Experten, die mit all diesen Bestandteilen vertraut sind. Wir sind der Meinung, dass es für Unternehmen unerlässlich ist Big Data Automatisierung und Data Warehouse Automatisierung gleichzeitig zu verfolgen. Eine Automatisierung von Design, Entwicklung, Bereitstellung und Renovierung des gesamten logischen Data Warehouse, um in einer Zeit des architektonischen Wandels und des rasant steigenden Nutzerbedarfs mithalten zu können. 

Wir sind gerne Ihr Ansprechpartner für alle Fragen rund um Big Data Automatisierung und Data Warehouse Automatisierung.

Fragen oder Feedback?

Haben Sie Fragen zu unseren Themen oder möchten uns Feedback zum Blog geben? Dann freue ich mich auf Ihre Nachricht.

Lisa-Marie Linhart

Marketing Specialist
E-Mail schreiben