CloudData

Anforderungen an das moderne Cloud Data Warehouse

Warum eine Cloud-Lösung erhebliche Vorteile bringt

27.Juli 2022 · 6 min Lesedauer

Beate Bergsmann

Marketing Manager

Das Cloud Data Warehouse von heute muss mehr unterstützen als herkömmliche Berichte und Dashboards und die dahinterstehenden Analystenteams. Es muss Ad-hoc- und interaktive Analysen sowohl für Batch- als auch für Streaming-Daten für 100- bis 1000-mal mehr Nutzende unterstützen, da Unternehmen operative Analysen direkt an ihre Angestellten weitergeben und ihren Kunden Self-Service-Analysen anbieten. Außerdem müssen sie Data Engineers und den Lebenszyklus der Datenentwicklung unterstützen. All das führt zu veränderten Anforderungen an das Cloud Data Warehouse.

Auf Wolke 7 zu schweben ist nicht nur für Verliebte ein gutes Gefühl. Auch unsere Datenschätze fühlen sich in den Wolken bestens aufgehoben. Die Cloud (Internetwolke) wird deshalb immer mehr favorisiert, weil sie Produkte, Geräte, Unternehmen und Menschen vernetzt. Nutzungsmöglichkeiten erstrecken sich neben dem reinen Online-Speicher auch auf die Darstellung gesamter Prozesse. Anwendenden Personen stehen zahlreiche Optionen zum Übergang in die Digitalisierung zur Verfügung.

Was für die Nutzung einer Cloud-Lösung spricht

Einerseits die Skalierbarkeit und die Flexibilität. Cloud-Leistungen sind dynamisch und können zeitnah an den Bedarf der AnwenderInnen angepasst werden. Andererseits die hohe Sicherheit der gespeicherten Daten, da deren Haltung in professionell geschützten Rechenzentren erfolgt. Dank skalierbarer Kapazitäten erfüllen jegliche Cloud-Anwendungen die höchsten Standards und können sich dadurch am Markt besser behaupten.

Weitere Vorteile: Der Betrieb und die Wartung entfallen, IT-Ressourcen werden eingespart und Upgrades werden von der Bezugsquelle durchgeführt. Außerdem wird eine erhöhte Datenverfügbarkeit durch den professionellen Betrieb sichergestellt.

Sind Cloud-Lösungen günstiger als On-Premise?

Cloudbasierte Anwendungen sind mit sämtlichen Funktionen der On-Premises Lösung ausgestattet, allerdings sowohl in der Anschaffung als auch in der Wartung deutlich günstiger. Also ja, die Cloud schlägt On-Premise puncto Kostenaufwand.

Kosten und Nutzen entsprechend dem tatsächlichen Bedarf sind somit verbrauchsabhängig (Pay-per-Use-Abrechnungsmodelle) und variabel. Fixe Investitionskosten für beispielsweise die Server-Hardware und damit verbundene Risiken entfallen. Bei Lastspitzen müssen keine zusätzlichen Investitionen vorgenommen werden. Somit ist die Leistbarkeit nun auch für KMUs möglich und nicht nur den Großen vorbehalten.

Verbleibendes Kapital lässt sich gut für anderweitige Entwicklungs- oder Vertriebskosten nutzen. Ein weiterer Pluspunkt: Der mögliche geräte-, zeit- und ortsunabhängige Zugriff auf geografisch verteilte IT-Ressourcen fördert moderne Arbeitsweisen wie E-Collaboration von Beschäftigten und Kooperationsmitgliedern. All diese Faktoren tragen dazu bei, dass sich die Konzentration wieder verstärkt auf das Kerngeschäft fokussiert, was wiederum erhöhte Qualität, Wettbewerbs- und Wachstumschancen bietet.

Data Warehouse in der Cloud mit Azure Synapse

Das Data Warehouse erreicht ein neues Level! Schlank, skalierbar, elastisch und kosteneffizient. Für ein flexibles Volumen an Speicher- und Rechenleistung. Um Data Warehousing zukunftsfähig aufzustellen, bedarf es einem schrittweisen Umzug in die Cloud. So profitieren Unternehmen von noch mehr Wirksamkeit, Flexibilität und effizientere Datenanalysen. Ziehen auch Sie eine Cloud Data Warehouse-Migration unbedingt in Betracht!

Die Verwendung von Cloud-basierten Data Warehouse-Plattformen bedeutet, dass Unternehmen noch mehr Daten (sowohl strukturiert- als auch semistrukturiert) aus einer Vielzahl von Datenquellen sammeln und sofort und elastisch skalieren können. Lastspitzen lassen sich in rascher Geschwindigkeit meistern. Mit der Fähigkeit, den Zustrom großer Datenmengen zu verwalten und durch Automatisierung die Investitionsrentabilität zu steigern, können Unternehmen den Zustrom großer Datenmengen bewältigen, manuelle Prozesse automatisieren und die Rentabilität der Cloud maximieren.

Ein Cloud Data Warehouse ist ein zentralisiertes Cloud-basiertes Datenrepository und ist leichter einzurichten als ein lokales Data Warehouse. Eine teure Hardware, langwierige Konfiguration und Einrichtung entfallen. Somit ergibt sich für Unternehmen eine lukrative Flexibilität, um Rechen- und Speicherkapazitäten nach Bedarf zu skalieren.

Einsatz von Azure Synapse

Azure Synapse Analytics ist ein unbegrenzter Analysedienst, der Datenintegration, Data Warehousing auf Unternehmensniveau und Big-Data-Analysen kombiniert. Mithilfe von skalierbaren Cloud-Services werden gemäß individuellen Anforderungen flexible und separate Datenabfragen ermöglicht. Azure Synapse bietet eine einheitliche Oberfläche zum Erfassen, Erkunden, Aufbereiten, Transformieren, Verwalten und Bereitstellen von Daten für direkt einsetzbare Business-Intelligence- und Machine-Learning-Anwendungen.

Azure Synapse ist sofort einsatzbereit und problemlos bei der Implementierung, da die Einrichtung einer komplexen Infrastruktur gänzlich entfällt. Schnelligkeit ist ein wichtiger Faktor. Sie können sofort beginnen, Ihre Unternehmensdaten abzulegen, zu speichern und daraus ein Datawarehouse zu entwerfen. Wertvolle Erkenntnisse und Wissen lassen sich rasch generieren. Synapse eröffnet die Möglichkeit Daten aus verschiedenen Quellen und Formaten in einem System in der Cloud abzulegen sowie zu verarbeiten. Darüber hinaus können mit unterschiedlichen Tools oder Technologien wie SQL, Apache Spark (mit Programmiersprachen wie Python, C#, etc.) unmittelbar Analysen und Auswertungen realisiert werden.

Wie in der Cloud üblich bezahlt man lediglich für tatsächlich benutzte Ressourcen, wodurch sich eine lohnende Kostenoptimierung für das Datawarehouse und Analysewesen ergibt. Ebenso spart man Kosten für die Aufrechterhaltung und Wartung der Infrastruktur. Auf den Punkt gebracht handelt es sich um ein ganzheitliches Out-of-the-Box-Service, von der Datenintegration bis hin zur Auswertung. Mit dem Synapse Studio erhalten Unternehmen eine zentrale Benutzeroberfläche, die folgende Nutzungsmöglichkeiten umfasst: ETL, Data Lake, DWH, Visualisierung und Machine Learning.

Veränderte Anforderungen an das Cloud Data Warehouse.

Das Cloud Data Warehouse von heute muss mehr unterstützen als herkömmliche Berichte und Dashboards und die dahinterstehenden Analystenteams. Es muss Ad-hoc- und interaktive Analysen sowohl für Batch- als auch für Streaming-Daten für 100- bis 1000-mal mehr Nutzende unterstützen, da Unternehmen operative Analysen direkt an ihre Angestellten weitergeben und ihren Kunden Self-Service-Analysen anbieten. Außerdem müssen sie Data Engineers und den Lebenszyklus der Datenentwicklung unterstützen.Aus diesem Grund müssen Cloud Data Warehouses viel mehr bieten als die elastische Skalierbarkeit und Einfachheit, die die Data Warehouses der ersten Generation bieten. Sie müssen auch die Leistung, Skalierbarkeit, Kosteneffizienz und Agilität um eine Größenordnung verbessern, um diese neuen Benutzer:innen und ihre Analysen zu unterstützen. Heute lauten die Anforderungen an das Cloud Data Warehouse:

  • 100% SQL: SQL ist de facto die Sprache der Daten, insbesondere für Data Analysts und Data Engineers. Jede Aufgabe, von ELT bis zu Abfragen beliebiger Daten, sollte in SQL durchführbar sein.
  • Abfragen im Sekundenbereich: Ad-hoc-Analysen, interaktive Analysen durch Beschäftigte und Self-Service-Analysen durch Kunden erfordern Abfragen, die in ein paar Sekunden oder weniger ausgeführt werden.
  • Gigabyte-Petabyte-Größe: Die neueren Datentypen - aus Kundeninteraktionen, vernetzten Geräten oder neueren Anwendungen - sind im Vergleich zu den Daten aus herkömmlichen Anwendungen und Transaktionen riesig und wachsen viel schneller. Die meisten Unternehmen haben Daten im Terabyte-Bereich, einige sogar im Petabyte-Bereich.
  • Elastische Skalierung: Abfrage-Workloads sind weniger vorhersehbar, so dass eine elastische Skalierung sowohl für die Effizienz als auch für Service Level Agreements (SLA) sehr viel wichtiger ist.
  • Native Unterstützung für semistrukturierte Daten.
  • Native ELT-Unterstützung mit SQL: Damit Data Engineers neue Analysen innerhalb von Stunden oder Tagen erstellen können, müssen sie in der Lage sein, ihre eigenen Daten vollständig in SQL zu extrahieren, zu laden und umzuwandeln (ELT), ohne auf ein separates Team warten zu müssen.
  • Hohe Gleichzeitigkeit von Benutzer:innen und Abfragen: Analysen werden heute für viel größere Gruppen von Angestellten und Endkunden bereitgestellt als für die traditionellen Analystenteams. Dies kann die Unterstützung von Hunderten bis Tausenden von gleichzeitigen Nutzenden und Abfragen erfordern.
  • Isolierung von Workloads: Im Gegensatz zur Berichterstellung, die jederzeit im Batch-Verfahren erfolgen kann, müssen mehrere Workloads und Nutzende isoliert werden, um sicherzustellen, dass SLAs mit hoher Priorität und nahezu in Echtzeit erfüllt werden, und um Workloads voreinander zu schützen.
  • Einfachheit für Data Engineers und DataOps: Data Warehouse-Implementierungen können nicht mehr auf eine Weise gesteuert werden, die Änderungen zur Unterstützung neuer Datenanforderungen verlangsamt. Cloud Data Warehouses müssen DataOps auf eine Art und Weise unterstützen, die Data Engineers mehr Kontrolle bietet und schnellere Zykluszeiten für die Datenanalyse ermöglicht.
  • Kosteneffizienz: Die Kosten müssen um das 10-fache oder mehr sinken, um Analysen für 10-100-mal mehr Benutzer:innen zu unterstützen, die 10-mal oder mehr Daten verbrauchen.

Die früheren Generationen von Cloud Data Warehouses erfüllen nicht alle diese Anforderungen. Diejenigen mit entkoppeltem Speicher und Rechenleistung sind SQL-nativ und bieten eine elastische Skalierung. Außerdem bieten sie durch Caching eine angemessene Leistung für Berichte und andere sich wiederholende Abfragen. Sie bieten jedoch nicht die Art von Leistung oder Effizienz, die für Ad-hoc-, interaktive, betriebliche oder kundenorientierte Analysen benötigt wird, bei denen das Caching nicht so hilfreich ist.

Die in diesen Benchmarks implizierten Kosten sind zu hoch, insbesondere wenn Unternehmen Petabytes an Daten erreichen. Mitarbeiter- und kundenorientierte Analysen sowie die Automatisierung erfordern viel schnellere und kostengünstigere Analysen. Die meisten Menschen erwarten Daten in ein paar Sekunden oder weniger, wenn sie Entscheidungen nahezu in Echtzeit treffen müssen. 50 % der Menschen erwarten sogar, dass mobile Anwendungen innerhalb von weniger als 2 Sekunden zurückkehren.

Um all diesen Anforderungen gerecht zu werden, muss die moderne entkoppelte Speicher-Rechen-Architektur neu konzipiert werden, um drei wesentliche Leistungs- und Effizienzbeschränkungen zu beseitigen:

  • Datenzugriff: Die meisten Cloud Data Warehouses rufen ganze Segmente oder Partitionen von Daten über das Netzwerk ab, obwohl das Netzwerk der größte Engpass ist. In AWS zum Beispiel transportieren die Netzwerke mit 10, 25 oder 100 Gbit/s (Gigabit pro Sekunde) höchstens 1, 2,5 oder 10 Gigabyte (GB) pro Sekunde. Bei der Arbeit mit Terabytes an Daten dauert der Datenzugriff mehrere Sekunden. Der Abruf exakter Datenbereiche anstelle größerer Segmente kann die Zugriffszeiten um das Zehnfache oder mehr verkürzen.
  • Abfrageausführung: Die Optimierung von Abfragen macht einen großen Unterschied in der Leistung. Den meisten Cloud Data Warehouses fehlen jedoch viele bewährte Optimierungstechniken - von der Indizierung bis zur kostenbasierten Optimierung.
  • Recheneffizienz: Die Entkopplung von Speicher- und Rechenarchitekturen ermöglichten es den Anbietern, eine nahezu unbegrenzte Skalierung zu nutzen, um die Leistung zu verbessern, anstatt die Effizienz zu steigern.

FAZIT: Infolge der raschen Skalierbarkeit von Cloud-Systemen lassen sich große Datenmengen mit hoher Geschwindigkeit verarbeiten. Was bedeutet, dass Unternehmen datengesteuerte strategische Erkenntnisse gewinnen und schnellere, klügere Entscheidungen treffen können.

Als Gründe für eine Data Warehouse in der Cloud gelten vor allem wirtschaftliche Faktoren sowie ein Zugewinn an Flexibilität und Agilität. Überlassen Sie Ihre Daten nicht dem Zufall, sondern schöpfen Sie Ihr Datenpotenzial gänzlich aus, damit Ihre Lösungen nicht in neue Datensilos ohne Mehrwert münden!

Wenn auch Sie diese Anforderungen an Ihr künftiges Cloud Data Warehouse stellen, dann vereinbaren Sie sich jetzt einen Termin!

Fragen oder Feedback?

Haben Sie Fragen zu unseren Themen oder möchten uns Feedback zum Blog geben? Dann freue ich mich auf Ihre Nachricht.

Lisa-Marie Linhart

Marketing Specialist
E-Mail schreiben