Ein umfassender Leitfaden für Data Warehousing.
Datenverarbeitung ist für viele Geschäftsabläufe mittlerweile unerlässlich. Wahrscheinlich wisst ihr längst, dass Data Warehouses bei der Speicherung und Verwaltung von Daten Unterstützung bieten. Weniger klar ist aber vielleicht, worum es sich dabei genau handelt und wie sie sich von anderen Systemen und Tools unterscheiden.
In diesem Artikel erläutern wir, was es mit dem Begriff Data Warehouse auf sich hat, wie ein solches System funktioniert und warum sich viele Unternehmen bei ihren Abläufen und Entscheidungen darauf stützen. Dieser Leitfaden vermittelt euch die notwendigen Kenntnisse, um die Vorteile mit eurem Team zu besprechen und zu entscheiden, ob ein Data Warehouse euch bei der Umsetzung eurer Geschäftsziele unterstützen kann.
In diesem Post werden die folgenden Themen behandelt:
- Was ist ein Data Warehouse?
- Data-Warehouse-Architektur
- Data Warehouses, Data Lakes und Data Marts im Vergleich
- Vorteile von Data Warehouses
Was ist ein Data Warehouse?
Ein Data Warehouse ist ein digitales Repository, das große Datenmengen aus Datenbanken und Transaktionssystemen abruft. Sein Zweck ist es, Daten zu verarbeiten, zu verwalten und zu speichern, damit Unternehmen Trends erkennen können, insbesondere in Bezug auf das Kundenverhalten. Data Warehouses liefern Business Intelligence, die es Teams im gesamten Unternehmen ermöglicht, bessere Entscheidungen zu treffen.
Wie ein normales Warenlager dient auch ein Data Warehouse dazu, Materialien – in diesem Fall Daten – zentral einzulagern und sie dann systematisch zu organisieren, sodass die richtigen Artikel bzw. Informationen aufgefunden, neu zusammengestellt und an anderer Stelle eingesetzt werden können. Daten aus vielen verschiedenen Kanälen in unterschiedlichen Formaten können euch völlig überfordern und sogar nutzlos sein, wenn ihr nicht über ein Verarbeitungszentrum verfügt, um sie zu verwalten, aufzubewahren und zugänglich zu machen.
Data Warehouses eignen sich hervorragend für Daten aller Art, einschließlich Bildern und Videos, sowie für die Erfassung großer Datenmengen aus unterschiedlichen Quellen. Zu diesen Quellen gehören beispielsweise Transaktionen über POS-Systeme (Point of Sale), CRM-Software (Customer Relationship Management), CDPs (Kundendatenplattformen), ERP-Software (Enterprise Resource Planning), Social Media und Geräte im Internet der Dinge.
Im folgenden Video wird veranschaulicht, wie ein Data Warehouse als zentrale Datenquelle genutzt werden kann:
https://www.youtube.com/watch?v=AHR_7jFCMeY
Verschiedene Data-Warehouse-Typen.
Das Konzept des Data Warehousing gibt es schon seit Jahrzehnten. In der Vergangenheit wurden die entsprechende Hardware und digitale Ausrüstung vor Ort untergebracht und verwaltet. Im Laufe der Zeit haben sich die Datenqualität und die Speichertechnologie verbessert, was wiederum zu besseren Analysefunktionen geführt hat. Cloud-Speicher ermöglichen es nun auch kleineren Unternehmen, die Vorteile zu nutzen, von denen zuvor nur Unternehmen profitieren konnten, die groß genug waren, um sich eigene Data Warehouses zu leisten.
Sehen wir uns diese beiden Ansätze einmal genauer an:
- On-Premise-Ansatz. Dieser Ansatz war ursprünglich die einzige Option. Er wurde jahrelang von Unternehmen genutzt und einige tun dies immer noch. On-Premise-Warehousing bedeutet, dass ihr die Daten auf euren eigenen Servern hostet und alle physischen und technischen Komponenten verwaltet. Dies bietet mehr Sicherheit als das alternative Cloud-basierte Data Warehousing und ist für Behörden und andere Einrichtungen oft erforderlich, um die Einhaltung bestimmter Vorschriften zu gewährleisten. Allerdings ist es mitunter schwierig, On-Premise-Lösungen zu skalieren und an veränderte Anforderungen anzupassen.
- Cloud-basierter Ansatz. Data Warehouses werden zunehmend in die Cloud verlagert. Cloud-basierte Data Warehouses bieten bestimmte Vorteile, beispielsweise die Verwaltung durch Dritte. Unternehmen müssen sich bei diesem Ansatz nicht darum kümmern, wie sie Daten auf ihren Servern speichern, die Infrastruktur warten oder ihre Systeme bei Bedarf skalieren. Cloud-basierte Data Warehouses bieten mehr Flexibilität bei geringeren Kosten, weshalb sich viele Unternehmen für diese Option entscheiden.
Die Zukunft der Data-Warehouse-Technologie.
Die Zukunft des Data Warehousing wird voraussichtlich Cloud-basiert sein. Beeinflusst wird dieser Trend durch zusätzliche Vorteile der Speicherung von Daten in der Cloud:
- Geringeres Risiko. In vielen Unternehmen herrscht die Ansicht, dass die Aufbewahrung von Daten in der Cloud weniger Risiken birgt als die lokale Speicherung. Darüber hinaus können sie damit rechtliche Probleme und behördliche Auflagen vermeiden, die bei der Datenspeicherung vor Ort zu berücksichtigen sind.
- Chancen für kleine Unternehmen. Die Einrichtung eines Data Warehouse ist sehr kostspielig und es bedarf Dutzender von Mitarbeitenden für den Aufbau, den Betrieb und die Optimierung der darin enthaltenen Daten. Die Umstellung auf Cloud-basierte Speicher eröffnet kleinen Unternehmen jedoch viele Möglichkeiten, größere Datenmengen vorzuhalten. Die Kosten für die Speicherung von Daten in der Cloud sind deutlich geringer, sodass ein Großteil des Budgets eingespart werden kann, das sonst für vor Ort betriebene Server aufgewendet werden müsste. Aufgrund dieser geringen Kosten können auch kleinere Unternehmen von der Cloud-basierten Datenspeicherung profitieren.
- Self-Service. Die Speicherung von Daten in der Cloud erleichtert die Bereitstellung von Self-Service-Angeboten. Self-Service-Data-Warehousing ermöglicht es Geschäftsanwenderinnen und -anwendern, selbstständig auf Daten zuzugreifen und diese anzupassen. So können sie schneller Entscheidungen treffen, um auf sich ändernde Geschäftsanforderungen zu reagieren. Self-Service kann außerdem den Zugang zu Daten innerhalb des Unternehmens demokratisieren. Er kann eine datengestützte Unternehmenskultur fördern, bei der Erkenntnisse von einer breiteren Zielgruppe geteilt und genutzt werden.
- Analysefunktionen. Ein weiterer künftiger Aspekt des Data Warehousing ist die Kombination mit Analysen in der Cloud. Große Unternehmen setzen bereits riesige Analysesätze ein, die beim Data Warehousing genutzt werden können. Einen Schritt weiter gehen KI-Komponenten, die in Data Warehouses integriert sind und euch dabei unterstützen, maschinelles Lernen für geschäftliche Entscheidungen zu nutzen. Künstliche Intelligenz wird immer leistungsfähiger, sodass es nicht mehr notwendig ist, eigens Datenwissenschaftlerinnen und -wissenschaftler zu beschäftigen.
Egal ob On-Premise- oder Cloud-Lösung: Daten durchlaufen Data Warehouses in verschiedenen Phasen und Schritten. Werfen wir einen Blick auf diese Struktur, um zu klären, wie sie funktioniert.
Data-Warehouse-Architektur.
Data Warehouses werden nach Ebenen konfiguriert. In der Regel handelt es sich um ein dreistufiges System, bei dem Daten aus mehreren Quellen eingehen, bevor sie verarbeitet und über eine Schnittstelle verfügbar gemacht werden, über die die Anwenderinnen und Anwender Abfragen durchführen und auf die Daten in zweckmäßigen Formaten zugreifen können:
- Unterste Ebene. Eingehende Daten aus mehreren Quellen und Interaktionen fließen in ein Repository ein. Die Daten werden mithilfe von ETL-Technologien erfasst (Extrahieren, Transformieren und Laden).
- Mittlere Ebene. Während die Daten die mittlere Ebene durchlaufen, werden sie für die Analyse umstrukturiert. So wie ein Warenlager über verschiedene Regale und Abteilungen verfügt, um Produkte zu sortieren und zu lagern, weist auch ein Data Warehouse ein System auf, um Daten zu ordnen und sie für verschiedene Zwecke auffindbar zu machen.
- Oberste Ebene. Am Frontend schließlich können Anwenderinnen und Anwender Daten anzeigen und analysieren. Sie können Abfragen für verschiedene Zwecke durchführen, ohne dass die zugrunde liegenden Ebenen der Datenspeicherung und -ordnung angetastet werden.
Von einer Ebene zur nächsten werden in einem Data Warehouse Informationen aufgenommen, bereinigt, verarbeitet, gespeichert und gebündelt. Mithilfe dieser Darstellung der Data-Warehouse-Architektur lässt sich einfacher klären, an welchen Stellen andere Tools und Konzepte zur Datenverarbeitung ansetzen. Im Folgenden gehen wir genauer auf einige dieser Begriffe ein.
Data Warehouses, Data Lakes und Data Marts im Vergleich.
Im Zusammenhang mit Data Warehousing werden oft bestimmte Datenbegriffe verwendet, die leicht zu verwechseln sind. Als Nächstes werden wir diese Begriffe definieren und erörtern, inwiefern sie sich voneinander unterscheiden:
- Data Lake. Ein Data Lake dient der unbefristeten Aufbewahrung von Daten. Ihr könnt jede Art von Daten in jedweden Formaten in Data Lakes sammeln, um zu einem beliebigen späteren Zeitpunkt Nutzen daraus zu ziehen. Wie bei einer Datenbank handelt es sich auch bei einem Data Lake um einen Speicherbereich für Daten. Allerdings sind die Daten in einem Data Lake noch nicht gefiltert oder organisiert. Anders als sich vermuten ließe, sind Data Lakes relativ klein.
- Datenbank. Eine Datenbank wird in der Regel zur Erfassung von Rohdaten für die Echtzeitnutzung verwendet. Auch hierbei handelt es sich um ein kleineres Repository, aber die darin erfassten Datentypen sind spezifischer. In einer Datenbank können zwar alle möglichen Arten von Daten gespeichert werden, seien sie strukturiert oder auch unstrukturiert, doch sie ist auf einen bestimmten Bereich des Unternehmens ausgerichtet, und die Informationen werden eher in Echtzeit verwendet als zur späteren Nutzung gespeichert. Die Quellen und Verwendungsmöglichkeiten sind begrenzter als bei einem Data Warehouse. Außerdem bietet sie nicht die Analysefunktionen, die ein Data Warehouse aufweist.
- Data Warehouse. Das Data Warehouse befindet sich bezüglich Größe und Funktion auf einer höheren Stufe der Speicherpyramide für Big Data. Es ist größer als eine Datenbank oder ein Data Lake und seine Funktion ist eher vergangenheitsbezogen als unmittelbar, obwohl es auch Echtzeitinformationen speichern kann. Es hat einen viel größeren Anwendungsbereich und kann verschiedene Arten von Daten für unterschiedliche Zwecke verarbeiten. Ein Data Warehouse ist am besten geeignet, um Daten kanalübergreifend zu verknüpfen.
- Data Mart. Ähnlich wie eine Datenbank ist ein Data Mart nützlich, um Daten zu speichern, die sich auf einen bestimmten Bereich des Unternehmens beziehen. Data Marts unterscheiden sich von Datenbanken dadurch, dass sie Daten enthalten, die in irgendeiner Form verarbeitet wurden. Ein Data Mart ist wie eine zentrale Anlaufstelle für bestimmte Anwenderinnen und Anwender. Er kann Daten aus einem Data Warehouse enthalten und als endgültiges Verteilerzentrum für diese Daten dienen. Unternehmen können mehrere Data Marts für unterschiedliche Zwecke einrichten.
Die Unterschiede zwischen diesen Begriffen werden verständlicher, wenn ihr nachvollziehen könnt, wie sie zusammenhängen. Sie sind Komponenten eines oft chronologischen Prozesses:
- Daten werden aus einer Vielzahl von Quellen in das System importiert. Diese Daten werden zunächst in einer Datenbank oder einem Data Lake gespeichert.
- Die Daten werden verarbeitet und dann in ein Data Warehouse verlagert. Ab diesem Punkt können die einzelnen Teams im Unternehmen ihre Daten analysieren.
- Diese Daten können in einem weiteren Schritt in einen Data Mart verschoben werden, der die Daten nach Abteilungen kategorisiert und so einfachere und schnellere Analysen ermöglicht.
Vorteile von Data Warehouses.
Ein Data Warehouse ist mehr als nur ein Datenspeicher. Die wichtigsten Vorteilen von Data Warehouses:
- Fundierte Entscheidungen. Mit den umfassenden, hochwertigen Informationen und Analysen, die nur Warehouses bieten, könnt ihr bessere Geschäftsentscheidungen treffen.
- Konsolidierung. Daten aus vielen verschiedenen Quellen können an einer Stelle zusammengeführt werden, um einen Überblick zu erhalten, schneller Zusammenhänge herzustellen und auf alles, was ihr braucht, zentral zuzugreifen.
- Standardisierung. Anstatt Daten in verschiedenen Formaten zu speichern, die ggf. schwer zu interpretieren und zu verwenden sind, sorgt ein Data Warehouse für Datenhygiene und -konsistenz.
- Geschwindigkeit. Mit standardisierten, organisierten Daten lassen sich Abfragen schneller durchführen, da die betreffenden Teams nicht verschiedene Reports aus den einzelnen Abteilungen durchgehen müssen. Sie können ihre Zeit für Analysen nutzen, anstatt sie mit Suchen zu verschwenden.
Startet noch heute mit Data Warehousing durch.
Data Warehouses können zu besserer Entscheidungsfindung in Unternehmen führen, da sie es erleichtern, große Mengen historischer Daten an einer Stelle zu sammeln, diese Daten zu organisieren und Entscheidungen zu treffen, die auf besserer Business Intelligence beruhen. Ein Data Warehouse kann zu einer zentrale Datenquelle werden, die Daten für verschiedene Analysezwecke verfügbar und verwertbar macht.
Im Allgemeinen eignen sich Data Warehouses eher für größere Unternehmen. Doch die Cloud-basierte Datenspeicherung eröffnet kleinen und mittleren Unternehmen neue Möglichkeiten zur Speicherung größerer Datenmengen. Mit einer Cloud-Lösung seid ihr in der Lage, zu skalieren, wenn euer Unternehmen wächst, und Anpassungen an die sich verändernden Analyseanforderungen vorzunehmen. Ein Data Warehouse ermöglicht es, Informationen zu finden und zu verwerten, die in kleineren Mengen und Systemen nicht so leicht zu erfassen sind.
Wenn ihr bereit seid, das Thema mit eurem Team zu diskutieren, könnt ihr diesen Artikel teilen, um zu erörtern, wie euer Unternehmen von einem Data Warehouse profitieren kann. Erstellt ggf. eine kurze Liste von Data-Warehouse-Lösungen, die euch bei eurer Arbeit unterstützen können.
Adobe hat die passende Lösung.
Ein Data Warehouse kann eine solide Basis für die effektive Datenverarbeitung bieten, die ihr benötigt, um eure Kundschaft zu verstehen und bessere Geschäftsentscheidungen zu treffen. Ein Data Warehouse gehört zu den Funktionen, die in Adobe Analytics enthalten sind. Die Lösung führt Cross-Channel-Daten zusammen, um in Echtzeit Erkenntnisse zu gewinnen.
Lernt die Vorteile von Analytics kennen oder fordert eine Demo an, um mehr zu erfahren.