So gut wie alle Bereiche eines modernen Unternehmens sind heutzutage digitalisiert und vernetzt. Dadurch können Unternehmen riesige Mengen an Daten gewinnen, die sich dann wieder für eine Steigerung der Effizienz, Produktivität und Nutzererfahrung nutzen lassen. Allerdings müssen
die Datenberge dafür erst einmal organisiert und strukturiert werden. Und genau hier kommt das Data Warehouse zum Einsatz. Wir verraten, wie sich diese Technologie optimal nutzen lässt und worin der Unterschied zu einem Data Warehouse besteht.
Das Data Warehouse
Der Begriff Data Warehouse bezeichnet ein zentrales Datenbanksystem, das vor allem zu Analysezwecken in Unternehmen genutzt wird. Die Aufgabe des Data Warehouse ist es, Informationen bzw. Daten aus heterogenen Quellen zu sammeln, aufzubereiten, langfristig zu speichern und weiterführende Strukturen mit Analysen, den Data Marts, zu versorgen.
Durch ein Data Warehouse lässt sich eines der zentralen Probleme von Big Data beheben. Zwar können Unternehmen in unglaublich vielen Bereichen von den verschiedenen Daten profitieren, die an unterschiedlichsten Punkten gesammelt werden. Allerdings nur, wenn sich die riesigen Mengen an Daten auch organisieren und vor allem analysieren lassen.
Und genau hier kommt das Data Warehouse ins Spiel. Denn dieses zentrale Datenbanksystem sammelt die Daten von unterschiedlichsten Datenbanken und stellt diese dann in einer Art und Weise zur Verfügung, in der die Informationen effizient abgefragt werden können. So können auch Unternehmen mit unzähligen eigenständigen Abteilungen einen umfassenden und globalen
Überblick über die eigenen Unternehmensprozesse erhalten.
Data Warehousing
Als Data Warehousing bezeichnet man die verschiedenen Prozesse, aus denen sich ein Data Warehouse zusammensetzt. Also die gesamte Beschaffung, Sicherung, Verwaltung und Bereitstellung der Daten. Zur einfacheren Verständlichkeit kann man das Ware Warehousing in drei verschiedene Prozesse kategorisieren:
- Datenbeschaffung
- Datenhaltung
- Datenversorgung
Der erste und entscheidende Prozess ist dabei die Datenbeschaffung. Die Daten können von den verschiedensten Quellen bereitgestellt werden, in der Regel handelt es sich dabei um SQL-Datenbanken. Durch die sogenannte Staging Area werden die Daten aus den Quellen extrahiert,
strukturiert und falls nötig transformiert. Anschließend werden die Informationen dann im Data Warehouse abgespeichert.
Dadurch entsteht eine parallele Datenbank zu den ursprünglichen Datenquellen, die so in den meisten Fällen nicht in ihrem originalen Zustand verändert werden müssen. Die Daten können jetzt also unabhängig von den originalen Quellen gespeichert, verändert und analysiert werden. Das Ziel eines Data Warehouse ist es, dass Daten dort auch langfristig gelagert werden können, also theoretisch unbegrenzt, solange die Daten relevant bleiben.
Nur erfolgt die Datenversorgung bzw. die Aufbereitung der Daten. Das besonders praktische an einem Data Warehouse ist nämlich, dass die Daten hier nicht nur zusammengefasst und sicher gespeichert werden, sondern auch nach den Anforderungen des Nutzers geordnet, strukturiert und sogar analysiert werden können. Anhand sogenannter Data Marts werden die Ergebnisse der Analyse so zusammengefasst, dass Sie sich optimal für das Data Mining nutzen lassen.
Data Mining
Data Mining gehört nicht direkt zum Prozess des Data Warehousing und kann auch unabhängig von diesem betrieben werden. Allerdings stellen die zuvor genannten Data Marts in vielen Fällen die Basis für das Data Mining dar, weswegen wir hier noch einmal genauer auf diesen Prozess eingehen
wollen. Laut Definition bezeichnet Data Mining das systematische Anwenden von Computing Methoden, um in Datenmengen Zusammenhänge, Querverweise und Trends zu finden.
Der große Vorteil am Data Mining ist, dass sich damit in Datenbanken oft Zusammenhänge und Trends finden lassen, nach denen der Nutzer ursprünglich gar nicht gesucht hat, bzw. gar nicht gewusst hat, dass diese existieren. In Verbindung mit einer Datenübertragung in Echtzeit kann ein
Unternehmen so um ein Vielfaches schneller und effektiver die richtigen Entscheidungen treffen.
Jetzt wird auch deutlich, warum das Data Warehouse für das Data Mining so wichtig ist. Anstatt dass man als Nutzer die vielfältigen Datenbanken selber mit Computing-Methoden durchkämmen muss, kann man jetzt auf eine zentralen Datenspeicher zugreifen, auf dem die Daten darüber hinaus
bereits vorsortiert und auf ihre Qualität geprüft wurden.
Data Warehouses ermöglichen es dem Nutzer also, in Verbindung mit einer Methode wie Data Mining, aus dem unbegrenzten Datenfluss die Informationen herauszusortieren, die wirklich wichtig sind. Ein Großteil der Prozesse läuft dabei automatisch ab. Data Warehouses werden also umso
wichtiger werden, umso weiter Big Data bzw. die Vernetzung unseres Alltags und der
Unternehmenswelt weiter voranschreitet.
Data Warehouse vs Data Lake
Das Data Warehouse hat einen entscheidenden Nachteil: Die Daten die dort gesammelt und verwertet werden können, müssen möglichst heterogen sein und stammen zum überwältigenden Anteil aus Datenbanken. Allerdings handelt es sich bei den meisten Daten, die Unternehmen gewinnen, um andere Formate, wie zum Beispiel Videos, Transaktionen und Text-Formate.
Deshalb gibt es den Data Lake. Hier können riesige Datenmengen in den unterschiedlichsten Formaten gespeichert und für eine Abfrage bereitgestellt werden. Dabei können die Formate der Daten an die jeweilige Abfrage angepasst werden. Die so aufbereiteten Daten könnten dann zum
Beispiel in einem Data Warehouse für eine bessere Analyse zusammengefasst werden. Data Warehouse und Data Lake sind also keine gegensätzlichen Systeme, sondern ergänzen sich viel mehr in ihrer Funktion.