Ein See voller Informationen: der richtige Umgang mit Data Lakes

Wer große Mengen unterschiedlicher Datenformen für Analytics nutzen will, kommt an Data Lakes kaum vorbei. Doch um die richtigen Daten zum Fließen zu bringen, ist beim Einrichten einiges zu beachten. Ansonsten kann aus dem See durchaus ein nutzloser Tümpel werden. IT Consultant Jens Lehmann erklärt, wie ein Data Lake strukturiert sein sollte.

Herr Lehmann, parallel zu Data Warehouses nutzen immer mehr Unternehmen Data Lakes. Was ist eigentlich der Unterschied?

In einem Data Lake werden große Mengen angelegt – also Big Data, die man so in einem Data Warehouse nicht speichern kann. Denn Data-Lake-Daten können im Rohzustand verbleiben. Und sie können aus unterschiedlichen Quellen stammen. Um im Bild zu bleiben: Ein Data Lake ist ein großes Gewässer, gespeist aus mehreren Zuflüssen. Ein Data Warehouse besteht eher aus vielen befüllten Behältern mit bereits gedruckten Etiketten.

In welchen Anwendungsfällen ist Analytics per Data Lake denn sinnvoll?

Vor allem wenn große Massen an Informationen mit herkömmlichen Mitteln nicht analysiert werden können. Viele Unternehmen haben Millionen von Sensordaten, Verkaufsinformationen oder Social-Media-Inhalten, die ein Data Lake gemeinsam speichern kann.

Ok. Und wie sorge ich dafür, dass diese Daten zusammen nutzbar sind? Wie strukturiere ich einen Data Lake richtig?

Man muss die Rohdaten mit zusätzlichen Merkmalen anreichern. Zum einen mit Metadaten, die verraten, von welchem Ort aus jemand auf eine Website zugegriffen hat. Zum anderen mit Metaprozessinformationen – sprich Infos darüber, wann und wo Daten generiert wurden. Bei einem Hersteller für Dichtungen heißt das: Welche Maschine hat die Dichtung um 14 Uhr hergestellt? Außerdem braucht es Kontextdaten, die Texteingaben von Kunden in Formularen oder E-Mails strukturieren. Denn ein Computer kennt zum Beispiel nicht den Unterschied, wann mit dem Wort „Bank“ das Geldinstitut oder die Sitzgelegenheit gemeint ist. Zu guter

Letzt beschreiben Zuordnungshinweise die Beziehung zwischen Daten, also ob Abhängigkeiten zwischen Merkmalen bestehen.

Reicht das, oder braucht es noch mehr Struktur?

Es reicht nicht ganz. Viele Unternehmen häufen aus verschiedenen Abteilungen verschiedene Daten an. Sie sollten daher den großen Data Lake in Data Ponds unterteilen – also in kleinere Datenteiche, wenn man so will. Die Daten in den Teichen können aber dennoch durch die Metadaten miteinander verbunden werden.

Was heißt das genau?

Ausgehend von den beschriebenen Zusatzmerkmalen legt man Data Ponds an. Das heißt, analoge Daten, Textdaten und Prozessdaten bilden eigene Bereiche, Cluster genannt. Sie werden auch mit verschiedenen technischen Methoden zusammengefasst. Das ist Expertenarbeit. Aber am Ende sind die Daten nicht nur für Experten nutzbar, sondern für viele Mitarbeiter.

Haben Sie ein Beispiel?

Endanwender wie Verkaufspersonal oder Marketingexperten können Data Lakes nutzen. Sie finden schnell Zusammenhänge – zum Beispiel zwischen allen produzierten Dichtungen in der eben angesprochenen Produktion. Ist eine Charge fehlerhaft, kann man anhand ihrer Zusatzdaten sehen, welche Maschine sie wann produziert hat – und den Fehler finden. Oder man findet schnell eine Auflistung der häufigsten Kundenkommentare der letzten Monate zu einem Produkt.
Klingt rechenintensiv. Was braucht es an Hardware, um mit Data Lakes zu arbeiten?
Praktischerweise lässt sich ein Data Lake ohne aufwändige Rechnerarchitektur betreiben. Über das Open Source Framework Hadoop können in den Clustern viele Computer miteinander verbunden werden, die ihre Rechenleistung für den Data Lake zur Verfügung stellen.

Haben Sie noch generelle Hinweise für den Nutzen eines Data Lakes?

Es reicht nicht, den Data Lake mit Inhalten aus allen zur Verfügung stehenden Quellen zu fluten. Vielmehr sollte es darum gehen, die Möglichkeiten dieses
Konzeptes richtig zu nutzen. Ohne Vernünftiges Information Lifecycle Management und entsprechende Governance wird dies nicht gelingen. Daher ist eine Vorab-Analyse der Ziele enorm wichtig.

"Richtig angelegt sind die Daten aus Data Lakes nicht nur für Experten nutzbar, sondern für viele Mitarbeiter."

Jens Lehmann, IT Consultant bei ITGAIN.

Über die ITGAIN Consulting Gesellschaft für IT-Beratung mbH

Wir sind Konzeptdenker, Projektlenker und Umsetzer. Wir sind Kosten-Reduzierer und Zeit-Sparer. Wir sind Anwendungs-Modernisierer, IT-Architekten, Mainframe-Migrierer-Modernisierer. Service-Manager, Software-Ingenieure, Datenbank-Versteher, Daten-Modellierer und Analytics-Könner.
Kurz: Wir sind diejenigen, die Ihre Anforderungen verstehen – und Ihre Anwendungen und Infrastruktur zukunftsfähig und qualitätssicher machen. Mit modernsten Technologien. Mit Wissen und Methode. Mit Kompetenz, Konstanz und Kreativität – und immer mit Herz und Verstand.

Firmenkontakt und Herausgeber der Meldung:

ITGAIN Consulting Gesellschaft für IT-Beratung mbH
Essener Strasse 1
30173 Hannover
Telefon: +49 (511) 5151-3700
Telefax: +49 (511) 5151-3800
http://www.itgain.de

Ansprechpartner:

Peter Lissok
Leiter Marketing & Vertrieb
Telefon: +49 (511) 5151-3700
E-Mail: peter.lissok@itgain.de

Weiterführende Links

Für die oben stehende Story ist allein der jeweils angegebene Herausgeber (siehe Firmenkontakt oben) verantwortlich. Dieser ist in der Regel auch Urheber des Pressetextes, sowie der angehängten Bild-, Ton-, Video-, Medien- und Informationsmaterialien. Die United News Network GmbH übernimmt keine Haftung für die Korrektheit oder Vollständigkeit der dargestellten Meldung. Auch bei Übertragungsfehlern oder anderen Störungen haftet sie nur im Fall von Vorsatz oder grober Fahrlässigkeit. Die Nutzung von hier archivierten Informationen zur Eigeninformation und redaktionellen Weiterverarbeitung ist in der Regel kostenfrei. Bitte klären Sie vor einer Weiterverwendung urheberrechtliche Fragen mit dem angegebenen Herausgeber. Eine systematische Speicherung dieser Daten sowie die Verwendung auch von Teilen dieses Datenbankwerks sind nur mit schriftlicher Genehmigung durch die United News Network GmbH gestattet.