Auflistung nach Schlagwort "Data Lake"
1 - 6 von 6
Treffer pro Seite
Sortieroptionen
- ZeitschriftenartikelCollecting and visualizing data lineage of Spark jobs(Datenbank-Spektrum: Vol. 21, No. 3, 2021) Schoenenwald, Alexander; Kern, Simon; Viehhauser, Josef; Schildgen, JohannesMetadata management constitutes a key prerequisite for enterprises as they engage in data analytics and governance. Today, however, the context of data is often only manually documented by subject matter experts, and lacks completeness and reliability due to the complex nature of data pipelines. Thus, collecting data lineage—describing the origin, structure, and dependencies of data—in an automated fashion increases quality of provided metadata and reduces manual effort, making it critical for the development and operation of data pipelines. In our practice report, we propose an end-to-end solution that digests lineage via (Py‑)Spark execution plans. We build upon the open-source component Spline , allowing us to reliably consume lineage metadata and identify interdependencies. We map the digested data into an expandable data model, enabling us to extract graph structures for both coarse- and fine-grained data lineage. Lastly, our solution visualizes the extracted data lineage via a modern web app, and integrates with BMW Group’s soon-to-be open-sourced Cloud Data Hub.
- TextdokumentThe Data Lake Architecture Framework(BTW 2021, 2021) Giebler, Corinna; Gröger, Christoph; Hoos, Eva; Eichler, Rebecca; Schwarz, Holger; Mitschang, BernhardDuring recent years, data lakes emerged as a way to manage large amounts of heterogeneous data for modern data analytics. Although various work on individual aspects of data lakes exists, there is no comprehensive data lake architecture yet. Concepts that describe themselves as a “data lake architecture” are only partial. In this work, we introduce the data lake architecture framework. It supports the definition of data lake architectures by defining nine architectural aspects, i.e., perspectives on a data lake, such as data storage or data modeling, and by exploring the interdependencies between these aspects. The included methodology helps to choose appropriate concepts to instantiate each aspect. To evaluate the framework, we use it to configure an exemplary data lake architecture for a real-world data lake implementation. This final assessment shows that our framework provides comprehensive guidance in the configuration of a data lake architecture.
- ZeitschriftenartikelData Lakes auf den Grund gegangen(Datenbank-Spektrum: Vol. 20, No. 1, 2020) Giebler, Corinna; Gröger, Christoph; Hoos, Eva; Eichler, Rebecca; Schwarz, Holger; Mitschang, BernhardUnternehmen stehen zunehmend vor der Herausforderung, große, heterogene Daten zu verwalten und den darin enthaltenen Wert zu extrahieren. In den letzten Jahren kam darum der Data Lake als neuartiges Konzept auf, um diese komplexen Daten zu verwalten und zu nutzen. Wollen Unternehmen allerdings einen solchen Data Lake praktisch umsetzen, so stoßen sie auf vielfältige Herausforderungen, wie beispielsweise Widersprüche in der Definition oder unscharfe und fehlende Konzepte. In diesem Beitrag werden konkrete Projekte eines global agierenden Industrieunternehmens genutzt, um bestehende Herausforderungen zu identifizieren und Anforderungen an Data Lakes herzuleiten. Diese Anforderungen werden mit der verfügbaren Literatur zum Thema Data Lake sowie mit existierenden Ansätzen aus der Forschung abgeglichen. Die Gegenüberstellung zeigt, dass fünf große Forschungslücken bestehen: 1. Unklare Datenmodellierungsmethoden, 2. Fehlende Data-Lake-Referenzarchitektur, 3. Unvollständiges Metadatenmanagementkonzept, 4. Unvollständiges Data-Lake-Governance-Konzept, 5. Fehlende ganzheitliche Realisierungsstrategie.
- TextdokumentGanzheitliches Metadatenmanagement im Data Lake: Anforderungen, IT-Werkzeuge und Herausforderungen in der Praxis(BTW 2019, 2019) Gröger, Christoph; Hoos, EvaData Lakes haben sich in der industriellen Praxis als Plattformen für die Speicherung und Analyse aller Arten von (Roh-)daten etabliert. Erweiterte Anforderungen hinsichtlich Governance und Self-Service machen das Metadatenmanagement im Data Lake zum kritischen Erfolgsfaktor. Bisher gibt es dazu jedoch nur wenige wissenschaftliche Arbeiten, es mangelt insbesondere an einer ganzheitlichen Betrachtung zur Konzeption und Realisierung des Metadatenmanagements im Data Lake. Diese Arbeit adressiert das Thema und basiert auf praktischen Erfahrungen aus einem Industriekonzern beim Aufbau eines unternehmensweiten Data Lake. Es werden praktische Anforderungen und Anwendungsbeispiele für das Metadatenmanagement im Data Lake diskutiert und die unterschiedlichen Arten von Metadaten anhand des Praxisbeispiels analysiert. Zur Umsetzung des Metadatenmanagements werden anschießend unterschiedliche IT-Werkzeuge anhand definierter Kriterien analysiert. Das Analyseergebnis zeigt, dass Datenkataloge grundsätzlich die geeignete Werkzeugart darstellen, wobei noch technische Unzulänglichkeiten existieren. Abschließend werden die in der Praxis bestehenden Herausforderungen für ein ganzheitliches Metadatenmanagement im Data Lake zusammengefasst und zukünftige Forschungsbedarfe aufgezeigt.
- ZeitschriftenartikelIoT-gestützte, kommunale Datenarchitektur für Metropolregionen in Deutschland – Metropolitan Data Space(HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 6, 2019) Hoffmann, Jörg; Niederau, MathisDie Metropolregion Rhein-Ruhr zeigt beispielhaft, wie sich Regionen in Deutschland wandeln: Wo einst Kohlebergwerke und die Montanindustrie die Landschaft prägten, entstehen heute langsam neue Industrien; aus alten Tagebauen wird langsam eine Seenlandschaft. Allerdings wächst die Wirtschaft im Ruhrgebiet noch immer langsamer als im Rest Deutschlands. Es benötigt neue Impulse, um Regionen wie diese wirtschaftlich zu unterstützen und zusammenzuführen. Ein solcher Impuls ist eine zentrale Datenplattform, in der nicht nur einzelne Städte, sondern die gesamte Metropolregion vernetzt werden. Genau wie die Grenzen zwischen Städten wie Essen, Bochum und Dortmund bei der Durchfahrt verschwinden, sollen damit auch bestehende digitale Grenzen der Vergangenheit angehören. Als digitale Infrastruktur ermöglichen solche Plattformen neue digitale Geschäftsmodelle für Unternehmen der Region auf Basis von datenbasierten Anwendungsfällen und bilden so die Basis für eine vernetzte Region. Eine Untersuchung des Status Quo in Bezug auf digitale Plattformen und die Datenbereitstellung aus den Kommunen in der Metropolregion Rhein-Ruhr ergibt, dass noch umfangreicher Handlungsbedarf besteht: So besteht weder eine einheitliche Strategie zur Bereitstellung von Daten, noch werden von einzelnen Kommunen relevante Live-Daten auf bestehenden Plattformen veröffentlicht. Auch innerhalb der Kommunen ist die bestehende Sensorbasis und deren Konnektivität nicht ausreichend für die Befüllung einer zentralen Datenplattform – allenfalls bestehen im Kontext von Smart-City-Initiativen Leuchtturmprojekte. Der vorliegende Artikel stellt daher eine IoT-gestützte Architektur für eine zentrale, metropolregionsübergreifende Datenplattform auf Basis des International Data Space, Data Lakes und IoT-Vernetzungstechnologien vor. Er zeigt außerdem auf, wie durch die technische und organisatorische Einbindung von Unternehmen der Wirtschaft ein skalierbares Ökosystem geschaffen werden kann. Anhand von konkreten Beispielen wird erklärt, wie die Umsetzung der Architektur begonnen hat und wie die weitere Implementierung geplant ist. The Rhine-Ruhr metropolitan region is an example of how regions in Germany are changing: Where coal mines and the steel industry once shaped the landscape, new industries are slowly emerging today; old opencast mines are slowly turning into a lake landscape. However, the economy in the Rhine-Ruhr region is still growing more slowly than in the rest of Germany. It needs new impulses to economically support and unite regions like these. Such an impulse is a central data platform in which not only individual cities but the entire metropolitan area is connected. Just as the borders between cities such as Essen, Bochum and Dortmund disappear when passing through, existing digital borders should also be a thing of the past. As a digital infrastructure, such platforms enable new digital business models for companies in the region on the basis of data-based applications and thus form the basis for a networked region. An analysis of the status quo with regard to digital platforms and the provision of data from the municipalities in the Rhine-Ruhr metropolitan region shows that there is still a great need for action: there is neither a uniform strategy for the provision of data, nor is relevant live data published by individual municipalities onto existing platforms. Even within the municipalities, the existing sensor base and its connectivity is not sufficient for filling a digital platform—in any case, lighthouse projects exist in the context of smart city initiatives. In this article, therefore, we present an IoT-supported architecture for a central, cross-metropolitan data platform based on Industrial Data Space, Data Lakes and IoT networking technologies. We also show, how a scalable ecosystem can be created through the technical and organizational integration of companies in the economy. Using concrete examples, we explain how the implementation of the architecture began and how further implementation is planned.
- TextdokumentPotentials of Bicycle Infrastructure Data Lakes to Support Cycling Quality Assessment(INFORMATIK 2022, 2022) Schering,Johannes; Marx Gómez,Jorge; Büsselmann,Lena; Alfaro,Federico; Stüven,JanA data-driven quality assessment of bicycle infrastructure is necessary in times of crisis to support the decision-making process in cycling promotion. The INFRASense project was initiated to support the scoring of bike paths by providing new crowdsourcing data that is combined with other relevant data sources (traffic amount, accidents, citizen reportings etc.). The storage and processing of heterogeneous bike infrastructure data may be a challenge. With its flexibility a Data Lake could be an alternative to the traditional Data Warehouse. In the first step the paper gives an overview about data-driven initiatives in the use-case of bike infrastructure quality assessment and the recently started research project INFRASense. We will provide an overview about data sources that may potentially be included into the data driven quality assessment. Big Bicycle Data is available in many different structures and formats (CSV, XML, SHP etc.). In the second step the concepts of Data Lake and Data Warehouse are introduced. The benefits and weaknesses of these two solutions are shown followed by a discussion about which one of these is the best concept for storage, processing, and analysis of heterogeneous bicycle infrastructure data. In the last step we are providing an outlook how an efficient bicycle infrastructure data management system could be implemented.