Auflistung nach Schlagwort "Apache Flink"
1 - 5 von 5
Treffer pro Seite
Sortieroptionen
- ZeitschriftenartikelThe Berlin Big Data Center (BBDC)(it - Information Technology: Vol. 60, No. 5-6, 2018) Boden, Christoph; Rabl, Tilmann; Markl, VolkerThe last decade has been characterized by the collection and availability of unprecedented amounts of data due to rapidly decreasing storage costs and the omnipresence of sensors and data-producing global online-services. In order to process and analyze this data deluge, novel distributed data processing systems resting on the paradigm of data flow such as Apache Hadoop, Apache Spark, or Apache Flink were built and have been scaled to tens of thousands of machines. However, writing efficient implementations of data analysis programs on these systems requires a deep understanding of systems programming, prohibiting large groups of data scientists and analysts from efficiently using this technology. In this article, we present some of the main achievements of the research carried out by the Berlin Big Data Cente (BBDC). We introduce the two domain-specific languages Emma and LARA, which are deeply embedded in Scala and enable declarative specification and the automatic parallelization of data analysis programs, the PEEL Framework for transparent and reproducible benchmark experiments of distributed data processing systems, approaches to foster the interpretability of machine learning models and finally provide an overview of the challenges to be addressed in the second phase of the BBDC.
- KonferenzbeitragDistributed FoodBroker: Skalierbare Generierung graphbasierter Geschäftsprozessdaten(Datenbanksysteme für Business, Technologie und Web (BTW 2017) - Workshopband, 2017) Kemper, Stephan; Petermann, André; Junghanns, MartinGraphen eignen sich zur Modellierung und Analyse komplexer Zusammenha ̈nge zwischen beliebi- gen Objekten. Eine mo ̈gliche Anwendung ist die graphbasierte Analyse von Gescha ̈ftsprozessen. Fu ̈r die Entwicklung und Evaluierung entsprechener Analysetools werden Datensa ̈tze beno ̈tigt. Food- Broker ist ein Datengenerator, welcher vordefinierte Gescha ̈ftsprozesse simuliert und die Daten in Form von Graphen lokal auf einem Rechner erzeugt. Um Graphen beliebiger Gro ̈ßer erstellen zu ko ̈nnen, zeigen wir in diesem Beitrag wie FoodBroker mit Hilfe der Open-Source-Frameworks GRADOOP und Apache Flink auf verteilten Systemen implementiert werden kann.
- TextdokumentKonzeption und Umsetzung einer DSL zur Informationsfusion auf verteilten heterogenen Graphen(BTW 2019 – Workshopband, 2019) Kern, AlexanderInformationsintegration ist das Zusammenführen von Informationen aus verschiedenen Quellen. Dadurch soll eine effektivere Nutzung der Daten erreicht werden, als durch die Arbeit mit den einzelnen Quellen möglich ist. Allerdings ist Informationsintegration ein hochkomplexes Problem. Es umfasst neben der Duplikatserkennung auch das Auflösen von Inkonsistenzen auf Schema-und Instanzlevel. Diese Arbeit stellt eine domänenspezifische Sprache zur Lösung von Konflikten auf Attributwertebene für heterogene Graphdaten vor. Die Sprache stellt mit der Informationsfusion einen Teilschritt des Informationsintegrationsprozesses zur Verfügung. Neben der Gestaltung der DSL und der Entwicklung eines Prototyps mit Apache Flink und Gradoop beurteilt eine Evaluation der Fusionsergebnisse die Qualität des Verfahrens.
- KonferenzbeitragPost-Debugging in Large Scale Big Data Analytic Systems(Datenbanksysteme für Business, Technologie und Web (BTW 2017) - Workshopband, 2017) Bergen, Eduard; Edlich, StefanData scientists often need to fine tune and resubmit their jobs when processing a large quantity of data in big clusters because of a failed behavior of currently executed jobs. Consequently, data scientists also need to filter, combine, and correlate large data sets. Hence, debugging a job locally helps data scientists to figure out the root cause and increases efficiency while simplifying the working process. Discovering the root cause of failures in distributed systems involve a different kind of information such as the operating system type, executed system applications, the execution state, and environment variables. In general, log files contain this type of information in a cryptic and large structure. Data scientists need to analyze all related log files to get more insights about the failure and this is cumbersome and slow. Another possibility is to use our reference architecture. We extract remote data and replay the extraction on the developer’s local debugging environment.
- KonferenzbeitragServerseitige Aggregation von Zeitreihendaten in verteilten NoSQL-Datenbanken(Datenbanksysteme für Business, Technologie und Web (BTW 2017) - Workshopband, 2017) Swoboda, OliverDie effiziente Erfassung, Abspeicherung und Verarbeitung von Zeitreihendaten spielt in der Zeit von leistungsstarken Anwendungen eine große Rolle. Durch die schnelle und stetig wachsende Erzeugung von Daten ist es nötig, diese in verteilten Systemen abzuspeichern. Dadurch wird es nötig über Alternativen zur sequenziellen Berechnung von Aggregationen, wie Minimum, Maximum, der Standardabweichung oder von Perzentilen nachzudenken. Diese Arbeit untersucht, wie existierende Zeitreihendatenbanken im Hadoop-Ökosystem Aggregationen umsetzen und welche Probleme bei der sequenzuellen Berechnung auftreten. Um diese Probleme zu lösen, wird gezeigt, wie Aggregationen auf Zeitreihendaten verteilt und parallel in verschiedenen Systemen umgesetzt werden können und welche Herangehensweise bessere Laufzeiten liefert.