Konferenzbeitrag

Emma in Action: Deklarative Datenflüsse für Skalierbare Datenanalyse

Lade...
Vorschaubild
Volltext URI
Dokumententyp
Text/Conference Paper
Datum
2017
Zeitschriftentitel
ISSN der Zeitschrift
Bandtitel
Quelle
Datenbanksysteme für Business, Technologie und Web (BTW 2017)
Demo Program
Verlag
Gesellschaft für Informatik, Bonn
Zusammenfassung
Schnittstellen zur Programmierung paralleler Datenflüsse, die auf Funktionen höherer Ordnung (wie map und reduce) basieren, sind in den letzten zehn Jahren durch Systeme wie Apache Hadoop, Apache Flink und Apache Spark populär geworden. Im Gegensatz zu SQL werden solche Programmierschnittstellen in Form eingebetteter Domänenspezifischer Sprachen (eDSLs) realisiert. Im Kern jeder eDSL steht ein dedizierter Typ, der verteilte Datenmengen repräsentiert und Berechnungen auf ihnen ermöglicht, wie z.B. DataSet in Flink oder RDD in Spark. Aufgrund der Integration von eDSLs in einer generischen Programmierumgebung (Java, Scala, oder Python) stellen sie eine flexiblere Alternative zu klassischen Ansätzen (z.B. SQL) dar, um gängige Aufgaben (z.B. ETL-Prozesse) in einer skalierbaren, Cloud-basierten Infrastruktur zu implementieren.
Beschreibung
Alexandrov, Alexander; Krastev, Georgi; Louis, Bernd; Salzmann, Andreas; Markl, Volker (2017): Emma in Action: Deklarative Datenflüsse für Skalierbare Datenanalyse. Datenbanksysteme für Business, Technologie und Web (BTW 2017). Gesellschaft für Informatik, Bonn. PISSN: 1617-5468. ISBN: 978-3-88579-659-6. pp. 609-610. Demo Program. Stuttgart. 6.-10. März 2017
Schlagwörter
Zitierform
DOI
Tags