Autor*innen mit den meisten Dokumenten
Neueste Veröffentlichungen
- ZeitschriftenartikelDr. Dean Jacobs(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Kemper, Alfons; Lehner, Wolfgang
- ZeitschriftenartikelDatenmanagement und -exploration an der RWTH Aachen(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Seidl, ThomasDer Lehrstuhl für Informatik 9 (Datenmanagement und -exploration) an der RWTH Aachen beschäftigt sich mit Data Mining- und Datenbanktechnologien für multimediale und räumlich-zeitliche Daten in ingenieur-, natur-, lebens-, wirtschafts- und sozialwissenschaftlichen Anwendungen. Sowohl die große Menge an Daten als auch die Komplexität der einzelnen Objekte bergen unterschiedliche Herausforderungen für die Analyse und Exploration realer Daten, denen wir mit der Entwicklung neuer effektiver sowie effizienter Konzepte für Datenanalyse und Datenmanagement begegnen.
- ZeitschriftenartikelCompilation of Query Languages into MapReduce(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Sauer, Caetano; Härder, TheoThe introduction of MapReduce as a tool for Big Data Analytics, combined with the new requirements of emerging application scenarios such as the Web 2.0 and scientific computing, has motivated the development of data processing languages which are more flexible and widely applicable than SQL. Based on the Big Data context, we discuss the points in which SQL is considered too restrictive. Furthermore, we provide a qualitative evaluation of how recent query languages overcome these restrictions. Having established the desired characteristics of a query language, we provide an abstract description of the compilation into the MapReduce programming model, which, up to minor variations, is essentially the same in all approaches. Given the requirements of query processing, we introduce simple generalizations of the model, which allow the reuse of well-established query evaluation techniques, and discuss strategies to generate optimized MapReduce plans.
- ZeitschriftenartikelInkrementelle Neuberechnungen in MapReduce(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Schildgen, Johannes; Jörg, Thomas; Deßloch, StefanDas MapReduce-Programmiermodell ermöglicht die skalierbare Analyse und Transformation großer Datenmengen. Wir stellen das auf MapReduce basierende Marimba-Framework zur einfachen Entwicklung von inkrementellen, selbstwartbaren Programmen vor, welche bei Änderung von Quelldaten eine vollständige Wiederholung des MapReduce-Jobs vermeiden. Marimba wird anhand mehrerer Anwendungen illustriert und durch Leistungsmessungen evaluiert.
- ZeitschriftenartikelEfficient OR Hadoop: Why Not Both?(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Dittrich, Jens; Richter, Stefan; Schuh, StefanIn this article, we give an overview of research related to Big Data processing in Hadoop going on at the Information Systems Group at Saarland University. We discuss how to make Hadoop efficient. We briefly survey three of our projects in this context: Hadoop++, Trojan Layouts, and HAIL.
- ZeitschriftenartikelEditorial(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Härder, Theo
- ZeitschriftenartikelBericht vom Herbsttreffen der GI-Fachgruppe Datenbanksysteme(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Kemper, Alfons; Mühlbauer, Tobias; Neumann, Thomas; Reiser, Angelika; Rödiger, Wolf
- ZeitschriftenartikelNews(Datenbank-Spektrum: Vol. 13, No. 1, 2013)
- ZeitschriftenartikelParallel Entity Resolution with Dedoop(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Kolb, Lars; Rahm, ErhardWe provide an overview of Dedoop (Deduplication with Hadoop), a new tool for parallel entity resolution (ER) on cloud infrastructures. Dedoop supports a browser-based specification of complex ER strategies and provides a large library of blocking and matching approaches. To simplify the configuration of ER strategies with several similarity metrics, training-based machine learning approaches can be employed with Dedoop. Specified ER strategies are automatically translated into MapReduce jobs for parallel execution on different Hadoop clusters. For improved performance, Dedoop supports redundancy-free multi-pass blocking as well as advanced load balancing approaches. To illustrate the usefulness of Dedoop, we present the results of a comparative evaluation of different ER strategies on a challenging real-world dataset.
- ZeitschriftenartikelDissertationen(Datenbank-Spektrum: Vol. 13, No. 1, 2013)