Demonstration des Parallel Data Generation Framework

Rabl, TilmannSergieh, Hatem MoussellyFrank, MichaelKosch, HaraldHärder, TheoLehner, WolfgangMitschang, BernhardSchöning, HaraldSchwarz, Holger2019-01-172019-01-172011978-3-88579-274-1https://dl.gi.de/handle/20.500.12116/19621In vielen akademischen und wirtschaftlichen Anwendungen durchbrechen die Datenmengen die Petabytegrenze. Dies stellt die Datenbankforschung vor neue Aufgaben und Forschungsfelder. Petabytes an Daten werden gewöhnlich in großen Clustern oder Clouds gespeichert. Auch wenn Clouds in den letzten Jahren sehr populär geworden sind, gibt es dennoch wenige Arbeiten zum Benchmarking von An- wendungen in Clouds. In diesem Beitrag stellen wir einen Datengenerator vor, der für die Generierung von Daten in Clouds entworfen wurde. Die Architektur des Generators ist auf einfache Erweiterbarkeit und Konfigurierbarkeit ausgelegt. Die wichtigste Eigenschaft ist die vollständige Parallelverarbeitung, die einen optimalen Speedup auf einer beliebigen Anzahl an Rechnerknoten erlaubt. Die Demonstration umfasst sowohl die Erstellung eines Schemas, als auch die Generierung mit verschiedenen Parallelisierungsgraden. Um Interessenten die Definition eigener Datenbanken zu ermöglichen, ist das Framework auch online verfügbar.deDemonstration des Parallel Data Generation FrameworkText/Conference Paper1617-5468