Auflistung nach Autor:in "Draisbach, Uwe"
1 - 2 von 2
Treffer pro Seite
Sortieroptionen
- KonferenzbeitragDuplicate detection on GPUs(Datenbanksysteme für Business, Technologie und Web (BTW) 2024, 2013) Forchhammer, Benedikt; Papenbrock, Thorsten; Stening, Thomas; Viehmeier, Sven; Draisbach, Uwe; Naumann, FelixWith the ever increasing volume of data and the ability to integrate different data sources, data quality problems abound. Duplicate detection, as an integral part of data cleansing, is essential in modern information systems. We present a complete duplicate detection workflow that utilizes the capabilities of modern graphics processing units (GPUs) to increase the efficiency of finding duplicates in very large datasets. Our solution covers several well-known algorithms for pair selection, attribute-wise similarity comparison, record-wise similarity aggregation, and clustering. We redesigned these algorithms to run memory-efficiently and in parallel on the GPU. Our experiments demonstrate that the GPU-based workflow is able to outperform a CPU-based implementation on large, real-world datasets. For instance, the GPU-based algorithm deduplicates a dataset with 1.8m entities 10 times faster than a common CPU-based algorithm using comparably priced hardware.
- ZeitschriftenartikelProjektseminar „Similarity Search Algorithms“(Datenbank-Spektrum: Vol. 11, No. 1, 2011) Lange, Dustin; Vogel, Tobias; Draisbach, Uwe; Naumann, FelixMithilfe von Verfahren aus dem Bereich Ähnlichkeitssuche können zu einer Anfrage an einen Datenbestand nicht nur exakte, sondern auch ähnliche Objekte gefunden werden, z. B. Bilder mit ähnlichen Motiven wie auf dem Anfragebild. Mit aktuellen Forschungsansätzen aus diesem Bereich befasste sich das Seminar „Similarity Search Algorithms“, welches wir in diesem Bericht vorstellen.Das Ziel des Seminars war ein breiter Vergleich bekannter Indexierungsalgorithmen mit Datensätzen aus verschiedenen Bereichen. Die Studenten befassten sich mit je zwei Ähnlichkeitsmaßen für Datensätze aus fünf verschiedenen Domänen und mit je einem von sechs verschiedenen Indexstrukturen zur Ähnlichkeitssuche in metrischen Räumen. In diesem Bericht evaluieren wir die Kombination der Ähnlichkeitsmaße mit den Indexstrukturen bzgl. Indexaufbau und knn-Anfragen. Außerdem beschreiben wir die Durchführung des Seminars und werfen einen Blick auf lessons learned.