Auflistung nach Schlagwort "Blocking"
1 - 3 von 3
Treffer pro Seite
Sortieroptionen
- KonferenzbeitragDuplikaterkennung in der Graph-Processing-Platform GRADOOP(Datenbanksysteme für Business, Technologie und Web (BTW 2017) - Workshopband, 2017) Pretzsch, FlorianDie zunehmende Bedeutung von Graphdaten im Kontext von Big Data erfordert wirksame Verfahren zur Erkennung von Duplikaten, d. h. Knoten, welche das selbe Realweltobjekt repräsentieren. Dieser Beitrag stellt die Integration von Techniken zur Duplikaterkennung innerhalb des Graphverarbeitungs-Frameworks GRADOOP vor. Dazu werden dem GRADOOP-Framework neue Operatoren zur Duplikaterkennung hinzugefügt, die u. a. in der Lage sind, Ähnlichkeiten zwischen Knoten von einem oder mehreren Graphen zu bestimmen und ermittelte Duplikate als neue Kanten zu repräsentieren. Das vorgestellte Konzept wurde prototypisch implementiert und evaluiert.
- ZeitschriftenartikelEffektivität von Lösungsansätzen zur Bekämpfung von Spam(Wirtschaftsinformatik: Vol. 46, No. 4, 2004) Schryen, GuidoSpam as unsolicited email has certainly crossed the border of just being bothersome. In 2003, it surpassed legitimate email — growing to more than 50% of all Internet emails. Annually, it causes economic harms of several billion Euros. Fighting spam, beside legal approaches especially technical means are deployed in practical systems, mainly focussing on blocking and filtering mechanisms.This article introduces into the spam field and describes, assesses, and classifies the currently most important approaches against spam.
- ZeitschriftenartikelParallel Entity Resolution with Dedoop(Datenbank-Spektrum: Vol. 13, No. 1, 2013) Kolb, Lars; Rahm, ErhardWe provide an overview of Dedoop (Deduplication with Hadoop), a new tool for parallel entity resolution (ER) on cloud infrastructures. Dedoop supports a browser-based specification of complex ER strategies and provides a large library of blocking and matching approaches. To simplify the configuration of ER strategies with several similarity metrics, training-based machine learning approaches can be employed with Dedoop. Specified ER strategies are automatically translated into MapReduce jobs for parallel execution on different Hadoop clusters. For improved performance, Dedoop supports redundancy-free multi-pass blocking as well as advanced load balancing approaches. To illustrate the usefulness of Dedoop, we present the results of a comparative evaluation of different ER strategies on a challenging real-world dataset.