Konferenzbeitrag
Dublettenbereinigung nach dem Record Linkage Algorithmus
Lade...
Volltext URI
Dokumententyp
Text/Conference Paper
Zusatzinformation
Datum
2005
Autor:innen
Zeitschriftentitel
ISSN der Zeitschrift
Bandtitel
Verlag
Gesellschaft für Informatik e.V.
Zusammenfassung
Unter Dublettenbereinigung versteht man das Entfernen mehrfach gespeicherter Datensätze, die auf dasselbe Objekt verweisen. Der bekannteste Algorithmus hierzu ist der Record Linkage Algorithmus nach Fellegi und Sunter. Hierbei wird ein Gesamtgewicht auf Grundlage eines Vergleichs einzelner Attribute von zwei Datensätzen errechnet. Neben dem exakten Vergleich von Attributen sind vor allem Algorithmen notwendig, die orthographische oder typographische Fehler berücksichtigen.