Logo des Repositoriums
 

Erkennung von Duplikaten in Big Data am Fallbeispiel der digitalen Musiknutzung

dc.contributor.authorLindner, Tobias
dc.contributor.authorMandl, Peter
dc.contributor.authorBauer, Nikolai
dc.contributor.authorGrimm, Markus
dc.date.accessioned2021-03-25T10:53:26Z
dc.date.available2021-03-25T10:53:26Z
dc.date.issued2018
dc.description.abstractDie Beschreibung von Musikwerken ist heute nicht international genormt und daher kommt es vor allem in der Online-Musiknutzung häufig vor, dass Musikwerke in Online-Plattformen wie Spotify und Apple Music unterschiedlich gespeichert sind. Die Abrechnung von Musiknutzungen ist bei den zuständigen Verwertungsgesellschaften zwar schon seit längerem digitalisiert, aber die Feststellung der Eindeutigkeit von Musikwerken ist nicht ohne weiteres möglich. Dazu bedarf es effizienter Algorithmen zur Objektidentifikation. In dieser Arbeit wird ein Vergleich verschiedener Algorithmen wie Damerau-Levenshtein, Jaro-Winkler, Smith-Waterman u. a. zur Objektidentifikation bei Musikwerken durchgeführt. Da es sich um sehr rechenintensive Algorithmen handelt, haben wir die Algorithmen für eine Massenverarbeitung in einem Apache Hadoop-Cluster unter Nutzung von MapReduce adaptiert. Über einen umfangreichen Vergleichsdatensatz, der mit Apache HBase verteilt gespeichert wurde, haben wir die wichtigsten Algorithmen auf die Qualität der Duplikatserkennung und auf ihre Leistung hin untersucht. Es hat sich gezeigt, dass die sehr häufig verwendete Levenshtein-Distanz nicht am besten abschneidet. Durch den Einsatz anderer Algorithmen, beispielsweise der Jaro-Winkler-Distanz sind bessere Ergebnisse erzielbar und zwar sowohl bei der Zuordnungsqualität als auch bei der Verarbeitungsgeschwindigkeit. Today there is no international standard that specifies the description of a musical work. Therefore online platforms like Spotify or Apple Music store these works using different attributes. So even with a digital billing process that collecting societies use today, it is often difficult to identify a work correctly. Therefore efficient algorithms for object identification are necessary. In this article we compare different algorithms like Damerau-Levenshtein, Jaro-Winkler, Smith-Waterman and others in this context. Since these algorithms are computationally quite expensive, we have adapted them for mass data processing in an Apache Hadoop cluster using MapReduce. Using an extensive set of comparative data, stored with Apache HBase, we examined the most important algorithms for the quality of duplicate recognition and their performance. The results indicate that the frequently used Levenshtein distance does not perform best. By using other algorithms, such as the Jaro-Winkler distance, better results can be achieved in both matching quality and processing speed.de
dc.identifier.doi10.1365/s40702-017-0387-1
dc.identifier.pissn2198-2775
dc.identifier.urihttp://dx.doi.org/10.1365/s40702-017-0387-1
dc.identifier.urihttps://dl.gi.de/handle/20.500.12116/35855
dc.publisherSpringer
dc.relation.ispartofHMD Praxis der Wirtschaftsinformatik: Vol. 55, No. 3
dc.relation.ispartofseriesHMD Praxis der Wirtschaftsinformatik
dc.subjectApache Hadoop
dc.subjectApache HBase
dc.subjectBig Data
dc.subjectCollecting Society
dc.subjectDupletten
dc.subjectDuplicate Recognition
dc.subjectDuplikaterkennung
dc.subjectMusik-Onlinenutzung
dc.subjectObject Identification
dc.subjectObjektidentifizierung
dc.subjectOnline Music Use
dc.subjectRoyalty
dc.subjectVerwertung
dc.subjectVerwertungsgesellschaft
dc.titleErkennung von Duplikaten in Big Data am Fallbeispiel der digitalen Musiknutzungde
dc.typeText/Journal Article
gi.citation.endPage600
gi.citation.startPage581

Dateien