Konferenzbeitrag
Knowledge Discovery in Big Data: Herausforderungen durch Big Data im Prozess der Wissensgewinnung am Beispiel des CRISP-DM
Lade...
Volltext URI
Dokumententyp
Text/Conference Paper
Dateien
Zusatzinformation
Datum
2015
Autor:innen
Zeitschriftentitel
ISSN der Zeitschrift
Bandtitel
Quelle
Verlag
Gesellschaft für Informatik e.V.
Zusammenfassung
Der Prozess valide, neuartige, potenziell nutzbare und verständliche Muster in Daten zu finden, wird als Knowledge Discovery in Database Prozess bezeichnet (KDD-Prozess). Die diesem Prozess zu Grunde liegende Datenbasis unterliegt einem ständigen Wandel. Doug Laney erkannte die Eigenschaften Volume, Variety und Velocity als neue Herausforderungen für IT- Organisationen. Heute werden diese Herausforderungen unter dem Begriff Big Data zusammengefasst. Die Auswirkungen von Big Data auf den KDD-Prozess sind bisher unzureichend untersucht. Ziel dieser Arbeit war es, die Herausforderungen durch Big Data im Prozess der Wissensgewinnung am Beispiel des CRISP-DM, eines der am meisten genutzten KDD-Prozessmodelle, zu analysieren. Durch ein systematisches Literaturreview wurden elementare Herausforderungen identifiziert und den Prozessschritten des Prozessmodells zugeordnet. Der überwiegende Teil der Ergebnisse konnten mittels Experteninterviews verifiziert werden. Neben der Identifikation zentraler Herausforderungen wurde deutlich, dass CRISP-DM bei der Analyse von Big Data Gültigkeit hat, aber zentrale Herausforderungen, vor allen in den Phasen der Datenvorverarbeitung, beachtet werden müssen.