Logo des Repositoriums
 
Textdokument

Data Profiling – Effiziente Entdeckung Struktureller Abhängigkeiten

Lade...
Vorschaubild

Volltext URI

Dokumententyp

Zusatzinformation

Datum

2019

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Quelle

Verlag

Gesellschaft für Informatik, Bonn

Zusammenfassung

Daten sind nicht nur in der Informatik, sondern auch in vielen anderen wissenschaftlichen Disziplinen ein unverzichtbares Wirtschaftsgut. Sie dienen dem Austausch, der Verknüpfung und der Speicherung von Wissen und sind daher unverzichtbar in Forschung und Wirtschaft. Leider sind Daten häufig nicht ausreichend dokumentiert um sie direkt nutzen zu können – es fehlen Metadaten, welche die Struktur und damit Zugriffsmuster der digitalen Informationen beschreiben. Informatiker und Experten anderer Disziplinen verbringen daher viel Zeit damit, Daten strukturell zu analysieren und aufzubereiten. Da die Suche nach Metadaten jedoch eine hoch komplexe Aufgabe ist, scheitern viele algorithmische Ansätze schon an kleinen Datenmengen. In der Dissertation, die dieser Zusammenfassung zugrunde liegt, stellen wir drei neuartige Ent-deckungsalgorithmen für wichtige und zugleich schwierig zu findende Typen von Metadaten vor: Eindeutige Spaltenkombinationen, funktionale Abhängigkeiten und Inklusionsabhängigkeiten. Die vorgeschlagenen Algorithmen übertreffen deutlich den bisherigen Stand der Technik in Laufzeit und Ressourcenverbrauch und ermöglichen so die Nutzbarmachung von erheblich größeren Datensätzen. Da die Anwendung solcher Algorithmen für fachfremde Nutzer nicht einfach ist, entwickeln wir zusätzlich das Programm Metanome zur intuitiven Datenanalyse. Metanome bietet dabei nicht nur die in dieser Arbeit vorgeschlagenen Algorithmen an, sondern auch Entdeckungsalgorithmen für andere Typen von Metadaten. Am Anwendungsfall der Schema-Normalisierung demonstrieren wir schließlich, wie die gefundenen Metadaten effektiv genutzt werden können.

Beschreibung

Papenbrock, Thorsten (2019): Data Profiling – Effiziente Entdeckung Struktureller Abhängigkeiten. BTW 2019. DOI: 10.18420/btw2019-28. Gesellschaft für Informatik, Bonn. PISSN: 1617-5468. ISBN: 978-3-88579-683-1. pp. 467-476. Dissertationspreise. Rostock. 4.-8. März 2019

Schlagwörter

Zitierform

Tags