Zeitschriftenartikel
Informationsunschärfe in Big Data
Vorschaubild nicht verfügbar
Volltext URI
Dokumententyp
Text/Journal Article
Zusatzinformation
Datum
2014
Zeitschriftentitel
ISSN der Zeitschrift
Bandtitel
Verlag
Springer
Zusammenfassung
Während die klassische Definition von Big Data ursprünglich nur die drei Größen Datenmenge (Volume), Datenrate (Velocity) und Datenvielfalt (Variety) umfasste, ist in jüngster Zeit der Wahrheitsgehalt (Veracity) als weitere Dimension mehr und mehr in den wissenschaftlichen und praktischen Fokus gerückt. Der noch immer wachsende Bereich der Sozialen Medien und damit verbundene benutzergenerierte Datenmengen verlangen nach neuen Methoden, die die enthaltene Datenunschärfe abschätzen und kontrollieren können. Dieser Beitrag widmet sich einem Aspekt der Datenunschärfe und stellt einen neuartigen Ansatz vor, der die Verlässlichkeit von benutzergenerierten Daten auf Basis von wiederkehrenden Mustern abschätzt. Zu diesem Zweck wird eine große Menge von Twitter-Statusnachrichten mit geographischer Standortinformation aus San Francisco untersucht und mit Points of Interest (POIs), wie beispielsweise Bars, Restaurants oder Parks, in Verbindung gebracht. Das vorgeschlagene Modell wird durch kausale Beziehungen zwischen Points of Interest und den in der Umgebung vorliegenden Twitter-Meldungen validiert. Weiterhin wird die zeitliche Dimension dieser Beziehung in Betracht gezogen, um so in Abhängigkeit der Art des POI wiederkehrende Muster zu identifizieren. Die durchgeführten Analysen münden in einem Indikator, der die Verlässlichkeit von vorliegenden Daten in räumlicher und zeitlicher Dimension abschätzt.AbstractWhile the classic definition of Big Data included the dimensions volume, velocity, and variety, a fourth dimension, veracity, has recently come to the attention of researchers and practitioners. The increasing amount of user-generated data associated with the rise of social media emphasizes the need for methods to deal with the uncertainty inherent to these data sources. In this paper we address one aspect of uncertainty by developing a new methodology to establish the reliability of user-generated data based upon causal links with recurring patterns. We associate a large data set of geo-tagged Twitter messages in San Francisco with points of interest, such as bars, restaurants, or museums, within the city. This model is validated by causal relationships between a point of interest and the amount of messages in its vicinity. We subsequently analyze the behavior of these messages over time using a jackknifing procedure to identify categories of points of interest that exhibit consistent patterns over time. Ultimately, we condense this analysis into an indicator that gives evidence on the certainty of a data set based on these causal relationships and recurring patterns in temporal and spatial dimensions.