Logo des Repositoriums
 

Informationsunschärfe in Big Data

dc.contributor.authorBendler, Johannes
dc.contributor.authorWagner, Sebastian
dc.contributor.authorBrandt, Tobias
dc.contributor.authorNeumann, Dirk
dc.date.accessioned2018-01-10T13:42:44Z
dc.date.available2018-01-10T13:42:44Z
dc.date.issued2014
dc.description.abstractWährend die klassische Definition von Big Data ursprünglich nur die drei Größen Datenmenge (Volume), Datenrate (Velocity) und Datenvielfalt (Variety) umfasste, ist in jüngster Zeit der Wahrheitsgehalt (Veracity) als weitere Dimension mehr und mehr in den wissenschaftlichen und praktischen Fokus gerückt. Der noch immer wachsende Bereich der Sozialen Medien und damit verbundene benutzergenerierte Datenmengen verlangen nach neuen Methoden, die die enthaltene Datenunschärfe abschätzen und kontrollieren können. Dieser Beitrag widmet sich einem Aspekt der Datenunschärfe und stellt einen neuartigen Ansatz vor, der die Verlässlichkeit von benutzergenerierten Daten auf Basis von wiederkehrenden Mustern abschätzt. Zu diesem Zweck wird eine große Menge von Twitter-Statusnachrichten mit geographischer Standortinformation aus San Francisco untersucht und mit Points of Interest (POIs), wie beispielsweise Bars, Restaurants oder Parks, in Verbindung gebracht. Das vorgeschlagene Modell wird durch kausale Beziehungen zwischen Points of Interest und den in der Umgebung vorliegenden Twitter-Meldungen validiert. Weiterhin wird die zeitliche Dimension dieser Beziehung in Betracht gezogen, um so in Abhängigkeit der Art des POI wiederkehrende Muster zu identifizieren. Die durchgeführten Analysen münden in einem Indikator, der die Verlässlichkeit von vorliegenden Daten in räumlicher und zeitlicher Dimension abschätzt.AbstractWhile the classic definition of Big Data included the dimensions volume, velocity, and variety, a fourth dimension, veracity, has recently come to the attention of researchers and practitioners. The increasing amount of user-generated data associated with the rise of social media emphasizes the need for methods to deal with the uncertainty inherent to these data sources. In this paper we address one aspect of uncertainty by developing a new methodology to establish the reliability of user-generated data based upon causal links with recurring patterns. We associate a large data set of geo-tagged Twitter messages in San Francisco with points of interest, such as bars, restaurants, or museums, within the city. This model is validated by causal relationships between a point of interest and the amount of messages in its vicinity. We subsequently analyze the behavior of these messages over time using a jackknifing procedure to identify categories of points of interest that exhibit consistent patterns over time. Ultimately, we condense this analysis into an indicator that gives evidence on the certainty of a data set based on these causal relationships and recurring patterns in temporal and spatial dimensions.
dc.identifier.pissn1861-8936
dc.identifier.urihttps://dl.gi.de/handle/20.500.12116/11918
dc.publisherSpringer
dc.relation.ispartofWirtschaftsinformatik: Vol. 56, No. 5
dc.relation.ispartofseriesWIRTSCHAFTSINFORMATIK
dc.subjectBig Data
dc.subjectBig DATA
dc.subjectDatenunschärfe
dc.subjectGeo-temporale Muster
dc.subjectPoints of interest
dc.subjectPoints of Interest
dc.subjectSocial media
dc.subjectSocial Media
dc.subjectSpatio-temporal patterns
dc.subjectUncertainty
dc.subjectVeracity
dc.titleInformationsunschärfe in Big Data
dc.typeText/Journal Article
gi.citation.endPage313
gi.citation.startPage303

Dateien