Logo des Repositoriums
 

HMD 56(5) - Oktober 2019 - Big Data Analytics

Autor*innen mit den meisten Dokumenten  

Auflistung nach:

Neueste Veröffentlichungen

1 - 10 von 17
  • Zeitschriftenartikel
    Vorhersage von Ersatzteilbedarfen mit Hilfe von Clusteringverfahren
    (HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 5, 2019) Menden, Christian; Mehringer, Julius; Martin, Alexander; Amberg, Michael
    Die Vorhersage des Ersatzteilbedarfs für den Zeitraum nach Produktionsende ist ein zentrales Thema des Supply Chain Managements. Ziel ist es dabei, die Kosten für Lagerung, Transport und Entsorgung sowie die Kapitalbindung zu senken. Gleichzeitig soll durch beständige Verfügbarkeit die Kundenzufriedenheit aufrechterhalten werden. In diesem Artikel wird eine verschachtelte Vorgehensweise von Clustering- und Klassifikationsmethoden entwickelt, um Muster in den Stamm- und Verbrauchsdaten eines großen Hausgeräteherstellers zu finden. Durch dieses geschachtelte Vorgehen ist es letztlich möglich, auf Grundlage größtenteils unvollständiger Daten von 1985 bis 2017, Vorhersagemethoden anzuwenden. Hierbei werden verschiedene Clustering-Methoden mit unterschiedlichen Distanzmaßen und Parameterkalibrierungen miteinander kombiniert, um Produkte hinsichtlich der Ähnlichkeit ihrer (i) Stammdaten und (ii) Verbrauchsmuster zu gruppieren. Diese Cluster werden verwendet, um auf Grundlage ähnlicher früherer Produkte Vorhersagen für aktuelle und zukünftige Produkte zu konstruieren, für die nur geringe Verbrauchsdaten existieren. Unsere Ergebnisse lassen darauf schließen, dass dieses geschachtelte Vorgehen die Prognosegüte im Vergleich zu dem in der Praxis genutzten Verfahren erheblich steigert. Predicting spare parts demand for the time period after production has ceased is a central issue in supply chain management in order to reduce costs in terms of storage, transportation, disposal, finance and to maintain a desired level of customer satisfaction. This paper proposes a nested workflow of clustering and classification methods to find patterns in a large dataset of master and consumption data from a big manufacturer of household goods from 1985–2017 that allow for the application of nonlinear forecasting approaches in the case of largely incomplete data. More specifically, we apply different clustering methodologies with varying distance measures and parameter calibrations to determine products that share similarities in terms of (i) master data and (ii) consumption patterns. We use these clusters to construct predictions for “new” products where historical data is scarce using the data from similar (older) products for which more data is already available. Our results indicate that this step-wise approach of combining clustering and classification methods with nonlinear prediction approaches yields significantly better forecasting results than a baseline model and improves the spare parts planning and controlling process.
  • Zeitschriftenartikel
    Hybrider Ansatz zur automatisierten Themen-Klassifizierung von Produktrezensionen
    (HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 5, 2019) Goetz, Rene; Piazza, Alexander; Bodendorf, Freimut
    Im Online-Handel werden durch Interaktionen von Kunden mit den Web-Plattformen enorme Datenmengen generiert. So zählt Kundenfeedback in Form von Produktrezensionen zu den unstrukturierten Daten, für deren Verarbeitung Ansätze aus dem Gebiet der Computerlinguistik und des maschinellen Lernens benötigt werden. Als Alternative zu den klassischen Ansätzen des überwachten und unüberwachten Lernens, welche im betrieblichen Kontext und der Anwendungsdomäne der Produktrezensionen oftmals an deren Grenzen stoßen, wird in diesem Artikel ein hybrider Ansatz zur Kategorisierung von Produktrezensionen vorgestellt, der die Vorteile des maschinellen Lernens und der menschlichen Expertise vereint. Ziel dieses Artikels ist es, einen Ansatz zu präsentieren, welcher es ermöglicht, automatisiert und basierend auf den Anforderungen aus der Praxis, strukturiert Themen und darauf bezogene Aspekte aus Produktrezensionen zu extrahieren. Mithilfe von Word2Vec werden semantische Beziehung der in den Rezensionen enthaltenen Wörter trainiert. Dadurch können einzelne Wörter mit vorher definierten Themen auf deren Ähnlichkeit untersucht werden und in den Rezensionen identifiziert und extrahiert werden. Dieser Ansatz wird am Beispiel eines Datensatzes von rund fünf Millionen Produktrezensionen der Online-Plattform Amazon demonstriert und dessen Ergebnisse mit denen eines gängigen Topic Modelling Ansatzes gegenübergestellt. In e‑commerce, enormous amounts of data are generated through the interaction of customers with Web platforms. Customer feedback in the form of product reviews, for instance, is an example for unstructured data, which processing requires approaches from the fields of computer linguistics and machine learning. As an alternative to the classical approaches of supervised and unsupervised learning, which often reach their limits in the business context and the application domain of product reviews, this article presents a hybrid approach for categorizing product reviews that combines the advantages of machine learning and human expertise. The aim of this paper is to present an approach that allows to automatically extract structured topics and related aspects from product reviews based on practical requirements. Word2Vec is used to train semantic relationships between words that occur in product reviews. In this way, individual words of each review can be compared with in advance defined topic words regarding their similarity and can then be extracted from the reviews. This approach is demonstrated using around five million product reviews of the Amazon online platform. The results are getting compared with those from a common topic modelling technique.
  • Zeitschriftenartikel
    Objekterkennung im Weinanbau – Eine Fallstudie zur Unterstützung von Winzertätigkeiten mithilfe von Deep Learning
    (HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 5, 2019) Heinrich, Kai; Zschech, Patrick; Möller, Björn; Breithaupt, Lukas; Maresch, Johannes
    Die voranschreitende Digitalisierung revolutioniert sämtliche Wirtschaftszweige und bringt somit auch langfristige Veränderungen für den landwirtschaftlichen Sektor mit sich, wo auf Basis intelligenter Informationssysteme zahlreiche Daten gesammelt und im Zuge neuer Geschäftsmodelle ausgewertet werden. Vor diesem Hintergrund präsentiert der vorliegende Beitrag eine Big-Data-Analytics-Fallstudie aus dem Bereich des Weinanbaus, wo mithilfe von mobilen Aufnahmegeräten umfangreiches Bildmaterial aufgezeichnet wurde, um eine automatisierte Objekterkennung zur Unterstützung von operativen Winzertätigkeiten, wie zum Beispiel das Zählen von Reben, die Identifikation von Rebfehlstellen oder die Prognose von potentiellem Erntegut, realisieren zu können. Hierbei bestand die Herausforderung unter anderem darin, landwirtschaftlich relevante Weinobjekte wie Reben, Trauben und Beeren über die einzelnen Hierarchieebenen hinweg erkennen zu können und diese auch in Bezug auf bewegtes Bildmaterial folgerichtig zu zählen. Zur Bewältigung derartiger Herausforderungen werden einige Lösungsansätze vorgestellt, die auf modernen Deep-Learning-Verfahren der bildbasierten Objekterkennung basieren. Der Beitrag wird abgerundet mit einer Diskussion und Implikationen für analytische Anwendungen in der landwirtschaftlichen Praxis. The transformation towards a digitized world introduces major changes to all economic sectors, among them the sector of agriculture, where intelligent information systems help to gather and analyze vast amounts of data to provide new business functions and models. Given this background, this article describes a big data analytics case study from the field of viticulture, where extensive image material was recorded using mobile recording devices in order to implement automated object detection to support operational vineyard activities, such as counting vines, identifying missing plants or predicting potential harvests. One of the challenges here was to correctly identify relevant wine objects such as vines, grapes and berries across their different hierarchical levels and to consistently count them in relation to moving image material. The authors provide a solution to those challenges by designing a data analysis process based on a deep learning framework for object detection. Additionally, the results as well as implications for the application of the proposed models in the field of agrarian management are discussed at the end of the article.
  • Zeitschriftenartikel
    Smart Factory – Konzeption und Prototyp zum Image Mining und zur Fehlererkennung in der Produktion
    (HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 5, 2019) Trinks, Sebastian; Felden, Carsten
    Um die Leistungsfähigkeit der Produktion in der Smart Factory effizient zu gestalten, lassen sich durch Sensoren in Echtzeit erhobene Produktionsdaten zur Qualitätsprüfung nutzen. Damit die Daten, die Informationen und letztendlich das durch algorithmische Analyse generierte Wissen über die Qualität rechtzeitig bereitsteht, sind passende Netzwerkarchitekturen, wie beispielsweise die des Edge Computing, notwendig, um einen effizienten Einsatz zu ermöglichen. In diesem Kontext beschäftigt sich der Beitrag mit den Herausforderungen der Analyse von Daten bildgebender Sensoren in der Produktion. Die vorgenommenen Untersuchungen fußen dabei auf der Implementierung einer Image-Mining-Applikation zur Echtzeit-Fehlererkennung in der Produktion, die mittels eines gestaltungsorientierten Forschungsansatzes ergründet wurden. Neben der Identifikation der Herausforderungen in diesem Spannungsfeld, ließen sich Algorithmen ausfindig machen und betrachten, die hierfür eine hohe Prognosegenauigkeit aufweisen. Die erzielten Erkenntnisse bilden dabei eine wichtige Grundlage für den Einsatz von Image-Mining-Applikationen in der Smart Factory. To enable an efficient production in the smart factory, it is necessary to perform quality control in real time. Thereby, the basis is formed by sensors collecting a large amount of data. These data, the resulting information, and also the knowledge generated by algorithmic analysis must be available at the right time. Thus, suitable network architectures like edge computing are necessary for efficient data transfer. In this context, the paper’s contribution deals with challenges of analyzing data collected by imaging sensors in production environments. The consideration based on the implementation of an image mining application for a real time fault detection in production, which was developed as artifact of a design science research approach. In addition to identifying the challenges in this area, algorithms could be recognized and considered having a high accuracy of fit. The results obtained form an important basis for the use of image mining applications in smart factories.
  • Zeitschriftenartikel
    Big Public Data aus dem Programmable Web: Chancen und Herausforderungen
    (HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 5, 2019) Matter, Ulrich
    Die Verbreitung des Internets, die zunehmende Digitalisierung in der öffentlichen Verwaltung und Politik, sowie die Entfaltung der Civic Technology Bewegung haben über die letzten Jahre zu einer starken Zunahme an hochdetaillierten digitalen Datenbeständen über politische Akteure und Prozesse geführt. Diese big public data werden oft über programmatische Schnittstellen (Web application programming interfaces; programmable Web) verbreitet, um die Einbettung der Daten in anderen Webanwendungen zu vereinfachen und somit ein möglichst großes Publikum zu erreichen. Die Analyse dieser Daten für wissenschaftliche Zwecke in der politischen Ökonomie und Politologie ist vielversprechend, setzt jedoch die Implementierung einer data pipeline zur systematischen Beschaffung und Aufbereitung von Daten aus dem programmable Web voraus. Dieser Artikel diskutiert die Chancen und Herausforderungen der praktischen Nutzung dieser Datenbestände für die empirische Forschung und zeigt anhand einer Fallstudie ein mögliches Vorgehen zur systematischen Analyse von big public data aus dem programmable Web auf. The diffusion of the Internet, the increasing digitization in public service and politics, as well as the evolvement of the civic technology movement have led to a sharp increase in highly granular digital data on political officials und political processes. These big public data are typically distributed in various data formats via so-called Web application programming interfaces in order to facilitate the embedding of these data in web applications with the aim of reaching a large audience. The analysis of these data for research in political economics and political science is very promising. Yet, conducting such analyses efficiently, presupposes the implementation of a data pipeline to systematically collect und combine data from programmable Web sources. This article discusses the opportunities and challenges for the practical exploitation of these new data sources for social-science research. A case study in the context of research on religion in US Politics illustrates an approach to systematically collect and analyse big public data based on the programmable Web.
  • Zeitschriftenartikel
    Big Data Analytics
    (HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 5, 2019) Meier, Andreas
  • Zeitschriftenartikel
    Überblick Analytics: Methoden und Potenziale
    (HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 5, 2019) Meier, Andreas
    Der Grundlagenbeitrag definiert und charakterisiert verschiedene Facetten des Analytics und zeigt auf, welche Nutzenpotenziale sich für die Wirtschaft ergeben. Nach der Klärung wichtiger Begriffe wird der Prozess zum Schürfen nach wertvollen Informationen und Mustern (Data Mining) in den Datenbeständen diskutiert. Danach werden wichtige Methoden des Data Mining wie des Soft Computing vorgestellt. Die Anwendungsgebiete des Web Analytics und Web Controlling dienen dazu, bedeutende Nutzenpotenziale beim Auswerten der digitalen Wertschöpfungskette elektronischer Geschäfte herauszuarbeiten. Ein Ausblick in die unbewusste Business Intelligence rundet den Beitrag ab. The basic contribution defines and characterizes various facets of analytics and shows the potential benefits for the economy. Once important terms have been clarified, the process of prospecting for valuable information and patterns (data mining) in databases is discussed. Afterwards, important methods for data mining as well as for soft computing will be presented. The application areas of Web Analytics and Web Controlling serve to identify significant potential benefits in evaluating the digital value chain of electronic business. An outlook into the unconscious Business Intelligence will complete the contribution.
  • Zeitschriftenartikel
    Rezension „Big Data und E‑Health“
    (HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 5, 2019) Waldhör, Klemens
  • Zeitschriftenartikel
    Rezension „Small Data“
    (HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 5, 2019) Portmann, Edy
  • Zeitschriftenartikel
    Big Data Analytics im Bahnverkehr
    (HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 5, 2019) Hauck, Florian; Morgenstern, Sandro; Kliewer, Natalia
    Die Analyse von historischen Fahrtdaten bietet Bahnbetreibern die Möglichkeit Zusammenhänge zwischen Verspätungen zu erkennen, deren Ursachen besser zu verstehen und geeignete Maßnahmen zu treffen. Die gewonnenen Informationen können zum Beispiel verwendet werden, um robustere Fahrpläne zu erstellen und dadurch die Pünktlichkeit im Schienenverkehr zu verbessern. Damit die Daten ausgewertet werden können, müssen sie allerdings in einem konsistenten Zustand (das heißt vollständig und korrekt) vorliegen. Da Infrastrukturdaten sowie Soll- und Ist-Zeiten von Zugfahrten jeweils in verschiedenen Systemen erfasst werden, müssen die Daten zunächst vereinheitlicht und zusammengeführt werden. Dieser Beitrag stellt eine datengetriebene Infrastruktur-Modellierung und Integration von historischen Zugfahrtdaten vor. Dabei werden Daten der Deutschen Bahn aus einem Fahrplanjahr verwendet. Das Ziel besteht darin, systembedingte Inkonsistenzen bei der Zusammenführung der Daten zu beseitigen und die Integrität der Daten für weitere Analysen und Optimierungsansätze sicherzustellen. Außerdem werden Fahrtverläufe vereinheitlicht, damit diese besser miteinander verglichen werden können. In diesem Zusammenhang werden die Daten in ein JSON-Format transformiert, wodurch ein Vergleich von Soll- und Ist-Zeiten an allen Messpunkten möglich ist. Die Ergebnisse dieser Arbeit zeigen, dass in einem Datensatz mit 27 Mio. Zugfahrten 7 % aller Fahrten zunächst nicht für eine pauschale Weiterverarbeitung geeignet waren, weil zum Beispiel fehlende oder inkonsistente Werte vorlagen. Etwa 70 % der betroffenen Fahrten konnten automatisiert vervollständigt und harmonisiert werden. Dadurch wurde ein integrierter und bereinigter Datensatz erstellt, der als Grundlage zur Fahrplanoptimierung oder zur Analyse von Zugverspätungen verwendet werden kann. The analysis of historical trip data offers railway operators the opportunity to identify relations between delays, to better understand their causes and to take appropriate action. The information obtained can be used, for example, to create more robust timetables and thus improve punctuality in rail transport. However, for the data to be evaluated, it must be in a consistent state (i. e. complete and correct). Since infrastructure data as well as planned and actual times of train movements are recorded in different systems, the data must first be standardized and merged. This paper presents a data-driven approach for infrastructure modelling and integration of historical train running data. Data from Deutsche Bahn from one timetable year is used. The aim is to eliminate system-related inconsistencies in the consolidation of the data and to ensure the integrity of the data for further analyses and optimization approaches. In addition, the train trips are standardized so that they can be better compared with each other. In this context, the data will be transformed into a JSON format, enabling a comparison of planned and actual event times at all measuring points. The results of this work show that in a data set with 27 million train journeys, 7% of all journeys were initially not suitable for further processing because, for example, missing or inconsistent values were present. Approximately 70% of the affected trips could be completed and harmonized automatically. This resulted in the creation of an integrated and cleansed data set that can be used as a basis for timetable optimization or for the analysis of train delays.