Auflistung nach Autor:in "Reimann, Peter"
1 - 10 von 12
Treffer pro Seite
Sortieroptionen
- ZeitschriftenartikelAnforderungen für Zeitreihendatenbanken in der industriellen Edge(HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 6, 2019) Petrik, Dimitri; Mormul, Mathias; Reimann, PeterDas industrielle Internet der Dinge (iIoT) integriert Informations- und Kommunikationstechnologien in die industriellen Prozesse und erweitert sie durch Echtzeit-Datenanalyse. Eine bedeutende Menge an Daten, die in der industriellen Fertigung generiert werden, sind sensorbasierte Zeitreihendaten, die in regelmäßigen Abständen generiert werden und zusätzlich zum Sensorwert einen Zeitstempel enthalten. Spezielle Zeitreihen-Datenbanken (TSDB) sind dafür ausgelegt, die Zeitreihendaten effizienter zu speichern. Wenn TSDBs in der Nähe der Maschine (in der industriellen Edge) eingesetzt werden, sind Maschinendaten zur Überwachung zeitkritischer Prozesse aufgrund der niedrigen Latenz schnell verfügbar, was die erforderliche Zeit für die Datenverarbeitung reduziert. Bisherige Untersuchungen zu TSDBs sind bei der Auswahl für den Einsatz in der industriellen Edge nur begrenzt hilfreich. Die meisten verfügbaren Benchmarks von TSDBs sind performanceorientiert und berücksichtigen nicht die Einschränkungen der industriellen Edge. Wir adressieren diese Lücke und identifizieren die funktionalen Kriterien für den Einsatz von TSDBs im maschinennahen Umfeld und bilden somit einen qualitativen Anforderungskatalog. Des Weiteren zeigen wir am Beispiel von InfluxDB, wie dieser Katalog verwendet werden kann, mit dem Ziel die Auswahl einer geeigneten TSDB für Sensordaten in der Edge zu unterstützen. The industrial Internet of Things (iIoT) integrates information and communication technologies in the industrial processes, and extends them through real-time data analytics. A significant amount of data generated in industrial manufacturing is sensor-based time series data, which is generated at regular intervals, and includes a time stamp in addition to the sensor value. Special time series databases (TSDB) are designed to store the time series data more efficiently. If TSDBs are used close to the machine (in the industrial edge), machine data is quickly available for monitoring time-critical processes due to low latency. This helps to reduce the time required for data processing. Previous research on TSDBs is of limited help during the selection of TSDBs for industrial edge. Most available benchmarks of TSDBs are performance-oriented, and do not consider the restrictions of the industrial edge. We address this gap by identifying the functional criteria for the use of TSDBs in the industrial edge, and by building a qualitative requirements catalogue. Furthermore, we exemplarily show how to use this catalogue by applying it to the TSDB to support the selection of a suitable TSDB for recording sensor data in the edge.
- TextdokumentAngepasstes Item Set Mining zur gezielten Steuerung von Bauteilen in der Serienfertigung von Fahrzeugen(BTW 2019 – Workshopband, 2019) Spieß, Marco; Reimann, PeterQualitätsprobleme im Bereich Fahrzeugbau können nicht nur zum Imageverlust des Unternehmens führen, sondern auch mit entsprechend hohen Kosten einhergehen. Wird ein Bauteil als Verursacher eines Qualitätsproblems identifiziert, muss dessen Verbau gestoppt werden. Mit einer Datenanalyse kann herausgefunden werden, welche Fahrzeugkonfigurationen Probleme mit diesem fehlerverursachenden Bauteil haben. Im Rahmen der domänenspezifischen Problemstellung wird in diesem Beitrag die Anwendbarkeit von Standardalgorithmen aus dem Bereich Data-Mining untersucht. Da die Analyseergebnisse auf Standardausstattungen hinweisen, sind diese nicht zielführend. Für dieses Businessproblem von Fahrzeugherstellern haben wir einen Data-Mining Algorithmus entwickelt, der das Vorgehen des Item Set Mining der Assoziationsanalyse an das domänenspezifische Problem anpasst. Er unterscheidet sich zum klassischen Apriori-Algorithmus in der Beschneidung des Ergebnisraumes sowie in der nachfolgenden Aufbereitung und Verwendungsweise der Item Sets. Der Algorithmus ist allgemeingültig für alle Fahrzeughersteller anwendbar. Die Ergebnisse sind anhand eines realen Anwendungsfalls evaluiert worden, bei dem durch die Anwendung unseres Algorithmus 87% der Feldausfälle verhindert werden können.
- TextdokumentApplication Fields and Research Gaps of Process Mining in Manufacturing Companies(INFORMATIK 2020, 2021) Dreher, Simon; Reimann, Peter; Gröger, ChristophTo survive in global competition with increasing cost pressure, manufacturing companies must continuously optimize their manufacturing-related processes. Thereby, process mining constitutes an important data-driven approach to gain a profound understanding of the actual processes and to identify optimization potentials by applying data mining and machine learning techniques on event data. However, there is little knowledge about the feasibility and usefulness of process mining specifically in manufacturing companies. Hence, this paper provides an overview of potential applications of process mining for the analysis of manufacturing-related processes. We conduct a systematic literature review, classify relevant articles according to the Supply-Chain-Operations-Reference-Model (SCOR-model), identify research gaps, such as domain-specific challenges regarding unstructured, cascaded and non-linear processes or heterogeneous data sources, and give practitioners inspiration which manufacturing-related processes can be analyzed by process mining techniques.
- KonferenzbeitragApproach to Synthetic Data Generation for Imbalanced Multi-class Problems with Heterogeneous Groups(BTW 2023, 2023) Treder-Tschechlov, Dennis; Reimann, Peter; Schwarz, Holger; Mitschang, BernhardTo benchmark novel classification algorithms, these algorithms should be evaluated on data with characteristics that also appear in real-world use cases. Important data characteristics that often lead to challenges for classification approaches are multi-class imbalance and heterogeneous groups. Real-world data that comprise these characteristics are usually not publicly available, e. g., because they constitute sensible patient information or due to privacy concerns. Further, the manifestations of the characteristics cannot be controlled specifically on real-world data. A more rigorous approach is to synthetically generate data such that different manifestations of the characteristics can be controlled. However, existing data generators are not able to generate data that feature both data characteristics, i. e., multi-class imbalance and heterogeneous groups. In this paper, we propose an approach that fills this gap as it allows to synthetically generate data that exhibit both characteristics. In particular, we make use of a taxonomy model that organizes real-world entities in domain-specific heterogeneous groups to generate data reflecting the characteristics of these groups. In addition, we incorporate probability distributions to reflect the imbalances of multiple classes and groups from real-world use cases. Our approach is applicable in different domains, as taxonomies are the simplest form of knowledge models and thus are available in many domains. The evaluation shows that our approach can generate data that feature the data characteristics multi-class imbalance and heterogeneous groups and that it allows to control different manifestations of these characteristics.
- KonferenzbeitragDatenmanagement in der Cloud fur den Bereich Simulationen und Wissenschaftliches Rechnen(Informatik 2014, 2014) Reimann, Peter; Waizenegger, Tim; Wieland, Matthias; Schwarz, HolgerFür Organisationen, die Simulationen nicht als ihr Kerngeschäft verstehen und sie daher eher sporadisch durchführen, lohnt sich der Betrieb einer eigenen Recheninfrastruktur nur selten. Dies betrifft z. B. kleine und mittlere Unternehmen sowie einige wissenschaftliche Institutionen. Besserung können öffentliche Cloud- Infrastrukturen als Plattform für die Ausführung von Simulationen verschaffen. Das Datenmanagement in der Cloud ist aber speziell für den Bereich Simulationen noch weitgehend unerforscht. In diesem Beitrag identifizieren wir daher noch offene Fragestellungen bzgl. des Datenmanagements von Simulationen in der Cloud. Dies betrifft vor allem die Datenbereitstellung und inwieweit nutzerund simulationsspezifische Anforderungen an das Datenmanagement in der Cloud eingehalten werden können. Wir untersuchen Technologien, welche sich diesen Fragestellungen widmen, und diskutieren, ob und wie sie in der Cloud sowie für Simulationen einsetzbar sind. Weiterhin skizzieren wir wichtige zukünftige Forschungsthemen.
- KonferenzbeitragDatenmanagementpatterns in Simulationsworkflows(Datenbanksysteme für Business, Technologie und Web (BTW) 2030, 2013) Reimann, Peter; Schwarz, HolgerSimulationsworkflows müssen oftmals große Datenmengen verarbeiten, die in einer Vielzahl proprietärer Formate vorliegen. Damit diese Daten von den im Workflow eingebundenen Programmen und Diensten verarbeitet werden können, müssen sie in passende Formate transformiert werden. Dies erhöht die Komplexität der Workflowmodellierung, welche i.d.R. durch die Wissenschaftler selbst erfolgt. Dadurch können sich diese weniger auf den Kern der eigentlichen Simulation konzentrieren. Zur Behebung dieses Defizits schlagen wir einen Ansatz vor, mit dem die Aktivitäten zur Datenbereitstellung in Simulationsabläufen abstrakt modelliert werden können. Wissenschaftler sollen keine Implementierungsdetails, sondern lediglich die Kernaspekte der Datenbereitstellung in Form von Patterns beschreiben. Die Spezifikation der Patterns soll dabei möglichst in der Sprache der mathematischen Simulationsmodelle erfolgen, mit denen Wissenschaftler vertraut sind. Eine Erweiterung des Workflowsystems bildet die Patterns automatisch auf ausführbare Workflowfragmente ab, welche die Datenbereitstellung umsetzen. Dies alles reduziert die Komplexität der Modellierung von Simulationsworkflows und erhöht die Produktivität der Wissenschaftler.
- TextdokumentA Hybrid Information Extraction Approach Exploiting Structured Data Within a Text Mining Process(BTW 2019, 2019) Kiefer, Cornelia; Reimann, Peter; Mitschang, BernhardMany data sets encompass structured data fields with embedded free text fields. The text fields allow customers and workers to input information which cannot be encoded in structured fields. Several approaches use structured and unstructured data in isolated analyses. The result of isolated mining of structured data fields misses crucial information encoded in free text. The result of isolated text mining often mainly repeats information already available from structured data. The actual information gain of isolated text mining is thus limited. The main drawback of both isolated approaches is that they may miss crucial information. The hybrid information extraction approach suggested in this paper adresses this issue. Instead of extracting information that in large parts was already available beforehand, it extracts new, valuable information from free texts. Our solution exploits results of analyzing structured data within the text mining process, i.e., structured information guides and improves the information extraction process on textual data. Our main contributions comprise the description of the concept of hybrid information extraction as well as a prototypical implementation and an evaluation with two real-world data sets from aftersales and production with English and German free text fields.
- JournalKonzepte zur Datenverarbeitung in Referenzarchitekturen für Industrie 4.0(Datenbank-Spektrum: Vol. 18, No. 1, 2018) Weber, Christian; Wieland, Matthias; Reimann, Peter
- ZeitschriftenartikelQUALM: Ganzheitliche Messung und Verbesserung der Datenqualität in der Textanalyse(Datenbank-Spektrum: Vol. 19, No. 2, 2019) Kiefer, Cornelia; Reimann, Peter; Mitschang, BernhardBestehende Ansätze zur Messung und Verbesserung der Qualität von Textdaten in der Textanalyse bringen drei große Nachteile mit sich. Evaluationsmetriken wie zum Beispiel Accuracy messen die Qualität zwar verlässlich, sie (1) sind jedoch auf aufwändig händisch zu erstellende Goldannotationen angewiesen und (2) geben keine Ansatzpunkte für die Verbesserung der Qualität. Erste domänenspezifische Datenqualitätsmethoden für unstrukturierte Textdaten kommen zwar ohne Goldannotationen aus und geben Ansatzpunkte zur Verbesserung der Datenqualität. Diese Methoden wurden jedoch nur für begrenzte Anwendungsgebiete entwickelt und (3) berücksichtigen deshalb nicht die Spezifika vieler Analysetools in Textanalyseprozessen. In dieser Arbeit präsentieren wir hierzu das QUALM-Konzept zum qual itativ hochwertigen M ining von Textdaten (QUALity Mining), das die drei o.g. Nachteile adressiert. Das Ziel von QUALM ist es, die Qualität der Analyseergebnisse, z. B. bzgl. der Accuracy einer Textklassifikation, auf Basis einer Messung und Verbesserung der Datenqualität zu erhöhen. QUALM bietet hierzu eine Menge an QUALM-Datenqualitätsmethoden. QUALM- Indikatoren erfassen die Datenqualität ganzheitlich auf Basis der Passung zwischen den Eingabedaten und den Spezifika der Analysetools, wie den verwendeten Features, Trainingsdaten und semantischen Ressourcen (wie zum Beispiel Wörterbüchern oder Taxonomien). Zu jedem Indikator gehört ein passender Modifikator , mit dem sowohl die Daten als auch die Spezifika der Analysetools verändert werden können, um die Datenqualität zu erhöhen. In einer ersten Evaluation von QUALM zeigen wir für konkrete Analysetools und Datensätze, dass die Anwendung der QUALM-Datenqualitätsmethoden auch mit einer Erhöhung der Qualität der Analyseergebnisse im Sinne der Evaluationsmetrik Accuracy einhergeht. Die Passung zwischen Eingabedaten und Spezifika der Analysetools wird hierzu mit konkreten QUALM-Modifikatoren erhöht, die zum Beispiel Abkürzungen auflösen oder automatisch auf Basis von Textähnlichkeitsmetriken passende Trainingsdaten vorschlagen.
- KonferenzbeitragSIMPL – a framework for accessing external data in simulation workflows(Datenbanksysteme für Business, Technologie und Web (BTW), 2011) Reimann, Peter; Reiter, Michael; Schwarz, Holger; Karastoyanova, Dimka; Leymann, FrankAdequate data management and data provisioning are among the most important topics to cope with the information explosion intrinsically associated with simulation applications. Today, data exchange with and between simulation applications is mainly accomplished in a file-style manner. These files show proprietary formats and have to be transformed according to the specific needs of simulation applications. Lots of effort has to be spent to find appropriate data sources and to specify and implement data transformations. In this paper, we present SIMPL - an extensible framework that provides a generic and consolidated abstraction for data management and data provisioning in simulation workflows. We introduce extensions to workflow languages and show how they are used to model the data provisioning for simulation workflows based on data management patterns. Furthermore, we show how the framework supports a uniform access to arbitrary external data in such workflows. This removes the burden from engineers and scientists to specify low-level details of data management for their simulation applications and thus boosts their productivity.