Laue, RalfLäuter, MartinMichael, JudithWeske, Mathias2024-02-192024-02-192024978-3-88579-742-5https://dl.gi.de/handle/20.500.12116/43617Bei der empirischen Untersuchung der Praxis der Geschäftsprozessmodellierung ist man auf eine umfangreiche, vielfältige und gleichzeitig zur Aufgabenstellung passende Datenbasis angewiesen. Wir untersuchen eine Reihe öffentlich zugänglicher Modellrepositorys mit BPMN-Modellen, die in den vergangenen Jahren entstanden sind. Wir weisen auf Eigenarten der Repositorys hin, die die Verarbeitung der Daten erschweren und die Datenqualität beeinträchtigen. Besonders diskutiert wird das in bisherigen Arbeiten nicht betrachtete Phänomen von de facto inhaltsgleichen Modellen in bei bitweisem Vergleich verschiedenen Dateien. Wir diskutieren die Auswirkung solcher Duplikate und schlagen eine der jeweiligen Aufgabenstellung angepasste Filterung vor. Wir begründen, warum dieses Vorgehen insbesondere bei Ansätzen zum maschinellen Lernen beachtet werden sollte. Wir stellen fest, dass die empfohlenen Maßnahmen zur Sicherung der Datenqualität in aktuellen Veröffentlichungen häufig noch nicht beachtet werden, was die Aussagekraft von deren Ergebnissen in Frage stellen kann.deBPMNRepositorysGitHub Miningmaschinelles LernenTrainingsdatenBeobachtungen und Einsichten zu Repositorys von BPMN-ModellenText/Conference Paper10.18420/modellierung2024_0151617-5468