Logo des Repositoriums
 

Erkennungsverfahren für KI-generierte Texte: Überblick und Architekturentwurf

dc.contributor.authorPröhl, Thorsten
dc.contributor.authorMohrhardt, Radoslaw
dc.contributor.authorFörster, Niels
dc.contributor.authorPutzier, Erik
dc.contributor.authorZarnekow, Rüdiger
dc.date2024-04-01
dc.date.accessioned2024-05-02T09:02:29Z
dc.date.available2024-05-02T09:02:29Z
dc.date.issued2024
dc.description.abstractDurch Transformer-basierte KI-Systeme wurden große Fortschritte, u. a. in den Bereichen Textverarbeitung und -verständnis, erreicht. Diese Deep-Learning-Modelle ermöglichen das Generieren von Texten und bilden die Grundlage moderner Sprachmodelle. Die rasante Entwicklung der letzten Jahre hat große Sprachmodelle, wie ChatGPT, Bard oder VICUNA-13B, hervorgebracht. Der Beitrag präsentiert die Entwicklung der Sprachmodelle hin zu den großen Sprachmodellen. Durch die fortschreitende Entwicklung der Sprachmodelle ergeben sich vielfältige Möglichkeiten und Probleme, weshalb eine Erkennung von LLM-generierten Texten wichtig ist. Dieser Artikel stellt unterschiedliche Ansätze bekannter Erkennungsverfahren dar. Neben statistischen Klassifizierungsverfahren werden auch Deep-Learning-basierte und Zero-Shot-Verfahren besprochen. Daneben werden ein kompressionsorientierter Ansatz vorgestellt sowie Kennzeichnungsverfahren präsentiert. Nach dem tabellarischen Vergleich der in der Literatur vorgestellten Verfahren werden implementierte Softwaredetektoren präsentiert. Im Anschluss werden Überlegungen zum Entwurf eines Trainingsdatensatzes aufgezeigt, wodurch die Grundlage für einen eigenen Ansatz zur Erkennung von KI-generierten Texten in deutscher Sprache geschaffen wird. Darüber hinaus werden die Architektur und das Design des eigenen Ansatzes, dem KI-Inhalte-Detektor, vorgestellt und beschrieben sowie die Limitationen aufgezeigt. Transformer-based AI systems have made great progress in areas such as text processing and comprehension. These deep learning models enable the generation of texts and form the basis of modern language models. The rapid development of recent years has produced large language models such as ChatGPT, Bard and VICUNA-13B. This article presents the development of language models towards large language models. The progressive development of language models has resulted in unimagined possibilities and, at the same time, a variety of problems, which is why it is important to recognize LLM-generated textual content. This article presents the different approaches of known recognition methods. In addition to statistical classification methods, deep learning-based and zero-shot methods are also discussed. In addition, a compression-oriented approach is presented as well as labeling methods. After a tabular comparison of the methods presented in the literature, implemented software detectors are presented. Subsequently, considerations for the design of a training dataset are presented, creating the basis for an own approach for the recognition of AI-generated texts in German. In addition, the architecture and design of our own approach, the AI content detector, is presented and described and the limitations are shown.de
dc.identifier.doi10.1365/s40702-024-01051-w
dc.identifier.issn2198-2775
dc.identifier.urihttp://dx.doi.org/10.1365/s40702-024-01051-w
dc.identifier.urihttps://dl.gi.de/handle/20.500.12116/43995
dc.publisherSpringer
dc.relation.ispartofHMD Praxis der Wirtschaftsinformatik: Vol. 61, No. 2
dc.relation.ispartofseriesHMD Praxis der Wirtschaftsinformatik
dc.subjectAI Content Detection
dc.subjectAI Detection
dc.subjectArtificial Intelligence
dc.subjectDetection of AI-Generated Text
dc.subjectErkennung von Sprachmodellen
dc.subjectGroße Sprachmodelle
dc.subjectKI-Erkennung
dc.subjectKünstliche Intelligenz
dc.subjectLarge Language Model Detection
dc.subjectNatural Language Processing
dc.subjectVerarbeitung natürlicher Sprache
dc.titleErkennungsverfahren für KI-generierte Texte: Überblick und Architekturentwurfde
dc.typeText/Journal Article
mci.reference.pages418-435

Dateien