Erkennungsverfahren für KI-generierte Texte: Überblick und Architekturentwurf

Durch Transformer-basierte KI-Systeme wurden große Fortschritte, u. a. in den Bereichen Textverarbeitung und -verständnis, erreicht. Diese Deep-Learning-Modelle ermöglichen das Generieren von Texten und bilden die Grundlage moderner Sprachmodelle. Die rasante Entwicklung der letzten Jahre hat große Sprachmodelle, wie ChatGPT, Bard oder VICUNA-13B, hervorgebracht. Der Beitrag präsentiert die Entwicklung der Sprachmodelle hin zu den großen Sprachmodellen. Durch die fortschreitende Entwicklung der Sprachmodelle ergeben sich vielfältige Möglichkeiten und Probleme, weshalb eine Erkennung von LLM-generierten Texten wichtig ist. Dieser Artikel stellt unterschiedliche Ansätze bekannter Erkennungsverfahren dar. Neben statistischen Klassifizierungsverfahren werden auch Deep-Learning-basierte und Zero-Shot-Verfahren besprochen. Daneben werden ein kompressionsorientierter Ansatz vorgestellt sowie Kennzeichnungsverfahren präsentiert. Nach dem tabellarischen Vergleich der in der Literatur vorgestellten Verfahren werden implementierte Softwaredetektoren präsentiert. Im Anschluss werden Überlegungen zum Entwurf eines Trainingsdatensatzes aufgezeigt, wodurch die Grundlage für einen eigenen Ansatz zur Erkennung von KI-generierten Texten in deutscher Sprache geschaffen wird. Darüber hinaus werden die Architektur und das Design des eigenen Ansatzes, dem KI-Inhalte-Detektor, vorgestellt und beschrieben sowie die Limitationen aufgezeigt. Transformer-based AI systems have made great progress in areas such as text processing and comprehension. These deep learning models enable the generation of texts and form the basis of modern language models. The rapid development of recent years has produced large language models such as ChatGPT, Bard and VICUNA-13B. This article presents the development of language models towards large language models. The progressive development of language models has resulted in unimagined possibilities and, at the same time, a variety of problems, which is why it is important to recognize LLM-generated textual content. This article presents the different approaches of known recognition methods. In addition to statistical classification methods, deep learning-based and zero-shot methods are also discussed. In addition, a compression-oriented approach is presented as well as labeling methods. After a tabular comparison of the methods presented in the literature, implemented software detectors are presented. Subsequently, considerations for the design of a training dataset are presented, creating the basis for an own approach for the recognition of AI-generated texts in German. In addition, the architecture and design of our own approach, the AI content detector, is presented and described and the limitations are shown.

Pröhl, Thorsten; Mohrhardt, Radoslaw; Förster, Niels; Putzier, Erik; Zarnekow, Rüdiger (2024): Erkennungsverfahren für KI-generierte Texte: Überblick und Architekturentwurf. HMD Praxis der Wirtschaftsinformatik: Vol. 61, No. 2. DOI: 10.1365/s40702-024-01051-w. Springer. ISSN: 2198-2775

Schlagwörter

AI Content Detection , AI Detection , Artificial Intelligence , Detection of AI-Generated Text , Erkennung von Sprachmodellen , Große Sprachmodelle , KI-Erkennung , Künstliche Intelligenz , Large Language Model Detection , Natural Language Processing , Verarbeitung natürlicher Sprache

DOI

10.1365/s40702-024-01051-w

Sammlungen

HMD 61(2) - April 2024 - Generative KI: Die Ära der kreativen Maschinen

Komplettanzeige

Erkennungsverfahren für KI-generierte Texte: Überblick und Architekturentwurf

Volltext URI

Dokumententyp

Zusatzinformation

Datum

Autor:innen

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Quelle

Verlag

Zusammenfassung

Beschreibung

Schlagwörter

Zitierform

DOI

Tags

Sammlungen