Auflistung nach Schlagwort "Natural Language Processing"
1 - 10 von 32
Treffer pro Seite
Sortieroptionen
- ZeitschriftenartikelAnswering Comparative Questions with Arguments(Datenbank-Spektrum: Vol. 20, No. 2, 2020) Bondarenko, Alexander; Panchenko, Alexander; Beloucif, Meriem; Biemann, Chris; Hagen, MatthiasQuestion answering platforms such as Yahoo! Answers or Quora always contained questions that ask other humans for help when comparing two or more options. Since nowadays more and more people also “talk” to their devices, such comparative questions are also part of the query stream that major search engines receive. Interestingly, major search engines answer some comparative questions pretty well while for others, they just show the “standard” ten blue links. But a good response to a comparative question might be very different from these ten blue links—for example, a direct answer could show an aggregation of the pros and cons of the different options. This observation motivated our DFG-funded project “ACQuA: Answering Comparative Questions with Arguments” for which we describe the achieved results so far, and ongoing activities like the first shared task on argument retrieval.
- KonferenzbeitragAutomated Statement Extraction from Press Briefings(BTW 2023, 2023) Keller, Jüri; Bittkowski, Meik; Schaer, PhilippScientific press briefings are a valuable information source. They consist of alternating expert speeches, questions from the audience and their answers. Therefore, they can contribute to scientific and fact-based media coverage. Even though press briefings are highly informative, extracting statements relevant to individual journalistic tasks is challenging and time-consuming.To support this task, an automated statement extraction system is proposed. Claims are used as the main feature to identify statements in press briefing transcripts. The statement extraction task is formulated as a four-step procedure. First, the press briefings are split into sentences and passages, then claim sentences are identified with a single-label multi-class sequence classification. Subsequently, topics are detected, and the sentences are filtered to improve the coherence and assess the length of the statements.The results indicate that claim detection can be used to identify statements in press briefings. While many statements can be extracted automatically with this system, they are not always as coherent as needed to be understood without context and may need further review by knowledgeable persons.
- TextdokumentAutomatische Transformierung multilingualer Spracheingaben in Datenbankabfragen(SKILL 2022, 2022) Franzen, MarcelModerne Datenbanksysteme gelten als eine fundamentale Innovation, um die immer größer werdenen Datenmengen speichern-und verwalten zu können. Da die meisten Menschen jedoch kein Wissen über Datenbanksprachen wie SQL besitzen, existiert eine Barriere zwischen ihnen und den Vorteilen, die eine Datenbank bietet. Um die Nutzung von Datenbanken zu vereinfachen, werden im Rahmen dieser Arbeit SQL-Abfragen auf Basis einer Fragestellung und dem Datenbankschema in Form der Spaltennamen erzeugt. Hierzu werden mehrere Neuronale Netze eingesetzt, die einzelne Teile der SQL-Abfrage vorhersagen. Darüber hinaus wird die Verwendung von multilingualen Worteinbettungen zur Repräsentation der Frage und Tabellenspalten untersucht. Durch die Nutzung der Worteinbettungen können auch Synonyme auf die Spaltennamen abgebildet werden und die im Trainingsprozess verwendete Sprache wird irrelevant. Die Ergebnisse zeigen, dass das entstandene Modell sowohl tabellenunabhängig als auch sprachunabhängig funktioniert. Demnach erfordert die Nutzung einer Datenbank nur noch wenig Wissen über das Datenbankschema und die Sprache der Spaltennamen.
- KonferenzbeitragAutomatisierte Extraktion semantischer Kompetenzbeschreibungen am Beispiel von deutschsprachigen Modulbeschreibungen aus der Hochschullehre(Proceedings of DELFI Workshops 2020, 2020) Raschke, Timo; Konert, JohannesUm Kompetenzen von Personen zu verwalten, werden für gewöhnlich Kompetenzbeschreibungen in menschlicher Sprache verwendet. Soll nun eine semantische Katalogisierung und Organisation mittels dieser Daten erfolgen, so empfiehlt sich eine Konvertierung in semantische Datensätze. Es, wurde ein Ansatz entwickelt, um deutschsprachige, semantische Kompetenztripel bestehend aus Kompetenzverb, Objekt und Kontext am Beispiel von Fließtext-Modulbeschreibungen aus der Hochschullehre (im konkreten Falle der Beuth Hochschule für Technik Berlin) mittels aktueller Lösungsansätze des Forschungsgebiets Natural Language Processing zu extrahieren. Es werden Konstituenzparsing, Dependenzparsing und Sematinc Role Labelling anhand ihrer Eignung verglichen und erste Ergebnisse anhand eines entwickelten Entwurfs und ein daraus resultierender Prototyp präsentiert. Die Ergebnisse zeigen, dass die Kompetenzextraktion mit einem F1-Maß von bis zu 70,1 % auf Basis von Dependenzparsing möglich ist. Durch die Ergebnisse dieser Arbeit wird eine Grundlage für die weitere Verwendung von semantischen Kompetenzbeschreibungen für eine Vielzahl anderer Anwendungsgebiete geschaffen, zum Beispiel Ähnlichkeitsberechnungen von Hochschulkursen oder die Erstellung von Abhängigkeitsgraphen für Kurse eines Studiengangs.
- KonferenzbeitragAutomatisierte Verarbeitung natürlichsprachlich repräsentierter Sachverhalte zur Identifizierung von Kandidaten für Bezeichner in Datenmodellen(Modellierung 2024 Satellite Events, 2024) Christ, Sven; Strecker; StefanFür das Bestimmen von Kandidaten für Bezeichner von Modellelementen (Entitätstypen, Beziehungstypen, Attributen) aus natürlichsprachlich repräsentierten Sachverhaltsbeschreibungen werden für die Datenmodellierung mit der Modellierungssprache „Entity-Relationship Model“ (ERM) Heuristiken vorgeschlagen, die an Morphologie und Grammatik der natürlichen Sprache orientiert sind. Bereits seit den 1990er Jahren werden diese Heuristiken in Verbindung mit Ansätzen des „Natural Language Processing“ (NLP) eingesetzt, um für das Erstellen von Datenmodellen eine (teil-) automatisierte Modellierungsunterstützung zu realisieren. In diesem Beitrag kontrastieren wir die für das Modellierungswerkzeug TOOL implementierte NLP-basierte Modellierungsunterstützung mit drei Transformer-basierten künstlichen neuronalen Netzen, „Large Language Model“ (LLM), hinsichtlich fünf unterschiedlich komplexen Aufgaben des Identifizierens von Kandidaten für Bezeichner von Modellelementen in einer Variante des ERM. Die vorliegenden, noch vorläufigen Ergebnisse deuten an, dass die verwendeten LLM dem kontrastierten regelbasierten NLP-Ansatz deutlich überlegen sind.
- TextdokumentComparing Link Grammars and Dependency Grammars for parsing German histological reports(SKILL 2022, 2022) Dörenberg, JulianThe availability of structured data is becoming an increasingly critical factor in medical research. Still, pathologists in Germany document their findings in running text instead of in a structured form. In order to obtain structured data from these report texts, hey have to be converted to a more useful form. Link Grammars (LGs) and Dependency Grammars (DGs) both can be used to parse the texts. Hence, LGs and DGs can be used for information extraction on histological reports. This paper aims to compare LGs and DGs, to show why DGs are superior and to evaluate the performance of a DG parser on a corpus of 200 histological reports randomly selected from breast biopsy reports. The DG parser achieved an Unlabelled Attachment Score of 96, a Labelled Accuracy of 95 and a Labelled Attachment Score of 93. Further evaluation shows that the occurrence of medical words which have not been part of the training data does not affect the parsers performance.
- KonferenzbeitragConsumer Protection in the Digital Era: The Potential of Customer-Centered LegalTech(INFORMATIK 2019: 50 Jahre Gesellschaft für Informatik – Informatik für Gesellschaft, 2019) Braun, Daniel; Scepankova, Elena; Holl, Patrick; Matthes, FlorianNew technologies and tools, often summarised under the term “LegalTech”, are changing the way in which legal professionals work. The digital transformation has changed many aspects of our daily life and democratised access to knowledge and services. In the legal domain, however, consumers rarely benefit from digitisation. On the contrary, they are often overpowered by big corporations and their well equipped legal departments. In this paper, we outline how LegalTech can be used to empower consumers in the digital era, by building tools to support consumers and those who protect them. In order to show the potential of customer-centered LegalTech, we present two prototypes which semantically analyse, assess, and summarise Terms of Services from German web shops.
- ZeitschriftenartikelErkennungsverfahren für KI-generierte Texte: Überblick und Architekturentwurf(HMD Praxis der Wirtschaftsinformatik: Vol. 61, No. 2, 2024) Pröhl, Thorsten; Mohrhardt, Radoslaw; Förster, Niels; Putzier, Erik; Zarnekow, RüdigerDurch Transformer-basierte KI-Systeme wurden große Fortschritte, u. a. in den Bereichen Textverarbeitung und -verständnis, erreicht. Diese Deep-Learning-Modelle ermöglichen das Generieren von Texten und bilden die Grundlage moderner Sprachmodelle. Die rasante Entwicklung der letzten Jahre hat große Sprachmodelle, wie ChatGPT, Bard oder VICUNA-13B, hervorgebracht. Der Beitrag präsentiert die Entwicklung der Sprachmodelle hin zu den großen Sprachmodellen. Durch die fortschreitende Entwicklung der Sprachmodelle ergeben sich vielfältige Möglichkeiten und Probleme, weshalb eine Erkennung von LLM-generierten Texten wichtig ist. Dieser Artikel stellt unterschiedliche Ansätze bekannter Erkennungsverfahren dar. Neben statistischen Klassifizierungsverfahren werden auch Deep-Learning-basierte und Zero-Shot-Verfahren besprochen. Daneben werden ein kompressionsorientierter Ansatz vorgestellt sowie Kennzeichnungsverfahren präsentiert. Nach dem tabellarischen Vergleich der in der Literatur vorgestellten Verfahren werden implementierte Softwaredetektoren präsentiert. Im Anschluss werden Überlegungen zum Entwurf eines Trainingsdatensatzes aufgezeigt, wodurch die Grundlage für einen eigenen Ansatz zur Erkennung von KI-generierten Texten in deutscher Sprache geschaffen wird. Darüber hinaus werden die Architektur und das Design des eigenen Ansatzes, dem KI-Inhalte-Detektor, vorgestellt und beschrieben sowie die Limitationen aufgezeigt. Transformer-based AI systems have made great progress in areas such as text processing and comprehension. These deep learning models enable the generation of texts and form the basis of modern language models. The rapid development of recent years has produced large language models such as ChatGPT, Bard and VICUNA-13B. This article presents the development of language models towards large language models. The progressive development of language models has resulted in unimagined possibilities and, at the same time, a variety of problems, which is why it is important to recognize LLM-generated textual content. This article presents the different approaches of known recognition methods. In addition to statistical classification methods, deep learning-based and zero-shot methods are also discussed. In addition, a compression-oriented approach is presented as well as labeling methods. After a tabular comparison of the methods presented in the literature, implemented software detectors are presented. Subsequently, considerations for the design of a training dataset are presented, creating the basis for an own approach for the recognition of AI-generated texts in German. In addition, the architecture and design of our own approach, the AI content detector, is presented and described and the limitations are shown.
- KonferenzbeitragErstellung eines NLP-basierten Editors mit Qualitätsindikatoren und Änderungsvorschlägen für Kompetenzbeschreibungen(Proceedings of DELFI Workshops 2022, 2022) Loth, Ludwig; Konert, JohannesUm Lernenden die potenziell zu erlangenden Kompetenzen einer Lehrveranstaltung zu vermitteln, sind hochwertige, einfach zu verstehende und unmissverständliche Kompetenzbeschreibungen vorteilhaft. In der Praxis sind solche Beschreibungen nicht immer von guter Qualität. Im Rahmen des beschriebenen Forschungsprojektes wurde ein Editor entwickelt, welcher mittels Natural Language Processing eine Echtzeitanalyse der eingegebenen deutschsprachigen Kompetenzformulierungen durchführt. Basierend auf der Analyse und zuvor ermittelten Regeln kann der Editor Rückmeldung geben und den Benutzer*innen Hinweise zu Verbesserungsmöglichkeiten anzeigen. Es werden zuvor definierte Schlüsselwörter markiert und kategorisiert, um den Benutzer*innen zu zeigen, inwieweit ihre Beschreibung Wörter und ganze Sätze enthält, die ausgetauscht, verbessert oder weggelassen werden sollten. Über alle Sätze hinweg erfolgt eine prozentuale Qualitätsbewertung (und Anzeige), welche die auf den Text angewendeten Regeln zusammenfasst, um die Qualität mehrerer Formulierungen und Varianten vergleichbar zu machen.Um Lernenden die potenziell zu erlangenden Kompetenzen einer Lehrveranstaltung zu vermitteln, sind hochwertige, einfach zu verstehende und unmissverständliche Kompetenzbeschreibungen vorteilhaft. In der Praxis sind solche Beschreibungen nicht immer von guter Qualität. Im Rahmen des beschriebenen Forschungsprojektes wurde ein Editor entwickelt, welcher mittels Natural Language Processing eine Echtzeitanalyse der eingegebenen deutschsprachigen Kompetenzformulierungen durchführt. Basierend auf der Analyse und zuvor ermittelten Regeln kann der Editor Rückmeldung geben und den Benutzer*innen Hinweise zu Verbesserungsmöglichkeiten anzeigen. Es werden zuvor definierte Schlüsselwörter markiert und kategorisiert, um den Benutzer*innen zu zeigen, inwieweit ihre Beschreibung Wörter und ganze Sätze enthält, die ausgetauscht, verbessert oder weggelassen werden sollten. Über alle Sätze hinweg erfolgt eine prozentuale Qualitätsbewertung (und Anzeige), welche die auf den Text angewendeten Regeln zusammenfasst, um die Qualität mehrerer Formulierungen und Varianten vergleichbar zu machen.Um Lernenden die potenziell zu erlangenden Kompetenzen einer Lehrveranstaltung zu vermitteln, sind hochwertige, einfach zu verstehende und unmissverständliche Kompetenzbeschreibungen vorteilhaft. In der Praxis sind solche Beschreibungen nicht immer von guter Qualität. Im Rahmen des beschriebenen Forschungsprojektes wurde ein Editor entwickelt, welcher mittels Natural Language Processing eine Echtzeitanalyse der eingegebenen deutschsprachigen Kompetenzformulierungen durchführt. Basierend auf der Analyse und zuvor ermittelten Regeln kann der Editor Rückmeldung geben und den Benutzer*innen Hinweise zu Verbesserungsmöglichkeiten anzeigen. Es werden zuvor definierte Schlüsselwörter markiert und kategorisiert, um den Benutzer*innen zu zeigen, inwieweit ihre Beschreibung Wörter und ganze Sätze enthält, die ausgetauscht, verbessert oder weggelassen werden sollten. Über alle Sätze hinweg erfolgt eine prozentuale Qualitätsbewertung (und Anzeige), welche die auf den Text angewendeten Regeln zusammenfasst, um die Qualität mehrerer Formulierungen und Varianten vergleichbar zu machen.
- TextdokumentExploring Initial Interactions: High School Students and Generative AI Chatbots for Relationship Development(Mensch und Computer 2023 - Workshopband, 2023) Krullaars, Zion Hannah; Januardani, Adinda; Zhou, Lin; Jonkers, EvaThis paper aims to provide recommendations for tech companies on promoting a positive student-AI relationship in high school settings, ensuring responsible and beneficial use of AI tools. The study explores the design considerations necessary to address concerns of overreliance and diminished critical thinking skills while harnessing the benefits of AI in education. By conducting a two-day study involving qualitative analysis of data from various sources, including word clouds, scale responses, group activities, chatbot interactions, interviews, and assignments, the research identifies common themes and perceptions. These insights lead to the generation of five need-based personas that represent student preferences and needs. The findings emphasize the importance of personalizing chatbot experiences based on individual student requirements and fostering positive attitudes towards AI adoption. The study highlights the need to address skeptical students and design chatbots that emulate supportive friends, enhancing engagement and trust. The conclusions provide actionable recommendations for tech companies to design AI-powered chatbots that facilitate personalized learning experiences and foster meaningful relationships in high school settings. By addressing the research aim, this study contributes to the development of effective strategies for promoting responsible and beneficial use of AI tools in education.