Auflistung nach Schlagwort "Natural Language Processing"
1 - 10 von 40
Treffer pro Seite
Sortieroptionen
- KonferenzbeitragAddressing Privacy in Passive Data Collection for Nursing Documentation(INFORMATIK 2024, 2024) Bahrololloomi, Farnod; Luderschmidt, Johannes; Staab, SergioIn this work, we present a conceptual framework to determine the relevant recording time for nursing records, considering the effective detection and minimal interference with privacy. Our goal is to reduce the documentation burden, while ensuring compliance with the requirements of the General Data Protection Regulation (GDPR). We focus on data minimization and use a combination of speaker, context, and pronoun classification to accurately distinguish between nursing staff, patients, and visitors. Our work might indicate that when context and pronoun classification are used to identify patients, age classification becomes redundant. Furthermore, we address the challenges posed by non-native speakers in nursing homes, as language proficiency significantly affects the performance of language processing models. This work forms the basis for the automation of documentation processes in nursing homes.
- ZeitschriftenartikelAnswering Comparative Questions with Arguments(Datenbank-Spektrum: Vol. 20, No. 2, 2020) Bondarenko, Alexander; Panchenko, Alexander; Beloucif, Meriem; Biemann, Chris; Hagen, MatthiasQuestion answering platforms such as Yahoo! Answers or Quora always contained questions that ask other humans for help when comparing two or more options. Since nowadays more and more people also “talk” to their devices, such comparative questions are also part of the query stream that major search engines receive. Interestingly, major search engines answer some comparative questions pretty well while for others, they just show the “standard” ten blue links. But a good response to a comparative question might be very different from these ten blue links—for example, a direct answer could show an aggregation of the pros and cons of the different options. This observation motivated our DFG-funded project “ACQuA: Answering Comparative Questions with Arguments” for which we describe the achieved results so far, and ongoing activities like the first shared task on argument retrieval.
- KonferenzbeitragAutomated Statement Extraction from Press Briefings(BTW 2023, 2023) Keller, Jüri; Bittkowski, Meik; Schaer, PhilippScientific press briefings are a valuable information source. They consist of alternating expert speeches, questions from the audience and their answers. Therefore, they can contribute to scientific and fact-based media coverage. Even though press briefings are highly informative, extracting statements relevant to individual journalistic tasks is challenging and time-consuming.To support this task, an automated statement extraction system is proposed. Claims are used as the main feature to identify statements in press briefing transcripts. The statement extraction task is formulated as a four-step procedure. First, the press briefings are split into sentences and passages, then claim sentences are identified with a single-label multi-class sequence classification. Subsequently, topics are detected, and the sentences are filtered to improve the coherence and assess the length of the statements.The results indicate that claim detection can be used to identify statements in press briefings. While many statements can be extracted automatically with this system, they are not always as coherent as needed to be understood without context and may need further review by knowledgeable persons.
- TextdokumentAutomatische Transformierung multilingualer Spracheingaben in Datenbankabfragen(SKILL 2022, 2022) Franzen, MarcelModerne Datenbanksysteme gelten als eine fundamentale Innovation, um die immer größer werdenen Datenmengen speichern-und verwalten zu können. Da die meisten Menschen jedoch kein Wissen über Datenbanksprachen wie SQL besitzen, existiert eine Barriere zwischen ihnen und den Vorteilen, die eine Datenbank bietet. Um die Nutzung von Datenbanken zu vereinfachen, werden im Rahmen dieser Arbeit SQL-Abfragen auf Basis einer Fragestellung und dem Datenbankschema in Form der Spaltennamen erzeugt. Hierzu werden mehrere Neuronale Netze eingesetzt, die einzelne Teile der SQL-Abfrage vorhersagen. Darüber hinaus wird die Verwendung von multilingualen Worteinbettungen zur Repräsentation der Frage und Tabellenspalten untersucht. Durch die Nutzung der Worteinbettungen können auch Synonyme auf die Spaltennamen abgebildet werden und die im Trainingsprozess verwendete Sprache wird irrelevant. Die Ergebnisse zeigen, dass das entstandene Modell sowohl tabellenunabhängig als auch sprachunabhängig funktioniert. Demnach erfordert die Nutzung einer Datenbank nur noch wenig Wissen über das Datenbankschema und die Sprache der Spaltennamen.
- KonferenzbeitragAutomatisierte Extraktion semantischer Kompetenzbeschreibungen am Beispiel von deutschsprachigen Modulbeschreibungen aus der Hochschullehre(Proceedings of DELFI Workshops 2020, 2020) Raschke, Timo; Konert, JohannesUm Kompetenzen von Personen zu verwalten, werden für gewöhnlich Kompetenzbeschreibungen in menschlicher Sprache verwendet. Soll nun eine semantische Katalogisierung und Organisation mittels dieser Daten erfolgen, so empfiehlt sich eine Konvertierung in semantische Datensätze. Es, wurde ein Ansatz entwickelt, um deutschsprachige, semantische Kompetenztripel bestehend aus Kompetenzverb, Objekt und Kontext am Beispiel von Fließtext-Modulbeschreibungen aus der Hochschullehre (im konkreten Falle der Beuth Hochschule für Technik Berlin) mittels aktueller Lösungsansätze des Forschungsgebiets Natural Language Processing zu extrahieren. Es werden Konstituenzparsing, Dependenzparsing und Sematinc Role Labelling anhand ihrer Eignung verglichen und erste Ergebnisse anhand eines entwickelten Entwurfs und ein daraus resultierender Prototyp präsentiert. Die Ergebnisse zeigen, dass die Kompetenzextraktion mit einem F1-Maß von bis zu 70,1 % auf Basis von Dependenzparsing möglich ist. Durch die Ergebnisse dieser Arbeit wird eine Grundlage für die weitere Verwendung von semantischen Kompetenzbeschreibungen für eine Vielzahl anderer Anwendungsgebiete geschaffen, zum Beispiel Ähnlichkeitsberechnungen von Hochschulkursen oder die Erstellung von Abhängigkeitsgraphen für Kurse eines Studiengangs.
- KonferenzbeitragAutomatisierte Verarbeitung natürlichsprachlich repräsentierter Sachverhalte zur Identifizierung von Kandidaten für Bezeichner in Datenmodellen(Modellierung 2024 Satellite Events, 2024) Christ, Sven; Strecker; StefanFür das Bestimmen von Kandidaten für Bezeichner von Modellelementen (Entitätstypen, Beziehungstypen, Attributen) aus natürlichsprachlich repräsentierten Sachverhaltsbeschreibungen werden für die Datenmodellierung mit der Modellierungssprache „Entity-Relationship Model“ (ERM) Heuristiken vorgeschlagen, die an Morphologie und Grammatik der natürlichen Sprache orientiert sind. Bereits seit den 1990er Jahren werden diese Heuristiken in Verbindung mit Ansätzen des „Natural Language Processing“ (NLP) eingesetzt, um für das Erstellen von Datenmodellen eine (teil-) automatisierte Modellierungsunterstützung zu realisieren. In diesem Beitrag kontrastieren wir die für das Modellierungswerkzeug TOOL implementierte NLP-basierte Modellierungsunterstützung mit drei Transformer-basierten künstlichen neuronalen Netzen, „Large Language Model“ (LLM), hinsichtlich fünf unterschiedlich komplexen Aufgaben des Identifizierens von Kandidaten für Bezeichner von Modellelementen in einer Variante des ERM. Die vorliegenden, noch vorläufigen Ergebnisse deuten an, dass die verwendeten LLM dem kontrastierten regelbasierten NLP-Ansatz deutlich überlegen sind.
- KonferenzbeitragA Comparative Analysis on Machine Learning Techniques for Research Metadata: the ARDUOUS Case Study(INFORMATIK 2024, 2024) Yadav, Dipendra; Tonkin, Emma; Stoev, Teodor; Yordanova, KristinaThe rapid increase in research publications necessitates effective methods for organizing and analyzing large volumes of textual data. This study evaluates various combinations of embedding models, dimensionality reduction techniques, and clustering algorithms applied to metadata from papers accepted at the ARDUOUS (Annotation of useR Data for UbiquitOUs Systems) workshop over a period of 7 years. The analysis encompasses different types of keywords, including All Keywords (a comprehensive set of all extracted keywords), Multi-word Keywords (phrases consisting of two or more words), Existing Keywords (keywords already present in the metadata), and Single-word Keywords (individual words). The study found that the highest silhouette scores were achieved with 3, 4, and 5 clusters across all keyword types. Principal Component Analysis (PCA) and Independent Component Analysis (ICA) were identified as the most effective dimensionality reduction techniques, while DistilBERT embeddings consistently yielded high scores. Clustering algorithms such as k-means, k-medoids, and Gaussian Mixture Models (GMM) demonstrated robustness in forming well-defined clusters. These findings provide valuable insights into the main topics covered in the workshop papers and suggest optimal methodologies for analyzing research metadata, thereby enhancing the understanding of semantic relationships in textual data.
- TextdokumentComparing Link Grammars and Dependency Grammars for parsing German histological reports(SKILL 2022, 2022) Dörenberg, JulianThe availability of structured data is becoming an increasingly critical factor in medical research. Still, pathologists in Germany document their findings in running text instead of in a structured form. In order to obtain structured data from these report texts, hey have to be converted to a more useful form. Link Grammars (LGs) and Dependency Grammars (DGs) both can be used to parse the texts. Hence, LGs and DGs can be used for information extraction on histological reports. This paper aims to compare LGs and DGs, to show why DGs are superior and to evaluate the performance of a DG parser on a corpus of 200 histological reports randomly selected from breast biopsy reports. The DG parser achieved an Unlabelled Attachment Score of 96, a Labelled Accuracy of 95 and a Labelled Attachment Score of 93. Further evaluation shows that the occurrence of medical words which have not been part of the training data does not affect the parsers performance.
- KonferenzbeitragComputer-Assisted Short Answer Grading Using Large Language Models and Rubrics(INFORMATIK 2024, 2024) Metzler, Tim; Plöger, Paul G.; Hees, JörnGrading student answers and providing feedback are essential yet time-consuming tasks for educators. Recent advancements in Large Language Models (LLMs), including ChatGPT, Llama, and Mistral, have paved the way for automated support in this domain. This paper investigates the efficacy of instruction-following LLMs in adhering to predefined rubrics for evaluating student answers and delivering meaningful feedback. Leveraging the Mohler dataset and a custom German dataset, we evaluate various models, from commercial ones like ChatGPT to smaller open-source options like Llama, Mistral, and Command R. Additionally, we explore the impact of temperature parameters and techniques such as few-shot prompting. Surprisingly, while few-shot prompting enhances grading accuracy closer to ground truth, it introduces model inconsistency. Furthermore, some models exhibit non-deterministic behavior even at near-zero temperature settings. Our findings highlight the importance of rubrics in enhancing the interpretability of model outputs and fostering consistency in grading practices.
- KonferenzbeitragConsumer Protection in the Digital Era: The Potential of Customer-Centered LegalTech(INFORMATIK 2019: 50 Jahre Gesellschaft für Informatik – Informatik für Gesellschaft, 2019) Braun, Daniel; Scepankova, Elena; Holl, Patrick; Matthes, FlorianNew technologies and tools, often summarised under the term “LegalTech”, are changing the way in which legal professionals work. The digital transformation has changed many aspects of our daily life and democratised access to knowledge and services. In the legal domain, however, consumers rarely benefit from digitisation. On the contrary, they are often overpowered by big corporations and their well equipped legal departments. In this paper, we outline how LegalTech can be used to empower consumers in the digital era, by building tools to support consumers and those who protect them. In order to show the potential of customer-centered LegalTech, we present two prototypes which semantically analyse, assess, and summarise Terms of Services from German web shops.