Workshop INF-DH - 2018
GI-Workshop: "Im Spannungsfeld zwischen Tool-Building und Forschung auf Augenhöhe – Informatik und die Digital Humanities" (25.9.2018, Berlin)
Auflistung Workshop INF-DH - 2018 nach Autor:in "Burghardt, Manuel"
1 - 10 von 17
Treffer pro Seite
Sortieroptionen
- WorkshopbeitragAnalysis and Classification of Prosodic Styles in Post-modern Spoken Poetry(INF-DH-2018, 2018) Meyer-Sickendiek, Burkhard; Hussein, Hussein; Baumann, TimoWe present our research on computer-supported analysis of prosodic styles in post-modern poetry. Our project is unique in making use of both the written as well as the spoken form of the poem as read by the original author. In particular, we use speech and natural language processing technology to align speech and text and to perform textual analyses. We then explore, based on literary theory, the quantitative value of various types of features in dierentiating various prosodic classes of post-modern poetry using machine-learning techniques. We contrast this feature-driven approach with a theoretically less informed neural networks-based approach and explore the relative strengths of both models, as well as how to integrate higher-level knowledge into the NN. In this paper, we give an overview of our project, our approach, and particularly focus on the challenges encountered and lessons learned in our interdisciplinary endeavour. The classification results of the rhythmical patterns (six classes) using NN-based approaches are better than by feature-based approaches.
- WorkshopbeitragBorderlands of text mapping: Experiments on Fontane's Brandenburg(INF-DH-2018, 2018) Barbaresi, AdrienThis article deals with the detection and projection of spatial patterns in text collections. Especially for historical corpora, researchers face a lack of general-purpose tooling. In these experiments, different maps focusing on Brandenburg at the second half of the 19th century are created based on literary works by Theodor Fontane. Using a common ground for hypothesis testing and visualization, issues related to data curation and preparation, text processing and geocoding are presented and discussed: the abstract, static nature of the results should be made up for by particular scrutiny and contextualization, by critical machine reading and by adding depth through visual cues.
- WorkshopbeitragComputergestützte Methoden der Interpretation. Perspektiven einer digitalen Medienwissenschaft(INF-DH-2018, 2018) Klimczak, Peter; Hofstedt, Petra; Schmitt, Ingo; Petersen, ChristerZwar hat sich die elektronische Datenverarbeitung etwa im Rahmen der Archivierung, der Kategorisierung und der Suche von bzw. in Texten allgemein durchgesetzt, allerdings können deren Verfahren bisher nur bedingt auf eine Ebene des Textverständnisses vordringen. Es existieren keine Algorithmen, die menschliche Interpretation auf Subtextebene zufriedenstellend imitieren könnten. Unter Subtext wird hier eine Bedeutungsebene verstanden, die der expliziten Aussage eines Textes als zusätzliche Ausdrucksdimension unterlegt ist. Von Seiten der Computerphilologie sind bisher einzig Textanalyse und -interpretation unterstützende Verfahren entwickelt worden, die lediglich auf der Sprachoberfläche Anwendung finden (Jannidis, 2010). Von Seiten der Computerlinguistik und der Informatik existieren hingegen Text-Retrieval-Systeme, die den groben Inhalt von Texten erfassen (Manning et al., 2008). Dabei erfolgt jedoch keine ‚echte‘ Interpretation, die die impliziten Aussagen des Textes erfassen und damit die Ableitung neuen Wissens ermöglichen könnte. Aufbauend auf der 2016 vorgestellten formalen Subtextanalyse (Klimczak, 2016) erscheint aber ein algorithmisiertes Verfahren zur Rekonstruktion von komplexen Semantiken narrativer Gebrauchstexte möglich, welches die bestehenden Verfahren sowohl der Computerphilologie als auch der Computerlinguistik qualitativ übertreffen könnte, indem es hermeneutische Zugänge für informationstechnische Forschung erschließt.
- WorkshopbeitragCorpus2Wiki: A MediaWiki based Annotation & Visualisation Tool for the Digital Humanities(INF-DH-2018, 2018) Rutherford, Eleanor; Hemati, Wahed; Mehler, AlexanderIn this paper, we present WikiExporter, a tool which automatically creates a MediaWiki site for a given corpus of texts. The texts, along with automatically generated annotations and visualisations associated with them, are displayed on this MediaWiki site, locally hosted on the users’ own machine. Several different software components are used to this end - Docker for ease and consistency of deployment, MediaWiki for the core engine, TextImager Client for the generation of annotations and a number of existing, and as well as extended, MediaWiki extensions for the visualisations. This tool was specifically designed for use within the interdisciplinary field of the Digital Humanities, as it provides a visual analysis and representation of texts via a tool which require no programming or advanced computational knowledge and uses an interface already well-known within the Digital Humanities Community, namely MediaWiki.
- WorkshopbeitragData Modelling for Historical Corpus Annotation(INF-DH-2018, 2018) Vertan, CristinaIn this article we discuss the problem of annotation of historical languages for which less, up to no resources are available, and which do not follow the standard paradigm of Indo-European languages. We show that the development of a tool adequate to the data model (and not the adaptation of data to given tools) has to be considered in particular cases.
- WorkshopbeitragDigital Humanities: An Explication(INF-DH-2018, 2018) Piotrowski, MichaelThe relationship between computer science and digital humanities and the potential contributions of computer science to digital humanities cannot be reasonably discussed without defining what we mean by “digital humanities.” With a view to enabling this important discussion, we propose a concise definition of digital humanities centered around the construction of formal models.
- WorkshopbeitragFrom Eye-to-Eye to Hand-in-Hand: Collaborative Solution Building in Interdisciplinary Manuscript Research(INF-DH-2018, 2018) Rajan, Vinodh; Stiehl, H. SiegfriedAmong the various interdisciplinary domains, Digital Humanities is one of the most interesting as it attempts to bring two competing cultures together. But this interestingness eventually comes with its own problems when trying to produce practical solutions. How does one ideally approach to build an Informatics-based solution for a research question in the Humanities? We particularly focus on the field of Interdisciplinary Manuscript Research and propose a methodology inspired by design thinking to collaboratively build solutions through interactive exploration. To this end, we present our laboratory, where this methodology is to be actively put into practice.
- WorkshopbeitragGenerierung von Trainingsdaten für die Handschrifterkennung aus TEI annotierten Dokumenten – Ein Erfahrungsbericht aus dem EU-Projekt READ(INF-DH-2018, 2018) Bryan, Maximilian; Hodel, Tobias; Philipp, NathanaelZum Trainieren maschineller Lernverfahren zur Erkennung von Handschriften werden Textdaten mit korrespondierenden Bildern benötigt. Die Textdaten liegen häufig im TEI-Format das diverse Möglichkeiten eröffnet, um textuelle und semantische Phänomene auszuzeichnen, weiter können gar eigene Tags oder Auszeichnungsarten eingeführt werden. In diesem Beitrag wird ein im EU-Projekt READ entwickeltes parametrisierbares Tool beschrieben, das mit unterschiedlichen Auszeichnungsstilen in TEI umgehen kann und Textdateien auf Seitenbasis liefert, die zur Zuordnung von Text zu Bilddaten (text-to-image) genutzt werden können und somit zur Aufbereitung von Trainingsdaten für Modelle der Handschriftenerkennung dienen. Die gezeigten Beispiele und Anwendungen stammen alle aus Projekten, die ihre Daten für READ zur Verfügung stellten.
- WorkshopbeitragHandwritten Text Recognition Error Rate Reduction in Historical Documents using Naive Transcribers(INF-DH-2018, 2018) Christlein, Vincent; Nicolaou, Anguelos; Schlauwitz, Thorsten; Späth, Sabrina; Herbers, Klaus; Maier, AndreasHandwritten text recognition (HTR) is a difficult research problem. In particular for historical documents, this task is hard as handwriting style, orthography, and text quality pose significant challenges. Creation of a single multi-purpose HTR system seems to be out of reach for current state-of-the-art systems. Therefore, we are interested in fast creation of specialized HTR systems for a particular set of historical documents. Still manual annotation by historical experts is expensive and can often not be applied at a large scale. Instead, we use the transcripts of naive transcribers that may still contain a significant amount of errors. In this paper, we propose to fuse the recognized word-chain with naive transcribers that can be obtained in a cost-effective way. For the actual fusion, we rely on a word-level approach, the so-called Recognizer Output Voting Error Reduction (ROVER). Results indicate that we are able to reduce the Word Error Rate (WER) of an HTR system trained with only few pages from 2.6 % to 19.2% with two additional transcribers with 25.1% and 27.1% WER each. This performance is already close to current state-of-the-art systems trained with significantly more data.
- WorkshopbeitragHerausforderungen für Sentiment Analysis-Verfahren bei literarischen Texten(INF-DH-2018, 2018) Schmidt, Thomas; Burghardt, Manuel; Wolff, ChristianIn diesem Beitrag wird über die Ergebnisse eines laufenden Digital Humanities-Projekt zur Sentiment Analysis in literarischen Texten berichtet und die Implikation von diesem diskutiert. In dem Projekt werden verschiedene Methoden der Sentiment Analysis auf Texte historischer Dramen des 18. Jahrhunderts von G. E. Lessing implementiert und gegeneinander evaluiert. Zur Evaluation wurde ein von Menschen bezüglich Sentiment annotiertes Testkorpus erstellt. Basierend auf den ersten Erfahrungen des Projekts diskutieren wir über Probleme und Herausforderungen, die sich aus der Perspektive der Informatik zur Sentiment Analysis historischer Dramen ergaben. Es wird deut-lich, dass bestehende Standardlösungen der Sentiment Analysis für dieses spezifische Szenario nicht ohne Weiteres anwendbar sind. Vielmehr ist die Informatik gefordert, die bestehenden Methoden anzupassen, weiterzuentwickeln und sich mit besonderen Eigenheiten der Textform historischer literarischer Texte auseinanderzusetzen.