Themenübergreifende Diskursklassifikation auf Basis von Word Embeddings und Sequenzfeatures

Steuer, TimRensing, ChristophPinkwart, NielsKonert, Johannes2019-08-142019-08-142019978-3-88579-691-6https://dl.gi.de/handle/20.500.12116/24428Zur Beobachtung von kollaborativen Lernprozessen ist Diskursanalyse ein hilfreiches Werkzeug. Dazu wird der Textkorpus von Annotatoren händisch segmentiert und die Segmente nach ihrer Funktion klassifiziert. Dies ist zeitaufwendig und kostspielig. Automatische Modelle versprechen Zeitersparnis sowie Echtzeitanalysen des Diskurses. Diese könnten direktes Feedback, beispielsweise durch Visualisierungen, an die Lernenden ermöglichen. Automatische Modelle benötigen jedoch manuell annotierte Trainingsdaten. Außerdem sind sie meist vom Diskursvokabular abhängig und generalisieren schlecht über Themengrenzen hinweg. Die dadurch notwendige, häufige Neuerstellung von Trainingskorpora, verringert die Zeitersparnis durch Automatisierung und macht Echtzeit Analyse unmöglich. In dieser Arbeit wird ein Klassifikationsverfahren basierend auf Word Embeddings und Sequenz Features vorgestellt, welches vier Arten von Diskurssegmenten unterscheidet. Das Verfahren erreicht gute Evaluationsergebnisse, mit einer besseren Klassifikationsgüte als Verfahren aus verwandten Arbeiten (Cohens > 0.7). Außerdem generalisiert das Verfahren, auf dem Korpus, ohne weiteres Training von einem Themengebiet auf ein anderes. Dies würde die Notwendigkeit von themenspezifischen Trainingskorpora stark verringern.deDiskursanalyseWord EmbeddingsMachine LearningThemenübergreifende Diskursklassifikation auf Basis von Word Embeddings und SequenzfeaturesText/Conference Paper 10.18420/delfi2019_2341617-5468