Auflistung nach Schlagwort "Computerlinguistik"
1 - 5 von 5
Treffer pro Seite
Sortieroptionen
- ConferencePaperAutomated Implementation of Windows-related Security-Configuration Guides(Software Engineering 2021, 2021) Stöckle, Patrick; Grobauer, Bernd; Pretschner, AlexanderDieser Vortrag wurde auf der 35. IEEE/ACM International Conference on Automated Software Engineering (ASE) präsentiert. Unsicher konfigurierte Geräte stellen ein großes Sicherheitsproblem dar. Eine Möglichkeit, dieses Problem zu lösen, sind öffentlich verfügbare und standartisierte Sicherheitskonfigurationsrichtlinien. Dieser Ansatz birgt jedoch die Schwierigkeit, dass Administratoren auf Basis der Anleitungen in diesen Richtlinien ihre Systeme manuell sichern müssen. Dieses manuelle Sichern ist teuer und fehleranfällig. In unserem Beitrag präsentieren wir einen Ansatz, mit dem wir Richtlinien für Windows-Systeme automatisiert anwenden können. Dafür wenden wir Techniken der Sprachverarbeitung an. Im ersten Teil unserer Evaluation können wir anhand einer öffentlichen Richtlinie für Windows 10 zeigen, dass unser Ansatz für 83% der Regeln keinerlei menschliche Interaktion benötigt. Im zweiten Teil zeigen wir anhand von 12 öffentlichen Richtlinien mit über 2000 Regeln, dass unser Ansatz die Regeln zu 97% korrekt anwendet. So wird die sichere Konfiguration von Windows-Systemen einfacher und wir hoffen, dass dies zukünftig zu weniger Sicherheitsvorfällen führen wird.
- KonferenzbeitragAutomatisierte Identifikation von sicherheitsrelevanten Konfigurationseinstellungen mittels NLP(Software Engineering 2023, 2023) Stöckle, Patrick; Wasserer, Theresa; Grobauer, Bernd; Pretschner, AlexanderDieser Vortrag wurde auf der 37. IEEE/ACM International Conference on Automated Software Engineering (ASE) präsentiert [St22]. Um Computerinfrastrukturen zu sichern, müssen die verantwortlichen Administratoren alle sicherheitsrelevanten Einstellungen konfigurieren und sichere Werte einsetzen. Hierbei stützen sie sich auf Sicherheitsexperten, die die sicherheitsrelevanten Einstellungen identifizieren und in Sicherheitskonfigurationsrichtlinien dokumentieren. Das Identifizieren der sicherheitsrelevanten Einstellungen ist allerdings zeitaufwändig und teuer, weshalb ihm oft keine Priorität beigemessen wird. Um dieses Problem zu lösen, nutzen wir aktuelle Verfahren der Computerlinguistik, um Einstellungen auf der Grundlage ihrer Beschreibung in natürlicher Sprache als sicherheitsrelevant zu klassifizieren. Allerdings zeigt unsere Evaluation, dass die trainierten Klassifikatoren nicht gut genug sind, um die menschlichen Sicherheitsexperten vollständig zu ersetzen sondern höchstens bei der Klassifizierung der Einstellungen helfen können. Durch die Veröffentlichung unserer gelabelten Datensätze und all unserer Modelle wollen wir Sicherheitsexperten bei der Analyse von Konfigurationseinstellungen unterstützen und weitere Forschung in diesem Bereich ermöglichen.
- ZeitschriftenartikelHybrider Ansatz zur automatisierten Themen-Klassifizierung von Produktrezensionen(HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 5, 2019) Goetz, Rene; Piazza, Alexander; Bodendorf, FreimutIm Online-Handel werden durch Interaktionen von Kunden mit den Web-Plattformen enorme Datenmengen generiert. So zählt Kundenfeedback in Form von Produktrezensionen zu den unstrukturierten Daten, für deren Verarbeitung Ansätze aus dem Gebiet der Computerlinguistik und des maschinellen Lernens benötigt werden. Als Alternative zu den klassischen Ansätzen des überwachten und unüberwachten Lernens, welche im betrieblichen Kontext und der Anwendungsdomäne der Produktrezensionen oftmals an deren Grenzen stoßen, wird in diesem Artikel ein hybrider Ansatz zur Kategorisierung von Produktrezensionen vorgestellt, der die Vorteile des maschinellen Lernens und der menschlichen Expertise vereint. Ziel dieses Artikels ist es, einen Ansatz zu präsentieren, welcher es ermöglicht, automatisiert und basierend auf den Anforderungen aus der Praxis, strukturiert Themen und darauf bezogene Aspekte aus Produktrezensionen zu extrahieren. Mithilfe von Word2Vec werden semantische Beziehung der in den Rezensionen enthaltenen Wörter trainiert. Dadurch können einzelne Wörter mit vorher definierten Themen auf deren Ähnlichkeit untersucht werden und in den Rezensionen identifiziert und extrahiert werden. Dieser Ansatz wird am Beispiel eines Datensatzes von rund fünf Millionen Produktrezensionen der Online-Plattform Amazon demonstriert und dessen Ergebnisse mit denen eines gängigen Topic Modelling Ansatzes gegenübergestellt. In e‑commerce, enormous amounts of data are generated through the interaction of customers with Web platforms. Customer feedback in the form of product reviews, for instance, is an example for unstructured data, which processing requires approaches from the fields of computer linguistics and machine learning. As an alternative to the classical approaches of supervised and unsupervised learning, which often reach their limits in the business context and the application domain of product reviews, this article presents a hybrid approach for categorizing product reviews that combines the advantages of machine learning and human expertise. The aim of this paper is to present an approach that allows to automatically extract structured topics and related aspects from product reviews based on practical requirements. Word2Vec is used to train semantic relationships between words that occur in product reviews. In this way, individual words of each review can be compared with in advance defined topic words regarding their similarity and can then be extracted from the reviews. This approach is demonstrated using around five million product reviews of the Amazon online platform. The results are getting compared with those from a common topic modelling technique.
- Konferenzbeitrag"LinkingKnowledge" - ein didaktisches Gestaltungskonzept zur Integration computerlinguistisch generierter Wissensnetze(DELFI 2021, 2021) Köbis, Laura; Heßdörfer, Florian; Moser, Eva; Mehner, Caroline; Wollersheim, Heinz-WernerIn textbasierten Lehrveranstaltungen bieten Präsenzseminare traditionell den Raum, um im Gespräch mit Studierenden die Mehrdeutigkeit zentraler Konzepte der Lektüregrundlage auszu-leuchten und zu individuellen Lesarten ins Verhältnis zu setzen. Solche Lernprozesse in der Inter-aktionssituation von Online-Seminaren abzubilden, ist eine didaktische Herausforderung. Vor die-sem Hintergrund stellen wir das Gestaltungskonzept LinkingKnowledge vor, in dessen Zentrum die Frage nach der Einbindung von automatisch generiertem Feedback auf studentische Texte in Lehr-Lernprozesse steht. Dieses Feedback wird durch die Textanalyse-Software T-MITOCAR generiert, die in der Lage ist, Einzeltexte und Textkorpora auf ihre Wissensstrukturen hin zu analysieren und diese als Wissensnetze zu visualisieren. Der vorliegende Praxisbeitrag beschreibt die Erfahrungen beim Einsatz der Wissensnetze in einem bildungswissenschaftlichen Modul der Universität Leipzig und erörtert deren Potenzial als Reflexionsmedium in der Lernpartnerschaft von Studierenden und Lehrenden – sowohl für die Vorbereitung der Dozent:innen, als auch in Online-Seminargesprächen mit den Lerner:innen.
- ZeitschriftenartikelSentiStorm: Echtzeit-Stimmungserkennung von Tweets(HMD Praxis der Wirtschaftsinformatik: Vol. 53, No. 4, 2016) Zangerle, Eva; Illecker, Martin; Specht, GüntherDas automatisierte Erkennen der Stimmung von Texten hat in den letzten Jahren stark an Bedeutung gewonnen. Insbesondere durch die rapide Zunahme der Geschwindigkeit, mit der in sozialen Medien Informationen verbreitet werden, ist eine Echtzeit-Bestimmung der Stimmung von Texten ein herausforderndes Problem. Der Mikroblogging-Dienst Twitter verzeichnet im Durchschnitt über 8000 versendete Nachrichten pro Sekunde. In dieser Arbeit stellen wir mit dem SentiStorm-Ansatz einen Ansatz zur Stimmungserkennung von Tweets vor. Dabei erzeugen wir in einem ersten Schritt Merkmalsvektoren für die Tweets, die sowohl linguistische Informationen über den Tweet (Wichtigkeit der Wörter, Wortarten), wie auch über Sentiment-Lexika gewonnene Stimmungsinformationen beinhalten. In einem zweiten Schritt führen wir mittels der Merkmalsvektoren eine Stimmungsklassifikation durch, die eine Einteilung in positive, negative oder neutrale Tweets ermöglicht. Die durchgeführten Evaluationen zeigen, dass der präsentierte Ansatz bezüglich der Qualität der erkannten Stimmung sehr gute Erkennungsraten garantiert. Weiter zeigen wir, dass der Ansatz mittels der Apache Storm Plattform problemlos für die Echtzeit-Stimmungserkennung von Tweets skaliert werden kann.AbstractThe automatic detection of the sentiment of texts has become more and more important throughout the last years. Particularly, the rapid increase of the speed at which information is spread in social media makes real-time sentiment detection a challenging task. On the microblogging platform Twitter, more than 8,000 messages are sent every second. In this work, we present the SentiStorm approach, an approach for sentiment detection within tweets. We base the approach on feature vectors which contain linguistic information about the tweet content (weighting of words, word categories), as well as sentiment information which we gather based on sentiment lexica. Subsequently, we facilitate these feature vectors for a sentiment classification task which allows for distinguishing positive, negative and neutral tweets. Our conducted evaluations show that the proposed approach shows high classification accuracy. At the same time, we show that utilizing the Apache Storm platform we are able to easily scale the approach towards a real-time sentiment classification of tweets.