Auflistung nach Schlagwort "Text Mining"
1 - 10 von 15
Treffer pro Seite
Sortieroptionen
- KonferenzbeitragAnalyse der Meinungsentwicklung in Online Foren – Konzept und Fallstudie(Workshop Gemeinschaften in Neuen Medien (GeNeMe) 2010, 2010) Kaiser, Carolin; Bodendorf, FreimutDas Web 2.0 ist u.a. auch eine weltweite Plattform für Meinungsäußerungen. Immer mehr Kunden diskutieren online über Produkte und tauschen Erfahrungen aus. Die Analyse der Online Beiträge stellt daher ein wichtiges Marktforschungsinstrument dar. Es wird ein Ansatz zur automatischen Identifikation, Aggregation und Analyse von Meinungen mittels Text Mining vorgestellt und dessen Anwendung an einem Beispiel aus der Sportartikelindustrie aufgezeigt.
- KonferenzbeitragComparing Relevance Feedback Techniques on German News Articles(Datenbanksysteme für Business, Technologie und Web (BTW 2017) - Workshopband, 2017) Romberg, JuliaWe draw a comparison on the behavior of several relevance feedback techniques on a corpus of German news articles. In contrast to the standard application of relevance feedback, no explicit user query is given and the main goal is to recognize a user’s preferences and interests in the examined data collection. The compared techniques are based on vector space models and probabilistic models. The results show that the performance is category-dependent on our data and that overall the vector space approach Ide performs best.
- ZeitschriftenartikelContent Analysis between Quality and Quantity(Datenbank-Spektrum: Vol. 15, No. 1, 2015) Lemke, Matthias; Niekler, Andreas; Schaal, Gary S.; Wiedemann, GregorSocial science research using Text Mining tools requires—due to the lack of a canonical heuristics in the digital humanities—a blended reading approach. Integrating quantitative and qualitative analyses of complex textual data progressively, blended reading brings up various requirements for the implementation of Text Mining infrastructures. The article presents the Leipzig Corpus Miner (LCM), developed in the joint research project ePol—Post-Democracy and Neoliberalism and responding to social science research requirements. The functionalities offered by the LCM may serve as best practice of processing data in accordance with blended reading.
- KonferenzbeitragDigitalization and Sustainability in German Continuing Education(INFORMATIK 2023 - Designing Futures: Zukünfte gestalten, 2023) Derksen, Felix; Dörpinghaus, JensSkills and qualifications are at the heart of designing digitalized and sustainable futures, as they link society and the labour market. While the design of digitalized futures raises several issues for society, society in turn, and in particular skills and qualifications, can be a bottleneck for maintaining productivity and the workforce. The labor market relies heavily on both vocational and academic education and training, retraining, and continuing professional development to meet these future challenges. Thus, at the individual level, the question arises as to what qualifications and skills are needed in a digitalized and sustainable future. In this paper we present a novel approach to analyze advertisements for continuing vocational education and training (CVET) in order to identify if skills and qualifications needed for digitalization and sustainability are currently considered, and if the so-called green economy is also important for CVETs.
- ZeitschriftenartikelHybrider Ansatz zur automatisierten Themen-Klassifizierung von Produktrezensionen(HMD Praxis der Wirtschaftsinformatik: Vol. 56, No. 5, 2019) Goetz, Rene; Piazza, Alexander; Bodendorf, FreimutIm Online-Handel werden durch Interaktionen von Kunden mit den Web-Plattformen enorme Datenmengen generiert. So zählt Kundenfeedback in Form von Produktrezensionen zu den unstrukturierten Daten, für deren Verarbeitung Ansätze aus dem Gebiet der Computerlinguistik und des maschinellen Lernens benötigt werden. Als Alternative zu den klassischen Ansätzen des überwachten und unüberwachten Lernens, welche im betrieblichen Kontext und der Anwendungsdomäne der Produktrezensionen oftmals an deren Grenzen stoßen, wird in diesem Artikel ein hybrider Ansatz zur Kategorisierung von Produktrezensionen vorgestellt, der die Vorteile des maschinellen Lernens und der menschlichen Expertise vereint. Ziel dieses Artikels ist es, einen Ansatz zu präsentieren, welcher es ermöglicht, automatisiert und basierend auf den Anforderungen aus der Praxis, strukturiert Themen und darauf bezogene Aspekte aus Produktrezensionen zu extrahieren. Mithilfe von Word2Vec werden semantische Beziehung der in den Rezensionen enthaltenen Wörter trainiert. Dadurch können einzelne Wörter mit vorher definierten Themen auf deren Ähnlichkeit untersucht werden und in den Rezensionen identifiziert und extrahiert werden. Dieser Ansatz wird am Beispiel eines Datensatzes von rund fünf Millionen Produktrezensionen der Online-Plattform Amazon demonstriert und dessen Ergebnisse mit denen eines gängigen Topic Modelling Ansatzes gegenübergestellt. In e‑commerce, enormous amounts of data are generated through the interaction of customers with Web platforms. Customer feedback in the form of product reviews, for instance, is an example for unstructured data, which processing requires approaches from the fields of computer linguistics and machine learning. As an alternative to the classical approaches of supervised and unsupervised learning, which often reach their limits in the business context and the application domain of product reviews, this article presents a hybrid approach for categorizing product reviews that combines the advantages of machine learning and human expertise. The aim of this paper is to present an approach that allows to automatically extract structured topics and related aspects from product reviews based on practical requirements. Word2Vec is used to train semantic relationships between words that occur in product reviews. In this way, individual words of each review can be compared with in advance defined topic words regarding their similarity and can then be extracted from the reviews. This approach is demonstrated using around five million product reviews of the Amazon online platform. The results are getting compared with those from a common topic modelling technique.
- ZeitschriftenartikelKonzeption und Implementierung eines Werkzeuges zur automatisierten Identifikation und Analyse von Argumentationsstrukturen anhand der Entscheidungen des Bundesverfassungsgerichts im Digital-Humanities-Projekt ARGUMENTUM(Datenbank-Spektrum: Vol. 15, No. 1, 2015) Houy, Constantin; Niesen, Tim; Calvillo, Jesús; Fettke, Peter; Loos, Peter; Krämer, Annika; Schmidt, Klaas; Herberger, Maximilian; Speiser, Iris; Gass, Alfred; Schneider, Luc; Philippi, TimDie Entwicklung überzeugender Argumentation ist – ebenso wie die Analyse gegebener Argumentationsstrukturen – eine wichtige Aufgabe sowohl in der Rechtswissenschaft als auch in der juristischen Praxis. Beide Aufgaben gestalten sich intellektuell anspruchsvoll und sollten sich auf möglichst viele relevante Hintergrundinformationen stützen. Einer ständig wachsenden Anzahl verfügbarer Informationsquellen steht dabei die beschränkte menschliche Informationsverarbeitungskapazität gegenüber. Um diesen Problemen zu begegnen, wird im Rahmen des vom BMBF geförderten Konsortialprojektes ARGUMENTUM ein Software-Werkzeug entwickelt, das eine automatische Identifikation und Analyse von Argumentationsstrukturen in den elektronisch verfügbaren Entscheidungen des Bundesverfassungsgerichts unterstützen soll. Im vorliegenden Beitrag werden Konzept, Architektur und Implementierung des ARGUMENTUM-Werkzeuges präsentiert und Einblicke in mögliche Anwendungen gegeben.
- ZeitschriftenartikelLIVIVO – the Vertical Search Engine for Life Sciences(Datenbank-Spektrum: Vol. 17, No. 1, 2017) Müller, Bernd; Poley, Christoph; Pössel, Jana; Hagelstein, Alexandra; Gübitz, ThomasThe explosive growth of literature and data in the life sciences challenges researchers to keep track of current advancements in their disciplines. Novel approaches in the life science like the One Health paradigm require integrated methodologies in order to link and connect heterogeneous information from databases and literature resources. Current publications in the life sciences are increasingly characterized by the employment of trans-disciplinary methodologies comprising molecular and cell biology, genetics, genomic, epigenomic, transcriptional and proteomic high throughput technologies with data from humans, plants, and animals. The literature search engine LIVIVO empowers retrieval functionality by incorporating various literature resources from medicine, health, environment, agriculture and nutrition. LIVIVO is developed in-house by ZB MED – Information Centre for Life Sciences. It provides a user-friendly and usability-tested search interface with a corpus of 55 Million citations derived from 50 databases. Standardized application programming interfaces are available for data export and high throughput retrieval. The search functions allow for semantic retrieval with filtering options based on life science entities. The service oriented architecture of LIVIVO uses four different implementation layers to deliver search services. A Knowledge Environment is developed by ZB MED to deal with the heterogeneity of data as an integrative approach to model, store, and link semantic concepts within literature resources and databases. Future work will focus on the exploitation of life science ontologies and on the employment of NLP technologies in order to improve query expansion, filters in faceted search, and concept based relevancy rankings in LIVIVO.
- ZeitschriftenartikelQUALM: Ganzheitliche Messung und Verbesserung der Datenqualität in der Textanalyse(Datenbank-Spektrum: Vol. 19, No. 2, 2019) Kiefer, Cornelia; Reimann, Peter; Mitschang, BernhardBestehende Ansätze zur Messung und Verbesserung der Qualität von Textdaten in der Textanalyse bringen drei große Nachteile mit sich. Evaluationsmetriken wie zum Beispiel Accuracy messen die Qualität zwar verlässlich, sie (1) sind jedoch auf aufwändig händisch zu erstellende Goldannotationen angewiesen und (2) geben keine Ansatzpunkte für die Verbesserung der Qualität. Erste domänenspezifische Datenqualitätsmethoden für unstrukturierte Textdaten kommen zwar ohne Goldannotationen aus und geben Ansatzpunkte zur Verbesserung der Datenqualität. Diese Methoden wurden jedoch nur für begrenzte Anwendungsgebiete entwickelt und (3) berücksichtigen deshalb nicht die Spezifika vieler Analysetools in Textanalyseprozessen. In dieser Arbeit präsentieren wir hierzu das QUALM-Konzept zum qual itativ hochwertigen M ining von Textdaten (QUALity Mining), das die drei o.g. Nachteile adressiert. Das Ziel von QUALM ist es, die Qualität der Analyseergebnisse, z. B. bzgl. der Accuracy einer Textklassifikation, auf Basis einer Messung und Verbesserung der Datenqualität zu erhöhen. QUALM bietet hierzu eine Menge an QUALM-Datenqualitätsmethoden. QUALM- Indikatoren erfassen die Datenqualität ganzheitlich auf Basis der Passung zwischen den Eingabedaten und den Spezifika der Analysetools, wie den verwendeten Features, Trainingsdaten und semantischen Ressourcen (wie zum Beispiel Wörterbüchern oder Taxonomien). Zu jedem Indikator gehört ein passender Modifikator , mit dem sowohl die Daten als auch die Spezifika der Analysetools verändert werden können, um die Datenqualität zu erhöhen. In einer ersten Evaluation von QUALM zeigen wir für konkrete Analysetools und Datensätze, dass die Anwendung der QUALM-Datenqualitätsmethoden auch mit einer Erhöhung der Qualität der Analyseergebnisse im Sinne der Evaluationsmetrik Accuracy einhergeht. Die Passung zwischen Eingabedaten und Spezifika der Analysetools wird hierzu mit konkreten QUALM-Modifikatoren erhöht, die zum Beispiel Abkürzungen auflösen oder automatisch auf Basis von Textähnlichkeitsmetriken passende Trainingsdaten vorschlagen.
- KonferenzbeitragQuery expansion for web information retrieval(Informatik bewegt: Informatik 2002 - 32. Jahrestagung der Gesellschaft für Informatik e.v. (GI), 2002) Hust, Armin; Klink, Stefan; Junker, Markus; Dengel, AndreasInformation retrieval (IR) systems utilize user feedback for generating optimal queries with respect to a particular information need. However the methods that have been developed in IR for generating these queries do not memorize information gathered from previous search processes, and hence can not use such information in new search processes. Thus a new search process can not profit from the results of the previous processes. Web Information Retrieval (WIR) systems should be able to maintain results from previous search processes, thus learning from previous queries and improving overall retrieval quality. In our approach we are using the similarity of a new query to previously learned queries. We then expand the new query by extracting terms from documents which have been judged as relevant to these previously learned queries. Thus our method uses global feedback information for query expansion in contrast to local feedback information which has been widely used in previous work in query expansion methods.
- KonferenzbeitragSemi-assisted Module Handbook Content Extraction for the Application of Curriculum Analytics(21. Fachtagung Bildungstechnologien (DELFI), 2023) Roepke, Rene; Nell, Maximilian; Schroeder, UlrikAlongside examination regulations, module handbooks provide overview of a study program, including information like workload, learning goals, examinations. They provide guidance to students, but can also be a valuable information source to curriculum analytics, e.g., the identification of trends and patterns across modules, the assessment of course content coherence, and data-driven decision-making regarding curriculum design and revision. This paper introduces a tool for semi-assisted module handbook content extraction, which uses natural language processing and text mining techniques to extract all properties and relevant details from module handbooks, allowing instructors and curriculum designers to efficiently identify key information. As module handbooks between institutions may look very different, fully automated extraction is difficult and error-prone. By allowing users to verify and correct extraction results in a semi-assisted manner, higher accuracy and reliability of module data can be achieved.