Auflistung nach Autor:in "Wittig, Ulrike"
1 - 3 von 3
Treffer pro Seite
Sortieroptionen
- KonferenzbeitragFlache und semantische Verarbeitung von Namen biochemischer Verbindungen(Informatik 2009 – Im Focus das Leben, 2009) Engelken, Henriette; Golebiewski, Martin; Bittkowski, Meik; Hamm, Fritz; Saric, Jasmin; Wittig, Ulrike; Müller, Wolfgang; Reyle, Uwe; Rojas, IsabelIn den Biowissenschaften ist Termverarbeitung für Information Retrieval und Information Extraction, für Data Mining und für die Datenintegration in wissenschaftlichen Datenbanken von großer Bedeutung. Die Erkennung, Identifizierung und chemische Klassifizierung ist insbesondere für Molekülnamen nötig, welche häufig in wissenschaftlichen Publikationen, Datenbanken und Patenten vorkommen und die wesentlich für das Verständnis des Inhalts dieser Dokumente sind. Eine eindeutige Bezeichnung einer chemischen Verbindung ist ihre chemische Struktur. In Publikationen und Datenbanken werden jedoch oft ausschließlich Namen verwendet. Diese weisen Besonderheiten auf, welche ihre automatische Identifizierung und Klassifizierung erschweren. Zu nennen sind v. a. Synonymie, d. h. Bedeutungsgleichheit unterschiedlicher Namen, und Unterspezifikation, d.h. nicht vollständige Bestimmung der Namensbedeutung. Die Namensidentifizierung kann durch Matching zu einer Referenzliste (Datenbank, Ontologie) erreicht werden. Wir haben ein Programm1 zum normalisierten Namensmatching entwickelt. Die Regeln zur Normalisierung repräsentieren Expertenwissen und beinhalten u. a. morphosyntaktische Umformungen der Namen – z. B. von Suffixen zu gleichbedeutenden Präfixen (z. B. -phosphate zu phospho-). Zudem werden synonyme Substrings paarweise ersetzt, welche wir mit einem statistischen Verfahren gewonnen haben. Durch die implementierten Namenstransformationen können synonyme Namen matchen, welche durch exaktes Stringmatching nicht gefunden werden. Unser zweites System hat zum Ziel ausgehend von einer linguistischen Namensanalyse2 die Molekülstruktur zu rekonstruieren. Diese ist eindeutig und enthält die chemischen Eigenschaften. Die linguistischen Bausteine (Morpheme) jedes Namens liefern bestimmte Constraints über die von diesem Namen bezeichnete chemische Struktur, woraus wir Constraint Satisfaction Probleme über Graphenvariablen modellieren. Mit Hilfe eines Constraintlösers können dadurch alle bezeichneten chemischen Strukturen, auch für unterspezifizierende und Klassen-Namen, bestimmt werden und in der Folge zum semantischen Matching von synonymen Namen und zur Klassifikation dienen.
- KonferenzbeitragHerausforderungen bei der Extraktion von biochemischen Daten aus der Literatur(INFORMATIK 2010. Service Science – Neue Perspektiven für die Informatik. Band 2, 2010) Wittig, Ulrike; Kania, Renate; Rojas, Isabel; Müller, WolfgangBiochemische Daten in der wissenschaftlichen Literatur liegen in einem nur wenig strukturierten und standardisierten Format vor. Um diese Informationen nutzen und automatisieren zu können, entstand eine Vielzahl von Datenbanken, für die publizierte Daten größtenteils manuell aus der Literatur extrahiert werden, um sie Biowissenschaftlern zur Nutzung zur Verfügung zu stellen. Die Herausforderung bei dem Betrieb solcher Datenbanken besteht unter anderem in der Sicherung der Qualität der Daten. Dies bedeutet, dass viel Zeit von biologischen Experten investiert werden muss, um die Daten aus der Literatur zu extrahieren und für die Eingabe in die Datenbank vorzubereiten, um sie bestehenden Standards anzupassen. Dies erzeugt einen Großteil der zum Betrieb erforderlichen Kosten und beeinflusst damit direkt die Machbarkeit von Projekten. In dieser Publikation beschreiben wir anhand der Datenbank SABIO-RK, welche Probleme von eventuellen automatischen Methoden gelöst werden müssten, um menschliche Arbeitskraft zu ersetzen.
- ZeitschriftenartikelSABIO-RK, von Daten in der Publikation zur Suchlösung für Spezialisten(Datenbank-Spektrum: Vol. 17, No. 1, 2017) Müller, Wolfgang; Bittkowski, Meik; Golebiewski, Martin; Kania, Renate; Rey, Maja; Weidemann, Andreas; Wittig, UlrikeSABIO-RK ist eine Datenbank, in der Spezialisten aus der Systembiologie Daten aus biochemischen Publikationen suchen, finden, und in geeigneten Formaten extrahieren können. Der Artikel beschreibt, wie Kuratierung durch Experten, standardisierte Struktur, flexible Suche und einfacher Datenexport ineinandergreifen, um den Informationsbedarf der Nutzer zu befriedigen.