Logo des Repositoriums
 
Konferenzbeitrag

Flache und semantische Verarbeitung von Namen biochemischer Verbindungen

Lade...
Vorschaubild

Volltext URI

Dokumententyp

Text/Conference Paper

Zusatzinformation

Datum

2009

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Verlag

Gesellschaft für Informatik e. V.

Zusammenfassung

In den Biowissenschaften ist Termverarbeitung für Information Retrieval und Information Extraction, für Data Mining und für die Datenintegration in wissenschaftlichen Datenbanken von großer Bedeutung. Die Erkennung, Identifizierung und chemische Klassifizierung ist insbesondere für Molekülnamen nötig, welche häufig in wissenschaftlichen Publikationen, Datenbanken und Patenten vorkommen und die wesentlich für das Verständnis des Inhalts dieser Dokumente sind. Eine eindeutige Bezeichnung einer chemischen Verbindung ist ihre chemische Struktur. In Publikationen und Datenbanken werden jedoch oft ausschließlich Namen verwendet. Diese weisen Besonderheiten auf, welche ihre automatische Identifizierung und Klassifizierung erschweren. Zu nennen sind v. a. Synonymie, d. h. Bedeutungsgleichheit unterschiedlicher Namen, und Unterspezifikation, d.h. nicht vollständige Bestimmung der Namensbedeutung. Die Namensidentifizierung kann durch Matching zu einer Referenzliste (Datenbank, Ontologie) erreicht werden. Wir haben ein Programm1 zum normalisierten Namensmatching entwickelt. Die Regeln zur Normalisierung repräsentieren Expertenwissen und beinhalten u. a. morphosyntaktische Umformungen der Namen – z. B. von Suffixen zu gleichbedeutenden Präfixen (z. B. -phosphate zu phospho-). Zudem werden synonyme Substrings paarweise ersetzt, welche wir mit einem statistischen Verfahren gewonnen haben. Durch die implementierten Namenstransformationen können synonyme Namen matchen, welche durch exaktes Stringmatching nicht gefunden werden. Unser zweites System hat zum Ziel ausgehend von einer linguistischen Namensanalyse2 die Molekülstruktur zu rekonstruieren. Diese ist eindeutig und enthält die chemischen Eigenschaften. Die linguistischen Bausteine (Morpheme) jedes Namens liefern bestimmte Constraints über die von diesem Namen bezeichnete chemische Struktur, woraus wir Constraint Satisfaction Probleme über Graphenvariablen modellieren. Mit Hilfe eines Constraintlösers können dadurch alle bezeichneten chemischen Strukturen, auch für unterspezifizierende und Klassen-Namen, bestimmt werden und in der Folge zum semantischen Matching von synonymen Namen und zur Klassifikation dienen.

Beschreibung

Engelken, Henriette; Golebiewski, Martin; Bittkowski, Meik; Hamm, Fritz; Saric, Jasmin; Wittig, Ulrike; Müller, Wolfgang; Reyle, Uwe; Rojas, Isabel (2009): Flache und semantische Verarbeitung von Namen biochemischer Verbindungen. Informatik 2009 – Im Focus das Leben. Bonn: Gesellschaft für Informatik e. V.. PISSN: 1617-5468. ISBN: 978-3-88579-248-2. pp. 37-37. Regular Research Papers. Lübeck. 28.9.-2.10.2009

Schlagwörter

Zitierform

DOI

Tags