Logo des Repositoriums
 

Flache und semantische Verarbeitung von Namen biochemischer Verbindungen

dc.contributor.authorEngelken, Henriette
dc.contributor.authorGolebiewski, Martin
dc.contributor.authorBittkowski, Meik
dc.contributor.authorHamm, Fritz
dc.contributor.authorSaric, Jasmin
dc.contributor.authorWittig, Ulrike
dc.contributor.authorMüller, Wolfgang
dc.contributor.authorReyle, Uwe
dc.contributor.authorRojas, Isabel
dc.contributor.editorFischer, Stefan
dc.contributor.editorMaehle, Erik
dc.contributor.editorReischuk, Rüdiger
dc.date.accessioned2020-01-28T13:25:45Z
dc.date.available2020-01-28T13:25:45Z
dc.date.issued2009
dc.description.abstractIn den Biowissenschaften ist Termverarbeitung für Information Retrieval und Information Extraction, für Data Mining und für die Datenintegration in wissenschaftlichen Datenbanken von großer Bedeutung. Die Erkennung, Identifizierung und chemische Klassifizierung ist insbesondere für Molekülnamen nötig, welche häufig in wissenschaftlichen Publikationen, Datenbanken und Patenten vorkommen und die wesentlich für das Verständnis des Inhalts dieser Dokumente sind. Eine eindeutige Bezeichnung einer chemischen Verbindung ist ihre chemische Struktur. In Publikationen und Datenbanken werden jedoch oft ausschließlich Namen verwendet. Diese weisen Besonderheiten auf, welche ihre automatische Identifizierung und Klassifizierung erschweren. Zu nennen sind v. a. Synonymie, d. h. Bedeutungsgleichheit unterschiedlicher Namen, und Unterspezifikation, d.h. nicht vollständige Bestimmung der Namensbedeutung. Die Namensidentifizierung kann durch Matching zu einer Referenzliste (Datenbank, Ontologie) erreicht werden. Wir haben ein Programm1 zum normalisierten Namensmatching entwickelt. Die Regeln zur Normalisierung repräsentieren Expertenwissen und beinhalten u. a. morphosyntaktische Umformungen der Namen – z. B. von Suffixen zu gleichbedeutenden Präfixen (z. B. -phosphate zu phospho-). Zudem werden synonyme Substrings paarweise ersetzt, welche wir mit einem statistischen Verfahren gewonnen haben. Durch die implementierten Namenstransformationen können synonyme Namen matchen, welche durch exaktes Stringmatching nicht gefunden werden. Unser zweites System hat zum Ziel ausgehend von einer linguistischen Namensanalyse2 die Molekülstruktur zu rekonstruieren. Diese ist eindeutig und enthält die chemischen Eigenschaften. Die linguistischen Bausteine (Morpheme) jedes Namens liefern bestimmte Constraints über die von diesem Namen bezeichnete chemische Struktur, woraus wir Constraint Satisfaction Probleme über Graphenvariablen modellieren. Mit Hilfe eines Constraintlösers können dadurch alle bezeichneten chemischen Strukturen, auch für unterspezifizierende und Klassen-Namen, bestimmt werden und in der Folge zum semantischen Matching von synonymen Namen und zur Klassifikation dienen.de
dc.identifier.isbn978-3-88579-248-2
dc.identifier.pissn1617-5468
dc.identifier.urihttps://dl.gi.de/handle/20.500.12116/31235
dc.language.isode
dc.publisherGesellschaft für Informatik e. V.
dc.relation.ispartofInformatik 2009 – Im Focus das Leben
dc.relation.ispartofseriesLecture Notes in Informatics (LNI) - Proceedings, Volume P-154
dc.titleFlache und semantische Verarbeitung von Namen biochemischer Verbindungende
dc.typeText/Conference Paper
gi.citation.endPage37
gi.citation.publisherPlaceBonn
gi.citation.startPage37
gi.conference.date28.9.-2.10.2009
gi.conference.locationLübeck
gi.conference.sessiontitleRegular Research Papers

Dateien

Originalbündel
1 - 2 von 2
Lade...
Vorschaubild
Name:
037.pdf
Größe:
145.34 KB
Format:
Adobe Portable Document Format
Lade...
Vorschaubild
Name:
cd-0687.pdf
Größe:
299.85 KB
Format:
Adobe Portable Document Format