Logo des Repositoriums
 

Maschinelle Lernmethoden zur Analyse von Tiling-Array-Daten

dc.contributor.authorZeller, Georg
dc.contributor.editorHölldobler, Steffen
dc.date.accessioned2020-08-21T08:46:29Z
dc.date.available2020-08-21T08:46:29Z
dc.date.issued2011
dc.description.abstractIm Rahmen meiner Dissertation [Zel10] entwickelte ich auf Maschinellen Lerntechniken basierende, bioinformatische Methoden, um zur Beantwortung zentraler molekularbiologischer Fragestellungen beizutragen: In welchen Bereichen des Genoms unterscheiden sich einzelne Individuen derselben Spezies?; Welche Bereiche des Genoms beinhalten Gene, und in welchen Zellen, Organen und Entwicklungsstadien werden diese in mRNA-Moleküle transkribiert? Diese beiden Probleme weisen einige – vielleicht unerwartete – Gemeinsamkeiten auf: Erstens lassen sich beide als Segmentierungsprobleme formalisieren. Zweitens hat die Molekularbiologie eine sehr flexible Hochdurchsatz-Experimentiertechnik entwickelt, sogenannte Tiling-Arrays (bzw. deren Weiterentwicklung zu Resequencing-Arrays), die es ermöglich, diese beiden (und weitere) Fragestellungen experimentell zubearbeiten. Im wesentlichen liefert diese Technik eine Sequenz von Messwerten, die in einem regelmäßigen Raster das gesamte Genom abdecken. Das Segmentierungsproblem bei der Analyse dieser Sequenzdaten besteht nun darin, die Teilbereiche zu erkennen, welche dem gesuchten biologischen Phänomen entsprechen, nämlich einerseits variable Genomregionen (im Unterschied zu solchen, wo sich Individuen nicht unterscheiden) und andererseits Segmente, aus denen mRNA-Moleküle generiert werden. Zur Lösung dieser Probleme entwickelte ich Segmentierungsmethoden, die auf der sogenannten Hidden Markov Support Vector Machine (HMSVM) basieren und sich durch folgende Eigenschaften auszeichnen: Genauigkeit der Vorhersagen war von entscheidender Bedeutung, da meine Resultate die Grundlage für weitergehende experimentelle Forschung bildeten. Wo vergleichbare Methoden verfügbar waren, konnte ich die stark verbesserte Genauigkeit der neu entwickelten Lernmethoden belegen.; Ich untersuchte empirisch, dass die hohe Genauigkeit teils einem ausgefeilten Modellierungsansatz und teils einem neuen diskriminativen Lernalgorithmus mit großer Robustheit gegen Rauschen zugeschrieben werden kann. Angesichts des starken Rauschens in Tiling-Array-Daten erwies sich Robustheit als Schlüsseleigenschaft.; Ein weiterer Schwerpunkt lag auf der Effizienz der Methoden. Analysen ganzer Genome erfordern schnelle Vorhersagealgorithmen, und angesichts langer Trainingssequenzen sind Lernmethoden im Vorteil, die bereits anhand weniger Trainingsbeispiele in der Lage sind, genaue Vorhersagen zu machen.; Die Verwandschaft zu Hidden Markov Modellen (HMMs) mit einem breiten Anwendungsspektrum in der Bioinformatik eröffnet für die Anwendung der HM- SVM viele Möglichkeiten über die hier beschriebenen hinaus.de
dc.identifier.isbn978-3-88579-415-8
dc.identifier.pissn1617-5468
dc.identifier.urihttps://dl.gi.de/handle/20.500.12116/33785
dc.language.isode
dc.publisherGesellschaft für Informatik
dc.relation.ispartofAusgezeichnete Informatikdissertationen 2010
dc.relation.ispartofseriesLecture Notes in Informatics (LNI) - Dissertations, Volume D-11
dc.titleMaschinelle Lernmethoden zur Analyse von Tiling-Array-Datende
gi.citation.endPage380
gi.citation.publisherPlaceBonn
gi.citation.startPage371

Dateien

Originalbündel
1 - 1 von 1
Vorschaubild nicht verfügbar
Name:
371.pdf
Größe:
655.27 KB
Format:
Adobe Portable Document Format