Maschinelle Lernmethoden zur Analyse von Tiling-Array-Daten

Zeller, Georg

Textdokument

Maschinelle Lernmethoden zur Analyse von Tiling-Array-Daten

Dateien

371.pdf (655.27 KB)

Datum

2011

Autor:innen

Zeller, Georg

Quelle

Ausgezeichnete Informatikdissertationen 2010

Verlag

Gesellschaft für Informatik

Zusammenfassung

Im Rahmen meiner Dissertation [Zel10] entwickelte ich auf Maschinellen Lerntechniken basierende, bioinformatische Methoden, um zur Beantwortung zentraler molekularbiologischer Fragestellungen beizutragen: In welchen Bereichen des Genoms unterscheiden sich einzelne Individuen derselben Spezies?; Welche Bereiche des Genoms beinhalten Gene, und in welchen Zellen, Organen und Entwicklungsstadien werden diese in mRNA-Moleküle transkribiert? Diese beiden Probleme weisen einige – vielleicht unerwartete – Gemeinsamkeiten auf: Erstens lassen sich beide als Segmentierungsprobleme formalisieren. Zweitens hat die Molekularbiologie eine sehr flexible Hochdurchsatz-Experimentiertechnik entwickelt, sogenannte Tiling-Arrays (bzw. deren Weiterentwicklung zu Resequencing-Arrays), die es ermöglich, diese beiden (und weitere) Fragestellungen experimentell zubearbeiten. Im wesentlichen liefert diese Technik eine Sequenz von Messwerten, die in einem regelmäßigen Raster das gesamte Genom abdecken. Das Segmentierungsproblem bei der Analyse dieser Sequenzdaten besteht nun darin, die Teilbereiche zu erkennen, welche dem gesuchten biologischen Phänomen entsprechen, nämlich einerseits variable Genomregionen (im Unterschied zu solchen, wo sich Individuen nicht unterscheiden) und andererseits Segmente, aus denen mRNA-Moleküle generiert werden. Zur Lösung dieser Probleme entwickelte ich Segmentierungsmethoden, die auf der sogenannten Hidden Markov Support Vector Machine (HMSVM) basieren und sich durch folgende Eigenschaften auszeichnen: Genauigkeit der Vorhersagen war von entscheidender Bedeutung, da meine Resultate die Grundlage für weitergehende experimentelle Forschung bildeten. Wo vergleichbare Methoden verfügbar waren, konnte ich die stark verbesserte Genauigkeit der neu entwickelten Lernmethoden belegen.; Ich untersuchte empirisch, dass die hohe Genauigkeit teils einem ausgefeilten Modellierungsansatz und teils einem neuen diskriminativen Lernalgorithmus mit großer Robustheit gegen Rauschen zugeschrieben werden kann. Angesichts des starken Rauschens in Tiling-Array-Daten erwies sich Robustheit als Schlüsseleigenschaft.; Ein weiterer Schwerpunkt lag auf der Effizienz der Methoden. Analysen ganzer Genome erfordern schnelle Vorhersagealgorithmen, und angesichts langer Trainingssequenzen sind Lernmethoden im Vorteil, die bereits anhand weniger Trainingsbeispiele in der Lage sind, genaue Vorhersagen zu machen.; Die Verwandschaft zu Hidden Markov Modellen (HMMs) mit einem breiten Anwendungsspektrum in der Bioinformatik eröffnet für die Anwendung der HM- SVM viele Möglichkeiten über die hier beschriebenen hinaus.

Zeller, Georg (2011): Maschinelle Lernmethoden zur Analyse von Tiling-Array-Daten. Ausgezeichnete Informatikdissertationen 2010. Bonn: Gesellschaft für Informatik. PISSN: 1617-5468. ISBN: 978-3-88579-415-8. pp. 371-380

Sammlungen

D11 (2010) - Ausgezeichnete Informatikdissertationen

Komplettanzeige

Maschinelle Lernmethoden zur Analyse von Tiling-Array-Daten

Volltext URI

Dokumententyp

Dateien

Zusatzinformation

Datum

Autor:innen

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Quelle

Verlag

Zusammenfassung

Beschreibung

Schlagwörter

Zitierform

DOI

Tags

Sammlungen