Maschinelle Lernmethoden zur Analyse von Tiling-Array-Daten

Zeller, Georg

Maschinelle Lernmethoden zur Analyse von Tiling-Array-Daten

dc.contributor.author	Zeller, Georg
dc.contributor.editor	Hölldobler, Steffen
dc.date.accessioned	2020-08-21T08:46:29Z
dc.date.available	2020-08-21T08:46:29Z
dc.date.issued	2011
dc.description.abstract	Im Rahmen meiner Dissertation [Zel10] entwickelte ich auf Maschinellen Lerntechniken basierende, bioinformatische Methoden, um zur Beantwortung zentraler molekularbiologischer Fragestellungen beizutragen: In welchen Bereichen des Genoms unterscheiden sich einzelne Individuen derselben Spezies?; Welche Bereiche des Genoms beinhalten Gene, und in welchen Zellen, Organen und Entwicklungsstadien werden diese in mRNA-Moleküle transkribiert? Diese beiden Probleme weisen einige – vielleicht unerwartete – Gemeinsamkeiten auf: Erstens lassen sich beide als Segmentierungsprobleme formalisieren. Zweitens hat die Molekularbiologie eine sehr flexible Hochdurchsatz-Experimentiertechnik entwickelt, sogenannte Tiling-Arrays (bzw. deren Weiterentwicklung zu Resequencing-Arrays), die es ermöglich, diese beiden (und weitere) Fragestellungen experimentell zubearbeiten. Im wesentlichen liefert diese Technik eine Sequenz von Messwerten, die in einem regelmäßigen Raster das gesamte Genom abdecken. Das Segmentierungsproblem bei der Analyse dieser Sequenzdaten besteht nun darin, die Teilbereiche zu erkennen, welche dem gesuchten biologischen Phänomen entsprechen, nämlich einerseits variable Genomregionen (im Unterschied zu solchen, wo sich Individuen nicht unterscheiden) und andererseits Segmente, aus denen mRNA-Moleküle generiert werden. Zur Lösung dieser Probleme entwickelte ich Segmentierungsmethoden, die auf der sogenannten Hidden Markov Support Vector Machine (HMSVM) basieren und sich durch folgende Eigenschaften auszeichnen: Genauigkeit der Vorhersagen war von entscheidender Bedeutung, da meine Resultate die Grundlage für weitergehende experimentelle Forschung bildeten. Wo vergleichbare Methoden verfügbar waren, konnte ich die stark verbesserte Genauigkeit der neu entwickelten Lernmethoden belegen.; Ich untersuchte empirisch, dass die hohe Genauigkeit teils einem ausgefeilten Modellierungsansatz und teils einem neuen diskriminativen Lernalgorithmus mit großer Robustheit gegen Rauschen zugeschrieben werden kann. Angesichts des starken Rauschens in Tiling-Array-Daten erwies sich Robustheit als Schlüsseleigenschaft.; Ein weiterer Schwerpunkt lag auf der Effizienz der Methoden. Analysen ganzer Genome erfordern schnelle Vorhersagealgorithmen, und angesichts langer Trainingssequenzen sind Lernmethoden im Vorteil, die bereits anhand weniger Trainingsbeispiele in der Lage sind, genaue Vorhersagen zu machen.; Die Verwandschaft zu Hidden Markov Modellen (HMMs) mit einem breiten Anwendungsspektrum in der Bioinformatik eröffnet für die Anwendung der HM- SVM viele Möglichkeiten über die hier beschriebenen hinaus.	de
dc.identifier.isbn	978-3-88579-415-8
dc.identifier.pissn	1617-5468
dc.identifier.uri	https://dl.gi.de/handle/20.500.12116/33785
dc.language.iso	de
dc.publisher	Gesellschaft für Informatik
dc.relation.ispartof	Ausgezeichnete Informatikdissertationen 2010
dc.relation.ispartofseries	Lecture Notes in Informatics (LNI) - Dissertations, Volume D-11
dc.title	Maschinelle Lernmethoden zur Analyse von Tiling-Array-Daten	de
gi.citation.endPage	380
gi.citation.publisherPlace	Bonn
gi.citation.startPage	371

Dateien

Originalbündel

1 - 1 von 1

Name:: 371.pdf
Größe:: 655.27 KB
Format:: Adobe Portable Document Format

Herunterladen

Sammlungen

D11 (2010) - Ausgezeichnete Informatikdissertationen