Techniken des maschinellen Lernens zur Analyse von Hochdurchsatz-DNA- und RNA-Sequenzierungsdaten

Klambauer, GünterHölldobler, Steffen2020-08-212020-08-212015978-3-88579-419-6https://dl.gi.de/handle/20.500.12116/33831Die Bioinformatik ist seit vielen Jahren wichtiger Bestandteil der Forschung in der Medizin, Biologie, Pharmakologie, Molekularbiologie und Genetik und viele wissenschaftliche Erkenntnisse wären ohne die Bioinformatik gar nicht möglich gewesen. Seit der Entwicklung der Hochdurchsatz-Sequenzierung vor etwa 10 Jahren sind die wissenschaftlichen Erkenntnisse in den Life Sciences explodiert, da man DNA und RNA Sequenzen innerhalb von wenigen Tagen entschlüsseln kann. In dieser Arbeit werden zwei neue Methoden zur Analyse von Hochdurchsatz-Sequenzierungsdaten, genannt "cn.MOPS" und "DEXUS", präsentiert: cn.MOPS identifiziert Kopienzahlvariationen in DNA-Sequenzierungsdaten und DEXUS detektiert differenziell exprimierte Gene in RNA-Sequenzierungsdaten. Beide Methoden basieren auf einem probabilistischen Modell und sind rechnerisch sehr effizient, so dass sie große Mengen an Daten verarbeiten können, was in der Bioinformatik ein wichtiges Kriterium ist. cn.MOPS und DEXUS wurden auf einer großen Zahl von Benchmark-Datensätzen und auch auf vielen Datensätzen mit hoch relevanten biologischen Fragestellungen getestet. Auf diesen Datensätzen liefern sie hervorragende Ergebnisse.deBioinformatikmaschinelles LernenSequenzierungEM-AlgorithmusStatistikTechniken des maschinellen Lernens zur Analyse von Hochdurchsatz-DNA- und RNA-Sequenzierungsdaten1617-5468