Automatisierte Frucht- und Pflanzenerkennung in Apfelplantagen durch künstliche Intelligenz

Gerstenberger, MichaelKovalenko, MykytaPrzewozny, DavidMagnusson, JannesGassen, EikePawlak, JakubHirth, Jochenvon Hirschhausen, LauraRunde, DetlefHilsmann, AnnaEisert, PeterBosse, Sebastian2024-04-082024-04-082024978-3-88579-738-82944-7682https://dl.gi.de/handle/20.500.12116/43897Zwei wichtige Ziele des Precision Farming im Obstanbau sind die automatische Bonitur von Apfelplantagen und die Ernte von Äpfeln: Beide setzen voraus, dass Bäume und Früchte zuverlässig erkannt werden. Mittlerweile existieren erste öffentliche Datensätze zum Training von KI-Modellen zur Erkennung von Früchten in Obstplantagen, wie z. B. der Benchmark-Datensatz MinneApple mit über 1000 annotierten Bildern. Eine zentrale Herausforderung bleibt einerseits die begrenzte Generalisierbarkeit der Apfelerkennung, die mit diesen Datensätzen erzielt werden kann. Andererseits bestehen neben der Anzahl der Früchte weitere wichtige Kennzahlen im Obstanbau wie die Fläche der Blätter und Blüten, welche die Bäume im Frühjahr tragen und für die automatische Bonitur von Interesse sind. Die Ziele der hier vorgestellten Forschung sind daher (1) eine Erweiterung der Datenbasis, (2) die vergleichende Evaluation von state-of-the-art Objektdetektoren für die Apfelerkennung über verschiedene Datensätze hinweg und (3) eine neue Methode zur Segmentierung der Bäume. Um diese Ziele zu erreichen, wurden weitere Daten maschinengestützt erfasst und mehr als 600 Bilder mit Hilfe von interaktiven Verfahren annotiert. Diese nutzen jeweils ein vortrainiertes Modell, um dem Nutzer Vorschläge für die Position der Äpfel zu machen, die dann manuell korrigiert und ergänzt werden können. Für die Evaluierung der Apfelerkennung wurden gängige Modellarchitekturen zur Objekterkennung (YOLOv8, ResNet, SSD) für die Detektion von Äpfeln trainiert und im Sinne eines Modellvergleichs getestet. YoloV8 liefert die besten Ergebnisse für die Erkennung von Äpfeln am Baum, die mit einem F1-Wert von 0.77 insgesamt auch sehr hoch ist. Die Übertragbarkeit der Ergebnisse wurde durch eine Kreuzevaluierung mit MinneApple und MS-COCO überprüft und es zeigt sich, dass die Modelle bei Anwendung auf anderen Testdatensätze erheblich schlechter abschneiden als bei der Evaluierung in Bezug auf die zum Training gehörenden Testbilder. Voraussetzung für eine semantische Segmentierung ist die Erkennung der Bäume der vordersten Baumreihe, die hier ebenfalls untersucht wird. Hierbei kommt Deep Optical Flow (RAFT) zum Einsatz, das die Bewegungsparallaxe nutzt, um Tiefeninformationen zu schätzen, und keine rechenintensive Punktwolkenrekonstruktion erfordert. Das Verfahren liefert qualitativ gute Ergebnisse für einen Großteil der Bilder. Unsere Ergebnisse unterstreichen die Bedeutsamkeit von umfangreichen Datensätzen, die es erlauben, Modelle domänenspezifisch zu trainieren und vergleichend zu evaluieren.deSmart FarmingApfelanbauFruchterkennungBaumsegmentierungOptical FlowDeep LearningComputer VisionAutomatisierte Frucht- und Pflanzenerkennung in Apfelplantagen durch künstliche IntelligenzText/Conference Paper10.18420/giljt2024_491617-5468