Architekturen für Klassifikation, Segmentierung und Lokalisierung -

Die Fortschritte im Bereich der Computer Vision wären ohne die kontinuierliche Weiterentwicklung effizienter und leistungsfähiger Netzwerkarchitekturen nicht möglich. Je nach Aufgabe – sei es Bildklassifikation, Objekterkennung oder Segmentierung – haben sich unterschiedliche Architekturen etabliert, die speziell auf die Anforderungen der jeweiligen Domäne zugeschnitten sind.

Dieser Artikel gibt einen Überblick über einige der bekanntesten und aktuell relevanten Architekturen wie YOLO, MobileNetV2, RetinaNet, SSD, Inception und weitere, erklärt deren Aufbau und vergleicht sie hinsichtlich ihrer Stärken, Schwächen und typischen Einsatzgebiete.

1. Bildklassifikation: Fokus auf Effizienz und Tiefe

MobileNetV2

MobileNetV2 wurde speziell für mobile und ressourcenbeschränkte Umgebungen entwickelt. Im Gegensatz zu klassischen CNNs setzt MobileNetV2 auf ein innovatives Design:

Depthwise Separable Convolutions: Zerlegung der klassischen Convolution in zwei Schritte (Depthwise + Pointwise), was den Rechenaufwand drastisch reduziert
Inverted Residuals: Anstelle von klassischen ResNet-ähnlichen Skip-Connections wird ein „schmal-breit-schmal“-Prinzip genutzt
Linear Bottlenecks: Verhindern Informationsverluste durch unnötige Aktivierungsfunktionen

Vorteile:

Extrem leichtgewichtig
Ideal für Edge-Devices und mobile Anwendungen
Gute Genauigkeit bei geringem Ressourcenverbrauch

Nachteile:

Geringere Top-Accuracy im Vergleich zu schwergewichtigeren Netzen wie ResNet oder EfficientNet
Nicht für sehr komplexe Aufgaben geeignet

Einsatzgebiete:

Mobile Apps, IoT, Echtzeit-Klassifikation auf Embedded-Hardware

Inception (GoogLeNet)

Die Inception-Architektur, bekannt geworden als GoogLeNet, brachte ein völlig neues Konzept in die Welt der CNNs. Anstatt sich auf eine feste Kernelgröße pro Layer zu beschränken, verarbeitet das Inception-Modul mehrere Filtergrößen parallel und kombiniert deren Ergebnisse.

Inception-Module: Parallel geschaltete Convolutions mit unterschiedlichen Kernelgrößen (1×1, 3×3, 5×5) plus Pooling
1×1 Convolutions als Dimension-Reduktion, um die Rechenlast gering zu halten
Fortschritte in späteren Versionen (Inception-v3, v4) mit zusätzlichen Optimierungen wie Factorized Convolutions und Auxiliary Classifiern

Vorteile:

Sehr gute Genauigkeit bei effizienter Nutzung von Rechenressourcen
Flexibel in der Feature-Extraktion durch Multi-Scale-Verarbeitung innerhalb eines Layers
Erfolgreich in vielen Wettbewerben (z. B. ImageNet 2014)

Nachteile:

Komplexere Architektur, schwieriger zu implementieren und zu verstehen als klassische CNNs
Größere Modelle im Vergleich zu Lightweight-Architekturen wie MobileNet

Einsatzgebiete:

Allgemeine Bildklassifikation, Feature-Extraktion für Transfer Learning, Forschungsanwendungen

2. Objekterkennung (Lokalisierung und Klassifikation in einem Schritt)

YOLO (You Only Look Once)

YOLO steht für Geschwindigkeit. Das Netzwerk behandelt Objekterkennung als Regressionsproblem: Vom Bild direkt zu Bounding Boxen und Klassen – in einem einzigen Durchlauf.

Grid-basiertes System: Das Bild wird in ein Gitter aufgeteilt, jede Zelle sagt Boxen und Klassen voraus
One-Stage-Detektor: Kein Region Proposal wie bei Faster R-CNN
Neuere Versionen (YOLOv5-v8) nutzen moderne Backbones und Optimierungstechniken

Vorteile:

Sehr schnell, Echtzeit-fähig
Einfach zu deployen
Gute Balance aus Genauigkeit und Geschwindigkeit

Nachteile:

Schwierigkeiten bei kleinen oder dicht gedrängten Objekten
Weniger präzise als komplexere Modelle wie RetinaNet oder Faster R-CNN

Einsatzgebiete:

Videoüberwachung, Drohnen, Automotive-ADAS, Anwendungen mit Echtzeit-Anforderungen

SSD (Single Shot MultiBox Detector)

SSD ist ein weiterer One-Stage-Detektor, ähnlich wie YOLO, aber mit einem anderen Ansatz:

Multi-Scale Feature Maps: SSD nutzt verschiedene Ebenen des Feature-Backbones, um Objekte unterschiedlicher Größe besser zu erkennen
Default Boxes (Anchor Boxes): Pro Feature Map-Position werden mehrere Boxen mit verschiedenen Größen und Verhältnissen vorhergesagt

Vorteile:

Besser bei variierenden Objektgrößen als frühe YOLO-Versionen
Schneller als Two-Stage-Detektoren
Flexibel kombinierbar mit verschiedenen Backbones (z. B. MobileNet-SSD)

Nachteile:

Nicht ganz so schnell wie YOLO bei ähnlicher Genauigkeit
Performance hängt stark von der Wahl der Default Boxes ab

Einsatzgebiete:

Mobile Objekterkennung, Embedded-Systeme, Industrieanwendungen

RetinaNet

RetinaNet löst das klassische Problem von One-Stage-Detektoren: das Klassenungleichgewicht zwischen wenigen Objekten und vielen Hintergrundbereichen.

Focal Loss: Dämpft den Einfluss leichter negativer Beispiele und fokussiert das Training auf schwierige Fälle
Verwendet ein Feature Pyramid Network (FPN), um Multi-Scale-Erkennung effizienter zu gestalten

Vorteile:

Sehr gute Genauigkeit, vergleichbar mit Two-Stage-Detektoren
Stärker bei kleinen oder schwer erkennbaren Objekten
One-Stage-Effizienz mit hoher Präzision

Nachteile:

Rechenintensiver als YOLO oder SSD
Nicht optimal für Echtzeit-Anwendungen ohne Optimierung

Einsatzgebiete:

Medizinische Bildanalyse, Sicherheitsüberwachung, Szenarien mit hoher Genauigkeitsanforderung

3. Bildsegmentierung: Präzise Pixel-Genauigkeit

U-Net

U-Net wurde ursprünglich für medizinische Bildverarbeitung entwickelt und hat sich als Standardarchitektur für Semantic Segmentation etabliert.

Encoder-Decoder-Struktur: Der Encoder extrahiert Features, der Decoder rekonstruiert das Bild auf Pixelebene
Skip-Connections: Direkte Verbindungen zwischen Encoder- und Decoder-Schichten sorgen dafür, dass feine Details erhalten bleiben

Vorteile:

Sehr präzise Segmentierung
Gut für kleinere Datensätze geeignet
Flexibel anpassbar

Nachteile:

Kann bei großen Bildern oder vielen Klassen speicherintensiv sein
Nicht ideal für Echtzeit-Szenarien ohne Anpassung

Einsatzgebiete:

Medizin, Satellitenbilder, landwirtschaftliche Anwendungen, Defekterkennung

DeepLab (v3+)

DeepLab-Modelle setzen auf Atrous Convolutions (dilated convolutions), um den Erfassungsbereich der Filter zu vergrößern, ohne die Auflösung zu verlieren.

Kombination aus Encoder-Decoder, Atrous Spatial Pyramid Pooling (ASPP) für Multi-Scale-Kontext

Vorteile:

State-of-the-Art Segmentierungsgenauigkeit
Starke Kontextverarbeitung

Nachteile:

Hoher Rechenaufwand
Komplexes Tuning erforderlich

Einsatzgebiete:

Autonomes Fahren (Straßenszenen), hochpräzise Segmentierungsaufgaben

Mask R-CNN
Mask R-CNN erweitert Faster R-CNN um eine zusätzliche Segmentierungskomponente und zählt zu den leistungsfähigsten Architekturen für Instance Segmentation – der Kombination aus Objekterkennung und pixelgenauer Masken-Vorhersage.

Zweischritt-Architektur: Zuerst Region Proposals über ein Region Proposal Network (RPN), anschließend Klassifikation, Bounding Box Regression und zusätzlich eine binäre Maske für jedes erkannte Objekt
RoIAlign statt RoIPool: Genauere Ausrichtung der Feature-Regionen zur Verbesserung der Segmentierungsqualität
Separate Masken für jedes Objekt: Im Gegensatz zu Semantic Segmentation wird jedes Objekt individuell segmentiert

Vorteile:

Sehr präzise bei Objekterkennung und Segmentierung
State-of-the-Art für Instance Segmentation
Flexibel erweiterbar (z. B. mit Keypoint-Erkennung für Human Pose Estimation)

Nachteile:

Vergleichsweise hohe Rechenlast
Aufwendiger in der Implementierung und im Training

Einsatzgebiete:

Medizinische Analyse mit Objekttrennung, autonome Systeme mit Mehrobjekterkennung, visuelle Qualitätskontrolle in der Industrie, Robotik

Vergleichstabelle der Architekturen

Architektur	Typ	Geschwindigkeit	Genauigkeit	Besonderheiten	Einsatzgebiet
MobileNetV2	Klassifikation	Sehr hoch	Mittel	Ressourcenoptimiert	Mobile, Edge, IoT
Inception	Klassifikation	Mittel	Hoch	Multi-Scale Inception-Module	Forschung, Transfer Learning
YOLO	Objekterkennung	Sehr hoch	Gut	Echtzeit, One-Stage	Echtzeit-Detection
SSD	Objekterkennung	Hoch	Gut	Multi-Scale Feature Maps	Embedded-Detection
RetinaNet	Objekterkennung	Mittel	Sehr gut	Focal Loss	Präzisions-Detection
U-Net	Segmentierung	Mittel	Sehr gut	Encoder-Decoder mit Skip-Links	Medizin, Forschung
DeepLab v3+	Segmentierung	Niedrig-Mittel	State-of-the-Art	Atrous Convolutions	Autonomes Fahren
Mask R-CNN	Segmentierung	Niedrig	Sehr hoch	Instance Segmentation, Region of Interest Align	Medizin, Robotik

Zusammenfassung

Mit der Ergänzung von Inception wird deutlich, wie unterschiedlich Architekturdesigns selbst innerhalb einer Disziplin wie der Klassifikation sein können. Während MobileNetV2 maximale Effizienz für mobile Geräte bietet, liefert Inception hohe Genauigkeit bei moderater Komplexität und bleibt dabei flexibel für Transfer Learning.

Die Wahl der richtigen Architektur hängt vom jeweiligen Einsatzzweck ab. Geschwindigkeit, Genauigkeit und Ressourcenverbrauch müssen immer gegeneinander abgewogen werden.

Ein Ausblick zeigt, dass hybride Architekturen und der Einsatz von Transformer-basierten Komponenten zunehmend an Bedeutung gewinnen. Ebenso rücken Optimierungen wie Quantisierung und spezialisierte Deployment-Strategien stärker in den Fokus.

Weitere Architekturen: ResNet, EfficientNet