Die Fortschritte im Bereich der Computer Vision wären ohne die kontinuierliche Weiterentwicklung effizienter und leistungsfähiger Netzwerkarchitekturen nicht möglich. Je nach Aufgabe – sei es Bildklassifikation, Objekterkennung oder Segmentierung – haben sich unterschiedliche Architekturen etabliert, die speziell auf die Anforderungen der jeweiligen Domäne zugeschnitten sind.
Dieser Artikel gibt einen Überblick über einige der bekanntesten und aktuell relevanten Architekturen wie YOLO, MobileNetV2, RetinaNet, SSD, Inception und weitere, erklärt deren Aufbau und vergleicht sie hinsichtlich ihrer Stärken, Schwächen und typischen Einsatzgebiete.
1. Bildklassifikation: Fokus auf Effizienz und Tiefe
MobileNetV2
MobileNetV2 wurde speziell für mobile und ressourcenbeschränkte Umgebungen entwickelt. Im Gegensatz zu klassischen CNNs setzt MobileNetV2 auf ein innovatives Design:
- Depthwise Separable Convolutions: Zerlegung der klassischen Convolution in zwei Schritte (Depthwise + Pointwise), was den Rechenaufwand drastisch reduziert
- Inverted Residuals: Anstelle von klassischen ResNet-ähnlichen Skip-Connections wird ein „schmal-breit-schmal“-Prinzip genutzt
- Linear Bottlenecks: Verhindern Informationsverluste durch unnötige Aktivierungsfunktionen
Vorteile:
- Extrem leichtgewichtig
- Ideal für Edge-Devices und mobile Anwendungen
- Gute Genauigkeit bei geringem Ressourcenverbrauch
Nachteile:
- Geringere Top-Accuracy im Vergleich zu schwergewichtigeren Netzen wie ResNet oder EfficientNet
- Nicht für sehr komplexe Aufgaben geeignet
Einsatzgebiete:
- Mobile Apps, IoT, Echtzeit-Klassifikation auf Embedded-Hardware
Inception (GoogLeNet)
Die Inception-Architektur, bekannt geworden als GoogLeNet, brachte ein völlig neues Konzept in die Welt der CNNs. Anstatt sich auf eine feste Kernelgröße pro Layer zu beschränken, verarbeitet das Inception-Modul mehrere Filtergrößen parallel und kombiniert deren Ergebnisse.
- Inception-Module: Parallel geschaltete Convolutions mit unterschiedlichen Kernelgrößen (1×1, 3×3, 5×5) plus Pooling
- 1×1 Convolutions als Dimension-Reduktion, um die Rechenlast gering zu halten
- Fortschritte in späteren Versionen (Inception-v3, v4) mit zusätzlichen Optimierungen wie Factorized Convolutions und Auxiliary Classifiern
Vorteile:
- Sehr gute Genauigkeit bei effizienter Nutzung von Rechenressourcen
- Flexibel in der Feature-Extraktion durch Multi-Scale-Verarbeitung innerhalb eines Layers
- Erfolgreich in vielen Wettbewerben (z. B. ImageNet 2014)
Nachteile:
- Komplexere Architektur, schwieriger zu implementieren und zu verstehen als klassische CNNs
- Größere Modelle im Vergleich zu Lightweight-Architekturen wie MobileNet
Einsatzgebiete:
- Allgemeine Bildklassifikation, Feature-Extraktion für Transfer Learning, Forschungsanwendungen
2. Objekterkennung (Lokalisierung und Klassifikation in einem Schritt)
YOLO (You Only Look Once)
YOLO steht für Geschwindigkeit. Das Netzwerk behandelt Objekterkennung als Regressionsproblem: Vom Bild direkt zu Bounding Boxen und Klassen – in einem einzigen Durchlauf.
- Grid-basiertes System: Das Bild wird in ein Gitter aufgeteilt, jede Zelle sagt Boxen und Klassen voraus
- One-Stage-Detektor: Kein Region Proposal wie bei Faster R-CNN
- Neuere Versionen (YOLOv5-v8) nutzen moderne Backbones und Optimierungstechniken
Vorteile:
- Sehr schnell, Echtzeit-fähig
- Einfach zu deployen
- Gute Balance aus Genauigkeit und Geschwindigkeit
Nachteile:
- Schwierigkeiten bei kleinen oder dicht gedrängten Objekten
- Weniger präzise als komplexere Modelle wie RetinaNet oder Faster R-CNN
Einsatzgebiete:
- Videoüberwachung, Drohnen, Automotive-ADAS, Anwendungen mit Echtzeit-Anforderungen
SSD (Single Shot MultiBox Detector)
SSD ist ein weiterer One-Stage-Detektor, ähnlich wie YOLO, aber mit einem anderen Ansatz:
- Multi-Scale Feature Maps: SSD nutzt verschiedene Ebenen des Feature-Backbones, um Objekte unterschiedlicher Größe besser zu erkennen
- Default Boxes (Anchor Boxes): Pro Feature Map-Position werden mehrere Boxen mit verschiedenen Größen und Verhältnissen vorhergesagt
Vorteile:
- Besser bei variierenden Objektgrößen als frühe YOLO-Versionen
- Schneller als Two-Stage-Detektoren
- Flexibel kombinierbar mit verschiedenen Backbones (z. B. MobileNet-SSD)
Nachteile:
- Nicht ganz so schnell wie YOLO bei ähnlicher Genauigkeit
- Performance hängt stark von der Wahl der Default Boxes ab
Einsatzgebiete:
- Mobile Objekterkennung, Embedded-Systeme, Industrieanwendungen
RetinaNet
RetinaNet löst das klassische Problem von One-Stage-Detektoren: das Klassenungleichgewicht zwischen wenigen Objekten und vielen Hintergrundbereichen.
- Focal Loss: Dämpft den Einfluss leichter negativer Beispiele und fokussiert das Training auf schwierige Fälle
- Verwendet ein Feature Pyramid Network (FPN), um Multi-Scale-Erkennung effizienter zu gestalten
Vorteile:
- Sehr gute Genauigkeit, vergleichbar mit Two-Stage-Detektoren
- Stärker bei kleinen oder schwer erkennbaren Objekten
- One-Stage-Effizienz mit hoher Präzision
Nachteile:
- Rechenintensiver als YOLO oder SSD
- Nicht optimal für Echtzeit-Anwendungen ohne Optimierung
Einsatzgebiete:
- Medizinische Bildanalyse, Sicherheitsüberwachung, Szenarien mit hoher Genauigkeitsanforderung
3. Bildsegmentierung: Präzise Pixel-Genauigkeit
U-Net
U-Net wurde ursprünglich für medizinische Bildverarbeitung entwickelt und hat sich als Standardarchitektur für Semantic Segmentation etabliert.
- Encoder-Decoder-Struktur: Der Encoder extrahiert Features, der Decoder rekonstruiert das Bild auf Pixelebene
- Skip-Connections: Direkte Verbindungen zwischen Encoder- und Decoder-Schichten sorgen dafür, dass feine Details erhalten bleiben
Vorteile:
- Sehr präzise Segmentierung
- Gut für kleinere Datensätze geeignet
- Flexibel anpassbar
Nachteile:
- Kann bei großen Bildern oder vielen Klassen speicherintensiv sein
- Nicht ideal für Echtzeit-Szenarien ohne Anpassung
Einsatzgebiete:
- Medizin, Satellitenbilder, landwirtschaftliche Anwendungen, Defekterkennung
DeepLab (v3+)
DeepLab-Modelle setzen auf Atrous Convolutions (dilated convolutions), um den Erfassungsbereich der Filter zu vergrößern, ohne die Auflösung zu verlieren.
- Kombination aus Encoder-Decoder, Atrous Spatial Pyramid Pooling (ASPP) für Multi-Scale-Kontext
Vorteile:
- State-of-the-Art Segmentierungsgenauigkeit
- Starke Kontextverarbeitung
Nachteile:
- Hoher Rechenaufwand
- Komplexes Tuning erforderlich
Einsatzgebiete:
- Autonomes Fahren (Straßenszenen), hochpräzise Segmentierungsaufgaben
Mask R-CNN
Mask R-CNN erweitert Faster R-CNN um eine zusätzliche Segmentierungskomponente und zählt zu den leistungsfähigsten Architekturen für Instance Segmentation – der Kombination aus Objekterkennung und pixelgenauer Masken-Vorhersage.
- Zweischritt-Architektur: Zuerst Region Proposals über ein Region Proposal Network (RPN), anschließend Klassifikation, Bounding Box Regression und zusätzlich eine binäre Maske für jedes erkannte Objekt
- RoIAlign statt RoIPool: Genauere Ausrichtung der Feature-Regionen zur Verbesserung der Segmentierungsqualität
- Separate Masken für jedes Objekt: Im Gegensatz zu Semantic Segmentation wird jedes Objekt individuell segmentiert
Vorteile:
- Sehr präzise bei Objekterkennung und Segmentierung
- State-of-the-Art für Instance Segmentation
- Flexibel erweiterbar (z. B. mit Keypoint-Erkennung für Human Pose Estimation)
Nachteile:
- Vergleichsweise hohe Rechenlast
- Aufwendiger in der Implementierung und im Training
Einsatzgebiete:
- Medizinische Analyse mit Objekttrennung, autonome Systeme mit Mehrobjekterkennung, visuelle Qualitätskontrolle in der Industrie, Robotik
Vergleichstabelle der Architekturen
Architektur | Typ | Geschwindigkeit | Genauigkeit | Besonderheiten | Einsatzgebiet |
---|---|---|---|---|---|
MobileNetV2 | Klassifikation | Sehr hoch | Mittel | Ressourcenoptimiert | Mobile, Edge, IoT |
Inception | Klassifikation | Mittel | Hoch | Multi-Scale Inception-Module | Forschung, Transfer Learning |
YOLO | Objekterkennung | Sehr hoch | Gut | Echtzeit, One-Stage | Echtzeit-Detection |
SSD | Objekterkennung | Hoch | Gut | Multi-Scale Feature Maps | Embedded-Detection |
RetinaNet | Objekterkennung | Mittel | Sehr gut | Focal Loss | Präzisions-Detection |
U-Net | Segmentierung | Mittel | Sehr gut | Encoder-Decoder mit Skip-Links | Medizin, Forschung |
DeepLab v3+ | Segmentierung | Niedrig-Mittel | State-of-the-Art | Atrous Convolutions | Autonomes Fahren |
Mask R-CNN | Segmentierung | Niedrig | Sehr hoch | Instance Segmentation, Region of Interest Align | Medizin, Robotik |
Zusammenfassung
Mit der Ergänzung von Inception wird deutlich, wie unterschiedlich Architekturdesigns selbst innerhalb einer Disziplin wie der Klassifikation sein können. Während MobileNetV2 maximale Effizienz für mobile Geräte bietet, liefert Inception hohe Genauigkeit bei moderater Komplexität und bleibt dabei flexibel für Transfer Learning.
Die Wahl der richtigen Architektur hängt vom jeweiligen Einsatzzweck ab. Geschwindigkeit, Genauigkeit und Ressourcenverbrauch müssen immer gegeneinander abgewogen werden.
Ein Ausblick zeigt, dass hybride Architekturen und der Einsatz von Transformer-basierten Komponenten zunehmend an Bedeutung gewinnen. Ebenso rücken Optimierungen wie Quantisierung und spezialisierte Deployment-Strategien stärker in den Fokus.
Weitere Architekturen: ResNet, EfficientNet