Architekturen für Klassifikation, Segmentierung und Lokalisierung

Die Fortschritte im Bereich der Computer Vision wären ohne die kontinuierliche Weiterentwicklung effizienter und leistungsfähiger Netzwerkarchitekturen nicht möglich. Je nach Aufgabe – sei es Bildklassifikation, Objekterkennung oder Segmentierung – haben sich unterschiedliche Architekturen etabliert, die speziell auf die Anforderungen der jeweiligen Domäne zugeschnitten sind.

Dieser Artikel gibt einen Überblick über einige der bekanntesten und aktuell relevanten Architekturen wie YOLO, MobileNetV2, RetinaNet, SSD, Inception und weitere, erklärt deren Aufbau und vergleicht sie hinsichtlich ihrer Stärken, Schwächen und typischen Einsatzgebiete.

1. Bildklassifikation: Fokus auf Effizienz und Tiefe

MobileNetV2

MobileNetV2 wurde speziell für mobile und ressourcenbeschränkte Umgebungen entwickelt. Im Gegensatz zu klassischen CNNs setzt MobileNetV2 auf ein innovatives Design:

  • Depthwise Separable Convolutions: Zerlegung der klassischen Convolution in zwei Schritte (Depthwise + Pointwise), was den Rechenaufwand drastisch reduziert
  • Inverted Residuals: Anstelle von klassischen ResNet-ähnlichen Skip-Connections wird ein „schmal-breit-schmal“-Prinzip genutzt
  • Linear Bottlenecks: Verhindern Informationsverluste durch unnötige Aktivierungsfunktionen

Vorteile:

  • Extrem leichtgewichtig
  • Ideal für Edge-Devices und mobile Anwendungen
  • Gute Genauigkeit bei geringem Ressourcenverbrauch

Nachteile:

  • Geringere Top-Accuracy im Vergleich zu schwergewichtigeren Netzen wie ResNet oder EfficientNet
  • Nicht für sehr komplexe Aufgaben geeignet

Einsatzgebiete:

  • Mobile Apps, IoT, Echtzeit-Klassifikation auf Embedded-Hardware

Inception (GoogLeNet)

Die Inception-Architektur, bekannt geworden als GoogLeNet, brachte ein völlig neues Konzept in die Welt der CNNs. Anstatt sich auf eine feste Kernelgröße pro Layer zu beschränken, verarbeitet das Inception-Modul mehrere Filtergrößen parallel und kombiniert deren Ergebnisse.

  • Inception-Module: Parallel geschaltete Convolutions mit unterschiedlichen Kernelgrößen (1×1, 3×3, 5×5) plus Pooling
  • 1×1 Convolutions als Dimension-Reduktion, um die Rechenlast gering zu halten
  • Fortschritte in späteren Versionen (Inception-v3, v4) mit zusätzlichen Optimierungen wie Factorized Convolutions und Auxiliary Classifiern

Vorteile:

  • Sehr gute Genauigkeit bei effizienter Nutzung von Rechenressourcen
  • Flexibel in der Feature-Extraktion durch Multi-Scale-Verarbeitung innerhalb eines Layers
  • Erfolgreich in vielen Wettbewerben (z. B. ImageNet 2014)

Nachteile:

  • Komplexere Architektur, schwieriger zu implementieren und zu verstehen als klassische CNNs
  • Größere Modelle im Vergleich zu Lightweight-Architekturen wie MobileNet

Einsatzgebiete:

  • Allgemeine Bildklassifikation, Feature-Extraktion für Transfer Learning, Forschungsanwendungen

2. Objekterkennung (Lokalisierung und Klassifikation in einem Schritt)

YOLO (You Only Look Once)

YOLO steht für Geschwindigkeit. Das Netzwerk behandelt Objekterkennung als Regressionsproblem: Vom Bild direkt zu Bounding Boxen und Klassen – in einem einzigen Durchlauf.

  • Grid-basiertes System: Das Bild wird in ein Gitter aufgeteilt, jede Zelle sagt Boxen und Klassen voraus
  • One-Stage-Detektor: Kein Region Proposal wie bei Faster R-CNN
  • Neuere Versionen (YOLOv5-v8) nutzen moderne Backbones und Optimierungstechniken

Vorteile:

  • Sehr schnell, Echtzeit-fähig
  • Einfach zu deployen
  • Gute Balance aus Genauigkeit und Geschwindigkeit

Nachteile:

  • Schwierigkeiten bei kleinen oder dicht gedrängten Objekten
  • Weniger präzise als komplexere Modelle wie RetinaNet oder Faster R-CNN

Einsatzgebiete:

  • Videoüberwachung, Drohnen, Automotive-ADAS, Anwendungen mit Echtzeit-Anforderungen

SSD (Single Shot MultiBox Detector)

SSD ist ein weiterer One-Stage-Detektor, ähnlich wie YOLO, aber mit einem anderen Ansatz:

  • Multi-Scale Feature Maps: SSD nutzt verschiedene Ebenen des Feature-Backbones, um Objekte unterschiedlicher Größe besser zu erkennen
  • Default Boxes (Anchor Boxes): Pro Feature Map-Position werden mehrere Boxen mit verschiedenen Größen und Verhältnissen vorhergesagt

Vorteile:

  • Besser bei variierenden Objektgrößen als frühe YOLO-Versionen
  • Schneller als Two-Stage-Detektoren
  • Flexibel kombinierbar mit verschiedenen Backbones (z. B. MobileNet-SSD)

Nachteile:

  • Nicht ganz so schnell wie YOLO bei ähnlicher Genauigkeit
  • Performance hängt stark von der Wahl der Default Boxes ab

Einsatzgebiete:

  • Mobile Objekterkennung, Embedded-Systeme, Industrieanwendungen

RetinaNet

RetinaNet löst das klassische Problem von One-Stage-Detektoren: das Klassenungleichgewicht zwischen wenigen Objekten und vielen Hintergrundbereichen.

  • Focal Loss: Dämpft den Einfluss leichter negativer Beispiele und fokussiert das Training auf schwierige Fälle
  • Verwendet ein Feature Pyramid Network (FPN), um Multi-Scale-Erkennung effizienter zu gestalten

Vorteile:

  • Sehr gute Genauigkeit, vergleichbar mit Two-Stage-Detektoren
  • Stärker bei kleinen oder schwer erkennbaren Objekten
  • One-Stage-Effizienz mit hoher Präzision

Nachteile:

  • Rechenintensiver als YOLO oder SSD
  • Nicht optimal für Echtzeit-Anwendungen ohne Optimierung

Einsatzgebiete:

  • Medizinische Bildanalyse, Sicherheitsüberwachung, Szenarien mit hoher Genauigkeitsanforderung

3. Bildsegmentierung: Präzise Pixel-Genauigkeit

U-Net

U-Net wurde ursprünglich für medizinische Bildverarbeitung entwickelt und hat sich als Standardarchitektur für Semantic Segmentation etabliert.

  • Encoder-Decoder-Struktur: Der Encoder extrahiert Features, der Decoder rekonstruiert das Bild auf Pixelebene
  • Skip-Connections: Direkte Verbindungen zwischen Encoder- und Decoder-Schichten sorgen dafür, dass feine Details erhalten bleiben

Vorteile:

  • Sehr präzise Segmentierung
  • Gut für kleinere Datensätze geeignet
  • Flexibel anpassbar

Nachteile:

  • Kann bei großen Bildern oder vielen Klassen speicherintensiv sein
  • Nicht ideal für Echtzeit-Szenarien ohne Anpassung

Einsatzgebiete:

  • Medizin, Satellitenbilder, landwirtschaftliche Anwendungen, Defekterkennung

DeepLab (v3+)

DeepLab-Modelle setzen auf Atrous Convolutions (dilated convolutions), um den Erfassungsbereich der Filter zu vergrößern, ohne die Auflösung zu verlieren.

  • Kombination aus Encoder-Decoder, Atrous Spatial Pyramid Pooling (ASPP) für Multi-Scale-Kontext

Vorteile:

  • State-of-the-Art Segmentierungsgenauigkeit
  • Starke Kontextverarbeitung

Nachteile:

  • Hoher Rechenaufwand
  • Komplexes Tuning erforderlich

Einsatzgebiete:

  • Autonomes Fahren (Straßenszenen), hochpräzise Segmentierungsaufgaben

Mask R-CNN
Mask R-CNN erweitert Faster R-CNN um eine zusätzliche Segmentierungskomponente und zählt zu den leistungsfähigsten Architekturen für Instance Segmentation – der Kombination aus Objekterkennung und pixelgenauer Masken-Vorhersage.

  • Zweischritt-Architektur: Zuerst Region Proposals über ein Region Proposal Network (RPN), anschließend Klassifikation, Bounding Box Regression und zusätzlich eine binäre Maske für jedes erkannte Objekt
  • RoIAlign statt RoIPool: Genauere Ausrichtung der Feature-Regionen zur Verbesserung der Segmentierungsqualität
  • Separate Masken für jedes Objekt: Im Gegensatz zu Semantic Segmentation wird jedes Objekt individuell segmentiert

Vorteile:

  • Sehr präzise bei Objekterkennung und Segmentierung
  • State-of-the-Art für Instance Segmentation
  • Flexibel erweiterbar (z. B. mit Keypoint-Erkennung für Human Pose Estimation)

Nachteile:

  • Vergleichsweise hohe Rechenlast
  • Aufwendiger in der Implementierung und im Training

Einsatzgebiete:

  • Medizinische Analyse mit Objekttrennung, autonome Systeme mit Mehrobjekterkennung, visuelle Qualitätskontrolle in der Industrie, Robotik

Vergleichstabelle der Architekturen

ArchitekturTypGeschwindigkeitGenauigkeitBesonderheitenEinsatzgebiet
MobileNetV2KlassifikationSehr hochMittelRessourcenoptimiertMobile, Edge, IoT
InceptionKlassifikationMittelHochMulti-Scale Inception-ModuleForschung, Transfer Learning
YOLOObjekterkennungSehr hochGutEchtzeit, One-StageEchtzeit-Detection
SSDObjekterkennungHochGutMulti-Scale Feature MapsEmbedded-Detection
RetinaNetObjekterkennungMittelSehr gutFocal LossPräzisions-Detection
U-NetSegmentierungMittelSehr gutEncoder-Decoder mit Skip-LinksMedizin, Forschung
DeepLab v3+SegmentierungNiedrig-MittelState-of-the-ArtAtrous ConvolutionsAutonomes Fahren
Mask R-CNNSegmentierungNiedrigSehr hochInstance Segmentation, Region of Interest AlignMedizin, Robotik

Zusammenfassung

Mit der Ergänzung von Inception wird deutlich, wie unterschiedlich Architekturdesigns selbst innerhalb einer Disziplin wie der Klassifikation sein können. Während MobileNetV2 maximale Effizienz für mobile Geräte bietet, liefert Inception hohe Genauigkeit bei moderater Komplexität und bleibt dabei flexibel für Transfer Learning.

Die Wahl der richtigen Architektur hängt vom jeweiligen Einsatzzweck ab. Geschwindigkeit, Genauigkeit und Ressourcenverbrauch müssen immer gegeneinander abgewogen werden.

Ein Ausblick zeigt, dass hybride Architekturen und der Einsatz von Transformer-basierten Komponenten zunehmend an Bedeutung gewinnen. Ebenso rücken Optimierungen wie Quantisierung und spezialisierte Deployment-Strategien stärker in den Fokus.

Weitere Architekturen: ResNet, EfficientNet

Nach oben scrollen