Weitere Designs für Computer-Vision

Neben CBAM (Attention Layer) und FPN (Feature-Hierarchie) gibt es eine ganze Reihe spannender Layer-Designs und Architektur-Module im Bereich Computer Vision. Viele davon wurden entwickelt, um die klassischen CNNs weiter zu verbessern – sei es durch bessere Merkmalsrepräsentation, Effizienzsteigerung oder robustere Generalisierung.

Hier eine Auswahl besonders interessanter Architekturen:


1. SE-Block (Squeeze-and-Excitation Block)

→ Fokus: Kanalweise Aufmerksamkeit (ähnlich CBAM, aber ohne Spatial Attention)

  • „Squeeze“: Komprimiert Feature Map zu einem Kanal-Vektor (z. B. mittels Global Average Pooling).
  • „Excitation“: Erzeugt daraus Skalierungsfaktoren für jeden Kanal.
  • Vorteil: Geringer Rechenaufwand, gute Performance-Steigerung.
  • Wird z. B. in SENet, EfficientNet oder ResNeSt eingesetzt.

2. Non-local Blocks

→ Fokus: Kontextuelle Aufmerksamkeit – pixelübergreifend, unabhängig von der Distanz

  • Betrachtet Beziehungen zwischen allen Positionen im Bild.
  • Stark für Szenenverständnis, Segmentierung und Video-Analyse.
  • Vergleichbar mit Self-Attention in Transformers, aber innerhalb von CNNs.

3. Transformer-basierte Architekturen (z. B. ViT, Swin Transformer)

→ Fokus: Volle Attention über das gesamte Bild, keine Faltung mehr nötig

  • Statt lokaler Convolutions wird globale Self-Attention verwendet.
  • Vision Transformer (ViT): Bild wird in Patches zerlegt, ähnlich Wörtern in NLP.
  • Swin Transformer: Führt „lokale“ Attention in verschiebbaren Fenstern ein – effizienter bei großen Bildern.
  • Vorteil: Flexibilität, starker Transfer auf verschiedene Vision-Aufgaben.

4. GhostNet / Ghost Modules

→ Fokus: Reduktion redundanter Berechnungen

  • Erkennt, dass viele Feature Maps sehr ähnlich sind.
  • Erzeugt „echte“ Feature Maps mit wenig Convolution und „geisterhafte“ durch lineare Transformation.
  • Extrem effizient, ideal für Edge-Devices.

5. Hourglass-Netzwerke (z. B. für Pose Estimation)

→ Fokus: Multi-Skalen-Verarbeitung in symmetrischer Encoder-Decoder-Form

  • Mehrere Downsampling- und Upsampling-Pfade.
  • Bewährt für Aufgaben wie Mensch-Pose-Erkennung oder Dichte-Schätzung.

6. ASPP (Atrous Spatial Pyramid Pooling)

→ Fokus: Kontext-Erweiterung ohne Auflösungsverlust

  • Verschiedene Convolutions mit unterschiedlichen „dilations“ gleichzeitig.
  • Besonders in DeepLabV3(+) beliebt (Semantic Segmentation).

7. Deformable Convolutions

→ Fokus: Anpassung der Faltungspositionen an die Datenstruktur

  • Statt starrer Grid-Kernel wird die Sampling-Position „verschoben“.
  • Modell kann sich besser an Objektformen und Perspektiven anpassen.
  • Genutzt in Deformable ConvNets, DINO-DETR, u. a.

8. Dynamic Convolutions

→ Fokus: Die Filter selbst werden dynamisch generiert, je nach Eingabe

  • Unterschiedliche Filterantworten für unterschiedliche Eingaben.
  • Idee: statt „ein fester Filter passt allen“, wird pro Bild ein neuer berechnet.

9. CoordConv (Coordinate Convolution)

→ Fokus: Einfache Verbesserung für Lokalitätsbewusstsein

  • Fügt x- und y-Koordinaten als zusätzliche Kanäle hinzu.
  • Modelle können damit besser lernen, wo etwas im Bild ist.
  • Hilfreich bei Aufgaben wie z. B. Counting, Positionserkennung.

Inception Module

U-Net

Nach oben scrollen