Weitere Layer-Designs für Computer-Vision -

Neben CBAM (Attention Layer) und FPN (Feature-Hierarchie) gibt es eine ganze Reihe spannender Layer-Designs und Architektur-Module im Bereich Computer Vision. Viele davon wurden entwickelt, um die klassischen CNNs weiter zu verbessern – sei es durch bessere Merkmalsrepräsentation, Effizienzsteigerung oder robustere Generalisierung.

Hier eine Auswahl besonders interessanter Architekturen:

1. SE-Block (Squeeze-and-Excitation Block)

→ Fokus: Kanalweise Aufmerksamkeit (ähnlich CBAM, aber ohne Spatial Attention)

„Squeeze“: Komprimiert Feature Map zu einem Kanal-Vektor (z. B. mittels Global Average Pooling).
„Excitation“: Erzeugt daraus Skalierungsfaktoren für jeden Kanal.
Vorteil: Geringer Rechenaufwand, gute Performance-Steigerung.
Wird z. B. in SENet, EfficientNet oder ResNeSt eingesetzt.

2. Non-local Blocks

→ Fokus: Kontextuelle Aufmerksamkeit – pixelübergreifend, unabhängig von der Distanz

Betrachtet Beziehungen zwischen allen Positionen im Bild.
Stark für Szenenverständnis, Segmentierung und Video-Analyse.
Vergleichbar mit Self-Attention in Transformers, aber innerhalb von CNNs.

3. Transformer-basierte Architekturen (z. B. ViT, Swin Transformer)

→ Fokus: Volle Attention über das gesamte Bild, keine Faltung mehr nötig

Statt lokaler Convolutions wird globale Self-Attention verwendet.
Vision Transformer (ViT): Bild wird in Patches zerlegt, ähnlich Wörtern in NLP.
Swin Transformer: Führt „lokale“ Attention in verschiebbaren Fenstern ein – effizienter bei großen Bildern.
Vorteil: Flexibilität, starker Transfer auf verschiedene Vision-Aufgaben.

4. GhostNet / Ghost Modules

→ Fokus: Reduktion redundanter Berechnungen

Erkennt, dass viele Feature Maps sehr ähnlich sind.
Erzeugt „echte“ Feature Maps mit wenig Convolution und „geisterhafte“ durch lineare Transformation.
Extrem effizient, ideal für Edge-Devices.

5. Hourglass-Netzwerke (z. B. für Pose Estimation)

→ Fokus: Multi-Skalen-Verarbeitung in symmetrischer Encoder-Decoder-Form

Mehrere Downsampling- und Upsampling-Pfade.
Bewährt für Aufgaben wie Mensch-Pose-Erkennung oder Dichte-Schätzung.

6. ASPP (Atrous Spatial Pyramid Pooling)

→ Fokus: Kontext-Erweiterung ohne Auflösungsverlust

Verschiedene Convolutions mit unterschiedlichen „dilations“ gleichzeitig.
Besonders in DeepLabV3(+) beliebt (Semantic Segmentation).

7. Deformable Convolutions

→ Fokus: Anpassung der Faltungspositionen an die Datenstruktur

Statt starrer Grid-Kernel wird die Sampling-Position „verschoben“.
Modell kann sich besser an Objektformen und Perspektiven anpassen.
Genutzt in Deformable ConvNets, DINO-DETR, u. a.

8. Dynamic Convolutions

→ Fokus: Die Filter selbst werden dynamisch generiert, je nach Eingabe

Unterschiedliche Filterantworten für unterschiedliche Eingaben.
Idee: statt „ein fester Filter passt allen“, wird pro Bild ein neuer berechnet.

9. CoordConv (Coordinate Convolution)

→ Fokus: Einfache Verbesserung für Lokalitätsbewusstsein

Fügt x- und y-Koordinaten als zusätzliche Kanäle hinzu.
Modelle können damit besser lernen, wo etwas im Bild ist.
Hilfreich bei Aufgaben wie z. B. Counting, Positionserkennung.