Neben CBAM (Attention Layer) und FPN (Feature-Hierarchie) gibt es eine ganze Reihe spannender Layer-Designs und Architektur-Module im Bereich Computer Vision. Viele davon wurden entwickelt, um die klassischen CNNs weiter zu verbessern – sei es durch bessere Merkmalsrepräsentation, Effizienzsteigerung oder robustere Generalisierung.
Hier eine Auswahl besonders interessanter Architekturen:
1. SE-Block (Squeeze-and-Excitation Block)
→ Fokus: Kanalweise Aufmerksamkeit (ähnlich CBAM, aber ohne Spatial Attention)
- „Squeeze“: Komprimiert Feature Map zu einem Kanal-Vektor (z. B. mittels Global Average Pooling).
- „Excitation“: Erzeugt daraus Skalierungsfaktoren für jeden Kanal.
- Vorteil: Geringer Rechenaufwand, gute Performance-Steigerung.
- Wird z. B. in SENet, EfficientNet oder ResNeSt eingesetzt.
2. Non-local Blocks
→ Fokus: Kontextuelle Aufmerksamkeit – pixelübergreifend, unabhängig von der Distanz
- Betrachtet Beziehungen zwischen allen Positionen im Bild.
- Stark für Szenenverständnis, Segmentierung und Video-Analyse.
- Vergleichbar mit Self-Attention in Transformers, aber innerhalb von CNNs.
3. Transformer-basierte Architekturen (z. B. ViT, Swin Transformer)
→ Fokus: Volle Attention über das gesamte Bild, keine Faltung mehr nötig
- Statt lokaler Convolutions wird globale Self-Attention verwendet.
- Vision Transformer (ViT): Bild wird in Patches zerlegt, ähnlich Wörtern in NLP.
- Swin Transformer: Führt „lokale“ Attention in verschiebbaren Fenstern ein – effizienter bei großen Bildern.
- Vorteil: Flexibilität, starker Transfer auf verschiedene Vision-Aufgaben.
4. GhostNet / Ghost Modules
→ Fokus: Reduktion redundanter Berechnungen
- Erkennt, dass viele Feature Maps sehr ähnlich sind.
- Erzeugt „echte“ Feature Maps mit wenig Convolution und „geisterhafte“ durch lineare Transformation.
- Extrem effizient, ideal für Edge-Devices.
5. Hourglass-Netzwerke (z. B. für Pose Estimation)
→ Fokus: Multi-Skalen-Verarbeitung in symmetrischer Encoder-Decoder-Form
- Mehrere Downsampling- und Upsampling-Pfade.
- Bewährt für Aufgaben wie Mensch-Pose-Erkennung oder Dichte-Schätzung.
6. ASPP (Atrous Spatial Pyramid Pooling)
→ Fokus: Kontext-Erweiterung ohne Auflösungsverlust
- Verschiedene Convolutions mit unterschiedlichen „dilations“ gleichzeitig.
- Besonders in DeepLabV3(+) beliebt (Semantic Segmentation).
7. Deformable Convolutions
→ Fokus: Anpassung der Faltungspositionen an die Datenstruktur
- Statt starrer Grid-Kernel wird die Sampling-Position „verschoben“.
- Modell kann sich besser an Objektformen und Perspektiven anpassen.
- Genutzt in Deformable ConvNets, DINO-DETR, u. a.
8. Dynamic Convolutions
→ Fokus: Die Filter selbst werden dynamisch generiert, je nach Eingabe
- Unterschiedliche Filterantworten für unterschiedliche Eingaben.
- Idee: statt „ein fester Filter passt allen“, wird pro Bild ein neuer berechnet.
9. CoordConv (Coordinate Convolution)
→ Fokus: Einfache Verbesserung für Lokalitätsbewusstsein
- Fügt x- und y-Koordinaten als zusätzliche Kanäle hinzu.
- Modelle können damit besser lernen, wo etwas im Bild ist.
- Hilfreich bei Aufgaben wie z. B. Counting, Positionserkennung.
Inception Module
U-Net