Computer Vision und Generative KI

Für dieses Training erhalten Sie ein Teilnahmezertifikat von Spirit in Projects

Sie möchten verstehen, wie Computer Bilder sehen und interpretieren, und gleichzeitig lernen, wie Sie mit KI beeindruckende visuelle Inhalte generieren können? Wenn Sie sich für die faszinierende Welt der Computervision und generativen KI-Modelle interessieren und diese Technologien praktisch einsetzen möchten, dann freuen Sie sich auf dieses Training. Von der Objekterkennung bis zur Text-to-Image-Generierung lernen Sie sowohl die theoretischen Grundlagen als auch die praktische Anwendung modernster KI-Bildverarbeitungs- und Generierungstechnologien. In praktischen Übungen in Google Colab trainieren Sie eigene Modelle und experimentieren mit State-of-the-Art Tools (z. B. Stable Diffusion).

Wir empfehlen:

alt " "

Ziele

  • Grundlagen der Computervision und Bildverarbeitung verstehen
  • Convolutional Neural Networks (CNNs) und Vision Transformers kennenlernen
  • Objekterkennung und Bildsegmentierung praktisch anwenden
  • Generative Modelle (GANs, Diffusion Models) verstehen und einsetzen
  • Text-to-Image und Image-to-Image Generierung beherrschen
  • Praktische Erfahrung mit aktuellen Tools (Stable Diffusion, DALL-E, Midjourney)
  • Fine-tuning und Anpassung von Computer Vision Modellen

Zielgruppen:

AI Expert, Data Scientist, Software Entwickler, ML Engineer, System Architect, Software Architect, UX/UI Designer, Content Creator und alle, die sich mit Computer Vision und generativer KI beschäftigen möchten.

Inhalt

1. Grundlagen der Bildverarbeitung

  • Digitale Bilder: Pixel, Farben, Auflösungen
  • Bildvorverarbeitung und Augmentation
  • Feature Extraction
  • Klassische Computer Vision Methoden
  • Von klassischen Methoden zu Deep Learning

2. Convolutional Neural Networks (CNNs)

  • Architektur von CNNs
  • Convolutional Layer, Pooling, Aktivierungsfunktionen
  • Bekannte CNN-Architekturen: VGG, ResNet, EfficientNet
  • Transfer Learning mit vortrainierten Modellen
  • Praktische Übung: Bildklassifizierung mit Transfer Learning (Google Colab)

3. Vision Transformers (ViT)

  • Transformer-Architektur für Computer Vision
  • Self-Attention Mechanismus für Bilder
  • ViT vs. CNNs: Vor- und Nachteile
  • Hybride Ansätze
  • Praktische Übung: ViT für Bildklassifizierung

4. Objekterkennung und Lokalisierung

  • Object Detection: YOLO, R-CNN Familien
  • Single-Stage vs. Two-Stage Detectors
  • Bounding Boxes und Confidence Scores
  • Real-time Object Detection
  • Praktische Übung: Objekterkennung in Bildern und Videos (Google Colab)

5. Bildsegmentierung

  • Semantische vs. Instanz-Segmentierung
  • U-Net und Mask R-CNN
  • Anwendungsfälle: Medizin, autonomes Fahren
  • Praktische Übung: Bildsegmentierung mit vortrainierten Modellen

6. Weitere Computer Vision Anwendungen

  • Gesichtserkennung und Facial Landmarks
  • Pose Estimation
  • OCR (Optical Character Recognition)
  • Video-Analyse und Action Recognition
  • Praktische Übung: Multi-Task Computer Vision Pipeline

7. Grundlagen Generativer Modelle

  • Was sind generative Modelle?
  • Unterschied zu diskriminativen Modellen
  • Latent Space und Embeddings
  • Qualitätsmetriken für generierte Bilder (FID, IS)
  • Anwendungsgebiete und Ethik

8. Generative Adversarial Networks (GANs)

  • Architektur: Generator und Discriminator
  • Training-Dynamik und Mode Collapse
  • StyleGAN und Progressive Growing
  • Conditional GANs
  • Praktische Übung: Eigene GAN-Experimente (Google Colab)

9. Diffusion Models

  • Grundlagen von Diffusion Models
  • Forward und Reverse Process
  • Stable Diffusion Architektur
  • Latent Diffusion Models
  • Vorteile gegenüber GANs

10. Text-to-Image Generierung

  • OpenAI’s und Google Text-to-Image Modelle
  • Open-Source Alternative (Stable Diffusion usw.)
  • Prompt Engineering für Bildgenerierung
  • Praktische Übung: Text-to-Image mit Stable Diffusion (Google Colab)

11. Image-to-Image Translation und Editing

  • Style Transfer
  • Image Inpainting und Outpainting
  • Super Resolution
  • ControlNet für präzise Bildkontrolle
  • Praktische Übung: Bildmanipulation mit KI-Tools

12. Video-Generierung

  • Text-to-Video: Runway Gen-2, Google Veo
  • Video-Editing mit KI
  • Frame Interpolation
  • Herausforderungen der Video-Generierung

13. Fine-tuning und Anpassung

  • Fine-tuning von vortrainierten Modellen
  • LoRA (Low-Rank Adaptation)
  • DreamBooth für personalisierte Modelle
  • Dataset Preparation
  • Praktische Übung: Custom Model Fine-tuning (Google Colab)

14. Tools und Plattformen

  • Hugging Face Diffusers
  • Stability AI
  • ComfyUI und Automatic1111 für Stable Diffusion
  • Commercial APIs: OpenAI DALL-E
  • Cloud-Plattformen für Computer Vision

15. Ethik und rechtliche Aspekte

  • Deepfakes und Missbrauch
  • Urheberrecht bei KI-generierten Bildern
  • Bias in Computer Vision Modellen
  • Wasserzeichen und Provenance
  • Verantwortungsvolle KI-Nutzung

Nach Absolvierung empfehlen wir:

  • AI Testing

    Für dieses Training erhalten Sie ein Teilnahmezertifikat von Spirit in Projects.

Spirit in Projects