Einloggen Registrierung

Computer Vision und Generative KI

Sie möchten verstehen, wie Computer Bilder sehen und interpretieren, und gleichzeitig lernen, wie Sie mit KI beeindruckende visuelle Inhalte generieren können? Wenn Sie sich für die faszinierende Welt der Computervision und generativen KI-Modelle interessieren und diese Technologien praktisch einsetzen möchten, dann freuen Sie sich auf dieses Training. Von der Objekterkennung bis zur Text-to-Image-Generierung lernen Sie sowohl die theoretischen Grundlagen als auch die praktische Anwendung modernster KI-Bildverarbeitungs- und Generierungstechnologien. In praktischen Übungen in Google Colab trainieren Sie eigene Modelle und experimentieren mit State-of-the-Art Tools (z. B. Stable Diffusion).

Teilnahmezertifikat von Spirit in Projects Advanced

AI Expert

Goals

  • Grundlagen der Computervision und Bildverarbeitung verstehen
  • Convolutional Neural Networks (CNNs) und Vision Transformers kennenlernen
  • Objekterkennung und Bildsegmentierung praktisch anwenden
  • Generative Modelle (GANs, Diffusion Models) verstehen und einsetzen
  • Text-to-Image und Image-to-Image Generierung beherrschen
  • Praktische Erfahrung mit aktuellen Tools (Stable Diffusion, DALL-E, Midjourney)
  • Fine-tuning und Anpassung von Computer Vision Modellen

Target Groups

AI Expert Data Scientist Software Entwickler ML Engineer System Architect Software Architect UX/UI Designer Content Creator und alle, die sich mit Computer Vision und generativer KI beschäftigen möchten

Inhalt

01

1. Grundlagen der Bildverarbeitung

  • Digitale Bilder: Pixel, Farben, Auflösungen
  • Bildvorverarbeitung und Augmentation
  • Feature Extraction
  • Klassische Computer Vision Methoden
  • Von klassischen Methoden zu Deep Learning
02

2. Convolutional Neural Networks (CNNs)

  • Architektur von CNNs
  • Convolutional Layer, Pooling, Aktivierungsfunktionen
  • Bekannte CNN-Architekturen: VGG, ResNet, EfficientNet
  • Transfer Learning mit vortrainierten Modellen
  • Praktische Übung: Bildklassifizierung mit Transfer Learning (Google Colab)
03

3. Vision Transformers (ViT)

  • Transformer-Architektur für Computer Vision
  • Self-Attention Mechanismus für Bilder
  • ViT vs. CNNs: Vor- und Nachteile
  • Hybride Ansätze
  • Praktische Übung: ViT für Bildklassifizierung
04

4. Objekterkennung und Lokalisierung

  • Object Detection: YOLO, R-CNN Familien
  • Single-Stage vs. Two-Stage Detectors
  • Bounding Boxes und Confidence Scores
  • Real-time Object Detection
  • Praktische Übung: Objekterkennung in Bildern und Videos (Google Colab)
05

5. Bildsegmentierung

  • Semantische vs. Instanz-Segmentierung
  • U-Net und Mask R-CNN
  • Anwendungsfälle: Medizin, autonomes Fahren
  • Praktische Übung: Bildsegmentierung mit vortrainierten Modellen
06

6. Weitere Computer Vision Anwendungen

  • Gesichtserkennung und Facial Landmarks
  • Pose Estimation
  • OCR (Optical Character Recognition)
  • Video-Analyse und Action Recognition
  • Praktische Übung: Multi-Task Computer Vision Pipeline
07

7. Grundlagen Generativer Modelle

  • Was sind generative Modelle?
  • Unterschied zu diskriminativen Modellen
  • Latent Space und Embeddings
  • Qualitätsmetriken für generierte Bilder (FID, IS)
  • Anwendungsgebiete und Ethik
08

8. Generative Adversarial Networks (GANs)

  • Architektur: Generator und Discriminator
  • Training-Dynamik und Mode Collapse
  • StyleGAN und Progressive Growing
  • Conditional GANs
  • Praktische Übung: Eigene GAN-Experimente (Google Colab)
09

9. Diffusion Models

  • Grundlagen von Diffusion Models
  • Forward und Reverse Process
  • Stable Diffusion Architektur
  • Latent Diffusion Models
  • Vorteile gegenüber GANs
10

10. Text-to-Image Generierung

  • OpenAI's und Google Text-to-Image Modelle
  • Open-Source Alternative (Stable Diffusion usw.)
  • Prompt Engineering für Bildgenerierung
  • Praktische Übung: Text-to-Image mit Stable Diffusion (Google Colab)
11

11. Image-to-Image Translation und Editing

  • Style Transfer
  • Image Inpainting und Outpainting
  • Super Resolution
  • ControlNet für präzise Bildkontrolle
  • Praktische Übung: Bildmanipulation mit KI-Tools
12

12. Video-Generierung

  • Text-to-Video: Runway Gen-2, Google Veo
  • Video-Editing mit KI
  • Frame Interpolation
  • Herausforderungen der Video-Generierung
13

13. Fine-tuning und Anpassung

  • Fine-tuning von vortrainierten Modellen
  • LoRA (Low-Rank Adaptation)
  • DreamBooth für personalisierte Modelle
  • Dataset Preparation
  • Praktische Übung: Custom Model Fine-tuning (Google Colab)
14

14. Tools und Plattformen

  • Hugging Face Diffusers
  • Stability AI
  • ComfyUI und Automatic1111 für Stable Diffusion
  • Commercial APIs: OpenAI DALL-E
  • Cloud-Plattformen für Computer Vision
15

15. Ethik und rechtliche Aspekte

  • Deepfakes und Missbrauch
  • Urheberrecht bei KI-generierten Bildern
  • Bias in Computer Vision Modellen
  • Wasserzeichen und Provenance
  • Verantwortungsvolle KI-Nutzung

Zertifizierung

Für dieses Training erhalten Sie ein Teilnahmezertifikat von Spirit in Projects.

More information on certifications

After completion we recommend

Certified Trainings

Internationally recognized certifications for your career.

Experienced Trainers

Learn from competent experts with practical experience.

Flexible Formats

Webinars, video trainings or on-site – exactly as you need it.