Computer Vision und Generative KI

Sie möchten verstehen, wie Computer Bilder sehen und interpretieren, und gleichzeitig lernen, wie Sie mit KI beeindruckende visuelle Inhalte generieren können? Wenn Sie sich für die faszinierende Welt der Computervision und generativen KI-Modelle interessieren und diese Technologien praktisch einsetzen möchten, dann freuen Sie sich auf dieses Training. Von der Objekterkennung bis zur Text-to-Image-Generierung lernen Sie sowohl die theoretischen Grundlagen als auch die praktische Anwendung modernster KI-Bildverarbeitungs- und Generierungstechnologien. In praktischen Übungen in Google Colab trainieren Sie eigene Modelle und experimentieren mit State-of-the-Art Tools (z. B. Stable Diffusion).

Teilnahmezertifikat von Spirit in Projects Advanced

Show dates

Goals

Grundlagen der Computervision und Bildverarbeitung verstehen
Convolutional Neural Networks (CNNs) und Vision Transformers kennenlernen
Objekterkennung und Bildsegmentierung praktisch anwenden
Generative Modelle (GANs, Diffusion Models) verstehen und einsetzen
Text-to-Image und Image-to-Image Generierung beherrschen
Praktische Erfahrung mit aktuellen Tools (Stable Diffusion, DALL-E, Midjourney)
Fine-tuning und Anpassung von Computer Vision Modellen

Target Groups

AI Expert Data Scientist Software Entwickler ML Engineer System Architect Software Architect UX/UI Designer Content Creator und alle, die sich mit Computer Vision und generativer KI beschäftigen möchten

Inhalt

1. Grundlagen der Bildverarbeitung

Digitale Bilder: Pixel, Farben, Auflösungen
Bildvorverarbeitung und Augmentation
Feature Extraction
Klassische Computer Vision Methoden
Von klassischen Methoden zu Deep Learning

2. Convolutional Neural Networks (CNNs)

Architektur von CNNs
Convolutional Layer, Pooling, Aktivierungsfunktionen
Bekannte CNN-Architekturen: VGG, ResNet, EfficientNet
Transfer Learning mit vortrainierten Modellen
Praktische Übung: Bildklassifizierung mit Transfer Learning (Google Colab)

3. Vision Transformers (ViT)

Transformer-Architektur für Computer Vision
Self-Attention Mechanismus für Bilder
ViT vs. CNNs: Vor- und Nachteile
Hybride Ansätze
Praktische Übung: ViT für Bildklassifizierung

4. Objekterkennung und Lokalisierung

Object Detection: YOLO, R-CNN Familien
Single-Stage vs. Two-Stage Detectors
Bounding Boxes und Confidence Scores
Real-time Object Detection
Praktische Übung: Objekterkennung in Bildern und Videos (Google Colab)

5. Bildsegmentierung

Semantische vs. Instanz-Segmentierung
U-Net und Mask R-CNN
Anwendungsfälle: Medizin, autonomes Fahren
Praktische Übung: Bildsegmentierung mit vortrainierten Modellen

6. Weitere Computer Vision Anwendungen

Gesichtserkennung und Facial Landmarks
Pose Estimation
OCR (Optical Character Recognition)
Video-Analyse und Action Recognition
Praktische Übung: Multi-Task Computer Vision Pipeline

7. Grundlagen Generativer Modelle

Was sind generative Modelle?
Unterschied zu diskriminativen Modellen
Latent Space und Embeddings
Qualitätsmetriken für generierte Bilder (FID, IS)
Anwendungsgebiete und Ethik

8. Generative Adversarial Networks (GANs)

Architektur: Generator und Discriminator
Training-Dynamik und Mode Collapse
StyleGAN und Progressive Growing
Conditional GANs
Praktische Übung: Eigene GAN-Experimente (Google Colab)

9. Diffusion Models

Grundlagen von Diffusion Models
Forward und Reverse Process
Stable Diffusion Architektur
Latent Diffusion Models
Vorteile gegenüber GANs

10. Text-to-Image Generierung

OpenAI's und Google Text-to-Image Modelle
Open-Source Alternative (Stable Diffusion usw.)
Prompt Engineering für Bildgenerierung
Praktische Übung: Text-to-Image mit Stable Diffusion (Google Colab)

11. Image-to-Image Translation und Editing

Style Transfer
Image Inpainting und Outpainting
Super Resolution
ControlNet für präzise Bildkontrolle
Praktische Übung: Bildmanipulation mit KI-Tools

12. Video-Generierung

Text-to-Video: Runway Gen-2, Google Veo
Video-Editing mit KI
Frame Interpolation
Herausforderungen der Video-Generierung

13. Fine-tuning und Anpassung

Fine-tuning von vortrainierten Modellen
LoRA (Low-Rank Adaptation)
DreamBooth für personalisierte Modelle
Dataset Preparation
Praktische Übung: Custom Model Fine-tuning (Google Colab)

14. Tools und Plattformen

Hugging Face Diffusers
Stability AI
ComfyUI und Automatic1111 für Stable Diffusion
Commercial APIs: OpenAI DALL-E
Cloud-Plattformen für Computer Vision

15. Ethik und rechtliche Aspekte

Deepfakes und Missbrauch
Urheberrecht bei KI-generierten Bildern
Bias in Computer Vision Modellen
Wasserzeichen und Provenance
Verantwortungsvolle KI-Nutzung

Zertifizierung

Für dieses Training erhalten Sie ein Teilnahmezertifikat von Spirit in Projects.