Worum geht’s?
Google hat ein neues KI-Modell namens Gemini Omni präsentiert, das die Videoerzeugung revolutionieren soll. Die Technologie erlaubt es Anwendern, aus unterschiedlichen Medientypen – darunter Texte, Fotos, Audiodateien und bereits vorhandene Videoclips – neue Bewegtbildinhalte zu generieren. Die Steuerung erfolgt dabei über natürlichsprachliche Anweisungen, wodurch auch Nutzer ohne technische Vorkenntnisse komplexe Videobearbeitungen vornehmen können.
Das System zeichnet sich durch die Fähigkeit aus, physikalische Prinzipien wie Schwerkraft und Bewegungsdynamik zu berücksichtigen. Dadurch wirken die generierten Videos realistischer und glaubwürdiger. Zusätzlich sorgt die KI dafür, dass Personen und Objekte über verschiedene Bearbeitungsschritte hinweg konsistent bleiben, was die Kontinuität der Erzählung sicherstellt.
Hintergrund & Einordnung
Die Multimodalität von Gemini Omni erlaubt es, verschiedene Eingabeformate miteinander zu kombinieren. Nutzer können beispielsweise Bilder als visuelle Referenzen einsetzen, Videoclips für Bewegungsmuster verwenden und Audio hinzufügen, um die Stimmung des Endprodukts zu beeinflussen. Die schrittweise Bearbeitung durch aufeinander aufbauende Textbefehle ermöglicht eine präzise Anpassung der Ergebnisse.
Google integriert das neue Modell in sein bestehendes Ökosystem: Abonnenten der Dienste Google AI Plus, Pro und Ultra erhalten über die Gemini-App sowie Google Flow Zugang zur Technologie. Für Nutzer von YouTube Shorts und YouTube Create wird die Funktion kostenfrei bereitgestellt. Alle erzeugten Videos werden mit SynthID gekennzeichnet – einem digitalen Wasserzeichen, das die Herkunft der Inhalte nachvollziehbar macht und die Authentizität dokumentiert.
Die Verfügbarkeit längerer Videoformate ist bereits in Planung und soll zeitnah realisiert werden. Damit positioniert sich Google im wachsenden Markt der KI-gestützten Content-Erstellung und bietet sowohl professionellen Kreativen als auch Gelegenheitsnutzern neue Möglichkeiten zur Videoproduktion.
Was bedeutet das?
- Kreative erhalten Zugang zu einem mächtigen Werkzeug, das die Videoproduktion demokratisiert und technische Hürden senkt
- Die Integration in YouTube-Dienste könnte die Art und Weise verändern, wie Inhalte für Social Media erstellt werden
- Das digitale Wasserzeichen SynthID trägt zur Transparenz bei und hilft, KI-generierte Inhalte zu identifizieren
- Die physikalische Konsistenz des Modells hebt die Qualität generierter Videos auf ein neues Niveau
- Googles Schritt markiert einen weiteren Meilenstein im Wettbewerb der Tech-Konzerne um führende KI-Videotechnologie
Quellen
Google bringt neue Gemini-App, mit der sich Videos aus fast allem erstellen lassen (PC Welt)
Google Blog: Gemini Omni Models
TechCrunch: Google’s Gemini Omni turns images, audio and text into video
Google Gemini: Video Generation Overview
Dieser Artikel wurde mit KI erstellt und basiert auf den angegebenen Quellen sowie den Trainingsdaten des Sprachmodells.
Weiterführender Artikel: KI-Video: 2016 bis 2026 – Von zuckenden Pixeln zur gläsernen Realität
