Google stellt Gemini Omni vor: KI-App erstellt Videos aus Medien

Worum geht’s?

Google hat ein neues KI-Modell namens Gemini Omni präsentiert, das die Videoerzeugung revolutionieren soll. Die Technologie erlaubt es Anwendern, aus unterschiedlichen Medientypen – darunter Texte, Fotos, Audiodateien und bereits vorhandene Videoclips – neue Bewegtbildinhalte zu generieren. Die Steuerung erfolgt dabei über natürlichsprachliche Anweisungen, wodurch auch Nutzer ohne technische Vorkenntnisse komplexe Videobearbeitungen vornehmen können.

Das System zeichnet sich durch die Fähigkeit aus, physikalische Prinzipien wie Schwerkraft und Bewegungsdynamik zu berücksichtigen. Dadurch wirken die generierten Videos realistischer und glaubwürdiger. Zusätzlich sorgt die KI dafür, dass Personen und Objekte über verschiedene Bearbeitungsschritte hinweg konsistent bleiben, was die Kontinuität der Erzählung sicherstellt.

Hintergrund & Einordnung

Die Multimodalität von Gemini Omni erlaubt es, verschiedene Eingabeformate miteinander zu kombinieren. Nutzer können beispielsweise Bilder als visuelle Referenzen einsetzen, Videoclips für Bewegungsmuster verwenden und Audio hinzufügen, um die Stimmung des Endprodukts zu beeinflussen. Die schrittweise Bearbeitung durch aufeinander aufbauende Textbefehle ermöglicht eine präzise Anpassung der Ergebnisse.

Google integriert das neue Modell in sein bestehendes Ökosystem: Abonnenten der Dienste Google AI Plus, Pro und Ultra erhalten über die Gemini-App sowie Google Flow Zugang zur Technologie. Für Nutzer von YouTube Shorts und YouTube Create wird die Funktion kostenfrei bereitgestellt. Alle erzeugten Videos werden mit SynthID gekennzeichnet – einem digitalen Wasserzeichen, das die Herkunft der Inhalte nachvollziehbar macht und die Authentizität dokumentiert.

Die Verfügbarkeit längerer Videoformate ist bereits in Planung und soll zeitnah realisiert werden. Damit positioniert sich Google im wachsenden Markt der KI-gestützten Content-Erstellung und bietet sowohl professionellen Kreativen als auch Gelegenheitsnutzern neue Möglichkeiten zur Videoproduktion.

Was bedeutet das?

Kreative erhalten Zugang zu einem mächtigen Werkzeug, das die Videoproduktion demokratisiert und technische Hürden senkt
Die Integration in YouTube-Dienste könnte die Art und Weise verändern, wie Inhalte für Social Media erstellt werden
Das digitale Wasserzeichen SynthID trägt zur Transparenz bei und hilft, KI-generierte Inhalte zu identifizieren
Die physikalische Konsistenz des Modells hebt die Qualität generierter Videos auf ein neues Niveau
Googles Schritt markiert einen weiteren Meilenstein im Wettbewerb der Tech-Konzerne um führende KI-Videotechnologie