Dienste

Google stellt Gemini Omni Flash für multimodale Videoerstellung vor

Von René Hesse

19.05.26 | 21:51 Uhr | ⋯

Google DeepMind stellt mit Gemini Omni Flash ein neues KI-Modell vor, das multimodale Eingaben in Videoausgaben umwandeln kann.

Das Modell ist Teil der neuen Gemini-Omni-Familie und kombiniert laut Unternehmensangaben Fähigkeiten zur Analyse, zum Schlussfolgern und zur kreativen Generierung.

Ziel sei es, verschiedene Eingabeformen wie Text, Bild, Audio und Video in einem gemeinsamen System zu verarbeiten und daraus konsistente Videoinhalte zu erzeugen. Dabei steht insbesondere die Verbindung von inhaltlichem Verständnis und visueller Umsetzung im Mittelpunkt.

Gemini Omni Flash ist bereits in der Gemini App sowie in Google Flow verfügbar. Zusätzlich wird das Modell laut Angaben in Produkte wie YouTube Shorts und YouTube Create integriert.

Für zahlende Nutzer der Tarife AI Plus, Pro und Ultra steht es weltweit bereit, während Entwicklerzugänge über APIs folgen sollen. Erstellte Inhalte werden mit einem unsichtbaren SynthID-Wasserzeichen versehen, um die Herkunft nachvollziehbar zu machen.

Gemini Omni Flash erweitert KI-gestützte Videoproduktion

Multimodale Bearbeitung und kreative Steuerung

Das System ermöglicht laut Google die Bearbeitung von Videos über natürliche Spracheingaben, wobei einzelne Anweisungen aufeinander aufbauen können. Szenen, Objekte und Bewegungen lassen sich verändern, ohne die gesamte Sequenz neu zu erstellen.

Laut Beschreibung bleibt dabei die Konsistenz von Figuren und physikalischen Eigenschaften über mehrere Bearbeitungsschritte hinweg erhalten. Zudem kann das Modell verschiedene Referenzen kombinieren und daraus neue visuelle Ergebnisse erzeugen.

Bearbeitung von Videos per Spracheingabe
Kombination von Text-, Bild- und Audioeingaben
Erzeugung konsistenter Szenen über mehrere Schritte
Nutzung von physikalischem und kontextuellem Verständnis
Integration kreativer Stil- und Effektanpassungen

Darüber hinaus kann das Modell laut Google komplexe Inhalte wie Erklärvideos oder stilisierte Szenen generieren, indem es Wissen über Physik, Geschichte und Kontext in die Videoproduktion einbezieht. Auch die Anwendung von Stilen, Bewegungen und Effekten soll direkt über Prompts möglich sein, wodurch sich kreative Prozesse stärker automatisieren lassen.

Aus meiner Sicht zeigt die Entwicklung, dass KI-Systeme zunehmend nicht mehr nur einzelne Medienarten verarbeiten, sondern komplette Produktionsketten für audiovisuelle Inhalte abbilden. Dadurch verschiebt sich der Schwerpunkt von reiner Generierung hin zu einem stärker interaktiven und iterativen Gestaltungsprozess.

Google erweitert Gemini um neue Modelle und Agentenfunktionen

Die Gemini-App erhält neue agentische Funktionen und bietet proaktive Unterstützung rund um die Uhr. Gemini entwickelt sich laut Google zu…

19. Mai 2026 | Jetzt lesen →

Fehler meldenKommentare

Gemini Omni Flash erweitert KI-gestützte Videoproduktion

Multimodale Bearbeitung und kreative Steuerung

Google erweitert Gemini um neue Modelle und Agentenfunktionen

Antwort abbrechen